统计之光--差异分析逻辑总结

需先明确数据分类

数据分类

方式：生成类型列，布尔运算，索引，合并
最终生成（表达+表型）x（训练+验证）

差异分析★★★★

生成design数据集

dds <-DESeqDataSetFromMatrix(countData=counts_training,  #此处函数要求counts数据必须为整数 
                              colData=diff_group,  #样本信息（包含分组列，type/性别/分组/批次等）
                              design= ~type)              #实验设计：按type分组进行差异分析
# # 返回的是一个包含实验设计等信息的数据集

差异分析计算

dds <- DESeq(dds)
# 耗时

获取差异分析结果

res <- results(dds,alpha=0.05)   # α要求应与后面padj保持相同
resSig <- subset(res,(abs(log2FoldChange)>0.58) & padj <0.05)  # 可以认为表达量相差1.5倍为显著
resSig <- as.data.frame(resSig)
diff_gene <- rownames(resSig) #提取列名，此为所求结果
save(diff_gene,file = "diff_gene.rda")

与ADME基因取交集

数据分类关系表

数据组成结构

数据类型	基因表达数据		样本表型数据
数据分组	训练集	验证集	训练集	验证集
肿瘤组	50%	50%	50%	50%
正常组	100%		100%

训练数据与验证数据组成

数据类别	基因表达数据	样本表型数据
训练数据	肿瘤组训练集(50%) + 正常组(100%)	肿瘤组训练集(50%) + 正常组(100%)
验证数据	肿瘤组验证集(50%)	肿瘤组验证集(50%)

训练数据

验证数据

正常组数据

说明： 肿瘤组数据被平均分为训练集和验证集（各50%），正常组数据全部用于训练。训练数据包括基因表达数据和样本表型数据的肿瘤组训练集和正常组全部数据；验证数据包括基因表达数据和样本表型数据的肿瘤组验证集。