WGCNA过程总结
如果把 WGCNA 比作 “给基因找同伙、分帮派” 的过程:
- 软阈值 β 是 “找同伙的基本规矩”(定好什么程度算 “有点像”);
- 邻接矩阵是 “初步的同伙名单”(基于两两关系列的名单,有水分);
- TOM 是 “同伙审核官”(去掉名单里的 “假同伙”,留下 “真同伙”);
- 后续的基因聚类、模块划分,就是基于 TOM 审核后的 “真同伙名单”,分出来的 “帮派(模块)” 才靠谱。
简单记:TOM=“基因关系的照妖镜”—— 滤掉偶然相关的 “妖”,留下功能相关的 “真”,是 WGCNA 分析里 “保证模块质量” 的核心环节。
下载数据
GEO数据库下载,分为预处理数据和原始测序数据*
去官网,手动下载
数据粗提取
数据格式要求
- 表达矩阵(expr_matrix):行 = 基因(基因名),列 = 样本(样本 ID),值 = 标准化后的表达量(如 TPM、FPKM)。
- 表型数据(pheno_data):向量形式,长度与样本数一致(如患者生存率、肿瘤大小等)。
数据预处理
读入数据
去除管家基因、测序失败结果
用 WGCNA 自带的goodSamplesGenes函数
找最优β值
pickSoftThreshold函数
无标度网络拟合度:即其与现实中基因间相互规律接近程度
基因连接度:帮你从几百个模块基因里快速锁定 “关键玩家”,即与多少基因有相互作用关系。
要接近现实规律(拟合度>0.8),且功能关键(与更多基因存在相互作用)的基因