统计之光--数据预处理逻辑总结
读取各类数据
读取
计算原counts值
过滤数据
表达数据集样本名与生存数据集样本名的交集,作为索引,得到数据较全的样本的两种数据
按TCGA命名规则过滤非肿瘤样本
按"-"拆开
第四列结果查看,仅 "11A"非肿瘤
!=11A 则为肿瘤,用布尔值索引得到数据
数据转化(用基因名做索引)
表达数据中基因id去小数
获取所有基因id,调用数据库得基因名称
基因名称字符向量按列加入数据
aggregate计算相同基因名的表达数据的均数(按名称分类汇总均数)
新了解函数总结
intersect:取交集
str_split(字符向量/矩阵/列表,pattern="分割点", n=要前几个, simplify = T)
----simplify使结果为矩阵,否则是装着每一个字符串向量结果的列表
mapIds(目标数据库,基因id, 想要什么,基因id的类型)
gene_name <- mapIds(org.Hs.eg.db, gene_id1, "SYMBOL", "ENSEMBL")
relocate(counts6, 列名, .after = 放在那一列后面)
aggregate(.~列名, FUN=mean, data = 数据表) : 分类汇总
rownames_to_column(counts5,"gene_id") 行名做列
column_to_rownames(survival_data,"sample") 列做行名
基础R用法
存储和加载处理后的数据
save(counts, file = "counts.rda")
load("counts.rda")