统计之光--数据预处理逻辑总结

读取
计算原counts值

表达数据集样本名与生存数据集样本名的交集，作为索引，得到数据较全的样本的两种数据
按TCGA命名规则过滤非肿瘤样本
按"-"拆开
第四列结果查看，仅 "11A"非肿瘤
！=11A 则为肿瘤，用布尔值索引得到数据

表达数据中基因id去小数
获取所有基因id，调用数据库得基因名称
基因名称字符向量按列加入数据
aggregate计算相同基因名的表达数据的均数（按名称分类汇总均数）

新了解函数总结

intersect：取交集

str_split(字符向量/矩阵/列表，pattern="分割点", n=要前几个, simplify = T)
----simplify使结果为矩阵，否则是装着每一个字符串向量结果的列表

mapIds(目标数据库，基因id, 想要什么，基因id的类型)
gene_name <- mapIds(org.Hs.eg.db, gene_id1, "SYMBOL", "ENSEMBL")

relocate(counts6, 列名, .after = 放在那一列后面)

aggregate(.~列名, FUN=mean, data = 数据表) ：分类汇总

rownames_to_column(counts5,"gene_id") 行名做列
column_to_rownames(survival_data,"sample") 列做行名

基础R用法

save(counts, file = "counts.rda")
load("counts.rda")