统计之光--数据预处理逻辑总结

读取各类数据

读取
计算原counts值

过滤数据

表达数据集样本名与生存数据集样本名的交集,作为索引,得到数据较全的样本的两种数据
按TCGA命名规则过滤非肿瘤样本
按"-"拆开
第四列结果查看,仅 "11A"非肿瘤
!=11A 则为肿瘤,用布尔值索引得到数据

数据转化(用基因名做索引)

表达数据中基因id去小数
获取所有基因id,调用数据库得基因名称
基因名称字符向量按列加入数据
aggregate计算相同基因名的表达数据的均数(按名称分类汇总均数

新了解函数总结

intersect:取交集

str_split(字符向量/矩阵/列表,pattern="分割点", n=要前几个, simplify = T)
----simplify使结果为矩阵,否则是装着每一个字符串向量结果的列表

mapIds(目标数据库,基因id, 想要什么,基因id的类型)
gene_name <- mapIds(org.Hs.eg.db, gene_id1, "SYMBOL", "ENSEMBL")

relocate(counts6, 列名, .after = 放在那一列后面)

aggregate(.~列名, FUN=mean, data = 数据表) : 分类汇总

rownames_to_column(counts5,"gene_id") 行名做列
column_to_rownames(survival_data,"sample") 列做行名

基础R用法

存储和加载处理后的数据

save(counts, file = "counts.rda")
load("counts.rda")