最近TCGA更新了,下载研究一下,我们从TCGA下载STAD的数据,选择其中的一个打开,发现了一个好消息那就是矩阵的整合难度降低了,而且提供TPM以及FPKM 还有校正的count 以及gene_name

在我的主页更新了TCGAbiolinks的方法,更为方便和快捷。同时我也提供了临床数据的处理方式

其实整理起来比较简单,这里我没有使用python去写脚本,使用R硬刚,说实话头有点铁。

首先整理好你要的数据,下载步骤跟以前一样,当然不懂就去B站看新版TCGA介绍

首先下载metadata

接着从download 中下载cart

下载结束 之后解压随便打开一个文件,我们的目的是整合tsv文件到一个文件夹

技巧教授如何整合呢,windows下最简单的方式,右上角搜索.tsv结尾的文件

最后你就可以得到这个列表,然后复制到一个文件夹里面,最后有个MANIFEST.txt不要复制进去

最后整理成下面的样式,all文件夹是所有的tsv文件,metadta上面介绍已经下载好了放进去

整理metadata文件

rm(list = ls())
options(stringsAsFactors = F)library("rjson")
result <- fromJSON(file = "./metadata.cart.2022-04-12.json")
metadata <- data.frame(t(sapply(result,function(x){id <-  x$associated_entities[[1]]$entity_submitter_idfile_name <- x$file_nameall <- cbind(id,file_name)
})))
metadata[,2]
rownames(metadata) <- metadata[,2]

得到样本文件对应的TCGA的ID号

生成矩阵

dir <- './all/'
samples=list.files(dir)
sampledir <- paste0(dir,samples)mat <- do.call(cbind,lapply(sampledir, function(x){rt <- data.table::fread(x,data.table = F)rownames(rt) <- rt[,1]rt <- rt[,7]###后续方便不用再转换直接拿TPM
}))

这里需要读取一个单个tsv文件进行查看

可以看到我们上面代码中选择rt[ ,7] 是选择的tpm ,需要的话可以你可以选择count和FPKM

矩阵列明和行名的替换

###随便打开一个tsv文件即可
rt <- data.table::fread('./all/5c84144f-68b0-4f96-8b53-5a43a6f83847.rna_seq.augmented_star_gene_counts.tsv',data.table = F)###随便打开一个tsv文件即可
colnames(mat)=sapply(strsplit(sampledir,'/'),'[',3)###列名
rownames(mat) <- rt$gene_id ##行名
mat1 <- t(mat)
same <- intersect(row.names(metadata),row.names(mat1))
data <- cbind(metadata[same,],mat1[same,])
rownames(data) <- data[,1]
tcga_stad <- t(data)
tcga_stad <-tcga_stad[-c(1:6),]
rownames(rt) <- rt[,1]

最后那必须是如何ID的转换 ,根据自带的信息我们进行转换,这次的更新就是ID给了对照基因名,真好,还有类型,妈的TCGA良心一次更新

same2 <- intersect(row.names(rt),row.names(tcga_stad))
tcga <- cbind(rt[same2,],tcga_stad[same2,])
tcga <- tcga[-c(1,4:9)]

到此你们自己保存文件把,然后正常的基因去重问题,这个应该搜索一下, 也可以再我的博客里面看看

##要把上面的gene_type删除
rt = tcga[,-2]
rt=as.matrix(rt)
rownames(rt)=rt[,1]
exp=rt[,2:ncol(rt)]
dimnames=list(rownames(exp),colnames(exp))
data=matrix(as.numeric(as.matrix(exp)),nrow=nrow(exp),dimnames=dimnames)
data=avereps(data)
data=data[rowMeans(data)>0,]

到此你们应该得到都会处理的矩阵了把

最新版TCGA 矩阵整理,百分百复现成功相关推荐

  1. 新版TCGA表达矩阵提取简单版

    很多人因为网络原因不能使用TCGAbiolinks这个神包下载TCGA的RNA-seq数据,只能通过浏览器访问GDC TCGA的官网进行下载,而下载后得到的是一个个文件夹,对于如何整理成一个表达矩阵也 ...

  2. 新版TCGA的甲基化数据分析

    文章目录 加载数据 甲基化差异分析 甲基化可视化 甲基化旭日图 TCGAbiolinks可以进行甲基化分析,但是功能不如 ChAMP强大,甲基化分析还是首推 ChAMP包. 不过为了了解TCGAbio ...

  3. tcga样本编号_数据挖掘专题 | 一文搞懂TCGA数据整理

    原标题:数据挖掘专题 | 一文搞懂TCGA数据整理 本文经授权转载自生信控 我们已经通过前两期数据下载(一)和数据下载(二)介绍了TCGA数据下载方法,并最终得到每个样本一个独立文件夹形式的数据,整理 ...

  4. 21℃「室温超导」成世纪骗局?中科院物理所发布验证论文,没复现成功

    本文转载自:新智元 文字:李宗璇 校对 :杨鹏程 排版:李宗璇 [导读]21℃室温超导如果是真的,那将是颠覆物理学的发现.3月9日,中科院物理所提交的一篇「室温超导」验证论文引网友围观. 21℃室温超 ...

  5. 新版TCGA表达矩阵1行代码提取2.0版

    配合视频教程使用更佳:[1行代码提取6种TCGA表达矩阵和临床信息] https://www.bilibili.com/video/BV12R4y197Ne/?share_source=copy_we ...

  6. TCGA下载和表达矩阵整理:最适合初学者的教程

    本文首发于公众号:医学和生信笔记 " 医学和生信笔记,专注R语言在临床医学中的使用,R语言数据分析和可视化.主要分享R语言做医学统计学.meta分析.网络药理学.临床预测模型.机器学习.生物 ...

  7. 新版TCGA数据库学习:提取新版TCGA表达矩阵(tpm/count/fpkm)

    现在使用TCGAbiolinks下载转录组数据后,直接是一个SummarizedExperiment对象,这个对象非常重要且好用.因为里面直接包含了表达矩阵.样本信息.基因信息,可以非常方便的通过内置 ...

  8. 新版TCGA数据库学习:批量下载新版TCGA数据

    众所周知,TCGA数据库改版了!!改的比之前更好用了! 对于常规转录组数据,主要是以下几点改变: 下载一次即可获得counts.TPM.FPKM三种类型的表达矩阵,再也不用单独下载了 自带gene s ...

  9. 技术胖React博客实战 - 新版问题解决方式整理

    整理了一下新版的变化以及遇到的坑的解决办法. 技术胖的React 博客实战视频 https://www.bilibili.com/video/BV1CJ411377B 文章目录 前中台 后台 后记 前 ...

最新文章

  1. python大于等于怎么表示_如何在rejectdb中应用python lambda表达式中的大于等于
  2. CxImage图像处理类库说明3(转载)
  3. boost::gregorian模块实现自出生以来的天数的测试程序
  4. 【QGIS入门实战精品教程】4.7:QGIS如何将矢量数据转为GeoJSON格式?
  5. mysql count(*),count(1)与count(column)区别
  6. springboot怎么杀进程_线上服务平均响应时间太长,怎么排查?
  7. PHP5中数组函数总结
  8. 安装虚拟环境virtualenv 适用于centos系统 2020
  9. 《Docker技术从入门到实践》第1,2章
  10. c语言int grade 5,C语言补考!!!
  11. bus,device,driver三者关系
  12. 微服务架构实战:Swagger规范RESTful API
  13. c语言指针和数组的转换,指针和数组的转换
  14. 如何建立一个Java商城系统?
  15. windows系统下,在iis管理器(无W3SVC/WAS服务)或网站IIS功能不全(无默认文档、模块、各种规则设置等)
  16. JavaScript斐波那契数列兔子问题
  17. 基于Python实现简单的成绩统计系统
  18. ndows 资源管理器,windows资源管理器不见了.怎么办?
  19. 邮件编码介绍及乱码的解决
  20. 什么是长连接和短连接,他们的定义区别及应用场景?

热门文章

  1. open_nsfw: 雅虎基于Caffe的成人图片识别模型
  2. robot_state_publisher不能正常启动的解决之法
  3. java回顾:JDBC、工具类、事务、SQL注入
  4. apicloud 心得 绝对路径
  5. 格创东智加入“长三角数字干线建设·合伙人行动”
  6. C语言学习1:从下载编译软件开始!DEV-C++、VC6.0、VS2010、VS2017等编译器的下载(Windows系统)
  7. Android动画中Interpolator 加速器的使用
  8. 微软模拟飞行2020港区有服务器么,官宣:《微软模拟飞行2020》今年8月18日登陆PC,约378元起...
  9. Mac版Pycharm 2018 激活及汉化指南
  10. 【2022-01-06】验证码合集