很多人因为网络原因不能使用TCGAbiolinks这个神包下载TCGA的RNA-seq数据,只能通过浏览器访问GDC TCGA的官网进行下载,而下载后得到的是一个个文件夹,对于如何整理成一个表达矩阵也是很麻烦的。

今天给大家介绍一个简单点的方法,使用TCGAbiolinks包整理你通过浏览器官网下载的rna-seq数据。

通常大家通过浏览器下载后会得到下面的这种很多个文件夹:

每个文件夹里是一个样本的表达量数据,tsv格式的:

这时候你可以通过之前介绍过的方法得到表达矩阵:新版TCGA数据库表达矩阵整理

但是这个方法对于新手还是不够友好,尤其是根据Json文件匹配数据时,但是TCGA表达量数据又是很常用的,这个操作还是很高频的需求。

前几天学习TCGAbiolinks包时意外发现,即使是手动下载的数据,只要构建合适的路径,也是可以通过GDCprepare()函数进行整理从而简单的得到表达矩阵的!

TCGAbiolinks包下载的表达量数据的文件路径是有规律的,如果你没有特别指明,通常是位于GDCdata\TCGA-COAD\harmonized\Transcriptome_Profiling\Gene_Expression_Quantification这个路径下的。

这个包下载数据就是三板斧操作,query,download,prepare,而且最后GDCprepare()需要的还是GDCquery()得到的对象,因此我们完全可以通过构建一个适合它的路径,让GDC_prepare()帮我们整理成表达矩阵!

比如我上面的各个样本文件夹的路径在我的电脑中是这样的:G:\tcga\GDCdata\TCGA-COAD\harmonized\Transcriptome_Profiling\Gene_Expression_Quantification,我的get_expr.R脚本是放在G:\tcga这个路径下的。

脚本内容如下:

library(TCGAbiolinks)## =============================================================
## ______  ___  ____   ___
##   ||   |    |      |   | |    o  __  |   o  _         __
##   ||   |    | ___  |___| |__  | |  | |   | | | | |_/ |__
##   ||   |___ |____| |   | |__| | |__| |__ | | |_| | \  __|
## ------------------------------------------------------------
## Query, download & analyze - GDC
## Version:2.25.2
## ==============================================================# 查询这一步是需要的!即使网在栏,这一步应该可以成功的...
query <- GDCquery(project = "TCGA-COAD",data.category = "Transcriptome Profiling",data.type = "Gene Expression Quantification",workflow.type = "STAR - Counts")
# 下载这一步就不用了,我们是通过官网手动下载的~
# GDCdownload(query, files.per.chunk = 100) #每次下载100个文件# 整理
GDCprepare(query,save = T,save.filename = "example.rdata")##|===============================================================================|100%   ##                   Completed after 1 m
##Starting to add information to samples
## => Add clinical information to samples
## => Adding TCGA molecular information from marker papers
## => Information will have prefix 'paper_'
##coad subtype information from:doi:10.1038/nature11252
##Available assays in SummarizedExperiment :
##  => unstranded
##  => stranded_first
##  => stranded_second
##  => tpm_unstrand
##  => fpkm_unstrand
##  => fpkm_uq_unstrand
##=> Saving file: example.rdata
##=> File saved

这样我们的数据就整理好了:

下次使用直接load即可:

rm(list = ls())
load(file = "example.rdata")se <- data
seclass: RangedSummarizedExperiment
dim: 60660 521
metadata(1): data_release
assays(6): unstranded stranded_first ... fpkm_unstrand fpkm_uq_unstrand
rownames(60660): ENSG00000000003.15 ENSG00000000005.6 ... ENSG00000288674.1 ENSG00000288675.1
rowData names(10): source type ... hgnc_id havana_gene
colnames(521): TCGA-A6-5664-01A-21R-1839-07 TCGA-D5-6530-01A-11R-1723-07 ...TCGA-A6-2683-01A-01R-0821-07 TCGA-A6-2683-11A-01R-A32Z-07
colData names(107): barcode patient ... paper_vascular_invasion_present paper_vital_status

这个se就是我们之前介绍过的SummarizedExperiment对象,你可以对它进行各种操作,得到counts矩阵、tpm矩阵、fpkm矩阵都是小事一桩,犹如探囊取物一般简单流畅! 详情可参考之前的推文。

关于TCGA表达矩阵提取,告诉我,你还有哪里搞不定!?

新版TCGA表达矩阵提取简单版相关推荐

  1. 新版TCGA表达矩阵1行代码提取2.0版

    配合视频教程使用更佳:[1行代码提取6种TCGA表达矩阵和临床信息] https://www.bilibili.com/video/BV12R4y197Ne/?share_source=copy_we ...

  2. 新版TCGA数据库学习:提取新版TCGA表达矩阵(tpm/count/fpkm)

    现在使用TCGAbiolinks下载转录组数据后,直接是一个SummarizedExperiment对象,这个对象非常重要且好用.因为里面直接包含了表达矩阵.样本信息.基因信息,可以非常方便的通过内置 ...

  3. 新版TCGA的甲基化数据分析

    文章目录 加载数据 甲基化差异分析 甲基化可视化 甲基化旭日图 TCGAbiolinks可以进行甲基化分析,但是功能不如 ChAMP强大,甲基化分析还是首推 ChAMP包. 不过为了了解TCGAbio ...

  4. 提取TCGA 中体细胞突变数据的表达矩阵

    #因为之前的命令调用GDCquery_Maf 发现用不了 #故找到了一些其他的方法,并且自己试着将其弄成了一个表达矩阵. #代码如下 #1.下载加载相应的包 install.packages(&quo ...

  5. seurat提取表达矩阵_Hemberg-lab单细胞转录组数据分析

    单细胞RNA-seq简介 混合RNA-seq2000年末的重大技术突破,取代微阵列表达芯片被广泛使用 通过混合大量细胞获取足够RNA用于建库测序,来定量每个基因的平均表达水平 用于比较转录组,例如比较 ...

  6. TCGA下载和表达矩阵整理:最适合初学者的教程

    本文首发于公众号:医学和生信笔记 " 医学和生信笔记,专注R语言在临床医学中的使用,R语言数据分析和可视化.主要分享R语言做医学统计学.meta分析.网络药理学.临床预测模型.机器学习.生物 ...

  7. R语言 | GEO数据库下载GSE基因芯片 以及表达矩阵和临床信息的提取

    目录 1.载入R包 2.利用AnnoProbe下载GEO数据库中的数据 3.提取表达矩阵和临床信息 4.输出文件 1.获得GEO数据库中的数据 下面以GSE14520数据系为例: 获得GEO数据库中的 ...

  8. 最新版TCGA 矩阵整理,百分百复现成功

    最近TCGA更新了,下载研究一下,我们从TCGA下载STAD的数据,选择其中的一个打开,发现了一个好消息那就是矩阵的整合难度降低了,而且提供TPM以及FPKM 还有校正的count 以及gene_na ...

  9. seurat提取表达矩阵_GPL17586、GPL19251和GPL16686平台芯片ID转换

    芯片分析中经常会遇到Affymetrix Human Transcriptome Array 2.0芯片,由于目前还没有现成的R包可以用,因此分析方法也不统一.见生信技能树Jimmy老师HTA2.0芯 ...

最新文章

  1. memcacheq 服务安装与原理
  2. 题目 1083:【蓝桥杯】【入门题】Hello, world!
  3. Java集合工具类(三)-泛型集合工具类,用于便捷快速的定义、操作集合。包含Set的交集、并集......
  4. 趁热打铁-一次.Net WebService的性能优化之旅
  5. android 4.x环境搭建
  6. OpenCV 计算物体的凸包
  7. Docker Compose编排(写法格式及实验)
  8. flask get 参数_用它 5 分钟以后,我放弃用了四年的 Flask
  9. python renamer模块_artellapipe-tools-renamer-以简单的方式重命名DCC对象的工具-Tomas Poveda...
  10. [转]VS 2003 常用快捷键
  11. SpringCloud下的springboot工程,访问jsp页面报404问题
  12. 【python】多线程小结
  13. python试卷管理系统的设计与实现_《数据结构》考试系统的设计与实现.doc
  14. C# 解密微信步数 报错“填充无效,无法被移除。”
  15. 算法高级(22)-BCrypt加密算法,号称目前最安全的算法之一
  16. 2019微信语音转发方法新版微信转发语音方法
  17. 中小企业固定资产管理办法哪种好?
  18. AutoCAD2007 快捷键介绍和线形设置
  19. 人体关节正常活动范围
  20. 深度学习在训练时对图片随机剪裁(random crop)

热门文章

  1. vim安装指南(for Ubuntu and Windows)(配置C/C++和Python开发环境)
  2. Region Proposal Networks
  3. 一建经济公式存入计算机,【2017一建《工程经济》干货第二篇:工程经济必记5个计算公式】- 环球网校...
  4. 导入Android项目Error:Internal error:org.gradle.tooling.BuildException: Could not execute build...
  5. 放弃几百万年薪的后续
  6. 如何让多个div横向排列(html+css)
  7. FFmpeg代码结构
  8. 点成分享 | 为什么动物细胞培养大都需要二氧化碳培养箱
  9. 【linux】一文总结linux系统平台完整的启动周期
  10. 连吵架都是队列和栈,学计算机的女生,是一种怎样的存在?