很多人因为网络原因不能使用TCGAbiolinks这个神包下载TCGA的RNA-seq数据,只能通过浏览器访问GDC TCGA的官网进行下载,而下载后得到的是一个个文件夹,对于如何整理成一个表达矩阵也是很麻烦的。

今天给大家介绍一个简单点的方法,使用TCGAbiolinks包整理你通过浏览器官网下载的rna-seq数据。

通常大家通过浏览器下载后会得到下面的这种很多个文件夹:

每个文件夹里是一个样本的表达量数据,tsv格式的:

这时候你可以通过之前介绍过的方法得到表达矩阵。

但是这个方法对于新手还是不够友好,尤其是根据Json文件匹配数据时,但是TCGA表达量数据又是很常用的,这个操作还是很高频的需求。

前几天学习TCGAbiolinks包时意外发现,即使是手动下载的数据,只要构建合适的路径,也是可以通过GDCprepare()函数进行整理从而简单的得到表达矩阵的!

TCGAbiolinks包下载的表达量数据的文件路径是有规律的,如果你没有特别指明,通常是位于GDCdata\TCGA-COAD\harmonized\Transcriptome_Profiling\Gene_Expression_Quantification这个路径下的。

这个包下载数据就是三板斧操作,query,download,prepare,而且最后GDCprepare()需要的还是GDCquery()得到的对象,因此我们完全可以通过构建一个适合它的路径,让GDC_prepare()帮我们整理成表达矩阵!

比如我上面的各个样本文件夹的路径在我的电脑中是这样的:G:\tcga\GDCdata\TCGA-COAD\harmonized\Transcriptome_Profiling\Gene_Expression_Quantification,我的get_expr.R脚本是放在G:\tcga这个路径下的。

脚本内容如下:

library(TCGAbiolinks)## =============================================================
## ______  ___  ____   ___
##   ||   |    |      |   | |    o  __  |   o  _         __
##   ||   |    | ___  |___| |__  | |  | |   | | | | |_/ |__
##   ||   |___ |____| |   | |__| | |__| |__ | | |_| | \  __|
## ------------------------------------------------------------
## Query, download & analyze - GDC
## Version:2.25.2
## ==============================================================# 查询这一步是需要的!即使网在栏,这一步应该可以成功的...
query <- GDCquery(project = "TCGA-COAD",data.category = "Transcriptome Profiling",data.type = "Gene Expression Quantification",workflow.type = "STAR - Counts")
# 下载这一步就不用了,我们是通过官网手动下载的~
# GDCdownload(query, files.per.chunk = 100) #每次下载100个文件# 整理
GDCprepare(query,save = T,save.filename = "example.rdata")##|===============================================================================|100%   ##                   Completed after 1 m
##Starting to add information to samples
## => Add clinical information to samples
## => Adding TCGA molecular information from marker papers
## => Information will have prefix 'paper_'
##coad subtype information from:doi:10.1038/nature11252
##Available assays in SummarizedExperiment :
##  => unstranded
##  => stranded_first
##  => stranded_second
##  => tpm_unstrand
##  => fpkm_unstrand
##  => fpkm_uq_unstrand
##=> Saving file: example.rdata
##=> File saved

这样我们的数据就整理好了:

下次使用直接load即可:

rm(list = ls())
load(file = "example.rdata")se <- data
seclass: RangedSummarizedExperiment
dim: 60660 521
metadata(1): data_release
assays(6): unstranded stranded_first ... fpkm_unstrand fpkm_uq_unstrand
rownames(60660): ENSG00000000003.15 ENSG00000000005.6 ... ENSG00000288674.1 ENSG00000288675.1
rowData names(10): source type ... hgnc_id havana_gene
colnames(521): TCGA-A6-5664-01A-21R-1839-07 TCGA-D5-6530-01A-11R-1723-07 ...TCGA-A6-2683-01A-01R-0821-07 TCGA-A6-2683-11A-01R-A32Z-07
colData names(107): barcode patient ... paper_vascular_invasion_present paper_vital_status

这个se就是我们之前介绍过的SummarizedExperiment对象,你可以对它进行各种操作,得到counts矩阵、tpm矩阵、fpkm矩阵都是小事一桩,犹如探囊取物一般简单流畅! 详情可搜索历史推文

关于TCGA表达矩阵提取,告诉我,你还有哪里搞不定!?

本文由 mdnice 多平台发布

手动下载新版的TCGA数据也是可以用TCGAbiolinks包整理的相关推荐

  1. 新版TCGA数据库学习:批量下载新版TCGA数据

    众所周知,TCGA数据库改版了!!改的比之前更好用了! 对于常规转录组数据,主要是以下几点改变: 下载一次即可获得counts.TPM.FPKM三种类型的表达矩阵,再也不用单独下载了 自带gene s ...

  2. tcga数据下载_TCGA数据挖掘(二):数据下载与整理

    关于TCGA数据库中的数据下载,我们之前有介绍过R语言下载包:R语言TCGA-Assembler包下载TCGA数据,同时在介绍数据库的使用教程中也介绍了在线下载以及官方下载工具下载:TCGA数据库使用 ...

  3. tcga数据下载_好东西丨零基础入门TCGA

    GCBI学院-零基础入门TCGA_腾讯视频​v.qq.com 课程大纲: TCGA简介 1.带你熟悉新版TCGA界面 2.TCGA包含哪些数据,哪些是公开可用的?作为新手,下载什么水平的数据最易上手 ...

  4. 在 RedHat 使用 gdc-client 下载 TCGA 数据

    今天,只聊一下 RedHat/CentOS 下 gdc-client 安装的那些事. gdc-client,官网地址:https://gdc.cancer.gov/access-data/gdc-da ...

  5. TCGAbiolinks包下载TCGA数据

    ​​​​​​Bioconductor的TCGAbiolinks包用于GDC数据综合分析的R/Bioconductor软件包,本文主要展示下载数据集和代码. 1.   包的加载 # if (!requi ...

  6. tcga数据下载_手把手教你用R下载TCGA数据:CGDSR包

    各位科研芝士的朋友,大家好,今天我们继续分享关于TCGA数据下载的专题,之前,给大家推出了网页版cBioportal工具,进行数据下载,在上期中我们看到UCSC-XENA对应的R包UCSCXenaTo ...

  7. TCGA数据下载方法简介

    TCGA数据,指癌症测序数据,TCGA的全称为The Cancer Genome Atlas,癌症基因组图谱(TCGA)是美国国家癌症研究所(NCI)和国家人类基因组研究所(NHGRI)已生成的33种 ...

  8. TCGA数据下载教程:使用官方gdc-client软件下载

    前言 本教程涉及内容: TCGA网页数据下载,检索方式 gdc-client软件安装和配置 使用gdc-client下载TCGA数据 [补充] 怎么根据TCGA官方的API下载数据?简单几句命令轻轻松 ...

  9. oracle中prad函数_R中用GDCRNATools包下载TCGA数据

    用GDCRNATools下载TCGA数据,以TCGA-STAD为例下载RNAseq 1)数据下载,gdcRNADownload()函数 ###########用GDCRNATools下载TCGA数据# ...

最新文章

  1. 在win ce中如何使正在运行的软件自动升级更新
  2. Pdf怎么转换excel表格,职场人士必备技能
  3. SparkStreamingStateful
  4. sql server之数据库语句优化
  5. 新建django项目
  6. Python学习笔记:TypeError: not all arguments converted during string formatting
  7. java初学之stream
  8. AI入门:Transfer Learning(迁移学习)
  9. 如何在MySQL中创建存储过程
  10. 数据结构c语言版总结,数据结构:C语言常见算法总结
  11. hql将指定字段排在最后,然后再根据别的字段排序
  12. PHP 微信小程序 WebSocket MySQL Redis实现聊天功能
  13. 个人博客或网站快速被搜索引擎收录
  14. layui数据表格动态cols(字段)动态变化
  15. GPT-3 离通用人工智能有多近?
  16. ECC RDIMM 服务器内存条简介
  17. 用python一键生成你的微信好友头像墙
  18. FileInputStream 与 BufferedInputStream的比较
  19. range函数用法完全解读
  20. 2022年机器人工程毕业设计选题情况

热门文章

  1. Unity游戏设计之飞碟游戏
  2. 小谈 - web模仿手机打电话与正则表达式
  3. 华南x79主板u盘装系统教程_[Hackintosh] X79黑苹果
  4. 【全网力荐】堪称最易学的Python基础入门教程
  5. 手把手看如何制作本地yun源
  6. luogu 2698 [USACO12MAR]花盆Flowerpot 单调队列
  7. 用opencv-python建立纯色图
  8. 一起学英语第三期,things change,people change
  9. python-18-并行计算pp模块
  10. 金融行业市场占有率超五成,ZDNS筑牢金融科技网络根基