本文首发于公众号:医学和生信笔记

医学和生信笔记,专注R语言在临床医学中的使用,R语言数据分析和可视化。主要分享R语言做医学统计学、meta分析、网络药理学、临床预测模型、机器学习、生物信息学等。

最近有小伙伴问我TCGA的表达矩阵整理问题,用到了我的一篇推文中的教程: TCGA官网下载的数据也可以用TCGAbiolinks包搞定,只需2行代码!

但是总是遇到以下报错:

# 查询这一步是需要的!即使网在烂,这一步应该可以成功的...query <- GDCquery(project = "TCGA-READ",                  data.category = "Transcriptome Profiling",                  data.type = "Gene Expression Quantification",                  workflow.type = "STAR - Counts"                  )

# 下载这一步就不用了,我们是通过官网手动下载的~#GDCdownload(query, files.per.chunk = 100) #每次下载100个文件

# 整理,网友在这一步遇到了报错!!!GDCprepare(query,save = T,save.filename = "tcga_read.rdata")

Error in GDCprepare(query, save = T, save.filename = "tcga_read.rdata") :   I couldn't find all the files from the query. Please check if the directory parameter is right or `GDCdownload` downloaded the samples.

看这个报错提示是文件不全,让检查文件路径,在确定了文件路径和代码、网络都没有问题后,我觉得非常神奇!

理论上是不应该的呀!这个包就是用的官方的API下载的,不应该和官网直接下载的数据量不一样啊!

于是我赶紧检查了一下。

首先是看这个query一共查到了几个文件:

tmp <- query$results[[1]]

# 查看查询到的文件夹名字这一列head(tmp$id)

## [1] "00f55a16-0ee5-4939-8efb-de34e68d4ccd" "229e0c80-ada5-4fd3-8e93-a9bc1fac11a4"## [3] "4b9b8b25-96e3-4667-8315-124711dcc1e0" "0ef12067-7e43-4d08-9374-a961430dd5ab"## [5] "b9c1d14a-a169-4e73-a9c6-e884b005a160" "984e14e8-3272-4101-a1cb-81056eec7f8c"

# 一共177个length(tmp$id)

## 177

也就是说我们通过代码的方式查询到了TCGA-READ一共177个文件!但是!网友下载的是91个!

我也赶紧去官网点点点看了一下,竟然也是91个!


太神奇了,难道是TCGAbiolinks包出问题了吗???

冷静思考之后,我把网页中Primary Site中的打勾去掉了,然后就一切归于平静:


只要不选择Primary Site中的选项,就和TCGAbiolinks包下载的数据完全一样!又试了其他几个癌种,都是一样的了!

果然我还是太年轻,没见过世面啊!

解决了这个小小的问题后,大家又可以愉快的只用2行代码解决表达矩阵的整理问题了!

接下来还是使用官网网页下载,然后自己新建指定文件路径,就可以用2行代码搞定表达矩阵了:

# 查询query <- GDCquery(project = "TCGA-READ",                  data.category = "Transcriptome Profiling",                  data.type = "Gene Expression Quantification",                  workflow.type = "STAR - Counts"                  )

# 整理GDCprepare(query,save = T,save.filename = "tcga_read.rdata")

|==========================================|100%    Completed after 14 s Starting to add information to samples => Add clinical information to samples => Adding TCGA molecular information from marker papers => Information will have prefix 'paper_' read subtype information from:doi:10.1038/nature11252Available assays in SummarizedExperiment :   => unstranded  => stranded_first  => stranded_second  => tpm_unstrand  => fpkm_unstrand  => fpkm_uq_unstrand=> Saving file: tcga_read.rdata=> File savedclass: RangedSummarizedExperiment dim: 60660 177 metadata(1): data_releaseassays(6): unstranded stranded_first ... fpkm_unstrand fpkm_uq_unstrandrownames(60660): ENSG00000000003.15 ENSG00000000005.6 ... ENSG00000288674.1  ENSG00000288675.1rowData names(10): source type ... hgnc_id havana_genecolnames(177): TCGA-AF-3911-01A-01R-1736-07 TCGA-DY-A1DC-01A-31R-A155-07 ...  TCGA-AF-2692-11A-01R-A32Z-07 TCGA-EI-6882-01A-11R-1928-07colData names(107): barcode patient ... paper_vascular_invasion_present  paper_vital_status

全程不到1分钟即可完成,里面包含了fpkm/tpm/counts的表达矩阵、以及超级详细的临床信息!可以参考另一篇推文:超简单的表达矩阵提取。

舒服!

本文首发于公众号:医学和生信笔记

医学和生信笔记,专注R语言在临床医学中的使用,R语言数据分析和可视化。主要分享R语言做医学统计学、meta分析、网络药理学、临床预测模型、机器学习、生物信息学等。

本文由 mdnice 多平台发布

TCGA官网下载和TCGAbiolinks下载的文件数量竟然不一样?相关推荐

  1. 一品资源网自用官网模板源码下载站(带手机模板)

    ★模板介绍★ 一品资源网自用官网模板源码下载站(带手机模板)本套源码为dedecms二次开发而来,也是本站一品资源网自用的原版本打包,提供本套作品的初衷是为了能上更多想做下载站的站长朋友拥有一套更容易 ...

  2. 银河麒麟V10操作系统(桌面版/服务器版)官网免试用申请下载链接

    银河麒麟V10操作系统(桌面版/服务器版)官网免试用申请下载链接 序言 #目前就职一家麒麟软件省区的总代理公司,作为公司的一名技术,希望将工作中接触到的关于麒麟软件的一些相关知识做个blog加深记忆, ...

  3. hadoop官网介绍及如何下载hadoop(2.4)各个版本与查看hadoop API介绍

    1.如何访问hadoop官网? 2.如何下载hadoop各个版本? 3.如何查看hadoop API? 很多同学开发都没有二手资料,原因很简单觉得不会英语,但是其实作为软件行业,多多少少大家会英语的, ...

  4. python官网下载哪个版本好玩_Python官网不同版本的下载

    Python具有丰富和强大的库.它常被昵称为胶水语言,能够把用其他语言制作的各种模块(尤其是C/C++)很轻松地联结在一起.常见的一种应用情形是,使用Python快速生成程序的原型(有时甚至是程序的最 ...

  5. VMware vSphere Client 5.0在官网用讯雷下载出错

    今天在vmare官网上下载了VMware vSphere Client 5.0和5.5,为了快速下载我用讯雷.下载完成好,我发现找开安装程序居然是安装vmware workstation明显是资源出错 ...

  6. oracle官网数据库使用迅雷下载方法

    今天要去官网下载一个oracle的数据库,直接使用浏览器下载会一直卡主. 直接右键复制链接到迅雷去下载老是下载几KB的不知道什么文件 后面网上搜索知道下载的文件时登录后自动生成的. 所以想到的解决办法 ...

  7. PLSQL官网, 及个版本下载地址和下载方法

    PL/SQL 官网地址 https://www.allroundautomations.com/ 下载地址 https://www.allroundautomations.com/products/p ...

  8. Opera官网打不开 下载Opera最新版本的实际地址

    目前Opera官网可以打开,但是点下载时就会出错,国内无法访问Opera的下载地址,无法通过官网直接下载Opera浏览器.下面提供下载的方式. 一.通过官方的ftp站点下载 FTP地址为 http:/ ...

  9. UCOSIII从官网(2021)下载

    官网地址:https://www.silabs.com/developers/micrium 注意:在进入下载前 "可能" 要注册一个账号,如果可以直接下载的话不用注册也可以,如果 ...

最新文章

  1. [python]目录及文件操作
  2. 惠普刀片服务器c7000硬件配置手册_刀片服务器四点不足之处你都知道几个?
  3. 在mysql中插入日期
  4. 读书笔记—《发现你的行为模式(钻石版)》-DiSC测试
  5. 深入探讨SDN拓扑发现机制:新的攻击及实践对策【SDN拓扑】(上)
  6. 机器学习难?那是你没看过这张路线图!
  7. 师妹问我:有哪些新手程序员不知道的小技巧?
  8. pyc文件反编译成py文件
  9. 博图可以用c语言编程吗,S7300能用C语言编程吗?
  10. 寒假第一周学习总结与反思
  11. linux nagios 监控,Nagios 监控 Linux 主机
  12. T和?是什么 ?有什么区别?
  13. word转pdf组合的图片出现灰线,如何处理
  14. 平面设计入门新手需看技巧
  15. CF868F 分治优化dp
  16. mysql创建新闻发布时间_基于PHP+mysql实现新闻发布系统的开发
  17. 如何使用百数批量打印二维码?
  18. 大数据分析-智能消息推送策略
  19. 链路聚合的作用与实例
  20. html 自动生成表格,HTML 表格生成

热门文章

  1. TSQL与PL/SQL的比较(不完全版)
  2. 【每日更新】百度新闻!最新,最快的资讯速递!
  3. 用python简易英汉互译界面_python之做一个简易的翻译器(一)
  4. 为什么初等矩阵左乘相当于行变换,右乘相当于列变换
  5. 数据库生成日然周、自然月、自然日
  6. 基于MATLAB下巴特沃斯IIR数字滤波器的实现
  7. childnodes与children详解
  8. 〖ChatGPT实践指南 - 零基础扫盲篇③〗- 开始使用 ChatGPT 并访问 OpenAI 获取 API Keys
  9. Python——循环嵌套
  10. goland + dlv