本系列是我的TCGA学习记录,跟着生信技能树B站课程学的,已获得授权(嗯,真的^_^)。课程链接:https://www.bilibili.com/video/av49363776

1.从数据库下载manifest文件

数据存放网站:https://portal.gdc.cancer.gov/
Repository勾选自己需要的case和文件类型

(1)选case

(2)选文件类型

需要下载三个文件,分别存放了miRNAisoformclinical信息

  • mirna
  • isoform
  • 临床数据clinical,选xml格式

选中后都是点击右边的Manifest即可下载。下载得到的文件要改名,不然命名都一样容易乱。三个文件设置的名称如下:gdc_manifest.2019-12-30-isoform.txtgdc_manifest.2019-12-30-miRNA.txtgdc_manifest.2019-12-30.txt3.了解数据
统计下载的三个文件的行数,也就是各自的样本数量+1(+1是因为有一行是行名)。

4.学习下载工具https://gdc.cancer.gov/access-data/gdc-data-transfer-tool
使用官网提供的工具gdc-client ,下载自己电脑对应的版本,存放于工作目录下并解压好。
查看帮助文档./gdc-client --help # commands: # {download,upload,settings} # for more information, specify -h after a command # download download data from the GDC # upload upload data to the GDC # settings display default settings
会看到该软件有三个子命令,我们需要的是download
查看download的帮助文档:./gdc-client download --help #-d DIR, --dir DIR Directory to download files to. Defaults to current # directory #-m MANIFEST, --manifest MANIFEST # GDC download manifest file
可以找到两个有用的参数:-d和-m。(其他参数被我省略掉了)5.下载走起
所以下载命令是:mkdir clinical mkdir mirna mkdir isoform ./gdc-client download -m gdc_manifest.2019-12-30.txt -d clinical ./gdc-client download -m gdc_manifest.2019-12-30-miRNA.txt -d mirna ./gdc-client download -m gdc_manifest.2019-12-30-isoform.txt -d isoform
网络很垃圾。但还是可以成功的。几百个文件搞定。

关于xml我还搜到了两个东东,一并记录下来。一个是哈德雷大神写的包xml2https://blog.rstudio.com/2015/04/21/xml2/
一个是R包TCGAbiolinks,可以处理tcga中下载的xml文件,从中获取信息。关于此文件的后续探索,且看下回分解。

微信公众号生信星球同步更新我的文章,欢迎大家扫码关注!

我们有为生信初学者准备的学习小组,点击查看◀️
想要参加我的线上线下课程,也可加好友咨询
如果需要提问,请先看生信星球答疑公告

tcga数据下载_TCGA数据下载-GDC相关推荐

  1. tcga数据下载_TCGA数据下载(mRNA)

    进入GDC网页 https://portal.gdc.cancer.gov/ 点击Repository 点击Cases,选择需要研究的肿瘤样本.以结肠癌为例,主要参数:[Primary Site]:c ...

  2. tcga数据下载_TCGA数据库免疫相关文件下载大全

    本文首发于生信技能树公众号,直达链接是:https://mp.weixin.qq.com/s/-amtbxvk0mC2Nv-bwt1BeQ 2018年4月Immunity杂志上发表了文章The Imm ...

  3. tcga数据下载_TCGA数据挖掘(二):数据下载与整理

    关于TCGA数据库中的数据下载,我们之前有介绍过R语言下载包:R语言TCGA-Assembler包下载TCGA数据,同时在介绍数据库的使用教程中也介绍了在线下载以及官方下载工具下载:TCGA数据库使用 ...

  4. GDC API下载肿瘤数据

    GDC数据传输工具旨在与GDC数据门户和GDC数据提交门户结合使用,以向GDC传输数据或从GDC传输.首先,GDC数据门户的接口用于生成清单文件或获取UUID和(对于受控访问数据)身份验证令牌.然后, ...

  5. linux下载ccle数据,TCGA数据库下载,挖掘,Xena Browser可视化

    1.数据库简介: 癌症和肿瘤基因图谱 (The Cancer Genome Atlas, TCGA) 于2006年启动,试图通过应用基因组分析技术,特别是采用大规模的基因组测序,将人类全部癌症的基因组 ...

  6. 新版TCGA数据库学习:批量下载新版TCGA数据

    众所周知,TCGA数据库改版了!!改的比之前更好用了! 对于常规转录组数据,主要是以下几点改变: 下载一次即可获得counts.TPM.FPKM三种类型的表达矩阵,再也不用单独下载了 自带gene s ...

  7. linux下载TCGA数据,使用gdc-client批量下载TCGA数据

    欢迎关注"生信修炼手册"! GDC的在线下载功能只适用于下载小的数据集,当需要下载数据量较大的TCGA数据时,必须借助于GDC官方提供的客户端工具gdc-client.网址如下 h ...

  8. TCGA数据集介绍及数据下载

    目录 一.TCGA数据集介绍 1.1 数据集介绍 1.2 File介绍 1.2.1 Data Category(数据类别) 1.2.2 Data Type(数据类型) 1.2.3 Experiment ...

  9. TCGA数据集介绍及数据下载指南(新手友好篇)

    目录 一.TCGA数据集介绍 1.1 数据集介绍 1.2 File介绍 1.2.1 Data Category(数据类别) 1.2.2 Data Type(数据类型) 1.2.3 Experiment ...

最新文章

  1. Python3.6.4 安装
  2. ebs查看服务状态_浅析AWS KMS密钥管理服务
  3. SpringBoot非官方教程 | 第二篇:SpringBoot配置文件详解
  4. RabbitMQ消息队列———安装(一)
  5. 【Spark】Spark-空RDD判断与处理
  6. 单表60亿记录等大数据场景的MySQL优化和运维之道 | 高可用架构
  7. SpringBoot配置mybatis多数据源(包含单数据源)最终解决方案,带源码
  8. Swift App启动干了什么事情, 删掉UIApplicationMain,自定义实现main类, Main Runloop
  9. 阿古斯机器人_炉石传说三选一卡池全部卡牌一览 挑战之旅冒险模式攻略
  10. 计算机毕业设计(附源码)python在线答题系统
  11. 华为HCNA路由与交换eNSP实战(1)静态路由基础
  12. 提高机器学习模型性能的五个关键方法
  13. 安装 stun/turn服务
  14. [CryptoHack] ELLIPTIC CURVES-STARTER Write-Up
  15. 基于Springboot的漫画网站设计与实现的源码+文档
  16. Python中的True和False详解
  17. 友人与友情【诗词13首】
  18. 百度排名批量查询_黄岛主:不限字数给你讲透百度霸屏引流细节思路与操作玩法...
  19. 每天记录学习的新知识:圆的运算公式
  20. 微服务(MSA) 和 面向服务架构(SOA) 的区别和联系

热门文章

  1. Camera2点击对焦实现
  2. python 异常 模块 包
  3. [BZOJ1101][POI2007]Zap
  4. h2database源码浅析:TransactionMap、MVMap、MVStore
  5. NHibernate Linq中Null值排序的解决方法
  6. iText 生成复杂表格
  7. C++编写Windows服务程序
  8. Oracle在plsql上数据类型是nvarchar2(2)表的字段,查询时最后一位不显示
  9. django的配置文件字符串是怎么导入的?
  10. 【概率论】3-4:二维分布(Bivariate Distribution)