原标题:TCGA数据库讲解与数据下载

前几期,生信草堂和大家分享了一篇TCGA数据下载的文章,有小白表示TCGA还是好深奥,找不到下载地址的,看不懂数据格式。今天小编就从头开始,娓娓道来,再给大家介绍一下TCGA数据库和下载方法,希望大家都能用好这个宝库。

TCGA (The cancer genome atlas)是一个非常重要的癌症数据库,其主要收录各种人类癌症(包括亚型在内的肿瘤)的临床数据,基因组变异,mRNA表达,miRNA表达,甲基化等数据,是癌症研究者很重要的数据来源。

首先,TCGA官网:https://cancergenome.nih.gov/abouttcga/overview

1.数据等级:

TCGA存储的数据可分为三个级别:

Level 1: 原始的测序数据(fasta,fastq等)

Level 2:比对好的bam文件

Level 3:为经过处理及标准化的数据

Level 1和Level 2文件很大,若要下载可使用官方提供的小工具:GDC Data Transfer Tool,然后自己重新比对来call mutation, 或者提取count data做差异表达分析(不适合懒人操作,且大多数人很难拿到权限,下面会说)。

2.数据权限

Level 1和Level 2数据为controlled-access(限制下载),Level 3有部分是controlled-access,其余是开放下载,若你想下载的数据level显示“Unauthorized”,则表示不能直接下载,需要先向TCGA申请使用权限。

比如:

理论上,限制下载的数据可以通过申请dbgap账号获得下载权限,但是申请这个账号需要NIH/NCI资格审核,且需要提供eRA account ID(在美国申请grant对应的ID),所以一般只有国外PI才可能申请通过。所以对小白来说这个基本是行不通的,小编建议还是乖乖下载3级数据。

3.三级数据下载

TCGA-3级数据下载网站主要有两个:

① TCGA官方的data-portal:portal.gdc.cancer.gov

优点:数据最全,更新最快

缺点:每个样本是一个单独的文件,如果下载某一个癌症的RNA数据,要下载好几百个文件,然后合并(嫌麻烦的往下翻,小编强力推荐方法②!!)。

下载方法介绍:

在主页搜索想要下载的癌症类型

以表达数据为例,可见LUAD共有515个case有RNA-Seq数据,点击进入。

左边可以对样本进行筛选,点击右侧数字可以下载表达数据(Exp),临床数据(Clinical)和Annotation(注释信息,可以找到样本ID对应的case,control情况)。

注意表达数据根据分为了HTSeq-Counts,HTSeq-FPKM,HTSeq-FPKM-UQ三种类型,Counts是数据后台没有处理的原始表达量,而FPKM和FPKM-UQ是两种数据标准化处理后的数据,一般差异表达下载counts,下载所有样本后合并,用DESeq即可。

FPKM,FPKM-UQ计算方法:

Firehose服务器:gdac.broadinstitute.org

优点:数据也来源于portal.gdc.cancer.gov,但是将同一种癌症、同种类型的数据合并到了一起,超级方便,一键下载,无需合并数据。

下载方法介绍:

点击LUAD对应的Data-Browse

稍等片刻,会弹出LUAD项目所有样本合并后的3级数据,需要什么数据点击文本即可下载,非常方便快捷。当然也可以下载临床数据等,各取所需了。

今天小编就为大家介绍这么多,当然还有其他下载方法,以及一些TCGA在线分析工具,不需要下载数据即可进行分析,小编下次再给大家介绍喽。

生信草堂

浙大生信博士团队倾力打造的一个科研人员学习交流的公众微信平台。我们致力于科研社区服务,分享最前沿的科技进展,提供生信分析方法,解读经典分析案例,公众数据库的挖掘和临床数据统计分析。在此我们欢迎各位的加入!返回搜狐,查看更多

责任编辑:

linux下载TCGA数据,TCGA数据库讲解与数据下载相关推荐

  1. 使用Aspera下载NCBI和ENA数据库中的数据

    使用Aspera下载NCBI和ENA数据库中的数据 NCBI数据库储存的常用数据有:Nt库,Nr库,Swissprot库,以及物种的基因组数据(Genome数据库)等. ENA数据库储存的常用数据有: ...

  2. 从mysql数据库中删除一行数据_mysql数据库删除一行数据

    [MySQL]命令行工具和基本操作 原文:[MySQL]命令行工具和基本操作 一 MySQL命令行工具  (查看帮助 ---help,或 -?) 1)MySQL MySQL是一个简单的SQL外壳(有G ...

  3. java 保存数据到数据库_保存数据到数据库成功

    保存数据到数据库成功 package com.demo; import javax.swing.AbstractButton; import javax.swing.JFrame;//框架 impor ...

  4. java查询数据库大批量数据_数据库有百万数据量的情况下,分页查询的方法及其优化方式...

    当需要从数据库查询的表有上万条记录的时候,一次性查询所有结果会变得很慢,特别是随着数据量的增加特别明显,这时需要使用分页查询.对于数据库分页查询,也有很多种方法和优化的点. 下面简单说一下我知道的一些 ...

  5. mysql 导出中间 数据_MYSQL数据库之间的数据导出与导入

    源数据库地址: 172.16.1.7 目标数据库地址: 172.16.1.51 步骤: (1) 进入172.16.1.7服务器,登录mysql数据库 mysqldump -uusername -ppa ...

  6. mysql scrapy 重复数据_mysql数据库如何处理重复数据?

    前言 前段时间,很多人问我能不能写一些数据库的文章,正好自己在测试mysql数据库性能的时候,出现了一个问题,也就是出现了很多重复的数据,想起来自己long long ago写过一篇类似的,仅此就拿来 ...

  7. 为什么数据库会丢失数据?

    数据库管理系统在今天已经是软件的重要组成部分,开源的 MySQL.PostgreSQL 以及商业化的 Oracle 等数据库已经随处可见,几乎所有的服务都需要依赖数据库管理系统存储数据. 数据库不会丢 ...

  8. ThinkPhp插入数据到数据库

    首先我们在Home/View目录下创建一个Add文件夹,然后在Add文件夹中创建一个add.html文件 我们需在这个文件中是创建一个简单表单,对应我们数据表中的字段 <!DOCTYPE htm ...

  9. 数据错误循环冗余检查是什么意思_为什么数据库会丢失数据?今天我就来跟你掰扯掰扯

    这份分布式一致性算法文档,足够你解决分布式系统 80% 核心问题​zhuanlan.zhihu.com 从远程办公到简历被拒,再到斩获阿里offer,这份PDF功不可没​zhuanlan.zhihu. ...

最新文章

  1. BZOJ3572: [Hnoi2014]世界树
  2. 爬虫之利用requests.session进行状态保持
  3. 投票系统之防止重复投票
  4. ML-1 逻辑回归和梯度下降
  5. php取汉字第一个字,php---------取汉字的第一个字的首字母
  6. Android 简单基站定位程序
  7. linux内核ddr初始化,X-007-UBOOT-DDR的初始化(Bubblegum-96平台)
  8. 蓝桥杯 BASIC-25 基础练习 回形取数
  9. visual studio各版本下载
  10. Python:关于装饰器的理解
  11. SAS更新SID问题
  12. 用最少的箭射爆全部气球
  13. 【BZOJ4987】Tree(树形dp)
  14. 单道批-多道批-分时-实时
  15. egg(九):下载excel文件,前后端
  16. miui修改Android,无法修改小米MIUI设备中的系统设置
  17. 北航操作系统课程-第一次作业-操作系统引论1
  18. 计算机专业新生研讨课资料整合
  19. jsp中用自定义标签实现简单的分页
  20. 转这个作为第一篇,换种模式记录即将开始的新生活

热门文章

  1. python调用函数必须带括号吗_Python笔记:调用函数,带扩号和和不带括号的区别...
  2. sikuli python java_python怎么调用sikuli
  3. C++:getchar()函数的用法
  4. 华为桌面云封装Windows10系统出现sysprep无法验证您的Windows安装问题,完美解决
  5. 前端架构演进及主流UI
  6. 基于threejs的3D室内导航项目
  7. Web安全渗透详细教程+学习线路+详细笔记【全网最全】
  8. 四元数转yaw、pitch、roll
  9. Eclipse工具启动提示the selection cannot be launched,and there are no recent
  10. Excel 2010 VBA 入门 001显示开发工具选项卡