TCGA数据集介绍及数据下载
目录
- 一、TCGA数据集介绍
- 1.1 数据集介绍
- 1.2 File介绍
- 1.2.1 Data Category(数据类别)
- 1.2.2 Data Type(数据类型)
- 1.2.3 Experimental Strategy(实验策略)
- 1.2.4 Workflow Type(工作流类型)
- 1.2.5 Data Format(数据格式)
- 1.2.6 Platform(平台)
- 1.2.7 Access
- 1.3 Cases介绍
- 1.3.1 Case ID(案例编号)
- 1.3.2 Primary Site(主要站点)
- 1.3.3 Program(程序)
- 1.3.4 Project(项目)
- 1.3.5 Disease Type(疾病类型)
- 1.3.6 Gender(性别)
- 1.3.7 Age at Diagnosis(诊断年龄)
- 1.3.8 Vital Status(重要状态)
- 1.3.9 Days to Death(死亡天数)
- 1.3.10 Race(人种)
- 1.3.11 Ethnicity(种族)
- 二、数据下载指南
- 2.1 进入官网
- 2.2 点击进入“Repository”
- 2.3 点击“Repository”
- 2.4 下载临床信息
- 2.5 将文件添加到“Cart”
- 2.6 进入“Cart”页面
- 2.7 进行下载
- 三、下载数据
- 四、数据处理
- 4.1 样本名称转化为TCGA样本编号
- 4.2 数据合并
一、TCGA数据集介绍
1.1 数据集介绍
TCGA(The cancer genome atlas,癌症基因组图谱)由 National Cancer Institute(NCI,美国国家癌症研究所) 和 National Human Genome Research Institute(NHGRI,美国国家人类基因组研究所)于 2006 年联合启动的项目, 收录了各种人类癌症(包括亚型在内的肿瘤)的临床数据,基因组变异,mRNA表达,miRNA表达,甲基化等数据,是癌症研究者很重要的数据来源。
1.2 File介绍
File目录下包含七类,分别是:
- Data Category
- Data Type
- Experimental Strategy
- Workflow Type
- Data Format
- Platform
- Access
1.2.1 Data Category(数据类别)
- simple nucleotide variation:简单核苷酸编译
- copy number variation:拷贝数改变
- transcriptome profiling:转录组分析
- sequencing reads:测序读取
- biospecimen:生物样本
- clinical:临床
- dna methylation:DNA甲基化
- structural variation:结构变化
等
1.2.2 Data Type(数据类型)
- Annotated Somatic Mutation:注释体细胞突变
- Raw Simple Somatic Mutation:原始简单体细胞突变
- Aligned Reads:对其读取
- Gene Expression Quantification:基因表达量化
- Masked Annotated Somatic Mutation:掩盖注释体细胞突变
- Gene Level Copy Number Scores:基因水平拷贝数分数
等
1.2.3 Experimental Strategy(实验策略)
- WXS:管道识别全外显子组测序
- Targeted Sequencing:靶向测序
- RNA-Seq:RNA测序
- Genotyping Array:基因分型阵列
- miRNA-Seq:miRNA测序
等
1.2.4 Workflow Type(工作流类型)
- DNAcopy:DNA拷贝
- GENIE Simple Somatic Mutation:简单体细胞突变
- GENIE Copy Number Variation:拷贝值变化
- BCGSC miRNA Profiling:miRNA分析
等
1.2.5 Data Format(数据格式)
- txt
- vcf
- bam
等
1.2.6 Platform(平台)
略
1.2.7 Access
- controlled:受约束的
- open:开放的
controlled数据需要申请账号才可以下载,open数据不需要账号。
1.3 Cases介绍
Cases目录下包含11类,分别是:
- Case ID
- Primary Site
- Program
- Project
- Disease Type
- Gender
- Age at Diagnosis
- Vital Status
- Days to Death
- Race
- Ethnicity
1.3.1 Case ID(案例编号)
略
1.3.2 Primary Site(主要站点)
- bronchus and lung:支气管和肺
- breast:乳腺
- hematopoietic and reticuloendothelial systems:造血和网状内皮系统
- colon:结肠
- ovary:卵巢
等
1.3.3 Program(程序)
- GENIE
- FM
- TCGA
- TARGET
等
1.3.4 Project(项目)
- FM-AD
- GENIE-MSK
- GENIE-DFCI
- GENIE-MDA
- GENIE-JHU
等
1.3.5 Disease Type(疾病类型)
- adenomas and adenocarcinomas:腺癌
- ductal and lobular neoplasms:导管和小叶肿瘤
- epithelial neoplasms, nos:上皮性肿瘤
- squamous cell neoplasms:鳞状细胞肿瘤
- gliomas:神经胶质瘤
等
1.3.6 Gender(性别)
- female:女性
- male:男性
- unknown:未知
- not reported:未报导
- unspecified:不明确
1.3.7 Age at Diagnosis(诊断年龄)
略
1.3.8 Vital Status(重要状态)
- not reported:未报导
- alive:存活
- dead:死亡
- unknown:未知
1.3.9 Days to Death(死亡天数)
略
1.3.10 Race(人种)
- white:白人
- not reported:未报导
- unknown:未知
- black or african american:黑人或非洲人
- asian:亚洲人
- other:其他
等
1.3.11 Ethnicity(种族)
- not hispanic or latino:不是西班牙裔或拉丁裔
- not reported:未报道
- hispanic or latino:西班牙裔或拉丁裔
- unknown:未知
二、数据下载指南
2.1 进入官网
官网链接:https://portal.gdc.cancer.gov/
2.2 点击进入“Repository”
进入“Repository”后先看右上角“Cart”处是否为“0”,不为零的话要先清除之前下载的数据,清除方法是选择“Cart”,然后点击右下角的“Remove From Cart”。
2.3 点击“Repository”
点击“Repository”,选择需要下载的样品信息“Cases”和需要下载的文件“Files”。
【注】:在下面的部分会对Files和Cases进行介绍。
2.4 下载临床信息
(这里以结肠癌coion为例)
在下拉框中选在需要下载的内容:
然后选择需要下载的文件“Files”,这里也可以再下拉框中根据自己需要的格式进行下载
2.5 将文件添加到“Cart”
点击“Add All Files to Cart”
2.6 进入“Cart”页面
进入“Cart”页面,选择要下载的格式进行下载
2.7 进行下载
一个是「Manifest」(一个txt文本,是数据下载入口,并不是数据本身);
一个是左边的「Metadata」(这个下载之后是个json文件,是为了之后进行数据清洗作准备的);
当然也可以直接从网站上直接下载数据,但这种方式的弊端就是不稳定,数据中断时无法续传;
可以点击Download——>Cart本地下载,也可以下载Manifest文件后用官方下载工具下载,如果数据是controlled并且用官方下载工具下载,需要下载token文件作为身份验证,这里不进行详细介绍。【说明:本地下载国内可能无法下载】
把文件下载到本地后,是这个样子:
三、下载数据
官网提供的下载工具Data Transfer Tool网址:https://gdc.cancer.gov/access-data/gdc-data-transfer-tool,选择相应版本即可下载。
左侧为初始界面,右侧为UI可视化界面。
UI初始化界面如下:
选择manifest文件,点击下载即可开始下载。
UI可视化界面下载时如下:
下载完成后界面大致如下:
四、数据处理
4.1 样本名称转化为TCGA样本编号
数据下载完成后,还是一堆文件夹,接下来需要对数据进行处理。
json文件打开后,会发现每个样本名称跟它的TCGA样本编号被一个大括号所包含,形成一一对应的关系;
这里就需要利用python脚本把样本名与TCGA样本编号建立一个字典,然后进行逐一修改,代码如下:
import os
import json#打开json文件夹;
file = open('E:/Wendy/Desktop/TEST/metadata.cart.2021-09-17.json', encoding='utf-8')
#读取json文件夹;
json_precess = json.loads(str(file.read()))
#创建空字典;
dict ={}
for i in json_precess:print(i['file_name'])print(i['associated_entities'][0]['entity_submitter_id'])dict[str(i['file_name']).strip('.gz')] =i['associated_entities'][0]['entity_submitter_id']
print(dict)#mainfest文件路径;
path ='E:/Wendy/Desktop/TEST/test'
filelist = os.listdir(path)#mainfest子路径下的所有文件列表;
for file_one in filelist:file = path + '/' +file_oneprint(file)list = os.listdir(file)[0]print(list)if '.gz' in list:olddir = file +'/' +list#原来文件名newdir = file + '/' + dict[list.split('.gz')[0]] +'.gz'#新的文件名os.rename(olddir,newdir)#重新命名# olddir = os.path.join(path,file_one)# print(olddir)# filename =os.path.splitext(file_one)[0]# newdir = os.path.join(path,dict[file_one])# os.rename(olddir,newdir)名
4.2 数据合并
参考链接:
【1】http://www.yingbio.com/article-35507-199717.html
【2】https://blog.csdn.net/qq_35203425/article/details/80882988
【3】https://blog.csdn.net/weixin_42512684/article/details/89415482
【4】https://blog.csdn.net/weixin_42512684/article/details/90172633
TCGA数据集介绍及数据下载相关推荐
- TCGA数据集介绍及数据下载指南(新手友好篇)
目录 一.TCGA数据集介绍 1.1 数据集介绍 1.2 File介绍 1.2.1 Data Category(数据类别) 1.2.2 Data Type(数据类型) 1.2.3 Experiment ...
- 【数据库】SRA数据库介绍及数据下载
[数据库]SRA数据库介绍及数据下载 生信技术 2021-10-06 11:00 以下文章来源于生信Alpha ,作者BioinfoPenn 生信Alpha. 生物信息.生物统计.Linux系统.sh ...
- linux下载TCGA数据,TCGA数据库讲解与数据下载
原标题:TCGA数据库讲解与数据下载 前几期,生信草堂和大家分享了一篇TCGA数据下载的文章,有小白表示TCGA还是好深奥,找不到下载地址的,看不懂数据格式.今天小编就从头开始,娓娓道来,再给大家介绍 ...
- FROM_GLC的介绍与数据下载教程
1.数据介绍 1.1 数据简介 宫鹏老师团队基于Google Earth Engine平台,使用到全球13万个样本点,利用随机森林分类方法对Sentinel-2影像,进行了2017年的10米分辨率全球 ...
- Esri_Land_Cover_2020_10m的介绍与数据下载教程
1.数据介绍 Esri_Land_Cover_2020_10m数据来源是Esri公司,基于10m哨兵影像数据,使用深度学习方法制作做的全球土地覆盖数据.该数据集一共分类十类,分别如下所示: 类别 Na ...
- 锁眼卫星的介绍与数据下载
锁眼卫星 1.卫星介绍 基本信息 美国侦察办公室(The National Reconnaissance Office,NRO )共计开发了11代机密 Keyhole (KH) 军用光学侦察卫星,这些 ...
- spot卫星介绍与数据下载
1.简介 1.1基本信息 SPOT系列卫星是法国空间研究中心(CNES)研制的一种地球观测卫星系统,已发射SPOT卫星1-7号.目前CNES已开放spot1-5的卫星数据,可免费下载数据的时间范围为1 ...
- celeba数据集_人脸识别常用数据集介绍(附下载链接)及常用评估指标
为什么要聊到数据集这个话题..因为数据集的noise对训练效果的影响很大!很长一段时间MegaFace的效果都上不去,就是因为数据集噪声的原因.而且自己在训练人脸的时候,如果不对数据集的噪声和属性有一 ...
- Suomi NPP VIIRS夜间灯光遥感数据简介与下载(一)——数据介绍,FTP下载与hdf5读取
失踪人口回归+爷青回,本篇介绍下Suomi NPP VIIRS夜间灯光遥感数据下载. 文章目录 1 夜间灯光遥感数据简介 2 夜间灯光遥感数据下载 1 年和月尺度产品下载 2 日尺度产品下载 3 NP ...
最新文章
- MYSQL使用inner join 进行 查询/删除/修改示例
- (转帖)eclipse 下 搭建 django开发环境
- ESP32-S3与ESP32-S2相比,有什么不同呢?
- boost::geometry::num_points用法的测试程序
- BZOJ3998:[TJOI2015]弦论——题解
- fillna函数_听说这些pandas函数,是数据科学家和软件工程师的最爱
- 春节特惠活动┃一张纸一幅图,竟然提高了10倍的学习和工作效率!?
- Spring的@Scheduled任务调度
- java sdk下载_Java Sdk下载 | 保利威帮助中心
- 【PHP源码】二维码生成api
- navigator工具_推荐!11个令人惊叹的前端开发工具,值得拥有
- js 刷新页面window.location.reload();
- maven覆盖setting_maven-如何为.m2文件夹或settings.xml永久指定替代位置?
- Deep Learning for 3D Recognition
- main方法能重载么?能被其他方法调用么? 能继承么?
- Win10PE启动维护工具 | U盘WinPE下载
- 常用开发板接口执行器
- 在matlab用泰勒级数求,急 在matlab中写个用泰勒级数计算arctan(x)的方程
- 电容器的10大总结!
- 终于明白MSN “I'm” 图标啥意思了
热门文章
- 神经网络+深度学习+增强学习
- CF467D Fedor and Essay
- simulink怎么显示并修改scope中的图例,显示白底黑线
- 在某个小创业公司的三年工作总结
- ensp-ospf配置
- Python模块——glob模块详解
- 小昂说“视”| 3D相机你了解多少
- python整数运算定律_四年级数学知识点总结-05整数四则运算及定律
- 使用ContactsContract APIhttp://www.cnblogs.com/carbs/archive/2012/07/16/2593295.html
- 致迷茫中的大学生们和即将高考毕业的高三狗们