原标题:数据挖掘专题 | 一文搞懂TCGA数据整理

本文经授权转载自生信控

我们已经通过前两期数据下载(一)和数据下载(二)介绍了TCGA数据下载方法,并最终得到每个样本一个独立文件夹形式的数据,整理成表达矩阵的格式将是后续分析的前提,对TCGA数据的整理主要有2个操作:

1、将样本名替换成类似 TCGA-AA-A02J-01A 的格式;

2、多样本表达值合并;

关于TCGA样本命名,详见

https://wiki.nci.nih.gov/display/TCGA/TCGA+barcode【不知道 -01A 和 -11A 的先看这个】

多样本表达值合并只需要将每个文件夹下文本列合并即可,接下来我们重点讲解下如何重置样本名,比较容易想到的是,我们需要一个同时包含文件名及样本名的文件,所以本期将为大家介绍TCGA表达数据下载(一)中抛出的第二个问题,下载的Metadata的使用。

Metadata文件命名如metadata.cart.2017-*_*_*.json,是以json作为后缀类似文本的文件,记录着每个样本在数据库中的编号信息以及患者的部分临床信息,json文件中需要注意的几个事项:

1、文件打开如下,分号前是每个属性,分号后是属性值,如 "data_type": "miRNA Expression Quantification" 表示下载的是miRNA表达数据:

2、465个样本的信息全部记录在这一个文件中,故需要知道样本间的区分是以 },{ 分隔的:

3、每个样本有两个file_id,其中第二个与465个文件夹中的一致:

4、file_name对应 file_id 文件夹下的表达数据文件:

5、此处的 submitter_id即为常见的TCGA样本名:

综上,基于 file_id、file_name、submitter_id 即可完成表达数据文件与样本名称的对应,例如之前下载的TCGA-COAD的miRNA数据,TCGA_GDC/COAD/miRNA/f457196a-04ef-46f4-addc-3c698208f4d4/ac35e037-f717-401d-8021-a8e3a7b0b368.mirbase21.mirnas.quantification.txt,我们来详细看下这个目录结构。

f457196a-04ef-46f4-addc-3c698208f4d4即为Metadata中的 file_id,ac35e037-f717-401d-8021-a8e3a7b0b368.mirbase21.mirnas.quantification.txt即为Metadata中的 file_name,由此可通过json检索到其存储的样本对应的submitter_id为 TCGA-AA-A00W-01A。

思路理清之后就可以开始进行数据整理了,可以提取每个样本的原始count值,或者RPM值,最终格式如下:

样本共计465列,其中样本名:

1、以 -11A 结尾的8列,无重复,且均有对应的 -01A 样本;

2、以 -01A 结尾的445列,有4个样本重复,去重后还有441列,重复的样本:TCGA-A6-6650-01A;TCGA-A6-6781-01A;TCGA-A6-6780-01A;TCGA-A6-5656-01A

3、剩下的12列中,02表示是复发肿瘤、06表示转移,01B表示重复样本:

其中3个样本 TCGA-AZ-4682-01B;TCGA-CK-4948-01B;TCGA-CK-4947-01B 无对应的 -01A 样本。

综上,case数为444个(441+3,可以理解为去重后-01A结尾样本的个数),数据初步整理后与数据下载时显示的Files数和Cases数一致!

对于重复样本(同一个患者/case,多个肿瘤样本/file),以患者TCGA-A6-6650为例,共有3个重复,分属下载的3个文件,共有同一个case_id:

不同的file_name,相同的case_id:

所以,我们会看到在下载数据的时候,files数要大于cases数,这就解释了我们在TCGA表达数据下载(一)中抛出的第一个问题!

目前对待重复样本,比较主流的方法是只保留一个:

所以在TCGA数据分析中,最常用的两类样本是 -01A 和 -11A 结尾的样本,分别代表肿瘤和正常样本,不同数字编码代表的意义,部分如下:

更多标识详见:https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/sample-type-codes

最终,我们将TCGA-COAD的miRNA表达数据整理成如下,1881个前体miRNA在449个样本中的表达值数据:

好像我们顺带又把TCGA表达数据下载(一)中抛出的第四、五这两个问题解决了~

各位读者:

科研小助手官方QQ群:93646661

amateur_1988为好友,加入科研小助手官方微信群。申请加好友请备注姓名和单位。返回搜狐,查看更多

责任编辑:

tcga样本编号_数据挖掘专题 | 一文搞懂TCGA数据整理相关推荐

  1. 【Python】一文搞懂Pandas数据排序

    数据排序,是使用非常高频的功能,Pandas排序支持做的非常好,主要涉及两个函数,两种数据类型,组合起来四种情况. Series排序 Series.sort_index 索引排序 Series.sor ...

  2. 一文搞懂大数据开发,大数据开发体系详解

    前言 不知道大家有没有过在搜索引擎搜索过旅游的关键字,不久就可能收到机票的推销的经验.如今是大数据的时代,数据的价值越来越重要.数据即资产,想必大家都听说过.最近公司的项目中也用到了一些大数据的技术, ...

  3. 一文搞懂基础数据单位换算逻辑

    ▲ 点击上方"架构精进之路"关注公众号 回复"01"领取「程序员进阶大礼包」 这是「架构精进之路」公众号的第75篇原创文章 计算机网络单位如何换算? 100Mb ...

  4. python语言语句快的标记是什么_一文搞懂Python程序语句

    原标题:一文搞懂Python程序语句 程序流 Python 程序中常用的基本数据类型,包括: 内置的数值数据类型 Tuple 容器类型 String 容器类型 List 容器类型 自然的顺序是从页面或 ...

  5. python中gbk字符原因报错_不想再被鄙视?那就看进来! 一文搞懂 Python 2 字符编码...

    原标题:不想再被鄙视?那就看进来! 一文搞懂 Python 2 字符编码 程序员都自视清高,觉得自己是创造者,经常鄙视不太懂技术的产品或者QA.可悲的是,程序员之间也相互鄙视,程序员的鄙视链流传甚广, ...

  6. pythonxpath定位_一文搞懂 XPath 定位

    一文搞懂XPath 定位 XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历. XPath定位在爬虫和自动化测试中 ...

  7. 一文读懂大数据平台——写给大数据开发初学者的话!

     一文读懂大数据平台--写给大数据开发初学者的话! 文|miao君 导读: 第一章:初识Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hadoop上 第四章:把Hado ...

  8. 一文搞懂k近邻(k-NN)算法(一)

    原文链接 一文搞懂k近邻(k-NN)算法(一) 前几天和德川一起在学习会上讲解了k-NN算法,这里进行总结一下,力争用最 通俗的语言讲解以便更多同学的理解. 本文目录如下: 1.k近邻算法的基本概念, ...

  9. 一文搞懂BN、LN、IN、GN的区别

    一文搞懂BN.LN.IN.GN的区别 批归一化(BN)已经成为许多先进深度学习模型的重要组成部分,特别是在计算机视觉领域.它通过批处理中计算的平均值和方差来规范化层输入,因此得名.要使BN工作,批大小 ...

最新文章

  1. 关于子业之间相互取得元素或者方法
  2. redis php数据插入失败,redis插入数据,恢复数据测试(禁止淘汰策略下恢复大于redis内存限制数据情况)...
  3. SSH实现新闻管理系统
  4. 算法--------删除重复元素,但保留两个
  5. how to use the mathmatical constant e in conjunction with a vector
  6. Nginx的负载均衡 - 保持会话 (ip_hash)
  7. mysql 分组数据_MySQL基础之分组数据
  8. 语音处理-自相关-端点
  9. 快慢指针____函数将字符串中的字符'*'移到串的前部分,前面的非'*'字符后移
  10. 如何快速找到settype被assign的product category
  11. MeasureSpec学习 - 转
  12. 计算机里的东西太多,电脑里的东西太多,怎么样清理一下啊
  13. Softmax和softmax loss的理解
  14. c++中vector的学习
  15. 火山安卓简单分组列表框
  16. 华为云服务查找手机_华为云服务里面的手机找回需要什么条件
  17. pr转场 18种不同风格图形元素小故障视频过渡pr视频转场模板
  18. java基础学习总结——方法的重载(overload)
  19. 一句话,连上隔壁老王家的 WiFi !
  20. 北斗终端与计算机传输信息,基于北斗信息的手机终端的应用研究

热门文章

  1. SAP 系统查询系所有 TCODE清单
  2. java 返回ro,(转)JAVA_OPTS设置
  3. django+拉勾网招聘数据可视化
  4. linux搭建 uwsgi服务器,uwsgi服务器部署
  5. AI算法图形化编程加持|OPT(奥普特)智能相机轻松适应各类检测任务
  6. 应用计算机教学方法的文献,【计算机教学论文】计算机教学对任务驱动教学法的应用(共3354字)...
  7. Android HTTPS、TLS版本支持相关解决方案
  8. 中国式婚姻的10个错误观点(转载)
  9. 如何在WampServer和phpStudy中MySQL导入sql文件
  10. 它来了,安全狗业界首款信创云主机安全产品发布