在TCGA中,一个患者可能会对应多个样本,如TCGA-A6-6650可以得到3个样本数据:

TCGA-A6-6650-01A-11R-1774-07
TCGA-A6-6650-01A-11R-A278-07
TCGA-A6-6650-01B-02R-A277-07
大家知道一般在做TCGA数据分析的时候样本名实际上只保留到前四个元素(以”-“分割),例如TCGA-A6-6650-01。所以实际上上示3个样本一般只保留一个,那该怎么取舍呢?

在取舍之前,当然要先搞清楚样本命名方式:

我们将此示图以”-“分割,具体拆开解读一下:

TCGA:Project, 所有TCGA样本名均以这个开头,标志
A6:Tissue source site,组织来源编码,如A6就表示来源于Christiana Healthcare中心的结肠癌组织。更多编码所代表的意义详见:
https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/tissue-source-site-codes
6650:Participant, 参与者编号
01:Sample, 这两个数字可以说是最关键、最被大家注意的,其中编号01~09表示肿瘤,10~19表示正常对照,如下:
https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/sample-type-codes
所以在TCGA样本名中,这个位置最常见的就是01和11,当然偶尔也会有其他的数字
A:Vial, 在一系列患者组织中的顺序,绝大多数样本该位置编码都是A; 很少数的是B,表示福尔马林固定石蜡包埋组织,已被证明用于测序分析的效果不佳,所以不建议使用-01B的样本数据:
所以命名至此,已经可以开始用于区别不同的样本了,以下将是更细节的描述:

11:Portion, 同属于一个患者组织的不同部分的顺序编号,同一组织会分割为100-120mg的部分,分别使用
R:Analyte, 分析的分子类型,对应关系如下所示:
https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/portion-analyte-codes
1774:Plate, 在一系列96孔板中的顺序,值大表示制板越晚
07:Center, 测序或鉴定中心编码,更多编码详见:
https://tcga-data.nci.nih.gov/datareports/codeTablesReport.htm?codeTable=center
一个借鉴的图片:

更多内容详见:
https://wiki.nci.nih.gov/display/TCGA/TCGA+barcode
http://docs.cavatica.org/docs/tcga-grch38-metadata

所以现在看这三个样本:

TCGA-A6-6650-01A-11R-1774-07
TCGA-A6-6650-01A-11R-A278-07
TCGA-A6-6650-01B-02R-A277-07
其区别就在于,前两个使用的是患者的冰冻组织做的测序,而第三个用的是福尔马林固定石蜡包埋组织;而前两个样本的区别在于同一组织后续使用了不同的96孔板。

理解了命名规则及三者命名上的主要区别后,现在可以重点解决如何从一个患者的多个样本中挑选样本的问题了,首先排除TCGA-A6-6650-01B-02R-A277-07,因为是-01B,福尔马林固定石蜡包埋组织!剩下的两个:

TCGA-A6-6650-01A-11R-1774-07
TCGA-A6-6650-01A-11R-A278-07
先看看GDAC firehose遇到这种情况怎么解决,总结起来就是:

1、对RNA数据来说,Analyte为R的优先级最该,其次是R和T,而对于DNA层面的分析来说,D的优先级最高。
2、如果Analyte相同,那就选择Portion和/或Plate值更大的。
所以按照GDAC firehose的方法,最终保留TCGA-A6-6650-01A-11R-A278-07,因为其相对于TCGA-A6-6650-01A-11R-1774-07的板号(Plate)更晚:
https://github.com/BioinformaticsFMRP/TCGAbiolinks/issues/163
虽然看起来可能这么选比较准确,但是稍微有些麻烦~

然后是cBioPortal中的处理方式:

随机选择了一个,理由很简单啊,来源于同一个患者的癌组织样本差别不大,小编随机测试了两个样本,表达相关性值是大于0.8的。
---------------------
作者:Mr番茄蛋
来源:CSDN
原文:https://blog.csdn.net/qq_35203425/article/details/80851862
版权声明:本文为博主原创文章,转载请附上博文链接!

转载于:https://www.cnblogs.com/nkwy2012/p/10112581.html

TCGA样本命名详解相关推荐

  1. tcga样本编号_TCGA样本命名详解

    在TCGA中,一个患者可能会对应多个样本,如TCGA-A6-6650可以得到3个样本数据: TCGA-A6-6650-01A-11R-1774-07 TCGA-A6-6650-01A-11R-A278 ...

  2. 【YOLOv5】正样本分配详解

    1.前言 YoloV5中loss由正样本和负样本两部分loss组成,负样本对应着图像的背景,如果负样本远多于正样本,则负样本会淹没正样本的损失,从而降低网络收敛的效率与检测精度.这就是目标检测中常见的 ...

  3. NT的BOOT.INI文件中ARC命名详解(转)

    NT的BOOT.INI文件中ARC命名详解(转)[@more@] ARC命名是Windows NT系统用来定位其引导分区所在的路径,也就是利用它指明引导分区在哪一个磁盘控制器,哪一个硬盘,哪一个分区内 ...

  4. yolov7正负样本分配详解

    来源:知乎-骚骚骚 地址:https://zhuanlan.zhihu.com/p/543160484 整体上在正负样本分配中,yolov7的策略算是yolov5和YOLOX的结合. 首先大概回顾一下 ...

  5. python变量命名详解_python变量命名规则

    python变量命名规则如下: 1.变量名称由数字.字母(包括大写字母和小写字母).下划线组成. 2.变量名不能以数字开头 3.变量名不能用python关键字 4.变量名不能用python函数,否则函 ...

  6. 英特尔CPU命名详解:32个后缀名、8个系列,如12700F等

    英特尔家族的CPU总共有8个"系列",分别是至强(Xeon).至强融核(Xeon Phi).酷睿(Core).奔腾(Pentium).赛扬(Celeron).凌动(Atom).安腾 ...

  7. 目标检测算法——YOLOV7——详解

    1.主要贡献 主要是现有的一些trick的集合以及模块重参化和动态标签分配策略,最终在 5 FPS 到 160 FPS 范围内的速度和准确度都超过了所有已知的目标检测器. 当前目标检测主要的优化方向: ...

  8. 一文看懂yolov7;yolov7详解

    *免责声明: 1\此方法仅提供参考 2\搬了其他博主的操作方法,以贴上路径. 3* 场景一:yolo v7 场景二:yolo系列未完待续 - Yolo系列强推–>Yolo v1–v5 . Yol ...

  9. tcga样本编号_数据挖掘专题 | 一文搞懂TCGA数据整理

    原标题:数据挖掘专题 | 一文搞懂TCGA数据整理 本文经授权转载自生信控 我们已经通过前两期数据下载(一)和数据下载(二)介绍了TCGA数据下载方法,并最终得到每个样本一个独立文件夹形式的数据,整理 ...

最新文章

  1. 我在攻克机器学习硕士学位的那些年
  2. datagrid如何获取一行数据中的某个字段值_使用Mysql 数据库 新手常见问题
  3. arraylist如何检测某一元素是否为空_java学习笔记:【ArrayList集合】
  4. 【状压DP】剑之修炼(jzoj 2130)
  5. oracle 多个with as
  6. MySQL Innodb数据库性能实践——VARCHAR vs CHAR
  7. Zabbix server is not running:the information displayed may not be current
  8. OS X EI Capitan 安装mysql-5.7.9
  9. 全局异常捕捉用法解析
  10. 9.react 从入门到放弃
  11. 在不断迭代中改进--《全景探秘游戏设计艺术》笔记
  12. ad软件画pcb方法总结_AD软件中导入BRD的PCB文件总结分享,,,,
  13. 智慧地产-售楼中心 3D 沙盘可视化
  14. 盘点无线互联网战国七雄
  15. 【Arduino实验10 数码管显示】
  16. stm32f429之多通道ADC通过DMA数据采集
  17. Android-小游戏
  18. qlib平台实现可转债“双低”策略
  19. pictureBox sizemode=zoom时图片像素坐标
  20. 百度开源两款句法分析应用工具,提升文本处理任务效果

热门文章

  1. 网站正在建设中提示页面设计欣赏
  2. SGI STL 学习笔记二 vector
  3. Docker操作笔记(二)容器
  4. C# 发送电子邮件源码片段
  5. 使用maven profile实现多环境可移植构建
  6. 使用Managed DirectX编写游戏
  7. Android 小技巧
  8. .NET(C#) Internals: .NET Framework中已使用的设计模式
  9. weblogic服务器启动报错
  10. 商业软件授权模式的反思--转载