TCGA样本命名详解

在TCGA中，一个患者可能会对应多个样本，如TCGA-A6-6650可以得到3个样本数据：

TCGA-A6-6650-01A-11R-1774-07
TCGA-A6-6650-01A-11R-A278-07
TCGA-A6-6650-01B-02R-A277-07
大家知道一般在做TCGA数据分析的时候样本名实际上只保留到前四个元素（以”-“分割），例如TCGA-A6-6650-01。所以实际上上示3个样本一般只保留一个，那该怎么取舍呢？

在取舍之前，当然要先搞清楚样本命名方式：

我们将此示图以”-“分割，具体拆开解读一下：

TCGA：Project, 所有TCGA样本名均以这个开头，标志
A6：Tissue source site，组织来源编码，如A6就表示来源于Christiana Healthcare中心的结肠癌组织。更多编码所代表的意义详见：
https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/tissue-source-site-codes
6650：Participant, 参与者编号
01：Sample, 这两个数字可以说是最关键、最被大家注意的，其中编号01~09表示肿瘤，10~19表示正常对照，如下：
https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/sample-type-codes
所以在TCGA样本名中，这个位置最常见的就是01和11，当然偶尔也会有其他的数字
A：Vial, 在一系列患者组织中的顺序，绝大多数样本该位置编码都是A; 很少数的是B，表示福尔马林固定石蜡包埋组织，已被证明用于测序分析的效果不佳，所以不建议使用-01B的样本数据：
所以命名至此，已经可以开始用于区别不同的样本了，以下将是更细节的描述：

11：Portion, 同属于一个患者组织的不同部分的顺序编号，同一组织会分割为100-120mg的部分，分别使用
R：Analyte, 分析的分子类型，对应关系如下所示：
https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/portion-analyte-codes
1774：Plate, 在一系列96孔板中的顺序，值大表示制板越晚
07：Center, 测序或鉴定中心编码，更多编码详见：
https://tcga-data.nci.nih.gov/datareports/codeTablesReport.htm?codeTable=center
一个借鉴的图片：

更多内容详见：
https://wiki.nci.nih.gov/display/TCGA/TCGA+barcode
http://docs.cavatica.org/docs/tcga-grch38-metadata

所以现在看这三个样本：

TCGA-A6-6650-01A-11R-1774-07
TCGA-A6-6650-01A-11R-A278-07
TCGA-A6-6650-01B-02R-A277-07
其区别就在于，前两个使用的是患者的冰冻组织做的测序，而第三个用的是福尔马林固定石蜡包埋组织；而前两个样本的区别在于同一组织后续使用了不同的96孔板。

理解了命名规则及三者命名上的主要区别后，现在可以重点解决如何从一个患者的多个样本中挑选样本的问题了，首先排除TCGA-A6-6650-01B-02R-A277-07，因为是-01B，福尔马林固定石蜡包埋组织！剩下的两个：

TCGA-A6-6650-01A-11R-1774-07
TCGA-A6-6650-01A-11R-A278-07
先看看GDAC firehose遇到这种情况怎么解决，总结起来就是：

1、对RNA数据来说，Analyte为R的优先级最该，其次是R和T，而对于DNA层面的分析来说，D的优先级最高。
2、如果Analyte相同，那就选择Portion和/或Plate值更大的。
所以按照GDAC firehose的方法，最终保留TCGA-A6-6650-01A-11R-A278-07，因为其相对于TCGA-A6-6650-01A-11R-1774-07的板号(Plate)更晚：
https://github.com/BioinformaticsFMRP/TCGAbiolinks/issues/163
虽然看起来可能这么选比较准确，但是稍微有些麻烦~

然后是cBioPortal中的处理方式：

随机选择了一个，理由很简单啊，来源于同一个患者的癌组织样本差别不大，小编随机测试了两个样本，表达相关性值是大于0.8的。
---------------------
作者：Mr番茄蛋
来源：CSDN
原文：https://blog.csdn.net/qq_35203425/article/details/80851862
版权声明：本文为博主原创文章，转载请附上博文链接！

转载于:https://www.cnblogs.com/nkwy2012/p/10112581.html

TCGA样本命名详解相关推荐

tcga样本编号_TCGA样本命名详解
在TCGA中,一个患者可能会对应多个样本,如TCGA-A6-6650可以得到3个样本数据: TCGA-A6-6650-01A-11R-1774-07 TCGA-A6-6650-01A-11R-A278 ...
【YOLOv5】正样本分配详解
1.前言 YoloV5中loss由正样本和负样本两部分loss组成,负样本对应着图像的背景,如果负样本远多于正样本,则负样本会淹没正样本的损失,从而降低网络收敛的效率与检测精度.这就是目标检测中常见的 ...
NT的BOOT.INI文件中ARC命名详解(转)
NT的BOOT.INI文件中ARC命名详解(转)[@more@] ARC命名是Windows NT系统用来定位其引导分区所在的路径,也就是利用它指明引导分区在哪一个磁盘控制器,哪一个硬盘,哪一个分区内 ...
yolov7正负样本分配详解
来源:知乎-骚骚骚地址:https://zhuanlan.zhihu.com/p/543160484 整体上在正负样本分配中,yolov7的策略算是yolov5和YOLOX的结合. 首先大概回顾一下 ...
python变量命名详解_python变量命名规则
python变量命名规则如下: 1.变量名称由数字.字母(包括大写字母和小写字母).下划线组成. 2.变量名不能以数字开头 3.变量名不能用python关键字 4.变量名不能用python函数,否则函 ...
英特尔CPU命名详解：32个后缀名、8个系列，如12700F等
英特尔家族的CPU总共有8个"系列",分别是至强(Xeon).至强融核(Xeon Phi).酷睿(Core).奔腾(Pentium).赛扬(Celeron).凌动(Atom).安腾 ...
目标检测算法——YOLOV7——详解
1.主要贡献主要是现有的一些trick的集合以及模块重参化和动态标签分配策略,最终在 5 FPS 到 160 FPS 范围内的速度和准确度都超过了所有已知的目标检测器. 当前目标检测主要的优化方向: ...
一文看懂yolov7；yolov7详解
*免责声明: 1\此方法仅提供参考 2\搬了其他博主的操作方法,以贴上路径. 3* 场景一:yolo v7 场景二:yolo系列未完待续 - Yolo系列强推–>Yolo v1–v5 . Yol ...
tcga样本编号_数据挖掘专题 | 一文搞懂TCGA数据整理
原标题:数据挖掘专题 | 一文搞懂TCGA数据整理本文经授权转载自生信控我们已经通过前两期数据下载(一)和数据下载(二)介绍了TCGA数据下载方法,并最终得到每个样本一个独立文件夹形式的数据,整理 ...

TCGA样本命名详解

TCGA样本命名详解相关推荐

最新文章

热门文章