一、肿瘤全基因组分析概况(Pan-cancer analysis of whole genomes,PCAWG)
在线工具 及 原文链接
Online resources for data access, visualization and analysis | 数据及可视化、分析工具 |
---|---|
Direct download of PCAWG data | 肿瘤基因组学数据下载 1 |
The PCAWG landing page | provides links to several data resources for interactive online browsing, analysis and download of PCAWG data and results(登录号EGAS00001001692) |
Aligned PCAWG read data | BAM format |
Open-tier PCAWG genomics data, as well as reference datasets | BAM format |
Controlled-tier genomic data, including SNVs and indels that originated from TCGA projects and aligned reads | VCF format and BAM format |
PCAWG computational pipelines | 肿瘤基因组学数据分析工具 |
PCAWG Dockstore images | The core alignment, somatic variant-calling, quality-control and variant consensus-generation pipelines |
ICGC Data Portal | 肿瘤基因组学数据下载 2 |
ICGC Data Portal | Main entry point for accessing PCAWG datasets |
UCSC Xena | 数据可视化 1 |
UCSC Xena | Visualizes all PCAWG primary results |
The Expression Atlas | 基因表达图谱 |
The Expression Atlas | RNA-sequencing and expression microarray data |
PCAWG Scout | 数据可视化 2 |
PCAWG Scout | A framework for omics workflow and website templating to generate on-demand, in-depth analyses of the PCAWG data |
Chromothripsis Explorer | 数据可视化 3 |
Chromothripsis Explorer | A portal that allows structural variation in the PCAWG dataset to be explored on an individual patient basis through the use of circos plots |
突变分类及定义
一、肿瘤基因组数据分析情况概述
a. 基因分析工具(DKFZ、Sanger、Mutect)分析单核苷酸变异(Single-nucleotide variant,SNV,参考SNP)的精准度和敏感度评分(F1,越高越好)
b. 基因分析工具分析插入、缺失变异(insertion and deletion,Indels)的F1
c. 核心算法(DKFZ、Sanger、Mutect、two_plus、Logistic regression)分析SNV的准确度
d. 核心算法分析Indels的准确度
可以看到逻辑回归(Logistic regression)的表现比较好
二、肿瘤突变概况
a. 突变包括
遗传突变(Germline mutation,与体细胞突变:Somatic mutation对应)
体细胞拷贝数目变异(Somatic copy number alteration,SCNA [包括:拷贝数增加;插入、缺失变异insertion and deletion,Indels])
基因重排(Gene rearrangement,GR)
非编码区点突变(Non-coding point mutations)
编码区点突变(Coding point mutations),后两者与单核苷酸多态性(Single nucleotide polymorphism,SNP)有关
91%的肿瘤与其中一种及以上的基因变异有关
b. 胶质瘤(GBM)相关变异基因
胶质瘤主要变异分类为抑癌基因的点突变及基因缺失、癌基因的扩增(MYC)、及基因融合(TERT)
TP53的编码区点突变及TP53基因缺失
CDKN2A的编码区点突变及CDKN2A基因缺失
CDKN2B的基因缺失
PTEN的编码区点突变及PTEN基因缺失
PIK3CA的编码区点突变
RB1的编码区点突变及RB1基因缺失
NF1(NF-κB相关基因)的编码区点突变及NF1基因缺失
PBRM1的编码区点突变及PBRM1基因缺失
ATM的编码区点突变及ATM基因缺失
MYC的基因扩增及点突变
TERT,端粒酶基因的基因融合
c. 常见的抑癌基因变异为
TP53等位基因 缺失变异/点突变
CDKN2A等位基因 缺失变异/缺失变异,缺失变异/点突变
CDKN2B等位基因 缺失变异/缺失变异
PTEN等位基因 缺失变异/缺失变异,缺失变异/点突变
PIK3CA -
RB1等位基因 缺失变异/缺失变异,缺失变异/点突变,缺失变异/基因重排
NF1等位基因 缺失变异/缺失变异,缺失变异/点突变,缺失变异/基因重排
PBRM1等位基因 缺失变异/点突变
ATM等位基因 缺失变异/点突变,缺失变异/点突变(遗传突变)
三、不含有(未检测到)突变的肿瘤概况
a. 当前样本中未发现GBM不存在突变的情况,但有3个髓母细胞瘤(Medulloblastoma and variants,Medullo)样本未发现基因突变
b. 检测无基因(各个肿瘤)突变的敏感度(SEN),检测Medullo无突变的SEN ≈ 1
c. 检测出TERT基因的SEN,检测出Medullo TERT基因的SEN分布在0~1
d. Medullo 1-22号染色体中显著性突变位于2、3、5、8、10、16、17号基因
q值统计学意义参考 错误发现率(FDR,false discovery rate)(https://baike.baidu.com/item/FDR/16312044?fr=aladdin)
e. 举例说明了肾脏嫌色细胞癌(chRCC)和胰腺内分泌肿瘤(Endocrine)全基因组中基因插入和缺失突变情况
四、集群突变(涉及染色体的大规模突变)概况
包括三种:相近位置出现大规模置换突变(Kataegis),复杂的基因重组(Chromoplexy),染色体碎裂(Chromothripsis)
a. GBM中约50%的Kataegis与APOBEC3蛋白介导的染色体结构变异(Structural variation,SV)有关;而Chromoplexy发生率较小(以染色体平衡易位,Balanced translocation为主);Chromothripsis发生率约70%,主要包括多染色体碎裂及基因扩增(Amplifications)为主
b. Kataegis发生的位点,基因置换移动距离和涉及的基因
c. Chromoplexy发生的位点,基因置换移动距离和涉及的基因
d. Chromothripsis时基因重排(获得/丢失)数(灰色曲线),基因扩增数(蓝色曲线)和纯合子丢失(Homozygously deleted)数(紫色曲线);以及23条上染色体基因断点距离
GBM相关基因:
TERT基因扩增 n = 22
EGFR基因扩增 n = 9
CDKN2A纯合子丢失 n = 15
RB1基因获得/丢失 n = 7
NF1基因扩增 n = 11
五、集群突变发生的时间和程度
a. 在GBM中发生率 Kataegis > Chromothripsis > Chromoplexy ; clonal和subclonal结构的比率相仿(这两个概念参考) ; Kataegis 和Chromothripsis在GBM发生的早期和晚期没有差异,而GBM早期会出现Chromoplexy
b. 三个黑色素瘤样本的5号染色体(蓝色竖线是TERT基因的位置)和11号染色体(CCND1)的例子:其中标明了染色体易位(黑色竖线),缺失突变(紫色弧线),重复突变(棕色弧线),尾对尾反转(青色弧线),头对头反转(绿色弧线);等位基因中突变基因所占比例(VAF)几乎都在50%左右
六、体细胞突变导致的遗传突变(遗传变异)概述
a. 最小等位基因频率>5%的遗传突变与体细胞APOBEC3B(载脂蛋白 B mRNA 编辑酶催化多肽,参考APOBEC3)的相关性(注意genome-wide significance 选取的P值小于5×10-8,而不是常规的5×10-2 = 0.05)
b. BRCA1基因相关的前列腺癌情况,轮状图自外向内分别是(1)染色体带(2)≤10 mb的染色体结构突变(SV)位置(3)拷贝数0-6的变化(4)>10 mb的染色体内(缺失、重复、倒位)、染色体间(易位)结构突变 ;右侧最下图显示发生在2号染色体上的2.2kb的串联重复(黄色箭头),合并了一段来自5号染色体的倒位易位(逆序插入)基因(蓝色箭头);其上方两行显示了基因断裂位点及位点附近的短序列
c. 低频遗传变异(最小等位基因频率<0.5%)与CpG突变的关系
d. 遗传突变所在染色体位点、类型
七、端粒酶序列(包括ATRX,DAXX,RB1,TERT)的概况
a. 端粒酶序列的聚类分析(圆形为正常组织,三角形为肿瘤组织),四分类方法可以显著的区分肿瘤和正常组织
b. 四分类在不同肿瘤中的分布,其中GBM以Cluster 4(约90%)为主,以及Cluster 2(约10%)
c. 四分类包括:
Cluster 1:以ATRX的结构突变,RB1的结构突变+基因缺失为主
Cluster 2:以ATRX的基因缺失,DAXX的基因缺失为主
Cluster 3:TERT单核苷酸突变
Cluster 4:以以ATRX的单核苷酸突变+结构突变,RB1的结构突变+基因缺失,TERT单核苷酸突变+结构突变为主
d. CNS-髓母细胞瘤以TERT基因启动子(promotor)点突变为主
附图 1、工作流程
附图 2、核心算法除DKFZ、Sanger、Mutect等,常用的还有逻辑回归、决策树、随机森林和SVM
附图 3、体细胞突变类型
CNS-GBM:单核苷酸突变SNV数量级在104,插入缺失突变在102 - 103,结构突变在10 - 100,倒位易位在1 - 10
附图四、驱动突变(driver mutations,参考驱动基因)概况
A. 总体看所有肿瘤均存在驱动突变,CNS-GBM 90%以上的病例存在驱动突变
B. 发现驱动突变的敏感性(SEN),CNS-GBM 的 SEN 约 100%
C. 髓母细胞瘤各亚型中SETD2(组蛋白甲基化转移酶)基因的四个亚型分布情况
附图五、集群突变(Kataegis,Chromothripsis,Chromoplexy)举例
A. 甲状腺癌Chromoplexy,2、7、8号染色体的断裂位点
B. 胰腺癌Kataegis,集群式的点突变
C. 黑色素瘤Chromothripsis,1号染色体易位、缺失、扩增、尾尾易位、头头易位突变
附图六、集群突变Kataegis的分类
附图七、总体样本集群突变Chromothripsis相关因素及相关驱动突变概况
附图八、单个样本集群突变Chromothripsis相关因素及相关驱动突变举例
附图九、续附图八
附图十、常见的遗传突变与体细胞与便联系概况
附图十一、少见的遗传突变与体细胞与便联系概况
附图十二、遗传突变MEI集概况
附图十三、端粒酶突变分类及概况
END
一、肿瘤全基因组分析概况(Pan-cancer analysis of whole genomes,PCAWG)相关推荐
- 四、肿瘤全基因组学体细胞点突变特征(The repertoire of mutational signatures in human cancer)
全文链接 一.肿瘤突变特征:碱基置换及插入.缺失突变 单碱基置换(49种特征类型,single-base-substitution,SBS) 双碱基置换(11种特征类型,doublet-base-su ...
- 关于司南导航全系概况模糊学习记录
备注:9月底了,上学期为了学习精确定位和司南823的再开发就对司南公司进行了系统的学习,上学期放假没写完,开学几天了再来做这篇笔记,没有之前的感觉,准确的说不够连贯,不像以往一个不懂问题牵绊着一个不懂 ...
- 2021.07.30【WGS/GWAS】丨全基因组分析全流程(上)
目录 摘要 命令行 总结 摘要 时隔半年,终于把WGS前面的分析用snakemake搭建好了.读者不要嫌我慢,确实是项目不多,流程也不算特别复杂.之前的shell脚本也能用,因此迟迟没有真正搭建.现在 ...
- Nat Commun | 利用机器学习准确分析FFPE样本的基因组学特征,解锁临床癌症样本的遗传密码...
导读 目前,世界各地的病理实验室对患者标本大多进行常规的福尔马林固定和石蜡包埋(Formalin Fixation and Paraffin Embedding, FFPE)处理.FFPE保留了组织形 ...
- TCGA肿瘤数据分析专题
欢迎关注"生信修炼手册"! 癌症作为人类健康的头号杀手,其研究的意义不言而喻.目前世界范围内已经有大量的肿瘤相关数据,鉴于公共数据库的数据挖掘成为一种趋势. GEO是一个国际化的开 ...
- 7分钟分析人类全基因组,他们刷新全球纪录,此前最快也要24小时
金磊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 7分钟,这是来自中国的一支团队"合力出成绩".一举打破的世界纪录: 全球首次将人类全基因组分析,推进分钟级时代. 这支团 ...
- 【图像超分辨率】RS Image SR Based on Visual Saliency Analysis
Remote-Sensing Image Superresolution Based on Visual Saliency Analysis and Unequal Reconstruction Ne ...
- PLOS_ONE_Genome-Wide Analysis of Long Noncoding RNA (lncRNA) Expression in Hepatoblastoma Tissues
PLOS_ONE文章复现 Genome-Wide Analysis of Long Noncoding RNA (lncRNA) Expression in Hepatoblastoma Tissue ...
- 易基因:全基因组CpG密度和DNA甲基化分析方法比较(MeDIP、RRBS和WGBS)| 研究综述
大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因. CpG密度(CpG density)与各种组织中的DNA甲基化相关.基因组按CpG密度分为:CpG岛(CpG island,CGI).C ...
- SNPassoc全基因组关联分析
WGassociation(SNPassoc) WGassociation()所属R语言包:SNPassoc Whole genome association analysis ...
最新文章
- 全栈工程师15年经验分享:40个改变编程技能的小技巧
- boost库 tbb_boost库常用库介绍
- 【Android 插件化】VirtualApp 源码分析 ( 启动应用源码分析 | HomePresenterImpl 启动应用方法 | VirtualCore 启动插件应用最终方法 )
- mvn 打包_Spark源码打包编译的过程
- 浙江省计算机二级aoa成绩,浙江省计算机二级AOAEXCEL函数列表
- BERT重计算:用22.5%的训练时间节省5倍的显存开销(附代码)
- html5应用开发大赛
- python编辑器是什么_python开发用什么编辑器
- bzoj 2257: [Jsoi2009]瓶子和燃料(裴蜀定理)
- oracle操作字符串:拼接、替换、截取、查找、长度、判断
- mac下cordova的ios-deploy安装问题
- mysql undo损坏_当数据库没有备份,redo或undo损坏
- 微信桌面版如何同时登陆两个微信账号
- SpringMVC在返回JSON数据时出现406错误解决方案
- 【Python】用matplotlib函数绘制股票趋势图
- BZOJ3034: Heaven Cow与God Bull
- 浏览器汇总、可信浏览器
- php将ts文件输出,使用DOS命令合并TS流文件
- 计算机64和32位的区别是什么意思,Windows7 32位和64位的区别是什么?
- input禁止光标_input 不可输入,且禁止光标显示的几种方案兼容iphone5(se)