临床外显子组测序分析中的那些坑(上)

4. Exome CNV分析:参考对照组

很早以前,人们就清楚WES还可以根据样本之间序列覆盖深度的差异来推断CNV。由于序列捕获和GC含量,单个目标的覆盖率偏差阻碍了外显子组之间覆盖深度的比较。从外显子组数据中检测CNV的大多数工具依赖于创建参考对照,以标准化每个区域的覆盖深度,并克服数据中的覆盖偏差。我们发现参考对照的大小和质量对CNV的质量有很大影响。具有少量样本或具有不同测序特征的样本混合的参考对照,将导致测序目标预期覆盖率的变异性增加(图1E)。

这将导致许多虚假的CNV,使解释更加困难。2016年,我们意外地在同一参考池中组合了使用两种不同方法比对reads的样本。出乎意料的是,这不仅导致了虚假的CNV被检出,还导致了大型CNV被错过,但在之前的CNV分析中已经检测到。目前,我们的CNV参考对照使用最新样本不断更新,以使测序化学和方案的变化导致的技术变化最小(图1F)。

除此之外,根据测序平台、富集平台、在X染色体上分析CNV的性别,还使用了几个独立的参考池。为了了解潜在的质量问题,我们在趋势分析中监控每个样本和测序批次的CNV呼叫数量,以及每个样本的标准化目标覆盖率的平均变异性。根据我们的经验,我们建议使用与捕获试剂盒、测序仪器和化学以及性别相匹配的CNV参考对照。

5. 注释:基因定义

虽然我们定期更新参考数据集,如人口频率、OMIM信息和HGMD/ClinVar分类,但我们最初没有定期更新我们的基因定义,天真地期望人类基因组中的所有基因和转录本都已被彻底绘制出来。基因定义是解释基因变异最基本的资源。有几种可用于基因定义的公开资源,例如RefSeq(由国家生物技术信息中心(NCBI)开发)和GENCODE,它们结合了HAVANA集团的手动注释和Ensembl的计算注释。

有点让我们惊讶的是,当我们将2017年GENCODE基本基因定义更新为更新版本时,我们遇到了几个最初被注释为非编码的变异,但其结果是在一个新注释的外显子中,从而可能完全改变解释,例如基因CCDC141(图1G)。

RefSeq和GENCODE仍有定期更新,这些更新会改变已知的基因定义,并对WES变异的解释产生深远影响。特别是对于WGS,使用更广泛的基因定义是值得的,因为变异是在全基因组范围内检测到的,并且不局限于WES的预定义区域。GENCODE的定期更新很好地说明了这些正在进行的改进。在过去的12个月中,基因编码被更新了四次,最新的基因编码V38版本,2021年5月更新包括超过2500个新的蛋白质编码转录本,以及与2020年1月版本V33相比的蛋白质编码基因列表中的几个修改(SUP.S2表)。所有注释的定期更新(例如每6个月更新一次),包括基因定义和现有样本的定期重新注释,可能会导致额外的诊断。

变异解释

除了数据分析之外,NGS的变异解释与传统做法有很大不同,并且对分子和临床遗传学家也带来了挑战。在这里,我们描述了在临床外显子组变异解释中遇到的问题和学到的经验教训,并用实际例子加以说明。这些经验教训暂时按重要性排序,从我们经验中最有价值的经验教训开始。在所有提供的示例中,变异最初是根据我们的标准协议进行解释的,如图2所示。我们注意到,在实践中,这些课程通常是组合使用的,我们提供的一些示例可能用于多个课程。

1.     肉眼检查数据

变异检测算法需要平衡灵敏度、特异性和性能,因此并不总能提供完美的结果。因此,肉眼检查序列比对数据(BAM/CRAM文件)以手动过滤假阳性位点是一种很好的做法。假阳性变异通常发生在同源性较高的区域,在检查序列比对数据时很容易看到。另一方面,变异尤其是插入/删除变异可能会被遗漏或不准确地检出。

在一名患有神经发育障碍的患者中,我们在基因CHD2(补充图S3)中发现了两种分别称为新发突变的基因(NM_001271.4:c.4592+37del和NM_001271.4:c.4592+38C>G)。这些变异中的每一个都被预测对剪接有良性或适度的影响,而这两个变异最初都被忽略了。然而,在检查校准数据后,这很明显地代表了一个单一的变量Chr15(GRCh37):g.93552590_93552591delinsG NM_001271.4:c.4592+37_4592+38delinsG,它引入了一个新的供体剪接位点,预计会导致部分内含子保留和过早无义突变。类似地,通过对比对数据的肉眼检查,我们发现GPSM2中的13碱基对杂合缺失实际上以纯合状态存在(图3A),并且是从该变异杂合的双亲遗传的。

尤其是在WES数据中检测到CNV的情况下,肉眼检查(归一化深度文件和BAM文件)至关重要。例如,MTMR2基因中的复制事件可以被识别为逆转录转座子,即拷贝DNA插入基因组,因为多个读取正好在外显子-内含子边界处结束(补充图S4)。

同样,肉眼检查在嵌合缺失、重复和单亲二倍体的情况下尤其重要,否则可能会错过。2015年,在一名患有多种先天性异常(左腭、异位肛门、小阴茎和短近端肢体)的患者中,通过外显子组测序无法发现任何遗传原因。然而,在2016年对同一数据进行CNV再分析后,我们发现了几个小拷贝数增益,其中只有少数在所要求基因面板的限制范围内可见。目视检查标准化覆盖范围  剖面图立即显示了12号染色体整个短臂的增益(补充图S5)。该患者最终被诊断为12号染色体短臂嵌合四倍体,这是帕利斯特-基利亚综合征(OMIM#601803)的病因。

数据的肉眼检查是变异解释的一个基本方面。有几种工具可以做到这一点,包括整合基因组学查看器(IGV)。然而,对数据的目视检查非常耗时,应仅限于错误调用可能性较高的变异。这类变异包括CNV、移码变异、等位基因比率偏离理想孟德尔比率(即不明显杂合或纯合)的变异,以及单个基因中的多个相邻变异。此外,应对实验室打算报告的所有变异进行目视检查。

2.除了非同义单核苷酸变异以外的变异很容易被遗漏。

外显子组测序最初旨在检测编码区和剪接位点内的单核苷酸或多核苷酸替换,或小的缺失和重复(~1-25 bp)。近年来,多项研究表明,在一定程度上,在外显子组测序数据中也可以检测到其他类型的变异。其中包括CNV、内含子变异、单亲二体性(UPD)、线粒体变异、重复扩增和移动元件插入。虽然与编码单核苷酸变异相比,所有这些都只能在相对较少的患者中解决病因,但这种特殊变异加在一起可以大大提高诊断率。

例如,对编码区和+/-20bp剪接位点区的常规WES分析不能诊断患有痉挛性偏瘫和关节紊乱的白质营养不良患者。作为Solve RD联盟全面再分析的一部分,发现CSF1R基因中的纯合已知致病性深内含子c.1969+115_1969+116del变体(补充图S6),导致CSF1R转录本中包含假外显子。虽然这个区域没有特定的捕获目标,但在这个位置,序列覆盖率足以称之为这个特定的变异。

对于临床诊断为Stargardt病的患者,WES对视力障碍面板基因的分析以及对Stargardt基因(ABCA4和ELOVL4)的特别关注并未获得分子诊断。针对单亲二体的再分析检测到该患者的1号染色体的父系同源二体(补充图S7)。随后对位于1号染色体上的ABCA4 Stargardt疾病基因进行Sanger测序,发现了一个纯合致病性深内含子变体(Chr1(GRCh37):g.94546780C>g NM_000350.2(ABCA4):c.859-506G>c),导致ABCA4转录本中相当一部分出现假外显子。

在一名患有额叶肥厚症、呼吸模式障碍和心动过速的死亡儿童中,进行了全外显子组分析。在PLAA基因中检测到两个罕见的纯合子变异,一种错义变异和一种同义变异。虽然最初我们关注的是错义变异,但在解释后它仍然是一个VUS。对于同义变异,剪接预测工具表明,它可能在该基因的第6外显子中创建一个替代剪接供体位点。由于患者的临床表型符合PLAA基因突变,因此需要对预测的剪接位点效应进行后续分析。对从携带者父母的淋巴母细胞生成的cDNA进行测序分析,确实证实了使用了替代剪接供体位点,导致突变等位基因编码的转录本中11个核苷酸的框外缺失(补充图S8)。这种变异不是“仅仅”是一种沉默的变异,而是导致该等位基因功能的丧失。

因此,我们建议考虑在临床上与患者表型相关的基因内的所有类型的变异,并在解释期间突出来自HGMD和ClinVar等数据库的所有类型的已知致病变异(即,独立于它们的位置或频率)。

3.当其中一个“隐藏”时,复合杂合子变异很容易丢失。

我们发现,在许多预期隐性遗传的情况下,我们最初只能识别隐性疾病基因中的一个杂合(致病)变异,如果存在第二个致病变异,这将是患者疾病的一个非常好的匹配基因。在这些情况下,第二种变异可能是不同类型的突变(见VI-2),可能不符合质量标准,或者似乎不太可能致病。例如,根据肌酸激酶(CK)水平升高和运动迟缓,在怀疑患有肌病的儿童中,使用标准筛选法检测到MICU1基因中的杂合功能缺失变异p(Lys440*)。仅在肉眼检查CNV数据后,检测到第二个CNV变异,即MICU1中的杂合双外显子缺失(图3B)。当时使用的CNV算法(CoNIFER)没有分析出该CNV,因为该算法的阈值是三个或更多外显子。

另一个例子是在四名患有运动障碍的无关个体中鉴定POLR3A基因的杂合功能缺失突变。虽然最初这些患者没有得到诊断,但经过检查,我们在所有四名患者中发现了一个额外的内含子变异(NM_007055.4:c.1909+22G>A)。这种变异的效果尚不确定,因为据预测它可以增强隐匿的供体剪接位点,同时保持原始供体剪接位点完好无损。该突变后来被证明是一种常见的亚型变异(即导致更温和的POLR3A表型),导致19个碱基对以组织和发育阶段特有的方式保留。

这些例子表明,当在隐性疾病基因中检测到一个杂合子变异(这可能是对患者表型的一个很好的解释)时,应该激发人们采取额外的努力来识别第二个变异。

译者介绍

边疆 男 2010年毕业于中山大学妇产科生殖内分泌专业,获博士学位。专业方向:女性生殖力保存、环境生殖毒理学。从事妇科内分泌疾病和女性生殖内分泌临床20余年

往期精品(点击图片直达文字对应教程)

机器学习

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

临床外显子组测序分析中的那些坑(中)相关推荐

  1. 临床外显子组测序分析中的那些坑(下)

    临床外显子组测序分析中的那些坑(上) 临床外显子组测序分析中的那些坑(中) 4.还记得嵌合吗 二代测序数据分析中已经提到的另一个挑战是嵌合SNV和CNV的出现.嵌合SNV已被证明与许多疾病相关.事实上 ...

  2. 临床外显子组测序分析中的那些坑(上)

    大规模并行测序技术或下一代测序已成为基因诊断和研究的标准技术,尤其是外显子组和基因组测序现在已经在世界范围内广泛应用于患者的分子诊断.在过去几年中,许多实验室都在努力应对基于全新技术建立基因检测工作流 ...

  3. 临床必备 | 第 5 期全基因组/外显子组家系分析理论和实战

    福利公告:前4期<临床基因组学数据分析实战>线上/线下课程已圆满结束.现于2022年4月22-24,安排第五期课程在北京.(线上课是通过腾讯会议实时直播线下课,实时互动,并录制有视频回放, ...

  4. 本周开课 | 第 5 期全基因组/外显子组家系分析理论和实战

    福利公告:前4期<临床基因组学数据分析实战>线上/线下课程已圆满结束.现于2022年4月22-24,安排第五期课程在北京.(线上课是通过腾讯会议实时直播线下课,实时互动,并录制有视频回放, ...

  5. 先天性异常或智力残疾儿童患者的外显子组和基因组测序:美国医学遗传学与基因组学学院循证临床指南...

    背景介绍 先天性异常(CA).发育迟缓(DD)和智力残疾(ID)是儿科人群中最常见的遗传转诊指征,它们包括了一组可影响儿童身体.学习或行为功能的异质性疾病.根据全球疾病负荷.伤害和风险因素研究,与19 ...

  6. 易基因|3文聚焦:宏病毒组测序在肠病中的应用研究

    大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因.本期我们通过3篇高分文章来解读宏病毒组测序在肠病中的应用研究. 01 小鼠结肠炎研究揭示噬菌体在疾病发生中的作用 标题:Murine co ...

  7. NC:自体免疫水泡皮肤病中鉴定基因与微生物组互作(微生物组关联分析MWAS)

    之前我们平台分享过<Nature:宏基因组关联分析>综述,让大家系统的了解这一领域.同时还分享过一篇 <GigaScience:谷子产量与微生物组关联分析>是植物领域中的优秀工 ...

  8. 文献记录(part79)--光学影像序列中基于多视角聚类的群组行为分析

    学习笔记,仅供参考,有错必纠 光学影像序列中基于多视角聚类的群组行为分析 摘要 群组行为分析是光学影像序列分析中的一项重要课题, 在近年来引起了人工智能领域研究人员的广泛关注. 与行人个体相比, 群组 ...

  9. 一文搞定细菌基因组De Novo测序分析

    本文转自基因的生物信息学分析,链接 https://mp.weixin.qq.com/s/xWOlv5WVJ7LwTuRQDXmGzg 以一个细菌的测序数据为例子,介绍细菌基因组测序分析流程.本次实验 ...

最新文章

  1. poj12月其他题解(未完)
  2. 让用户更改自己的帐号
  3. SQL Server 2008 R2 系统配置检查器的检查参数和妨碍性问题的解决办法
  4. tinyhttp源码阅读(注释)
  5. 在加拿大读大学被开除了,以后该怎么办?
  6. android文件管理器--界面效果二(layout)
  7. 计算机类专业综合理论模拟试卷4,计算机类专业理论综合考试试题
  8. mysql pgsql 语法_PostgreSQL ALIAS语法
  9. Nginx https configuration backed Certbot
  10. bzoj3207花神的嘲讽计划Ⅰ
  11. 微软私有云2012软件发布
  12. crm系统哪家公司做的最好?企业如何选择crm供应商
  13. xss靶场练习之xss.haozi.me解析及答案
  14. 直播报名 | 海外社交媒体趋势如何?出海品牌如何掌握消费者洞察?
  15. 男孩子读博士的十大好处
  16. 如何设计游戏中道具功能(一)
  17. 自定义View 实现圆形seekbar (音量旋钮)
  18. 全球十大公司物联网战略,一个万物智能的世界即将到来
  19. LoRa节点如何以OTAA方式入网TTN服务器?
  20. ubuntu下使用vscode开发golang程序,从控制台到简单web程序

热门文章

  1. 作者:唐碧霞(1984-),女,中国科学院北京基因组研究所生命与健康大数据中心工程师...
  2. 洛谷P4831 Scarlet loves WenHuaKe
  3. mysql常用函数参考
  4. ArcGIS之通过Model Builder执行地理处理
  5. 03Linux用户和组及权限
  6. Android项目中,在一个数据库里建立多张表
  7. 一步一步教你使用AgileEAS.NET基础类库进行应用开发-WinForm应用篇-演示使用报表构建UI-入库业务查询模块...
  8. Exchange2010应用地址列表
  9. 社会工程学***的八种常用方法
  10. 如何去除字符串中的 “\n“ ?80% 的同学错了!