临床外显子组测序分析中的那些坑(上)

临床外显子组测序分析中的那些坑(中)

4.还记得嵌合吗

二代测序数据分析中已经提到的另一个挑战是嵌合SNV和CNV的出现。嵌合SNV已被证明与许多疾病相关。事实上,在癫痫相关神经发育障碍患者中检测到约3.5%的变异以嵌合形式存在。去除测序和分析假阳性位点的一种常见做法是排除变异突变丰度(VAF)低于预期的变异。然而,这种过滤也会去除嵌合SNV。例如,在怀孕33周的胎儿中,最初的筛选将PIK3CA中的一个嵌合(约16%)变异作为假阳性被过滤,这种致病变异(Chr3(GRCh37):g.178916854G>A NM_006218.4:c.241G>A p(Glu81Lys))导致心血管系统形态异常,这可以很好地解释胎儿的超声异常。通过靶向深度测序证实了该变异为嵌合,揭示了胎儿中约30%的突变丰度比例,而父母正常。

另一个挑战是,在未受影响的父母中,致病性变异也以嵌合状态存在,在进行trio分析时,主要关注显性基因中新发突变的检测。因此,在未受影响(嵌合)的父母身上发生的变异在孩子身上不会被标记为新发。因此,仅在寻找新发突变时,不会检测到从嵌合亲本遗传的变异。

图3C

例如,我们最初错过了一个无义突变

TCF4 Chr18:g.53017619G>ANM_001083962.1:c.520C>TP(Arg174*),在筛选新发突变时,因为母亲9%的reads也含有这种变异(图3C)。理想情况下,在进行新发突变分析时,应将此类变异作为一个单独的类别进行检测。或者,由于携带者父母的嵌合体水平较低,遗传变异可能被误解为偶发,从而错误地估计父母的复发风险。总的来说,嵌合变异并不罕见。据估计,与常染色体显性、常染色体隐性和X连锁疾病相关基因中的嵌合变异发生在3.3%的个体中,而亲本嵌合变异据估计高达17.5%。无论何时考虑与患者表型相关的潜在致病性变异,也值得考虑患者或父母嵌合性的可能性。

5染色体考虑

如前所述,WES最初的目的是检测SNV(见DA-2),尽管可以从WES数据分析CNV,但在解释变异时,务必记住WES的局限性。例如,基于测序深度算法不检测非整倍体,因为它将每个染色体的目标覆盖率标准化。我们最初错过了一例异二体X克氏综合征(XXY),因为当时我们实验室使用的唯一CNV分析工具没有检测出来。因为这是两条完全相同的X染色体,所以X染色体上到处都是纯合性(ROH)区域,正如你在未受影响的男性身上所预期的那样。这种异二聚体X Klinefelter是通过QF-PCR分析,但可以通过查看WES数据中的Y/X覆盖率更快地检测到。

WES中一个相对常见的拷贝数发现是检测到一条染色体上的末端重复与另一条染色体上的末端缺失相一致。这种结合是不平衡易位的明确指示,应进行常规核型分析。一个类似的事件,在一名患有严重智力残疾、发育迟缓、言语和语言缺失、肌张力减退和反流的患者中发现染色体22q13.3上的一个约265 kb末端缺失。因为22号染色体是一条近端着丝粒染色体,所以在这条染色体的短臂上没有检出。同一条染色体的长臂和短臂上的这种末端缺失表明存在环状染色体。后续的核型分析显示,这确实是一个新的环状22号染色体(补充图S9)。区分环状染色体与“常规”末端畸变是至关重要的,因为有丝分裂期间的不稳定性是环状染色体的一个众所周知特征。

随后的继发性畸变,如缺失区域的扩大,甚至受影响染色体的单体性,可能会对受影响个体产生相关的临床后果。对于22号染色体,这种风险与2型神经纤维瘤病(NF2;OMIM#607379)有关,强烈建议随后对这些患者进行NF2特征的终身常规筛查。

另一个例子是来自智力障碍和癫痫患者的WES数据发现在15q11.1q13.1上识别出约8.4 Mb的终端重复。仅基于WES数据,尚不清楚这种重复是由间质复制还是由额外的数字标记染色体引起的。在后续的核型分析中,这一事件被证明是一条等双着丝粒标记染色体(q13.1)(图3D),因此实际上是q11q13.1地区的四倍。这是一个与临床相关的发现,因为四体15q会引起许多非特异性特征,包括智力残疾、行为障碍、共济失调和癫痫(Finucane et al.,1993)。

这些例子表明,也有必要具备细胞遗传学专业知识来解释WES。从微阵列数据中解释拷贝数变异的现有指南可以为来自外显子测序数据的CNVs的解释和后续随访提供指导。

图3D

6. 真正的致病变异可能在人群数据库中普遍存在

过滤常见变异是外显子组数据筛选的一个重要步骤,公开可用的数据库,如gnomAD,提供来自大群体队列的聚合变异信息具有很大的帮助,这种筛选的常用阈值消除了所有等位基因频率>1%或基于疾病频率和遗传模式的数据。当应用这种等位基因频率过滤时,有很多原因导致临床相关变异可能被错误地丢弃。

在一名智障患者中,我们检测到DNMT3A中的错义变异(c.2204A>G,p.(Tyr735Cys);NM_022552.5)。然而,在GnomAD数据库中,这种变异也发生在11个人身上,因此最初被认为可能是良性的。几项研究现已指出,由于克隆性造血作用,健康个体体内可能会出现特定的变异,因此,这些(体细胞)变异在对照数据库中出现的频率相对较高,可以通过在老年人中过度表达(图3E)和低变异等位基因分数来识别。标记这些与克隆造血有关的基因很有用。当有疑问时,对替代组织进行有针对性的突变分析有助于区分体质变异和体细胞变异。

图3E

看似常见的致病性变异也可能是由于多聚体拉伸所致。基因中的多聚体延伸是容易发生聚合酶滑移的区域,可导致许多核苷酸的插入或缺失。这些变异可能以假阳性的形式出现在对照数据库中,但也可能是正在分析的测序数据中真正的致病变异。一个有趣的例子是从PRRT2基因(NM_145239.3:c.641_649)中九个核苷酸的均聚体片段中删除或复制单个胞嘧啶(补充图S10)。随后的c.649del和c.649dup(RS5877771)变异出现在gnomAD数据库中,等位基因频率分别为0.96%和0.47%。这些高频变异最初我们不认为这些变异是可能的致病变异。然而,这两种变异都被认为是致病性的,因为它们会导致PRRT2基因的移码,单倍体不足会导致癫痫、发作性运动诱发性运动障碍或两者兼而有之。

PRRT2相关疾病的外显率估计为60%或更高,这表明公共数据库中均聚物变化的高等位基因频率可能是由于测序误差。事实上,gnomAD中有限的比对数据显示,在某些区域,突变等位基因的分布不均。因此,在报告之前,如果与病例相关,则必须通过另一项测试确认此类变异。虽然使用频率数据库过滤变异是一种有用的方法,但它并不完美。同样,我们建议在数据解释过程中纳入强调已知致病性变异的保障措施,以避免遗漏更高人群频率的变异(GeneRanger软件已增加exception variant功能,防止高频变异被遗漏)。

7.独特的临床特征可能推动正确的诊断

数据分析有时可能会根据质量标准丢弃潜在的变异。在特定情况下,临床表型可以帮助区分变异的优先级,而无需额外的筛选步骤,甚至可以建议对特定基因进行详细分析。仅在肉眼检查测序数据后,才发现PHOX2B基因中的新发18bp重复事件,这是由新生儿先天性中枢性换气不足综合征的独特表型引起的。该变异未被分析出,可能是由于该区域富含GC的重复序列中的测序读数对齐不良(图3F)。解释也是一个挑战,因为该区域在脊椎动物中并不保守(许多脊椎动物缺乏丙氨酸重复序列的重复拉伸编码),而且在gnomAD中存在许多重叠的缺失和重复事件。然而,这种位置的重复事件是中枢性换气不足综合征的复发原因。

图3F

另一个明显的临床表型可能有助于识别高频率的亚型等位基因的例子(另见VI-6)。我们对一个超声异常的胎儿进行了产前外显子组分析(眼球突出、小下巴、鼻前厚度、下肢内收),我们最初只检测到来自父亲的1q21.1缺失,胎儿表型与血小板减少性桡骨缺失(TAR)综合征的可能临床诊断相匹配。该综合征通常由1q21.1中的复发性微缺失引起,与位于-21的5'-UTR亚型变异结合,该亚型变异在gnomAD数据库中的等位基因频率>2%。放松频率过滤后,位置-21处的变异确实出现了,并且起源于母体。

这些例子表明,患者的表型可能非常明确地指向单个基因或少量基因。不仅要注意那些可能未被call出的基因中的变异,还要注意其他不太可能的变异,例如可能影响剪接的沉默或深度内含子变异(另见VI-2)。因此,有专门的专家来解释特定疾病组的临床外显子组测序数据是有益的,因为这允许在他们的专业领域内更深入地了解基因病因、非典型变异类型或基因型-表型相关性。然而,获得正确诊断的能力将始终取决于完整临床表型信息的可用性,最好是标准化格式。

8.表型信息可能具有误导性

虽然表型信息对于正确的基因检测至关重要,但它也可能通过选择基因靶向检测阻碍基因诊断。随着基因实验室引入NGS技术(如WES和WGS),转诊临床医生的诊断策略从表型优先转变为基因型优先。我们可以清楚地看到,通过或多或少的无偏测序分析,已知疾病基因中的致病性变异也可以根据基因变异的位置或类型导致非常不同的临床表型。

在一名患有新生儿张力过低、喂养问题、肌阵挛运动、眼阵挛、额叶隆起和棒状足的两岁儿童中检测到IL11RA基因的复合杂合致病性变异,并怀疑存在线粒体疾病。然而,IL11RA基因与“伴有牙齿异常的颅缝骨病”(OMIM#614188)有关。在这种罕见的疾病中,没有出现张力过低或运动障碍。根据这一发现,CT扫描显示该儿童和一名3岁的兄弟姐妹的缝合线早期闭合。该同胞随后也被证明是IL11RA变异的复合杂合子。因此,额叶隆起,以及可能的clubfeet,是颅缝骨病的早期指标,而神经系统特征可能由IL11RA变异解释,也可能不由IL11RA变异解释。

这种表型异质性当然不是什么新鲜事,但NGS的实施已经产生了许多最新的例子,例如致病性SRCAP和CREBBP变异分别导致Floating Harbor(OMIM#136140)和Rubinstein-Taybi(OMIM#613684)综合征。这些基因中的变异也被描述为导致一个单独的综合征实体,具体取决于新发功能丧失变异的位置。疾病进展、不完整的临床评估或表型异质性最初可能具有误导性。当检测到明显的致病性变异时,不应太简单将其视为“与表型不兼容”。

9.非孟德尔遗传

WES数据分析和解释的大多数标准过滤策略都基于经典的孟德尔遗传模式。虽然不完全外显率在遗传疾病中显然不是一种新现象,但它确实对从NGS数据中有效过滤大量变异构成了挑战。尤其是在处理患者(健康)父母三人组数据时,变异筛选可能会导致显性基因中的遗传杂合变异被排除,或父系起源的女性或X连锁隐性基因中杂合X连锁变异被拒绝。

对一名患有严重智力残疾、自闭症和癫痫症的年轻女性进行基于三人组的WES分析最初没有得到诊断。在与转诊临床医生讨论这一结果时,提到了PCDH19基因变异的可能性。PCDH19导致女性限制性X连锁障碍的癫痫性脑病-9(OMIM#300088)。对数据有针对性的检查确实揭示了PCDH19基因中的父系遗传致病性变异(ChrX(GRCh37):g.99662889G>a NM_001184880.1:c.707C>T p.Pro236Leu)。这种错义突变最初是由于健康的半合子父亲遗传,因此,我们应该意识到杂合子PCDH19变异很可能是从未受影响的半合子父亲那里遗传来的。

另一组具有挑战性的基因是那些具有亲本印记的基因,因此它们的表达取决于传递等位基因的亲本性别。目前已知大约有15种由印记位点引起描述良好的疾病,但除此之外,已知或预测有数百个基因会受到基因组印记的影响  (https://www.geneimprint.com/site/home)。在一名患有多种先天性异常的患者中,我们在IGF2基因中检测到一种新的移码变异,已知该变异存在印记,并且仅在父系等位基因上表达。由于无法从该患者的WES数据中提取基因组定相信息,我们无法确定IGF2变异存在于哪个等位基因上。

使用位于移码变体上游3.5 kb处的信息性SNP(rs368743181)结合基因组分阶段长读测序可以确认这种突变确实发生在父系等位基因上,因此可以被认为是致病的。如果这种变异不是新发突变,而是从健康的父母那里遗传下来的,那么识别这种变异将更具挑战性。

在这里,检测到每500-2000个体中就有1个发生单亲二体事件也很重要。在UPD的情况下,两条染色体都是从同一亲本遗传的,印迹基因的变异可能是疾病的原因(上海寻因提供trio WES分析UPD软件)。用已知疾病机制的信息注释基因对于解释WES数据非常有用。

10.注意异构体、假基因和基因拷贝

长期以来,我们对基因调控的概念一直被简化为单一启动子驱动基因转录,然后剪接前mRNA,删除所有内含子。如今,我们知道基因表达是以时间-组织-或发育阶段依赖的方式控制的。例如,剪接异构体可能缺少一个或多个外显子(自然外显子跳跃),具有额外的相关外显子,具有不同的翻译起始位点,或者基因可能具有多个启动子,导致不同异构体的出现。困难在于考虑哪种亚型与疾病有关,如何评估存在于仅一个子亚型中的变异,或者如果在不同亚型之间的阅读框不同,如何确保不丢失相关的“注释”。

例如,我们在一名发作性共济失调患者中确定了CACNA1A基因的Chr19(GRCh37):g.1333957G>变异。在五分之一的CACNA1A亚型中,这种变异是无义变异,NM_001127221.1:c.5569C>T.pArg1857*),而在其他四个中为内含子(补充图S11)。参与脊髓小脑性共济失调6型(OMIM#183086)的polyQ扩展由另外两种CACNA1A亚型(NM_001127222.2和NM_023035.3)编码,表明这两种亚型对正常的小脑功能至关重要。因此,事实上,无义变异仅存在于不编码多聚核糖核酸的亚型中,因此最初使我们认为这种变异可能是良性的。然而,Graves等人表明,该亚型使用了一个替代的外显子37A,而不是原始的外显子37B,并且该亚型中的无义变异会导致偶发性共济失调(OMIM#108500)。

或者因为整个亚型是多余的,因此亚型特异性变异可能表现为致病性或可能是良性的。最后,由于外显子跳过,一些异构体的阅读框架部分不同,因此很难正确注释其中的变异。对于在不同亚型中具有不同效果的变异,通常可以获得所有后果,但为了方便起见,最严重的后果是优先考虑的(例如,终止密码子丢失而非错义)。然而,这可能会对一些疾病产生影响,比如努南综合征,这些疾病具有功能获得或显性负效应机制,其中错义变异是致病性的,而无义变异不是。总的来说,重要的是确保在多个异构体中调用和注释变异,然后进行正确解释,以避免遗漏相关变异。

此外,基因拷贝和假基因在WES中造成了严重的问题,因为短序列读取的序列比对不明确,并且随后在这些区域中缺乏变异检出。出名的是完整疾病基因的拷贝,如SMN1、CYP21A2、PKD1、STRC或部分基因,如NEB基因内8个外显子的同源区。然而,其他变异可能会被call并显示异常的变异等位基因部分,即纯合子或杂合子中非常低的百分比时为杂合子,或者代表伪基因的假阳性调用,正如我们在STRC基因中发现的无义变异(补充图S12)。在基于现有资源的解释过程中,应该让人意识到这些基因,并使用独立技术验证这些变异的存在和合子性(如果已识别)。针对这一点,已经提出了不同的实验室方法,如基于NGS的拷贝数评估,辅以长程PCR碱基Sanger或MiSeq分析。此外,可以简单地从分析中排除片段重复。由于假基因的存在,如果基于患者表型检测已知致病性突变可能很困难,那么也应该以有针对性的方式对患者进行检测。

讨论

在这里,本文提供了10多年来从临床外显子组测序中获得的一些最重要的经验教训。作为一个诊断实验室对于质量和稳健性的关注并不鼓励持续的变化。但在这个快速发展的领域,跟上时代和创新已经成为一个必不可少的过程。通过提供我们在诊断工作流程开发过程中所犯错误的例子,我们希望我们不仅能够让人们意识到这些具体问题,而且能够让人们意识到诊断实验室中确实存在错误。对于患者和推荐临床医生了解临床外显子组测序的局限性至关重要。这些限制最好在诊断报告中提及。尽管所犯的一些错误要求我们用正确的诊断重新联系患者,但我们认为这在一定程度上是不可避免的,对犯错误的恐惧不应妨碍创新和改进,因为从长远来看,这对患者护理的危害比偶然的错误更大。

因此,重要的是要有一个全面的框架,以便在测序、数据分析和解释层面及时发现错误和问题。通过提供基准数据集,以及促进实验室之间的比较,有几项举措可以在这方面帮助实验室。从这些例子中观察到的一个有趣现象是,测序过程中出现的问题有时不是测序实验室自己发现的,而是分析数据的生物信息学家发现的。类似地,分子遗传学家在数据解释过程中经常会发现数据处理中的错误。因此,在参与临床外显子组测序过程的不同部分(即测序设施、生物信息学和数据解释)的成员之间建立常规反馈程序至关重要。

虽然这些例子似乎是非常罕见的例外,不太可能与日常病例有太大关联,但我们认为这些“例外”与罕见的遗传疾病相似,这些疾病可能个别罕见,但总体上相当常见。当然,在执行常规EXOME解释时,尽可能多地考虑所有罕见可能性所需的时间并不总是可行的。因此,应逐步优化数据分析、注释和程序,以增加此类临床相关基因变异的自动提取。类似地,验证、设置和执行WES的多种可能分析,如检测UPD、线粒体变异、重复扩增、,移动元件插入等。数据共享和再分析工作,可能会证明是有益的;并且可以利用大量样本进行分析,虽然这些分析不太可能诊断任何单个样本,但在一个大队列中将识别少数病例。

我们在这里提出的错误可能不会是我们最后的错误。从长远来看,我们努力从错误中学习,以改进诊断方法,我们希望其他人也能从我们的错误中学习。

译者介绍

边疆 男 2010年毕业于中山大学妇产科生殖内分泌专业,获博士学位。专业方向:女性生殖力保存、环境生殖毒理学。从事妇科内分泌疾病和女性生殖内分泌临床20余年

往期精品(点击图片直达文字对应教程)

机器学习

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

临床外显子组测序分析中的那些坑(下)相关推荐

  1. 临床外显子组测序分析中的那些坑(中)

    临床外显子组测序分析中的那些坑(上) 4. Exome CNV分析:参考对照组 很早以前,人们就清楚WES还可以根据样本之间序列覆盖深度的差异来推断CNV.由于序列捕获和GC含量,单个目标的覆盖率偏差 ...

  2. 临床外显子组测序分析中的那些坑(上)

    大规模并行测序技术或下一代测序已成为基因诊断和研究的标准技术,尤其是外显子组和基因组测序现在已经在世界范围内广泛应用于患者的分子诊断.在过去几年中,许多实验室都在努力应对基于全新技术建立基因检测工作流 ...

  3. 临床必备 | 第 5 期全基因组/外显子组家系分析理论和实战

    福利公告:前4期<临床基因组学数据分析实战>线上/线下课程已圆满结束.现于2022年4月22-24,安排第五期课程在北京.(线上课是通过腾讯会议实时直播线下课,实时互动,并录制有视频回放, ...

  4. 本周开课 | 第 5 期全基因组/外显子组家系分析理论和实战

    福利公告:前4期<临床基因组学数据分析实战>线上/线下课程已圆满结束.现于2022年4月22-24,安排第五期课程在北京.(线上课是通过腾讯会议实时直播线下课,实时互动,并录制有视频回放, ...

  5. [转载]转录组测序分析中cufflinks的使用及问题

    在转录组高通量测序数据分析过程中,主要就是转录本的构建(拼接)及表达水平的衡量,其次还包括可变剪接之类的转录后修饰等研究分析.因此,做过RNA-seq转录组测序数据分析的童鞋们一定使用过或至少听说过C ...

  6. 先天性异常或智力残疾儿童患者的外显子组和基因组测序:美国医学遗传学与基因组学学院循证临床指南...

    背景介绍 先天性异常(CA).发育迟缓(DD)和智力残疾(ID)是儿科人群中最常见的遗传转诊指征,它们包括了一组可影响儿童身体.学习或行为功能的异质性疾病.根据全球疾病负荷.伤害和风险因素研究,与19 ...

  7. 易基因|3文聚焦:宏病毒组测序在肠病中的应用研究

    大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因.本期我们通过3篇高分文章来解读宏病毒组测序在肠病中的应用研究. 01 小鼠结肠炎研究揭示噬菌体在疾病发生中的作用 标题:Murine co ...

  8. 单细胞测序分析之小技巧之for循环批量处理数据和出图

    "harmony"整合不同平台的单细胞数据之旅生物信息学习的正确姿势 NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChI ...

  9. 第9期 | 家系、肿瘤临床基因组/外显子组数据分析实战

    福利公告:前 78期<临床基因组/外显组数据分析实战>线上/线下课程已圆满结束.现于2023年1月6~8日,在北京安排第七期课程. 线上课是通过腾讯会议实时直播线下课,实时互动,并录制有视 ...

最新文章

  1. css3媒体查询实现网站响应式布局
  2. JAVA就业指导(转)
  3. NumberOf1Bits(leetcode191)
  4. 作为大数据和云计算学习的一个序吧
  5. 计算机视觉之OpenCV教程 ---Mat类基础(一)
  6. 【转】PF_RING开发指南
  7. active mq topic消费后删除_《我想进大厂》之MQ夺命连环11问
  8. c语言程序输出时有没有分号,问什么C程序里总是提示缺少分号;,而明明有分号?...
  9. rspec 测试页面元素_如何使用RSpec对Go应用进行黑盒测试
  10. [Python] L1-023. 输出GPLT-PAT团体程序设计天梯赛GPLT
  11. Ubuntu 10怎样在VMware中按装Vmware tool及如何全屏(转)
  12. 关于无盘工作站的初步了解(RPL/PXE)
  13. 软考论文-论软件系统架构评估
  14. 1-junos基本操作
  15. HTML5框架 iframe用法 实现嵌套 好玩用法
  16. dingo php,Laravel Lumen RESTFul API 扩展包:Dingo API(一) —— 安装配置篇
  17. 在win10里修改mysql的root密码
  18. VS2019离线安装包下载方法
  19. EXCEL中快速在下方插入空白行,并且与下方空白单元格合并
  20. web渗透之文件上传漏洞

热门文章

  1. 《大数据》编辑推荐 | 基于遥感大数据的信息提取技术综述
  2. “农业大数据”专题征文通知
  3. 【2017年第4期】大数据平台的基础能力和性能测试
  4. 作者:曾春秋,男,美国佛罗里达国际大学计算机科学博士生,南京邮电大学计算机学院大数据项目组成员。...
  5. 不连续字符的串计数(洛谷P4439题题解,Java语言描述)
  6. Mysql数据库的简单介绍
  7. selenium:断言
  8. Npm基本指令(转)
  9. 《SolidWorks 2013中文版机械设计从入门到精通》一2.6 几何关系
  10. Swift3.0 键盘高度监听获取