Sentieon软件应用之浅层测序分析

近日，Sentieon与中国遗传疾病诊断领导者安吉康尔积极合作，共同开发测试了基于Sentieon机器学习变异检测模块DNAscope的“浅”测序模型，并探索了该模型在遗传病临床诊断领域的应用。结果显示，使用这一模型分析，在不降低变异检测准确度的前提下，能在相同测序通量下增加50%以上的样本数量，在测序与分析两方面同时为用户降低成本。

项目背景

自从NGS被应用在了全基因组和全外显子测序以来，测序深度的影响被广泛研究。测序深度是测序成本的决定因素，但另一方面过低的深度会导致部分区域的突变检测准确性大幅度下降，因此需要寻找到一个平衡点。

我们都知道，每一个检测到的变异都需要若干条reads的支持，低于一定的阈值则难以将真实突变与引入的错误区分开来。然而由于基因组中GC分布的不均匀，简单重复序列的存在，外显子靶向扩增效率差异等情况的存在，实际map在基因组上的reads的深度是非常不平均的。尤其是全外显子或者panel产生的数据数据，深度均一性比全基因组要更低，某些位点难以进行准确的突变检测。

从下图文献报道中我们可以看到，在全外显子的数据中，错误的突变主要来自于10x以内的低深度区域；相比之下全基因组数据的覆盖均一度较好，但是错误的突变同样来自于较低深度区域。

换言之，要想进一步提升变异检测的准确度，核心问题是提升低深度区域的准确度。

项目挑战

我们都知道， GATK最佳实践流程推荐的joint-calling是人群队列变异检测的重要工具。基于单个样本的变异检测往往产生难以避免的错误，包括由于覆盖度不足导致的假阴性，建库测序错误导致的假阳性，以及难以区分阴性位点和不确定（no-call）位点，这些都会导致最终人群变异频率计算的错误。相比之下，joint-calling利用群体的统计背景，有效矫正每个样本检出变异的置信度，从而提高检测的敏感性和特异性。这对发现和确认队列中罕见变异位点尤其重要。

但是，当全基因组数据规模上升到万人或十万人规模的时候，如何高效使用计算存储资源来快速准确分析大规模样本，不可避免成为了一个巨大的挑战。在应对挑战搭建数据分析流程的时候，我们应该始终关注以下四个因素：效率、精度、成本、灵活性。单个样本数据的分析处理虽然流程上相对简单，但是，在队列项目大样本量的背景下，如何保证分析精度，提高分析效率，降低整体分析成本，对项目的成本控制和完成进度都是至关重要的问题。在Joint-calling方面，虽然GATK有现成方案，但其运行效率较为低下，可扩展性也较差，每次仅能处理100个左右的样本，然后需要逐步一次次合并，这样会造成精度损失，而且效率低下，容易出错。队列项目需要新的高效的可扩展的joint-calling解决方案。

大型队列研究另一个特别需要关注的方面是流程和生信工具的标准化，以方便不同队列之间的数据交换、对比和交叉使用，避免重新处理。因此，数据分析流程的搭建和工具的选择至关重要，一定要符合业界公认的标准。MSSNG项目选择了CCDG (Centers for Common Disease Genomics) 发布的分析流程标准。CCDG流程规定了参考基因组版本，从FASTQ到CRAM文件的各步骤分析工具和参数选择，以产生功能等效 (functionally equivalent) 的变异检测结果，能被广泛应用于多个人群队列项目。

DNAscope流程

Sentieon的DNAscope流程相比于GATK金标准而言，改进了核心算法，拥有更加准确的局部重组装能力，能够大幅度提升SNP和Indel的检测灵敏度。同时，基于机器学习模型过滤器的DNAscope流程经过重训练之后，可以很好的适配包括华大测序仪在内的不同测序平台，在“SentieonDNAscope助力华大智造MGI测序仪提升变异检测准确性”一文中已有展示：在加速5-10倍的基础上，准确率显著优于GATK流程，并且在绝大部分样本中优于DeepVariant。DNAscope流程的原理类似于GATK流程，大体可以分为3个步骤，首先是上游处理，将FASTQ文件经过比对去重等步骤处理为BAM文件；接下来通过自研算法生成潜在变异列表，这一步利用了DNAscope的优异Haplotye拼接以及超高灵敏度，确保尽可能少的假阴性；最后在潜在变异上运行机器学习模型过滤器，根据训练生成的随机森林模型将假阳性从真阳性中区分出来，比GATK自带的简单统计模型更为精准。

在优异的基础性能之上，DNAscope还可以很方便的训练与搭载不同的机器学习模型文件，进一步强化针对特定数据类型的适应性。Sentieon与安吉康尔合作，利用HG001和HG005的标准品数据进行降采样之后补充已经使用的常规深度训练集，训练了最新版本的模型文件，提升了分析流程对于低深度数据的准确度。

测试设置

我们使用HG001/NA12878标准品在华大智造MGISEQ2000平台测序，生成了WGS和WES数据分别进行性能测试。WGS为普通PCR建库，WES为IDT v1全外显子探针捕获建库。两种数据各自做阶梯数据量切割，WGS截取16-49x范围内5个梯度，WES截取58-210x范围内7个梯度，随后每份数据分别使用DNAscope以及GATK进行SNV和Indel变异检测。其中，DNAscope使用上文所述的拓展适配低深度的机器学习模型文件(DNAscopeModelBGIBeta0.4.model)；GATK的结果我们使用DNAseq提供匹配数据（发表文章doi.org/10.3389/fgene.2019.00736表明DNAseq与GATK4.0结果一致）。变异一致性使用hap.py进行评估，真集为GIAB HG001 highconf v3.3.2，WGS的评估范围是真集给定区域，WES为该区域与目标捕获区域交集。

结果展示

如下图所示，在统计了SNP和Indel的假阳性（FP）与假阴性（FN）的数量之和，并且在每个深度进行对比之后，我们可以明显看出DNAscope在每个深度的错误数都远小于GATK。具体来看DNAscope在20x深度的准确度，SNP方面优于50x GATK，Indel方面与30x GATK基本持平，并且FN较低，更符合临床需求。综合起来，DNAscope在20x优于30x GATK结果。

同样的趋势在下图的全外显子标准数据中再一次得到了验证：DNAscope的准确度在不同测序深度都优于GATK，并且在60x的深度下SNP与Indel的准确度均优于GATK在200x的结果。

具体比对两组数据，我们可以发现全基因组数据中错误类型中的占绝大多数是FN，而DNAscope也确实大幅度降低了这部分的错误数量。由于全基因组的均一性较好，所以推测FN主要不是由于覆盖度不足导致，而是来自于基因编码区以外的高复杂度区域。DNAscope在这部分区域的准确度有较大的提升，所以减少了FN的数量。对比之下，全外显子数据中的错误主要类型是FP，DNAscope也同样降低了这部分错误。然而FN主要来自于WES覆盖度过低的区域。面对这种情况，在进一步降低深度之后，DNAscope也难以改善FN的错误。

在整体趋势以外，有两点值得注意：首先是DNAscope在超过100x高深度下的FN反而是高于GATK，这是由于DNAscope机器学习模型的训练集中不包括超过100x的训练数据，所以当前模型只适合于低于100x的数据处理，并不适合高深度的panel数据；第二是GATK Indel FP的数目随着深度上升在持续增长，并且增长速度大于FN的下降，造成整体准确率的下降。这反映了对于Indel的准确率来说测序深度不是一个关键因素。后续我们会对这两个发现以及其他问题做更深入的探索，在机器学习模型训练集中加入更多类型的样本数据，进一步拓展DNAscope模型的泛用性。

另外我们知道，NGS临床应用对于突变位点检测的准确度要求非常高。为了详细了解20x DNAscope的检测结果是否适用于这种高要求的临床场景，我们使用HG002作为标准品进行对比测试，并详细展开了基因组的各个特征区域，比对了在不同区域下DNAscope和GATK的错误结果所占比例。可以看出，无论是单看不同的染色体，还是不同CG%区域，20x DNAscope的准确率都基本与30x GATK数据持平，可以推断两者之间的差异没有明显偏向性。

结论

近年来，遗传疾病基因检测需求飞速增长，行业内对降低测序和分析成本，以及提高检测精度的需求也持续上升。作为回应，Sentieon与安吉康尔的研发团队积极合作，共同开发并验证了DNAscope“浅“测序流程方案。使用这个方案，在确保检测准确度的前提下，可以有效降低测序深度，相同数据产出情况下增加至少50%样品量，并且分析速度相比GATK提升了5-10倍，能够同时为客户节省测序成本和计算成本。本流程不含imputation步骤，经过验证后可适用于临床检测。

Sentieon软件下载：https://www.insvast.com/sentieon