近日,Sentieon与中国遗传疾病诊断领导者安吉康尔积极合作,共同开发测试了基于Sentieon机器学习变异检测模块DNAscope的“浅”测序模型,并探索了该模型在遗传病临床诊断领域的应用。结果显示,使用这一模型分析,在不降低变异检测准确度的前提下,能在相同测序通量下增加50%以上的样本数量,在测序与分析两方面同时为用户降低成本。

项目背景

自从NGS被应用在了全基因组和全外显子测序以来,测序深度的影响被广泛研究。测序深度是测序成本的决定因素,但另一方面过低的深度会导致部分区域的突变检测准确性大幅度下降,因此需要寻找到一个平衡点。

我们都知道,每一个检测到的变异都需要若干条reads的支持,低于一定的阈值则难以将真实突变与引入的错误区分开来。然而由于基因组中GC分布的不均匀,简单重复序列的存在,外显子靶向扩增效率差异等情况的存在,实际map在基因组上的reads的深度是非常不平均的。尤其是全外显子或者panel产生的数据数据,深度均一性比全基因组要更低,某些位点难以进行准确的突变检测。

从下图文献报道中我们可以看到,在全外显子的数据中,错误的突变主要来自于10x以内的低深度区域;相比之下全基因组数据的覆盖均一度较好,但是错误的突变同样来自于较低深度区域。

换言之,要想进一步提升变异检测的准确度,核心问题是提升低深度区域的准确度。

项目挑战

我们都知道, GATK最佳实践流程推荐的joint-calling是人群队列变异检测的重要工具。基于单个样本的变异检测往往产生难以避免的错误,包括由于覆盖度不足导致的假阴性,建库测序错误导致的假阳性,以及难以区分阴性位点和不确定(no-call)位点,这些都会导致最终人群变异频率计算的错误。相比之下,joint-calling利用群体的统计背景,有效矫正每个样本检出变异的置信度,从而提高检测的敏感性和特异性。这对发现和确认队列中罕见变异位点尤其重要。

但是,当全基因组数据规模上升到万人或十万人规模的时候,如何高效使用计算存储资源来快速准确分析大规模样本,不可避免成为了一个巨大的挑战。在应对挑战搭建数据分析流程的时候,我们应该始终关注以下四个因素:效率、精度、成本、灵活性。单个样本数据的分析处理虽然流程上相对简单,但是,在队列项目大样本量的背景下,如何保证分析精度,提高分析效率,降低整体分析成本,对项目的成本控制和完成进度都是至关重要的问题。在Joint-calling方面,虽然GATK有现成方案,但其运行效率较为低下,可扩展性也较差,每次仅能处理100个左右的样本,然后需要逐步一次次合并,这样会造成精度损失,而且效率低下,容易出错。队列项目需要新的高效的可扩展的joint-calling解决方案。

大型队列研究另一个特别需要关注的方面是流程和生信工具的标准化,以方便不同队列之间的数据交换、对比和交叉使用,避免重新处理。因此,数据分析流程的搭建和工具的选择至关重要,一定要符合业界公认的标准。MSSNG项目选择了CCDG (Centers for Common Disease Genomics) 发布的分析流程标准。CCDG流程规定了参考基因组版本,从FASTQ到CRAM文件的各步骤分析工具和参数选择,以产生功能等效 (functionally equivalent) 的变异检测结果,能被广泛应用于多个人群队列项目。

DNAscope流程

Sentieon的DNAscope流程相比于GATK金标准而言,改进了核心算法,拥有更加准确的局部重组装能力,能够大幅度提升SNP和Indel的检测灵敏度。同时,基于机器学习模型过滤器的DNAscope流程经过重训练之后,可以很好的适配包括华大测序仪在内的不同测序平台,在“SentieonDNAscope助力华大智造MGI测序仪提升变异检测准确性”一文中已有展示:在加速5-10倍的基础上,准确率显著优于GATK流程,并且在绝大部分样本中优于DeepVariant。DNAscope流程的原理类似于GATK流程,大体可以分为3个步骤,首先是上游处理,将FASTQ文件经过比对去重等步骤处理为BAM文件;接下来通过自研算法生成潜在变异列表,这一步利用了DNAscope的优异Haplotye拼接以及超高灵敏度,确保尽可能少的假阴性;最后在潜在变异上运行机器学习模型过滤器,根据训练生成的随机森林模型将假阳性从真阳性中区分出来,比GATK自带的简单统计模型更为精准。

在优异的基础性能之上,DNAscope还可以很方便的训练与搭载不同的机器学习模型文件,进一步强化针对特定数据类型的适应性。Sentieon与安吉康尔合作,利用HG001和HG005的标准品数据进行降采样之后补充已经使用的常规深度训练集,训练了最新版本的模型文件,提升了分析流程对于低深度数据的准确度。

测试设置

我们使用HG001/NA12878标准品在华大智造MGISEQ2000平台测序,生成了WGS和WES数据分别进行性能测试。WGS为普通PCR建库,WES为IDT v1全外显子探针捕获建库。两种数据各自做阶梯数据量切割,WGS截取16-49x范围内5个梯度,WES截取58-210x范围内7个梯度,随后每份数据分别使用DNAscope以及GATK进行SNV和Indel变异检测。其中,DNAscope使用上文所述的拓展适配低深度的机器学习模型文件(DNAscopeModelBGIBeta0.4.model);GATK的结果我们使用DNAseq提供匹配数据(发表文章doi.org/10.3389/fgene.2019.00736表明DNAseq与GATK4.0结果一致)。变异一致性使用hap.py进行评估,真集为GIAB HG001 highconf v3.3.2,WGS的评估范围是真集给定区域,WES为该区域与目标捕获区域交集。

结果展示

如下图所示,在统计了SNP和Indel的假阳性(FP)与假阴性(FN)的数量之和,并且在每个深度进行对比之后,我们可以明显看出DNAscope在每个深度的错误数都远小于GATK。具体来看DNAscope在20x深度的准确度,SNP方面优于50x GATK,Indel方面与30x GATK基本持平,并且FN较低,更符合临床需求。综合起来,DNAscope在20x优于30x GATK结果。

同样的趋势在下图的全外显子标准数据中再一次得到了验证:DNAscope的准确度在不同测序深度都优于GATK,并且在60x的深度下SNP与Indel的准确度均优于GATK在200x的结果。

具体比对两组数据,我们可以发现全基因组数据中错误类型中的占绝大多数是FN,而DNAscope也确实大幅度降低了这部分的错误数量。由于全基因组的均一性较好,所以推测FN主要不是由于覆盖度不足导致,而是来自于基因编码区以外的高复杂度区域。DNAscope在这部分区域的准确度有较大的提升,所以减少了FN的数量。对比之下,全外显子数据中的错误主要类型是FP,DNAscope也同样降低了这部分错误。然而FN主要来自于WES覆盖度过低的区域。面对这种情况,在进一步降低深度之后,DNAscope也难以改善FN的错误。

在整体趋势以外,有两点值得注意:首先是DNAscope在超过100x高深度下的FN反而是高于GATK,这是由于DNAscope机器学习模型的训练集中不包括超过100x的训练数据,所以当前模型只适合于低于100x的数据处理,并不适合高深度的panel数据;第二是GATK Indel FP的数目随着深度上升在持续增长,并且增长速度大于FN的下降,造成整体准确率的下降。这反映了对于Indel的准确率来说测序深度不是一个关键因素。后续我们会对这两个发现以及其他问题做更深入的探索,在机器学习模型训练集中加入更多类型的样本数据,进一步拓展DNAscope模型的泛用性。

另外我们知道,NGS临床应用对于突变位点检测的准确度要求非常高。为了详细了解20x DNAscope的检测结果是否适用于这种高要求的临床场景,我们使用HG002作为标准品进行对比测试,并详细展开了基因组的各个特征区域,比对了在不同区域下DNAscope和GATK的错误结果所占比例。可以看出,无论是单看不同的染色体,还是不同CG%区域,20x DNAscope的准确率都基本与30x GATK数据持平,可以推断两者之间的差异没有明显偏向性。

结论

近年来,遗传疾病基因检测需求飞速增长,行业内对降低测序和分析成本,以及提高检测精度的需求也持续上升。作为回应,Sentieon与安吉康尔的研发团队积极合作,共同开发并验证了DNAscope“浅“测序流程方案。使用这个方案,在确保检测准确度的前提下,可以有效降低测序深度,相同数据产出情况下增加至少50%样品量,并且分析速度相比GATK提升了5-10倍,能够同时为客户节省测序成本和计算成本。本流程不含imputation步骤,经过验证后可适用于临床检测。

Sentieon软件下载:https://www.insvast.com/sentieon

Sentieon软件应用之浅层测序分析相关推荐

  1. linux下微生物软件,微生物多样性专题 | 扩增子测序分析实战(三)软件安装

    上一篇我也想装个linux系统!讲到linux系统的安装,实则就是为了本期准备的,因为测序数据分析涉及的大部分软件都是基于linux的,目前还没有linux系统或者打算只在windows下用R去做一些 ...

  2. 【GATK加速】替换BWA/GATK/Mutect2,Sentieon软件 肿瘤体细胞突变检测分析指南-系列2(ctDNA及其他高深度测序样本)

    前言 本文介绍了两种体细胞变异检测pipeline: TNscope:使用Sentieon特有的算法,拥有更快的计算速度和更高的计算精度,对临床基因诊断样本尤其适用: TNhaplotyper2:匹配 ...

  3. 【NGS分析工具】Sentieon软件常见问题列表(持续更新...)

    Sentieon软件忠于BWA.GATK.MuTect.MuTect2.STAR.Minimap2金标准的数学模型,在保证结果完全匹配GATK/BWA金标准的前提下,分析效率提升10倍以上.Senti ...

  4. 浅层分析-shallow parsing

    Shallow parsing 又叫Chunking(分块)是介于词性标注和Constituency parsing 之间的一种浅层分析方法.用于识别文本中最小短语块,例如名词短语NP,动词短语VP以 ...

  5. Sentieon软件UMI单分子标记处理模块发布,大幅提升准确度和速度

    单分子标签技术(Unique Molecular Identifier, UMI)被广泛应用在极高灵敏度的NGS检测中,尤其是目前炙手可热的循环肿瘤DNA (ctDNA) 检测.ctDNA作为一种非侵 ...

  6. MPB:扬州大学王梦芝组-反刍动物瘤胃原虫18S rRNA测序分析技术

    为进一步提高<微生物组实验手册>稿件质量,本项目新增大众评审环节.文章在通过同行评审后,采用公众号推送方式分享全文,任何人均可在线提交修改意见.公众号格式显示略有问题,建议电脑端点击文末阅 ...

  7. 二代三代转录组测序分析实战班

    本文原创"生信宝典"公众号,作者陈同. 转录组大家都很熟悉了,我们之前也有几篇介绍: 转录组分析的正确姿势 39个转录组分析工具,120种组合评估(转录组分析工具哪家强-导读版) ...

  8. 表观调控高通量测序分析培训开课啦

    在广大粉丝的期待下,<生信宝典>联合<宏基因组>在2018年4月14日在北京鼓楼推出<ChIP系列高通量测序分析专题培训>,为大家提供一条走进生信大门的捷径.为同行 ...

  9. Android Hal层简要分析

    Android Hal层简要分析 Android Hal层(即 Hardware Abstraction Layer)是Google开发的Android系统里上层应用对底层硬件操作屏蔽的一个软件层次, ...

最新文章

  1. MyBatis框架概述
  2. 不盲目依赖人工智能,海信帮欧尚开了近 300 家无人便利店
  3. CentOS6.5上源码安装MongoDB3.2.1
  4. 【五校联考3day2】B
  5. 网页中嵌入Excel控件
  6. VB与C#代码转换在线工具,亲测好用
  7. 前端学习(3168):react-hello-react之...扩展运算符
  8. 地球物理模型-薄互层-桔灯勘探
  9. 微型计算机与接口技术总结,微机原理与接口技术课程总结
  10. 【zigbee无线通信模块步步详解】ZigBee3.0模块建立远程网络控制方法
  11. idm+百度下载助手解决百度网盘限速
  12. CAD梦想画图中“轻松手绘”功能使用方法
  13. 网信办督促平台整改算法歧视、大数据杀熟:必须保护用户合法权益
  14. 【番杰的问答笔记】C语言的命令注意事项
  15. HA(高可用)集群之AIS(corosync),高可用httpd+NFS
  16. 数据库基本概念、DBMS、DBS
  17. 计算机桌面闪动,电脑屏幕闪动怎么解决_电脑屏幕闪烁不停抖动修复方法-win7之家...
  18. 解决 linux du: Argument list too long 参数列表过长的办法
  19. 聚划算十周年被赋予新使命: 满足消费者新需求 提升供给侧效率
  20. 偏微分方程简明教程第三章部分答案

热门文章

  1. 【云图】如何制作东莞酒店地图?
  2. 阿里云大数据ACP(一)大数据开发平台 DataWorks
  3. SWF文件格式说明书--SWF文件头
  4. VeraCrypt的只读问题
  5. P1978 集合 (set)
  6. html5研究背景及意义,基于HTML5的统计图表系统的研究与设计
  7. 百度智能云落子贵阳,工业互联网进入新赛段
  8. 避雷秘籍:iOS过审的基础条件
  9. 夜神模拟器的安装和使用
  10. java生成指定范围的随机数(太屌了)