本文来自“生信算法”公众号。

基因变异普遍存在于同一物种内的不同个体中,如人与人之间的基因组是不完全一样的(即是多态的),彼此之间都存在着一些差异,即使是和父母或是兄弟姐妹之间去比较。这种差异也是基因组多态性的来源,通过外在和内在特征表现出来,比如头发和眼睛颜色,高矮胖瘦,抵抗力等。这些差异也是造成我们彼此之间不同的一个重要原因。

基因变异是一个相对的概念,只有在彼此的比较中才有存在意义。基因变异主要分为三大类:

  1. 单核苷酸变异,通常称为单核苷酸多态性(single nucleotide polymorphism),就是单个DNA碱基的不同,简称SNP;

  2. 小的Indel(Insertion 和 Deletion的简),指的是在基因组的某个位置上所发生的小片段序列的插入或者删除,长度通常在50 bp以下;

  3. 大的结构性变异,这种类型比较多,包括长度在50 bp以上的长片段序列的插入或者删除、染色体倒位,染色体内部或染色体之间的序列易位,拷贝数变异,以及一些形式更为复杂的变异。

为了和SNP变异作区分,第2和第3类变异通常也被称为基因组结构性变异(Structural variation,简称SV)。

结构变异长度少则几十bp,多则几万bp,对其检测带来了极大挑战。研究人员发现SV对基因组的影响比起SNP来说还要大,而且基因组上的SVs比起SNP而言,似乎更能用于解释人类群体多样性的特征。再者,一些SVs往往和一些疾病(包括癌症、自闭症、老年痴呆症)的发生相关联,甚至还是其致病的诱因。因此对SVs进行检测具有重要的意义。

二代测序技术产生的序列虽然精度高,但读段短(100~500 bp),不能跨越大多数长度较长的SVs区域,但基于单分子测序的三代测序技术(如PacBio,牛津纳米孔测序)可以测得长达100 kpb的序列,轻松跨越各种SVs区域,为SVs检测带来方便。但其错误率较高(~15%),因此需要专门的SVs检测算法。PBHoney是较早利用三代序列进行SVs检测的软件。

PBHoney方法

PBHoney主要利用两种序列比对情况进行检测。如下图所示,一种是Interrupted long-read mapping,一种是 Intra-read discordance。主要原因在于对于一条比对的三代序列,比对情况可以分为这两种。

Interrupted long-read mapping 比对示意图

所谓Interrupted long-read mapping ,就是这条序列只比对了一部分,其前缀或者后缀的序列片段没有比对上去。

下图是 Intra-read discordance比对示意图,所谓 Intra-read discordance,就是整条序列都比对到参考基因组上,但某些比对区域由于SVs存在比对质量较低,存在较多非匹配状态。

Intra-read discordance 比对示意图

PBHoney首先采用三代序列比对算法BLASR进行序列比对,然后针对这两种比对情况做相应的处理,找出SVs区域。

处理 Interrupted long-read mapping序列

首先将提取没有比对的前缀或者后缀,如果长度大于200 bp,再将这些片段通过BLASR比对到参考基因组上。然后与原来比对的序列(initial alignment)组成piece-alignment,如下图所示。后缀比对的片段称为epilog,前缀比对的片段称为prolog。

然后对每个piece-alignment进行聚类处理:

  1. 只考虑包含initial alignment 和 epilog (或prolog)的piece-alignment。如果epilog和prolog都存在,(如上图3)所示,只考虑比对质量高的。
  2. 保留initial alignment 和 epilog (或prolog)之间的距离小于200 bp的piece-alignment。200 bp是默认值,用户可自己设置。保留下来的piece-alignment称为一个cluster。
  3. SVs的位置(起始位置和结束位置)就是每个cluster中比对位置的平均值。如下图所示。

处理 Intra-read discordance 序列

对于完整比对上的序列,如上图所示,通过以下步骤进行处理:

1. 计算比对到基因组序列每个位置的替换(mismatch)、插入、删除碱基个数、及覆盖率。构成一个4×G大小的数组A,其中G是参考基因组的序列长度。

2. 然后计算基因组每个位置的错误率大小:

其中j=1,2,3,4. Ci表示覆盖率。

3. 通过下面公式对E矩阵进行变换:

4. 再次对M矩阵进行变换:

其中步骤3)和4)目的是寻找一些差异比较大的值,更好判断是否是SV。

下图是通过以上步骤检测一个删除SV的示意图。可以看出步骤3)和4)可以将A柱状图转变成脉冲信号,方便SV检测。

结果

下表是PBHoney的检测结果,可以看出其灵敏度和PPV值还是不错的,这篇文章是以软件类(software)形式发表的,没有和别的方法进行比较。

总结

SVs检测对于疾病治疗具有重要意义,随着三代测序技术的不断发展,其测序准确性和序列长度会不断改善,相信基于三代序列的结构变异检测会得到越来越多的关注。

参考文献

  • English A C, Salerno W J, Reid J G. PBHoney: identifying genomic variants via long-read discordance and interrupted mappingBMC bioinformatics, 2014, 15(1): 180.
  • https://blog.csdn.net/alex6plus7/article/details/50236375

基于三代测序数据的结构变异检测,PBHoney方法解读相关推荐

  1. 基于全基因组测序数据鉴定结构变异的四大类方法总结

    不同类型的基因组变异示意图(图片来源:labspaces) 上次给大家总结介绍了基因组单核苷酸多态性(single nucleotide polymorphism,SNP)的鉴定方法,今天给大家介绍结 ...

  2. 基于三代测序技术的微生物组学研究进展

    基于三代测序技术的微生物组学研究进展 2020-09-04 09:16 微生物通常指一切难以用肉眼观察到的微小生物, 包括细菌.病毒.古菌.真菌以及一些微小的原生生物.微生物体积微小.结构简单, 却又 ...

  3. 基于 PacBio 测序数据的纠错算法评测与剪切位点识别研究

    基于 PacBio 测序数据的纠错算法评测与剪切位点识别研究 摘 要 高通量测序技术的产生和发展催生了许多大规模基因测序项目, 如国际千人基 因组计划. 英国 UK10K 计划以及中国的百万人群基因组 ...

  4. 三代测序数据纠错的方法、装置和计算机可读存储介质与流程

    三代测序数据纠错的方法.装置和计算机可读存储介质与流程 文档序号:15616049发布日期:2018-10-09 21:24 导航: X技术> 最新专利>计算;推算;计数设备的制造及其应用 ...

  5. 基于三代测序技术的高产糖化酶黑曲霉工业菌株基因组组装与注释及功能基因比较研究

    第一代测序技术主要是由Sanger等人发明的测序技术,他的发明第一次为人们开启了解读 生命遗传密码 的大门,Sanger本人也因此获得了诺贝尔奖.这种DNA末端终止法测序技术的 原理:主要通过在DNA ...

  6. 【Sentieon】PacBio HiFi三代测序数据SNP/Indel加速分析

    Sentieon软件在二代测序中SNP/Indel变异检测流程已非常成熟,并以其检测准确性高和检测速度快而广受业内人士认可.近日,Sentieon推出了DNAscope LongReads分析流程,深 ...

  7. SPAdes混合组装二代、三代测序数据

    导读 SPAdes是2012年发表在Journal of Computational Biology上的一篇文章提出的二代测序组装软件,是目前引用量已经达到6200+,在宏基因组组装软件中引用量最高[ ...

  8. 三代测序数据超快组装软件--大牛Li heng 力作

    三代测序数据超快组装软件--大牛Li heng 力作 (2017-06-19 16:53:46) 转载▼   分类: 三代 1:软件链接:https://github.com/lh3/miniasm ...

  9. 基于单细胞测序数据构建细胞状态转换轨迹(cell trajectory)方法总结

    细胞状态转换轨迹构建示意图(Trapnell et al. Nature Biotechnology, 2014) 在各种生物系统中,细胞都会展现出一系列的不同状态(如基因表达的动态变化等),这些状态 ...

最新文章

  1. 【设计模式】单例模式-生成器模式-原型模式
  2. 这些贷款冷知识你知道多少?
  3. leetcode436. 寻找右区间(二分法)
  4. win7装mysql一直未响应_求助啊 WIN7下安装mysql出问题 老是说未响应~!!
  5. 修改 “嗨加游-Prefix.pch” 或者 “嗨加游-Info.plist ” 方法
  6. Codeigniter开发技巧:连接多个数据库(可实现DB读写分离)
  7. C#创建Windows服务程序
  8. msp430入门编程47
  9. 梯度下降算法动图_Deep Learning|神经网络原理学习笔记(5) :随机梯度下降算法SGD(附手绘图)、离线学习与在线学习...
  10. vue环境搭建及创建项目
  11. 农产品SCM供应链协同系统解决方案
  12. Android第一行代码源码分享
  13. vins-mono--视觉跟踪--feature_trackers
  14. 让孩子喜欢科学的31部少儿科普书籍
  15. UC/OS-II(一)资料绪论
  16. android 读取excel表格数据(暂时只支持xls格式)
  17. 预处理对象executeQuery方法,对数据库进行有条件和无条件的查询
  18. 监控io性能、free、ps、查看网络状态和linux抓包工具
  19. Linux系统的系统架构
  20. Anaconda Distribution :流行的Python数据科学平台

热门文章

  1. samba和cifs
  2. VirtualBox虚拟机中使用U盘等USB设备的设置方法
  3. java生成文件夹_java 文件和文件夹的创建
  4. 李宏毅机器学习系列-强化学习之Q-Learning
  5. excel文档关闭时不小心点了不保存???老铁别扎心以下方法可以恢复!!!
  6. 机器学习:支持向量机SVM原理与理解
  7. QPS是什么?如何计算?
  8. Linux- crond详解
  9. opencv画火车沿轨道运行-课程作业
  10. 一网打尽、详解面试最常被问到的几种 Python 设计模式