基因组测序数据的拼接/组装 (图片来源:google)

每一个物种的参考基因组序列(reference genome)的产生都要先通过测序的方法,获得基因组的测序读段(reads),然后再进行从头拼接或组装(英文名称为do novo genome assembly),最后还原测序物种的各条染色体的序列,即ATGC四种碱基的排列顺序。

之所以要进行基因组拼接,是因为现在的测序技术还只能测较短的序列,无法直接获取一整条染色体的序列。如一代测序(Sanger测序)一般可测1kb左右的序列;二代测序(next-generation sequencing),一般可测50~500bp;三代测序虽然可测100kb甚至更长的序列,但现在三代测序技术还不是很成熟,还有较高的测序错误率。

基因组测序数据的从头组装过程,可简单描述为:reads---->contig---->scaffold---->chromosome,具体如下所示:


基因组序列从头组装示意图(图片来源:Guo et al. Genomics, 2017)。首先基因组测序产生reads,然后对reads进行组装产生长片段Contigs,再确定Contig的方向和顺序,组装产生更长的片段Scaffolds,最后再组装连接Scaffold得到完整的染色体序列。

首先,给大家依次介绍一下上图从头拼接中涉及到的两个概念:contig和scaffold。

Contig是由多个reads通过组装而形成的长片段。由于测序读段较短、基因组序列通常含有较多重复序列、而且还有测序错误等原因,除了简单的基因组序列外,大部分物种的基因组序列组装都会先产生很多contig,无法一次获得完整的染色体序列。

Scaffold为多条contig序列连接形成更长片段,这些contig方向和顺序已经确定,且contig间未知序列(一般用NNNN表示)的长度也获知。

Scaffold的获得一般主要通过双端测序(如paired-end sequecing或mate-pair sequencing)来确定contig的顺序和方向,以及contig之间的间隔距离,具体如下示意图所示。

由reads组装产生contig,再由contig连接形成scaffold的示意图 (图片来源:google)

基因组测序数据的从头组装的核心算法主要可以分为以下几大类:

1、基于贪心算法(greedy-extention);

2、基于Overlap-Layout-Consensus(OLC);

3、基于de Bruijn Graph;

4、以上两种或多种算法的组合;

5、其他类型。

具体如下图所示:

基因组从头组装算法分类及代表性软件发表的时间(图片来源:Zhanget al. PlosOne, 2011)

其中最经典的两类为:

1)Overlap-Layout-Consensus(OLC)算法,基于OLC算法的组装软件主要是针对长测序读段(如Sanger测序、454测序等)设计的;

2)de Bruijn Graph算法,基于de Bruijn Graph的组装软件则主要是针对二代测序产生的短读段数据设计。

具体如下所示:

1)Overlap-Layout-Consensus(OLC)算法

Overlap-Layout-Consensus(OLC)算法的示意图(图片来源:Ayling et al. Briefings in Bioinformatics, 2019)

2)de Bruijn Graph算法

de Bruijn Graph算法的示意图(图片来源:Ayling et al. Briefings in Bioinformatics, 2019)

现在主流的是二代测序技术,因此再给大家详细介绍一下专门针对二代测序数据开发的基于de Bruijn Graph的从头拼接方法。

其中一个非常著名的软件就是Velvet,是基于de Bruijn Graph设计的经典代表,其算法示意图如下:

Velvet从头组装软件的算法设计示意图( 图片来源:Zerbinoet al. 2008, Genome Research)。其中红色碱基为测序错误或SNP位点。

Velvet的组装原理,主要可分为这几个步骤:

1)首先把所有测序读段(reads)都分割为更小的片段k-mer;

Reads产生k-mer的过程示意图。这里k为7,假如read的长度为n,则总共可产生n-1个k-mer。

2)把每个k-mer作为一个节点,然后判断k-mer之间是否有k-1碱基的重叠,如果有则作为两个不同的节点连接起来。依次这样连接所有可连接的k-mer就形成了Velvet从头组装软件算法设计示意图中第2步的de Bruijn Graph;

3)依次合并相邻的k-mer,因为相邻的k-mer有k-1个碱基的重叠,就可进一步简化de Bruijn Graph形成Velvet从头组装软件算法设计示意图中第3步的简化后的图;

4)使用一系列算法消除由测序错误而形成的tips(具体如Velvet从头组装软件的算法设计示意图中所示),并合并bubbles(两条或多条路径序列,一般由SNP造成,如Velvet从头组装软件的算法设计示意图);

5)最后拼接得到Contig序列。

值得注意的是,Velvet从头组装软件算法设计示意图中最后一步拼接产生了回文序列,主要是由于原始序列中含有回文,如果k取为偶数(图中k=4)就容易在组装中形成这种现象。

为了有效的避免拼接中产生回文序列,一般k取为奇数。

那么基于基因组测序数据的从头拼接软件,那些具有较好的性能呢?

不同从头组装软件在拼接C.elegans、Yeast、E.coli、Swinepox基因组时的准确性和覆盖度比较( 图片来源:Zhanget al. PlosOne, 2011)

从上图中可以看出,Velvet和SOAPdenovo在拼接C.elegans、Yeast、E.coli、Swinepox的基因组序列时,相对于其他软件,组装结果更准确(A:Percentage of correctly mapped contigs)且拼接出来的序列能更完整的覆盖原基因组序列(B:Genome Coverage)。

大部分处理测序数据的软件都是由国外开发的,其中这里提到的SOAPdenovo为华大基因开发的从头拼接软件。

今天就给大家介绍到这里。更多精彩,可见大型免费综合生物信息学资源和工具平台AIPuFu:www.aipufu.com,关注微信公众号:AIPuFuBio**。**

经典:基因组测序数据从头拼接或组装算法的原理相关推荐

  1. 第二、三代基因组测序数据混合拼接软件综述

    第二.三代基因组测序数据混合拼接软件综述 王 昊1,陈 挺2*  (1.清华大学 计算机科学与技术系,北京 10084: 2.清华大学 计算机系.清华大学人工智能研究院,北京 10084)    摘要 ...

  2. 基于全基因组测序数据鉴定结构变异的四大类方法总结

    不同类型的基因组变异示意图(图片来源:labspaces) 上次给大家总结介绍了基因组单核苷酸多态性(single nucleotide polymorphism,SNP)的鉴定方法,今天给大家介绍结 ...

  3. 随机宏基因组测序数据质量控制和去宿主的分析流程和常见问题

    为进一步提高<微生物组实验手册>稿件质量,本项目新增大众评审环节.文章在通过同行评审后,采用公众号推送方式分享全文,任何人均可在线提交修改意见.公众号格式显示略有问题,建议点击文末阅读原文 ...

  4. iMeta | 青岛华大范广益组基于共标签测序数据的高质量宏基因组组装工具MetaTrass...

    点击蓝字 关注我们 MetaTrass:基于共标签测序数据的人类肠道微生物高质量宏基因组组装工具 https://doi.org/10.1002/imt2.46 RESEARCH ARTICLE ●2 ...

  5. 一种PacBio测序数据组装得到的基因组序列的纠错方法技术 (专利技术)

    一种PacBio测序数据组装得到的基因组序列的纠错方法技术 技术编号:17008244阅读:83留言:0更新日期:2018-01-11 04:20 本发明专利技术提供一种PacBio测序数据组装后序列 ...

  6. 一种PacBio测序数据组装得到的基因组序列的纠错方法

    技术领域 本发明涉及生物信息技术领域,更具体的说,它涉及一种PacBio测序数据组装得到的基因组序列的纠错方法. 背景技术 PacBio是一家测序仪公司,提供第三代测序技术测序平台,他们的测序仪产生的 ...

  7. 基于RNA测序技术的转录组从头拼接算法研究

    基于RNA测序技术的转录组从头拼接算法研究 摘要: 生物信息学主要研究分子生物学领域,而对于分子生物学领域,转录组的从头拼接又是其核心内容,即利用转录组的测序片段拼接出整个转录组中的所有表达的转录体. ...

  8. 全基因组测序 从头测序(de novo sequencing) 重测序(re-sequencing)

    全基因组测序 全基因组测序分为从头测序(de novo sequencing)和重测序(re-sequencing). 从头测序(de novo)不需要任何参考基因组信息即可对某个物种的基因组进行测序 ...

  9. 16款测序平台性能大PK,华大表现不俗!基于人类和细菌基因组DNA水平的多平台测序数据研究成果发布...

    生物信息学习的正确姿势 NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞测序分析  ...

最新文章

  1. 编程中的一个易错点:判断某个点是否超出棋盘边界
  2. mybaits十五:使用trim自定义字符串的截取规则
  3. java 1_java基本语法1
  4. MySQL MHA 安装
  5. MIME Type描述消息内容类型的因特网标准
  6. jquery in action 学习笔记
  7. AspectCore中的IoC容器和依赖注入
  8. 阿里 mysql cluster_MySQL Cluster集群安装及使用-阿里云开发者社区
  9. _DataStructure_C_Impl:稀疏矩阵三元组
  10. 接口解读:你的姓名+身份证号撑起了超11亿元市场规模,你造吗?
  11. IAST 初探:博采众长、精准定位、DevOps友好
  12. 计算机音乐苹果铃声,苹果铃声设置歌曲 苹果铃声怎么设置自己的歌
  13. python怎么判断实数_检查python对象是否可以解释为实数[python]
  14. 医院管理系统(Java+SSM+MySQL开发的医院科室管理系统)
  15. Qt 纯代码模仿 WPS 登录界面
  16. QQ群—取消对某人的屏蔽
  17. 附合导线简易平差(4500PA)
  18. 服务器到底是个什么东东?跟电脑有啥区别?
  19. R 语言 apply 系列函数
  20. 如何写毕业设计——外文翻译

热门文章

  1. NetApp AFF A 系列全闪存存储阵列
  2. MarkdownPad2安装汉化与注册码
  3. 编译原理及其实践教程(第二版)总结
  4. 【相机硬触发】大恒相机硬触发说明文档
  5. Bigder:53/100 真香免费网站!在线练习SQL\Python\Shell像游戏通关一样刷题
  6. 【OpenGL】二十一、OpenGL 矩阵压栈与出栈 ( 不同类型矩阵变换先后顺序 | 渲染前不设置单位阵 | 压栈出栈原理分析 | 代码示例 )
  7. ​​​​​​​排列组合基本原理及公式
  8. 企业如何通过企业微信玩转社群营销?
  9. 笔记本怎么重装系统win11
  10. B轮融资1450万美金的Ayla,在中国可行么?