一种基于三代PacBio测序数据的补洞方法

技术领域

本发明涉及生物信息技术领域,具体涉及DNA组装的补洞方法,它使用三代PacBio 测序数据来进行基因组数据的补洞。

背景技术

三代PacBio测序以长读长著称,目前测序使用的P6-C4试剂,可使测序数据的平均 读长达到10-15k,并且测序没有明显的GC偏向性,理论上能很好地对基因组进行补洞。目前 基于三代PacBio测序数据补洞的软件,有PBjelly,但它是基于blasr比对软件的,由于 blasr软件比对速度非常慢,导致整个构建scaffold的时间也非常漫长。特别是对于大于1G 的基因组,测序深度大于10X的情况,通常需要耗费几个月的时间。

发明内容

本发明的目的是解决以上提出的问题,提出了一种基于三代PacBio测序数据的补 洞方法,大大降低了补洞过程中的比对时间,基因组补洞的速度得到明显提高。通过相应软 件,将三代PacBio测序数据比对上基因组中洞的两端,截取比对上的三代PacBio测序数据 的部分区域,并依据该数据所属的洞对截取的数据进行聚类,使用dazcon软件进行纠错,用 纠错后的数据进行序列连接。

本发明是通过以下技术方案实现的:

本发明是一种基于三代PacBio测序数据的补洞方法,所述补洞方法包括以下步 骤:

(1)从contig中提取unique-kmer;

(2)使用unique-kmer作为seed,进行比对,并截取比对上的区域;

(3)对比对上的区域进行聚类和纠错;

(4)使用纠错后的数据进行连接。

作为优化,在步骤(1)使用Jellyfish软件对二代Illumina测序数据进行k-mer统 计,把出现一次的k-mer作为unique-kmer,使用比特文件或GATB开源包,对这些unique- kmer进行存储。

作为优化,对于k≤17,使用一个大小为2G的比特文件(*.bit文件)来存储,而对于 k>17的情况,把unique-kmer存入GATB开源包中的(*.h5)文件中。

作为优化,所述步骤(2)包括以下步骤:

2.1使用unique-kmer作为seed;

2.2事先对seed的比对关系进行聚类,算出最优的比对范围;

如果两条read能比对得上,那么它们具有共线性,并且这些seed之间的斜率为1, 将聚到最多点的直线作为比对上的区域。

2.3分区域进行比对;

首先将比对的整体区域划分成100bp的小区域,假设划分为n个区域,共有a个碱 基,再对这些小区域进行LCS相似度计算,假设相似度大于0.8的区域有b个,这些小区域总 体的相似碱基为c个,分以下两个维度评价相似度:

区域相似度=b/n

碱基相似度=c/a

最后只保留两个评价相似度的值都大于0.7的比对数据。

作为优化,所述步骤(3)和(4)包括以下步骤:

3.1将比对上的区域前后延伸一定长度(可以设定为500bp)进行截取,并记录这个 区域所对应的洞;

3.2将截取的区域,按所属的洞进行聚类;

3.3对每一个聚类的数据使用dazcon软件进行纠错,再对数据进行连接。

与现有的软件相比,本方法的优点在于:

1、从contig中提取出unique-kmer,提高准确率,降低对比时间。

在基因组中,存在许多重复序列,有些短重复序列甚至出现成百上千次,从而会影 响比对软件的准确度,增加比对的时间。为了提高比对的准确度,降低比对时间,本法提取 在contig中只出现一次的k-mer,作为unique-kmer,在比对中只用unique-kmer作为比对使 用的seed。这里使用Jellyfish软件来进行k-mer统计,并筛选出unique-kmer。

2、将三代PacBio测序数据比对上基因组中洞的两端,并截取数据,节约内存,节约 对比时间,提高准确度。

很多比对方法,都使用了最长公共子序列(LCS)的算法,本法进行比对,也是使用 这个算法,但是做了以下三方面的改进:

1)使用unique-kmer作为seed

2)事先对seed的比对关系进行聚类,算出最优的比对范围。

如果两条read能比对得上,那么它们具有共线性,并且这些seed之间的斜率为1。 我们将聚到最多点的直线作为比对上的区域。

3)分区域进行比对。

大多比对软件都是直接对整体区域进行最长公共子序列(LCS)计算,但对于较大 的比对区域来说,例如大于100k的比对区域,对整体区域进行计算,不仅浪费内存而且会耗 费大量时间。本法所做的改进解决了以上问题,同时准确度也得到明显的提升。

对于进行比对的三代Pacbio测序数据,选取比对上的区域两端各自延伸一定长度 (通常设定为500bp)的部分进行截取,这样就可以保证三代PacBio测序数据与比对上的洞 两端的DNA序列有共同的区域。

3、对比对上的三代PacBio测序数据进行聚类,纠错并连接,节约纠错时间。

将上一步骤截取的数据依据各自所属的洞进行聚类,使用dazcon软件对每个洞的 聚类数据纠错,并依据纠错后的数据和洞两端的存在的共同序列,进行序列连接,完成补 洞。这样做的优点是只对洞的区域进行纠错,不必对整条序列进行纠错,从而大大地节约了 纠错时间。

附图说明

图1:本发明流程图。

具体实施方式

下面结合附图对本发明的实施例进行进一步详细说明:

实施例:

1、从contig中提取unique-kmer,在步骤(1)使用Jellyfish软件对二代Illumina 测序数据进行k-mer统计,把出现一次的k-mer作为unique-kmer,对于k≤17,使用一个大小 为2G的比特文件(*.bit文件)来存储,而对于k>17的情况,把unique-kmer存入GATB开源包 中的(*.h5)文件中。其中,将所有的数据打断成长度为k的片断称为k-mer,二代Illumina测 序数据是指通过Illumina公司测序仪获得的二代测序数据。

根据上述方法编写了程序,用法如下:

将contig路径,放入一个文件file.lst中

然后运行程序,来获取unique-kmer:

因为选取k=17,将结果存入比特文件中:k17.bit

2、使用unique-kmer作为seed,进行比对,并截取比对上的区域;

2.1使用unique-kmer作为seed;

2.2事先对seed的比对关系进行聚类,算出最优的比对范围;

如果两条read能比对得上,那么它们具有共线性,并且这些seed之间的斜率为1, 将聚到最多点的直线作为比对上的区域。

2.3分区域进行比对。

首先将比对的整体区域划分成100bp的小区域,假设划分为n个区域,共有a个碱 基,再对这些小区域进行LCS相似度计算,假设相似度大于0.8的区域有b个,这些小区域总 体的相似碱基为c个,分以下两个维度评价相似度:

区域相似度=b/n

碱基相似度=c/a

最后只保留两个评价相似度的值都大于0.7的比对数据。

3、对比对上的区域进行聚类和纠错,使用纠错后的数据进行连接。

3.1将比对上的区域前后延伸一定长度(可以设定为500bp)进行截取,并记录这个 区域所对应的洞;

3.2将截取的区域,按所属的洞进行聚类;

3.3对每一个聚类的数据使用dazcon软件进行纠错,再对数据进行连接。

根据上述比对和补洞的方法,讲比对和补洞方法写成一个流程,方便调用,用法如 下:

配制input.cfg的说明:

以上所述的仅是本发明的优选实施方式,应当指出,对于本技术领域中的普通技 术人员来说,在不脱离本发明核心技术特征的前提下,还可以做出若干改进和润饰,这些改 进和润饰也应视为本发明的保护范围。

一种基于三代PacBio测序数据的补洞方法相关推荐

  1. 一种PacBio测序数据组装得到的基因组序列的纠错方法技术 (专利技术)

    一种PacBio测序数据组装得到的基因组序列的纠错方法技术 技术编号:17008244阅读:83留言:0更新日期:2018-01-11 04:20 本发明专利技术提供一种PacBio测序数据组装后序列 ...

  2. 一种PacBio测序数据组装得到的基因组序列的纠错方法

    技术领域 本发明涉及生物信息技术领域,更具体的说,它涉及一种PacBio测序数据组装得到的基因组序列的纠错方法. 背景技术 PacBio是一家测序仪公司,提供第三代测序技术测序平台,他们的测序仪产生的 ...

  3. 基于 PacBio 测序数据的纠错算法评测与剪切位点识别研究

    基于 PacBio 测序数据的纠错算法评测与剪切位点识别研究 摘 要 高通量测序技术的产生和发展催生了许多大规模基因测序项目, 如国际千人基 因组计划. 英国 UK10K 计划以及中国的百万人群基因组 ...

  4. 第二、三代基因组测序数据混合拼接软件综述

    第二.三代基因组测序数据混合拼接软件综述 王 昊1,陈 挺2*  (1.清华大学 计算机科学与技术系,北京 10084: 2.清华大学 计算机系.清华大学人工智能研究院,北京 10084)    摘要 ...

  5. Nature子刊:三代Nonopore测序数据耐药性分析软件NanoOK RT

                    前言                  前期,我们解读了Nature Microbiology的关于快速分析肠道菌群耐药性的论文. [文献解读]Nature Micro ...

  6. iMeta | 青岛华大范广益组基于共标签测序数据的高质量宏基因组组装工具MetaTrass...

    点击蓝字 关注我们 MetaTrass:基于共标签测序数据的人类肠道微生物高质量宏基因组组装工具 https://doi.org/10.1002/imt2.46 RESEARCH ARTICLE ●2 ...

  7. 基于python的分布式扫描器_一种基于python的大数据分布式任务处理装置的制作方法...

    本发明涉及数据处理技术,具体是一种基于python的大数据分布式任务处理装置. 背景技术: 本发明提供一种分布式队列任务处理方案和装置,该方法可以提供分布式处理python任务,任务类型包括爬虫及其他 ...

  8. 区块链相关数据报表_一种基于区块链的财务报表系统及其使用方法与流程

    本发明涉及区块链领域,尤其是一种基于区块链的财务报表系统及其使用方法. 背景技术: 随着社会的发展,公司的成立数量越来越多,而公司的财务报表是一个公司的关键资料,这就要求资料数据的绝对安全防止他人的恶 ...

  9. 3种基于深度学习的有监督关系抽取方法

    摘要:本文对几种基于深度学习的有监督关系抽取方法进行了介绍,包括CNN关系抽取.BiLSTM关系抽取以及BERT关系抽取. 本文分享自华为云社区<基于深度学习的有监督关系抽取方法简介>,作 ...

最新文章

  1. Ubuntu 14.04 64位上配置JDK操作步骤
  2. 每日问题记录20171117
  3. box unboxing(装箱 拆箱) C#编程指南
  4. 计算机结构原理初步教案板书设计,(计算机工作原理)教学设计(教案)
  5. 重用生成的JAXB类
  6. restapi如何传图片_如何设计restful风格接口
  7. python程序设计实践教程答案江苏_《Python程序设计》习题与答案python教材答案
  8. WPS简历模板的图标怎么修改_新媒体运营-简历模板范文,【工作经历+项目经验+自我评价】怎么写?...
  9. Java删除服务器上的文件
  10. 云空间插虾米html音乐,总结一下可以上传MP3并外链的空间
  11. 三角学(一)公式,恒等式,函数和难题
  12. oracle数据库字符集US7ASCII,在java中处理中文问题
  13. Springboot 实现将文件压缩,然后下载
  14. 上班族必懂的电脑技能 误删资料 恢复不小心删错了,还把回收站清空了,咋办啊?
  15. c语言中static作用
  16. 工作五年以上的程序员,应该干些什么
  17. 读书计划与交流的期望
  18. 学习ES6 The Dope Way Part I:const,let&var
  19. 对图像处理中的面向对象和基于基元的理解
  20. Python---day7作业

热门文章

  1. 工坊专访|2020智博会,AR、VR、智能驾驶是亮点
  2. ECCV2020优秀论文汇总|涉及点云处理、3D检测识别、三维重建、立体视觉、姿态估计、深度估计、SFM等方向...
  3. BidNet:无视差估计的双目图像去雾(CVPR2020)
  4. PCL工程的CMakeList.txt文件书写规范
  5. 计算机视觉基本原理——RANSAC
  6. SpringMVC 多视图配置
  7. js中字符串转json
  8. numpy 中 tile 的用法
  9. [Life Sciences.AI]专栏介绍及内容分类(持续更新......)
  10. 基于Pytorch和RDKit建立QSAR模型