一种基于三代PacBio测序数据的补洞方法

一种基于三代PacBio测序数据的补洞方法

技术领域

本发明涉及生物信息技术领域,具体涉及DNA组装的补洞方法，它使用三代PacBio 测序数据来进行基因组数据的补洞。

背景技术

三代PacBio测序以长读长著称，目前测序使用的P6-C4试剂，可使测序数据的平均读长达到10-15k，并且测序没有明显的GC偏向性，理论上能很好地对基因组进行补洞。目前基于三代PacBio测序数据补洞的软件，有PBjelly，但它是基于blasr比对软件的，由于 blasr软件比对速度非常慢，导致整个构建scaffold的时间也非常漫长。特别是对于大于1G 的基因组，测序深度大于10X的情况，通常需要耗费几个月的时间。

发明内容

本发明的目的是解决以上提出的问题，提出了一种基于三代PacBio测序数据的补洞方法，大大降低了补洞过程中的比对时间，基因组补洞的速度得到明显提高。通过相应软件，将三代PacBio测序数据比对上基因组中洞的两端，截取比对上的三代PacBio测序数据的部分区域，并依据该数据所属的洞对截取的数据进行聚类，使用dazcon软件进行纠错，用纠错后的数据进行序列连接。

本发明是通过以下技术方案实现的：

本发明是一种基于三代PacBio测序数据的补洞方法，所述补洞方法包括以下步骤：

(1)从contig中提取unique-kmer；

(2)使用unique-kmer作为seed，进行比对，并截取比对上的区域；

(3)对比对上的区域进行聚类和纠错；

(4)使用纠错后的数据进行连接。

作为优化，在步骤(1)使用Jellyfish软件对二代Illumina测序数据进行k-mer统计，把出现一次的k-mer作为unique-kmer,使用比特文件或GATB开源包，对这些unique- kmer进行存储。

作为优化，对于k≤17，使用一个大小为2G的比特文件(*.bit文件)来存储，而对于 k＞17的情况，把unique-kmer存入GATB开源包中的(*.h5)文件中。

作为优化，所述步骤(2)包括以下步骤：

2.1使用unique-kmer作为seed；

2.2事先对seed的比对关系进行聚类，算出最优的比对范围；

如果两条read能比对得上，那么它们具有共线性，并且这些seed之间的斜率为1, 将聚到最多点的直线作为比对上的区域。

2.3分区域进行比对；

首先将比对的整体区域划分成100bp的小区域，假设划分为n个区域，共有a个碱基，再对这些小区域进行LCS相似度计算，假设相似度大于0.8的区域有b个，这些小区域总体的相似碱基为c个，分以下两个维度评价相似度：

区域相似度＝b/n

碱基相似度＝c/a

最后只保留两个评价相似度的值都大于0.7的比对数据。

作为优化，所述步骤(3)和(4)包括以下步骤：

3.1将比对上的区域前后延伸一定长度(可以设定为500bp)进行截取，并记录这个区域所对应的洞；

3.2将截取的区域，按所属的洞进行聚类；

3.3对每一个聚类的数据使用dazcon软件进行纠错，再对数据进行连接。

与现有的软件相比，本方法的优点在于：

1、从contig中提取出unique-kmer，提高准确率，降低对比时间。

在基因组中，存在许多重复序列，有些短重复序列甚至出现成百上千次，从而会影响比对软件的准确度，增加比对的时间。为了提高比对的准确度，降低比对时间，本法提取在contig中只出现一次的k-mer，作为unique-kmer，在比对中只用unique-kmer作为比对使用的seed。这里使用Jellyfish软件来进行k-mer统计，并筛选出unique-kmer。

2、将三代PacBio测序数据比对上基因组中洞的两端，并截取数据，节约内存，节约对比时间，提高准确度。

很多比对方法，都使用了最长公共子序列(LCS)的算法，本法进行比对，也是使用这个算法，但是做了以下三方面的改进：

1)使用unique-kmer作为seed

2)事先对seed的比对关系进行聚类，算出最优的比对范围。

如果两条read能比对得上，那么它们具有共线性，并且这些seed之间的斜率为1。我们将聚到最多点的直线作为比对上的区域。

3)分区域进行比对。

大多比对软件都是直接对整体区域进行最长公共子序列(LCS)计算，但对于较大的比对区域来说，例如大于100k的比对区域，对整体区域进行计算，不仅浪费内存而且会耗费大量时间。本法所做的改进解决了以上问题，同时准确度也得到明显的提升。

对于进行比对的三代Pacbio测序数据，选取比对上的区域两端各自延伸一定长度 (通常设定为500bp)的部分进行截取，这样就可以保证三代PacBio测序数据与比对上的洞两端的DNA序列有共同的区域。

3、对比对上的三代PacBio测序数据进行聚类，纠错并连接，节约纠错时间。

将上一步骤截取的数据依据各自所属的洞进行聚类，使用dazcon软件对每个洞的聚类数据纠错，并依据纠错后的数据和洞两端的存在的共同序列，进行序列连接，完成补洞。这样做的优点是只对洞的区域进行纠错，不必对整条序列进行纠错，从而大大地节约了纠错时间。

附图说明

图1：本发明流程图。

具体实施方式

下面结合附图对本发明的实施例进行进一步详细说明：

实施例：

1、从contig中提取unique-kmer，在步骤(1)使用Jellyfish软件对二代Illumina 测序数据进行k-mer统计，把出现一次的k-mer作为unique-kmer，对于k≤17，使用一个大小为2G的比特文件(*.bit文件)来存储，而对于k＞17的情况，把unique-kmer存入GATB开源包中的(*.h5)文件中。其中，将所有的数据打断成长度为k的片断称为k-mer，二代Illumina测序数据是指通过Illumina公司测序仪获得的二代测序数据。

根据上述方法编写了程序，用法如下：

将contig路径，放入一个文件file.lst中

然后运行程序，来获取unique-kmer:

因为选取k＝17，将结果存入比特文件中：k17.bit

2、使用unique-kmer作为seed，进行比对，并截取比对上的区域；

2.1使用unique-kmer作为seed；

2.2事先对seed的比对关系进行聚类，算出最优的比对范围；

如果两条read能比对得上，那么它们具有共线性，并且这些seed之间的斜率为1, 将聚到最多点的直线作为比对上的区域。

2.3分区域进行比对。

区域相似度＝b/n

碱基相似度＝c/a

最后只保留两个评价相似度的值都大于0.7的比对数据。

3、对比对上的区域进行聚类和纠错，使用纠错后的数据进行连接。

3.1将比对上的区域前后延伸一定长度(可以设定为500bp)进行截取，并记录这个区域所对应的洞；

3.2将截取的区域，按所属的洞进行聚类；

3.3对每一个聚类的数据使用dazcon软件进行纠错，再对数据进行连接。

根据上述比对和补洞的方法，讲比对和补洞方法写成一个流程，方便调用，用法如下：

配制input.cfg的说明：

以上所述的仅是本发明的优选实施方式，应当指出，对于本技术领域中的普通技术人员来说，在不脱离本发明核心技术特征的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

一种基于三代PacBio测序数据的补洞方法相关推荐

一种PacBio测序数据组装得到的基因组序列的纠错方法技术 (专利技术)
一种PacBio测序数据组装得到的基因组序列的纠错方法技术技术编号:17008244阅读:83留言:0更新日期:2018-01-11 04:20 本发明专利技术提供一种PacBio测序数据组装后序列 ...
一种PacBio测序数据组装得到的基因组序列的纠错方法
技术领域本发明涉及生物信息技术领域,更具体的说,它涉及一种PacBio测序数据组装得到的基因组序列的纠错方法. 背景技术 PacBio是一家测序仪公司,提供第三代测序技术测序平台,他们的测序仪产生的 ...
基于 PacBio 测序数据的纠错算法评测与剪切位点识别研究
基于 PacBio 测序数据的纠错算法评测与剪切位点识别研究摘要高通量测序技术的产生和发展催生了许多大规模基因测序项目, 如国际千人基因组计划. 英国 UK10K 计划以及中国的百万人群基因组 ...
第二、三代基因组测序数据混合拼接软件综述
第二.三代基因组测序数据混合拼接软件综述王昊1,陈挺2* (1.清华大学计算机科学与技术系,北京 10084: 2.清华大学计算机系.清华大学人工智能研究院,北京 10084) 摘要 ...
Nature子刊：三代Nonopore测序数据耐药性分析软件NanoOK RT
前言前期,我们解读了Nature Microbiology的关于快速分析肠道菌群耐药性的论文. [文献解读]Nature Micro ...
iMeta | 青岛华大范广益组基于共标签测序数据的高质量宏基因组组装工具MetaTrass...
点击蓝字关注我们 MetaTrass:基于共标签测序数据的人类肠道微生物高质量宏基因组组装工具 https://doi.org/10.1002/imt2.46 RESEARCH ARTICLE ●2 ...
基于python的分布式扫描器_一种基于python的大数据分布式任务处理装置的制作方法...
本发明涉及数据处理技术,具体是一种基于python的大数据分布式任务处理装置. 背景技术: 本发明提供一种分布式队列任务处理方案和装置,该方法可以提供分布式处理python任务,任务类型包括爬虫及其他 ...
区块链相关数据报表_一种基于区块链的财务报表系统及其使用方法与流程
本发明涉及区块链领域,尤其是一种基于区块链的财务报表系统及其使用方法. 背景技术: 随着社会的发展,公司的成立数量越来越多,而公司的财务报表是一个公司的关键资料,这就要求资料数据的绝对安全防止他人的恶 ...
3种基于深度学习的有监督关系抽取方法
摘要:本文对几种基于深度学习的有监督关系抽取方法进行了介绍,包括CNN关系抽取.BiLSTM关系抽取以及BERT关系抽取. 本文分享自华为云社区<基于深度学习的有监督关系抽取方法简介>,作 ...

一种基于三代PacBio测序数据的补洞方法

一种基于三代PacBio测序数据的补洞方法相关推荐

最新文章

热门文章