一种PacBio测序数据组装得到的基因组序列的纠错方法技术

技术编号:17008244阅读:83留言:0更新日期:2018-01-11 04:20

本发明专利技术提供一种PacBio测序数据组装后序列的纠错方法,它包括以下步骤:

步骤一:使用比对软件将Illumina测序数据比对到PacBio测序数据组装得到的基因组序列上;

步骤二:提取可能存在错误的位置和对应位置的碱基类型信息

步骤三:提取可能存在错误的位置的碱基类型的覆盖深度信息

步骤四:根据可能存在错误的位置的不同碱基类型覆盖深度比较,进行基因组序列替换纠,得到新的基因组序列。

本发明专利技术移除了PacBio测序数据组装序列后单碱基错误和碱基插入缺失错误,有效的提高了组装序列的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种PacBio测序数据组装得到的基因组序列的纠错方法
本专利技术涉及生物信息
,更具体的说,它涉及一种PacBio测序数据组装得到的基因组序列的纠错方法。
技术介绍
PacBio是一家测序仪公司,提供第三代测序技术测序平台,他们的测序仪产生的数据,在业内叫PacBio数据或PacBio测序数据;

Illumina是一家美国的测序仪公司,提供第二代测序技术测序平台,他们的测序仪产生的数据,在业内叫Illumina数据或Illumina测序数据。PacBio第三代测序技术具有超长读长、无PCR扩增、极小GC偏向等优势,越来越多的基因组是采用三代PacBio测序数据组装。但PacBio单次测序的错误率约为15%,目前主要采用组装前对测序数据进行纠错,组装后序列不再纠错。然而,组装后序列还存在很多错误,包括单碱基错误和碱基插入缺失错误。单碱基错误和碱基插入缺失错误都对后续分析造成很大影响,比如,如果这种错误存在于基因区域,可能导致基因预测不出来或预测出错误基因;如果错误存在于重复序列区域,可能导致序列分化时间估算错误等。
技术实现思路
本专利技术的目的是解决以上提出的问题,提供一种PacBio测序数据组装后序列的纠错方法,最大程度的减少组装序列的错误。本专利技术是通过以下技术方案实现的:本专利技术为一种PacBio测序数据组装得到的基因组序列的纠错方法,包括以下步骤:步骤一:使用比对软件将Illumina测序数据比对到PacBio测序数据组装得到的基因组序列上;步骤二:根据步骤一的比对结果文件提取可能存在错误的位置和对应位置的碱基类型信息;步骤三:根据步骤一的比...

【技术保护点】
一种PacBio测序数据组装得到的基因组序列的纠错方法,其特征在于,包括以下步骤:步骤一:使用比对软件将Illumina测序数据比对到PacBio测序数据组装得到的基因组序列上;步骤二:根据步骤一比对结果文件提取可能存在错误的位置和对应位置的碱基类型信息;步骤三:根据步骤一比对结果文件提取可能存在错误的位置的碱基类型的覆盖深度信息;步骤四:如果可能存在错误的位置的原碱基类型的覆盖深度与对应位置其他类型碱基的覆盖深度的比值小于0.5,则对PacBio测序数据组装得到的基因组序列该位置的碱基用该位置覆盖深度最大的其他类型碱基进行替换纠错,反之就不替换纠错。

【技术特征摘要】
1.一种PacBio测序数据组装得到的基因组序列的纠错方法,其特征在于,包括以下步骤:步骤一:使用比对软件将Illumina测序数据比对到PacBio测序数据组装得到的基因组序列上;步骤二:根据步骤一比对结果文件提取可能存在错误的位置和对应位置的碱基类型信息;步骤三:根据步骤一比对结果文件提取可能存在错误的位置的碱基类型的覆盖深度信息;步骤四:如果可能存在错误的位置的原碱基类型的覆盖深度与对应位置其他类型碱基的覆盖深度的比值小于0.5,则对PacBio测序数据组装得到的基因组序列该位置的碱基用该位置覆盖深度最大的其他类型碱基进行替换纠错,反之就不替换纠错。2.根据权利要求1所述的PacBio测序数据组装得到的基因组序列的纠错方法,其特征在于,所述步骤一使用的Illumina测序数据样本DNA,与PacBio测序数据样本DNA来自同一样本的DNA。3.根据权利要求1所述的PacBio测序数据组装得到的基因组序列的纠错方法,其特征在于,所述步骤二包含质控,所述质控是在提取出可能存在错误的位置和对应位置的碱基类型信息前去除reads比对错误数大于read长度的...

【专利技术属性】
技术研发人员:郝美荣,詹东亮,
申请(专利权)人:杭州和壹基因科技有限公司,
类型:发明
国别省市:浙江,33

全部详细技术资料下载 我是这个专利的主人

一种PacBio测序数据组装得到的基因组序列的纠错方法技术 (专利技术)相关推荐

  1. 一种PacBio测序数据组装得到的基因组序列的纠错方法

    技术领域 本发明涉及生物信息技术领域,更具体的说,它涉及一种PacBio测序数据组装得到的基因组序列的纠错方法. 背景技术 PacBio是一家测序仪公司,提供第三代测序技术测序平台,他们的测序仪产生的 ...

  2. 一种基于三代PacBio测序数据的补洞方法

    一种基于三代PacBio测序数据的补洞方法 技术领域 本发明涉及生物信息技术领域,具体涉及DNA组装的补洞方法,它使用三代PacBio 测序数据来进行基因组数据的补洞. 背景技术 三代PacBio测序 ...

  3. 基于 PacBio 测序数据的纠错算法评测与剪切位点识别研究

    基于 PacBio 测序数据的纠错算法评测与剪切位点识别研究 摘 要 高通量测序技术的产生和发展催生了许多大规模基因测序项目, 如国际千人基 因组计划. 英国 UK10K 计划以及中国的百万人群基因组 ...

  4. Pacbio 纯三代组装复活草基因组

    对于植物等真核生物基因组来说,重复序列, 多倍体,高杂合度等特征在利用二代数据进行组装的时候都会有很大的问题: 利用二代数据组装出来的基因组,大多达不到完成图的水准,通常只是覆盖到编码蛋白的基因区域, ...

  5. (转载)一种根据纠偏数据对火星坐标进行完美拟合的方法

    一种根据纠偏数据对火星坐标进行完美拟合的方法 (2011-02-15 13:30:27) 转载▼ 标签: 地图 纠偏算法 it (原创:小牙,QQ328959,转载请注明出处) 从GPS设备取得真实坐 ...

  6. Nature子刊:三代测序重构菌株水平宏基因组序列的计算框架iGDA

    https://doi.org/10.1038/s41467-021-23289-4 2021年5月24日,美国西奈山伊坎医学院冯智星等在Nature Communications发文题为Detect ...

  7. NAR:测序数据鉴别和去除rRNA序列利器RiboDetector

    [编者荐语]: rRNA序列污染是广泛存在于各类高通量测序数据中的.除了在实验建库过程中对文库进行去核糖体的处理,数据分析层面也可通过一些序列比对的策略去除.RiboDetector是邓志罗博士基于深 ...

  8. 基于单细胞测序数据构建细胞状态转换轨迹(cell trajectory)方法总结

    细胞状态转换轨迹构建示意图(Trapnell et al. Nature Biotechnology, 2014) 在各种生物系统中,细胞都会展现出一系列的不同状态(如基因表达的动态变化等),这些状态 ...

  9. 第三代主流测序数据组装软件

最新文章

  1. 你还在使用 try-catch-finally 关闭资源?
  2. MySQL 技术篇- linux下mysql数据库利用binlog文件进行数据回滚实例演示,binlog恢复数据库的两种方式
  3. php 安装 phpunit,phpunit的安装
  4. 【感想文】感情经历,是否给你我带来的些许提升?我想,有。
  5. wordpress主题 阿里百秀XIU v7.7版本 兼容 PHP 8.0
  6. Slim 框架源码解读
  7. 线程池中 corePoolSize, maximumPoolSize, poolSize理解
  8. Error: Cannot find module 'chalk' 或Cannot find module 'semver'报错
  9. [操作系统]Nachos4.1安装教程(docker+linux)
  10. LED灯具检验标准与方法
  11. 怎么录制音频,什么录音软件好用?
  12. 省钱又省时间的买书方法
  13. 东南大学成贤学院计算机报名,2021上半年江苏东南大学成贤学院计算机等级考试报名通知...
  14. Android运行报错:Error: Static interface methods are only supported starting with Android N
  15. 某购物网站推荐系统实现 | 数据库、推荐算法
  16. Invalid initial heap size: -Xms
  17. 区块链公司依靠电信主网颠覆汇款行业
  18. 2022年度总结与2023未来规划
  19. OPPO手机怎么找到快应用入口
  20. 坑:解决64位2013word无法安装32位Visio的问题

热门文章

  1. 130万奖金池!国家智能网联汽车创新中心ICV创新算法攻关任务报名通道火热开启!...
  2. 为了提升在小数据集上的性能,有学者让神经网络像生物一样“进化”了|CVPR2021 Oral...
  3. 计算机视觉在生物力学和运动康复中的应用和研究
  4. Machine Learning | (11) 回归性能评估与欠拟合、过拟合
  5. Data Science | 数据分析
  6. 初探Django2.1:Win10+Python3.6.6环境下安装Django
  7. CentOS7(64位)下运行IPython3出错解决办法
  8. 【错误总结】LaTex Warning: citation undefined
  9. C库函数-perror()
  10. Latex中的表格用法总结(三)——表格的合并分割,字体旋转,表头语句切割