技术领域

本发明涉及生物信息技术领域,更具体的说,它涉及一种PacBio测序数据组装得到的基因组序列的纠错方法。

背景技术

PacBio是一家测序仪公司,提供第三代测序技术测序平台,他们的测序仪产生的数据,在业内叫PacBio数据或PacBio测序数据;

Illumina是一家美国的测序仪公司,提供第二代测序技术测序平台,他们的测序仪产生的数据,在业内叫Illumina 数据或Illumina测序数据。

PacBio第三代测序技术具有超长读长、无PCR扩增、极小GC偏向等优势,越来越多的基因组是采用三代PacBio测序数据组装。但PacBio单次测序的错误率约为 15%,目前主要采用组装前对测序数据进行纠错,组装后序列不再纠错。然而,组装后序列还存在很多错误,包括单碱基错误碱基插入缺失错误。单碱基错误和碱基插入缺失错误都对后续分析造成很大影响,比如,如果这种错误存在于基因区域,可能导致基因预测不出来或预测出错误基因;如果错误存在于重复序列区域,可能导致序列分化时间估算错误等。

发明内容

本发明的目的是解决以上提出的问题,提供一种PacBio测序数据组装后序列的纠错方法,最大程度的减少组装序列的错误

本发明是通过以下技术方案实现的:

本发明为一种PacBio测序数据组装得到的基因组序列的纠错方法,包括以下步骤:

步骤一:使用比对软件将Illumina测序数据比对到PacBio测序数据组装得到的基因组序列上;

步骤二:根据步骤一的比对结果文件提取可能存在错误的位置和对应位置的碱基类型信息;

步骤三:根据步骤一的比对结果文件提取可能存在错误的位置的碱基类型的覆盖深度信息;

步骤四:根据可能存在错误的位置的原碱基类型的覆盖深度与对应位置其他类型碱基的覆盖深度的比值小于0.5,对PacBio测序数据组装得到的基因组序列该位置的碱基用该位置覆盖深度最大的其他类型碱基进行替换纠错,得到新的基因组序列,反之就不替换纠错。

作为优化,所述步骤一使用的Illumina测序数据样本DNA,与PacBio测序数据样本DNA来自同一样本的DNA。

作为优化,所述步骤二包含质控,所述质控是在提取出可能存在错误的位置和对应位置的碱基类型信息前去除reads比对错误数大于read长度的3%或者reads 不能完全比对上的比对信息。

作为优化,所述步骤三包含过滤,所述的过滤所述的过滤是在提取可能存在错误的位置的碱基类型的覆盖深度信息的同时去除覆盖深度低于3的错误位置信息。

作为优化,所述步骤二和步骤三中的错误的位置的碱基类型,是指单碱基错误和小于6bp的碱基插入缺失错误

作为优化,所述步骤一中的Illumina测序数据,采用的是全基因组鸟枪法小片段构建的文库测序的数据。

作为优化,所述步骤一中的Illumina测序数据,由Hiseq2500测序仪测序而得,所述步骤一中的PacBio测序数据,由PacBio RSII测序仪测序而得。

作为优化,所述步骤一中采用的比对软件为BWA。

本发明的有益效果如下:

本发明的方法实现了PacBio测序数据组装后序列的纠错,PacBio测序数据组装序列后主要的错误(包括单碱基错误碱基插入缺失错误)被移除,有效的提高了组装序列的准确度;

因为组装序列是后续分析的基础,在后续分析中,有助于提高基因的结构预测准确度,重复序列预测的准确度,序列比较分析的准确性,明显降低了后续研究的错误风险。

附图说明

图1:本发明的主要流程示意图。

具体实施方式

下面结合附图和例子对本发明的实施例进行进一步详细说明:

本实施例为一种PacBio测序数据组装后序列的纠错方法,包括以下步骤:

步骤一:使用比对软件BWA将某一物种(比如白菜)Illumina测序数据比对到同一物种同一样品PacBio测序数据组装得到的基因组序列上。

步骤二:根据步骤一比对结果文件的第3列比对上序列名称信息,第4列的比对位置信息,第6列标记的插入缺失信息和第13列标记的比对不一致碱基信息,提取可能存在错误的位置和对应位置的碱基类型信息,比对结果文件信息格式为一般行业人员所熟知的;例如,比对结果文件第3列为Chr1,第4列为1120,第 6列为125M(完全比对上),第13列为42C82,则提取可能存在错误的位置为Chr1 的第1162碱基位置,对应位置的碱基类型信息为“C”。

步骤三:根据步骤一比对结果文件的第3列比对上序列名称信息,第4列的比对位置信息,第6列标记的插入缺失信息和第13列标记的比对不一致碱基信息,在整个比对结果文件中统计可能存在错误的位置的碱基类型的覆盖深度信息,比对结果文件信息格式为一般行业人员所熟知的;例如,统计比对序列Chr1的第1162 碱基为C的共有20条reads,没有错误的比对到该位置的reads为0条。

步骤四:根据步骤三的统计,得到比对序列Chr1的第1162碱基为C的共有20条reads,没有错误的比对到该位置的reads为0条,0/20=0,而0<0.5,则PacBio 测序数据组装得到的基因组序列的Chr1序列第1162碱基替换成“C”。

步骤一使用的Illumina测序数据样本DNA,与PacBio测序数据样本DNA来自同一样本的DNA。

步骤二包含质控,质控在步骤一之后,步骤二提取可能存在错误的位置和对应位置的碱基类型信息之前,质控是在提取出可能存在错误的位置和对应位置的碱基类型信息前去除reads比对错误数大于read长度的3%或者reads不能完全比对上的比对信息。

步骤三包含过滤,过滤与提取可能存在错误的位置的碱基类型的覆盖深度信息同时进行,过滤是在提取可能存在错误的位置的碱基类型的覆盖深度信息的同时去除覆盖深度低于3的错误位置信息。

步骤二和步骤三中的错误的位置的碱基类型,是指单碱基错误和小于6bp的碱基插入缺失错误。

步骤一中的Illumina测序数据,采用的是全基因组鸟枪法小片段构建的文库测序的数据。

步骤一中的Illumina测序数据,使用的是Hiseq2500测序仪测序而得,所述步骤一中的PacBio测序数据,使用的是PacBio RSII测序仪测序而得。

PacBio是一家测序仪公司,他们的测序仪产生的数据,称为PacBio测序数据。

Illumina是一家美国的测序仪公司,他们的测序仪产生的数据,称为Illumina测序数据。

BWA是对比软件的名称,无中文名称,在行业内直接用英文表达。

以上所述的仅是本发明的优选实施方式,应当指出,对于本技术领域中的普通技术人员来说,在不脱离本发明核心技术特征的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

一种PacBio测序数据组装得到的基因组序列的纠错方法相关推荐

  1. 一种PacBio测序数据组装得到的基因组序列的纠错方法技术 (专利技术)

    一种PacBio测序数据组装得到的基因组序列的纠错方法技术 技术编号:17008244阅读:83留言:0更新日期:2018-01-11 04:20 本发明专利技术提供一种PacBio测序数据组装后序列 ...

  2. 一种基于三代PacBio测序数据的补洞方法

    一种基于三代PacBio测序数据的补洞方法 技术领域 本发明涉及生物信息技术领域,具体涉及DNA组装的补洞方法,它使用三代PacBio 测序数据来进行基因组数据的补洞. 背景技术 三代PacBio测序 ...

  3. 基于 PacBio 测序数据的纠错算法评测与剪切位点识别研究

    基于 PacBio 测序数据的纠错算法评测与剪切位点识别研究 摘 要 高通量测序技术的产生和发展催生了许多大规模基因测序项目, 如国际千人基 因组计划. 英国 UK10K 计划以及中国的百万人群基因组 ...

  4. Pacbio 纯三代组装复活草基因组

    对于植物等真核生物基因组来说,重复序列, 多倍体,高杂合度等特征在利用二代数据进行组装的时候都会有很大的问题: 利用二代数据组装出来的基因组,大多达不到完成图的水准,通常只是覆盖到编码蛋白的基因区域, ...

  5. (转载)一种根据纠偏数据对火星坐标进行完美拟合的方法

    一种根据纠偏数据对火星坐标进行完美拟合的方法 (2011-02-15 13:30:27) 转载▼ 标签: 地图 纠偏算法 it (原创:小牙,QQ328959,转载请注明出处) 从GPS设备取得真实坐 ...

  6. Nature子刊:三代测序重构菌株水平宏基因组序列的计算框架iGDA

    https://doi.org/10.1038/s41467-021-23289-4 2021年5月24日,美国西奈山伊坎医学院冯智星等在Nature Communications发文题为Detect ...

  7. NAR:测序数据鉴别和去除rRNA序列利器RiboDetector

    [编者荐语]: rRNA序列污染是广泛存在于各类高通量测序数据中的.除了在实验建库过程中对文库进行去核糖体的处理,数据分析层面也可通过一些序列比对的策略去除.RiboDetector是邓志罗博士基于深 ...

  8. 基于单细胞测序数据构建细胞状态转换轨迹(cell trajectory)方法总结

    细胞状态转换轨迹构建示意图(Trapnell et al. Nature Biotechnology, 2014) 在各种生物系统中,细胞都会展现出一系列的不同状态(如基因表达的动态变化等),这些状态 ...

  9. 第三代主流测序数据组装软件

最新文章

  1. scala 的39个关键字
  2. Kafka设计原理看了又忘,忘了又看?
  3. 伯纳德•罗森伯格先生参加华为技术2016首届国际光电连接技术研讨会
  4. 【HDU - 4348】To the moon(主席树,区间更新)
  5. python自学网站需要多长时间-怎么自学python,大概要多久?
  6. 大数据可视化大屏设计经验,教给你!
  7. Excel的python读写
  8. python系统下载-pythonox下载
  9. linux控制主机风扇转速,怎么调整cpu风扇转速 cpu风扇转速调整方法【详解】
  10. SIFT算法详解(附有完整代码)
  11. 计算机科技的主题,科技感十足的电脑桌面,私藏多年,60多个主题和皮肤统统给大家...
  12. 流式数据传输 php,PHP录制实时流式传输到文件
  13. office excel 打开csv文件乱码问题解决
  14. 椭圆曲线算法和国密SM2算法介绍
  15. 嵌入式硬件设计:电感
  16. CSS统计数据记录数量
  17. java毕业设计云笔记管理系统Mybatis+系统+数据库+调试部署
  18. 几种颜色模型(颜色空间):HSV CMYK RGB
  19. 管理经济分析05:并购、价格歧视、四个市场、招标与拍卖
  20. 用户注册登入管理系统

热门文章

  1. PPF(Point Pair Features)原理及实战技巧
  2. Co-Fusion:物体级别的语义SLAM
  3. 事件相机特征跟踪-概率数据关联法
  4. pl/sql块的基本语法
  5. DGL RDKit|基于GCN与基于3D描述符的分子溶解度预测模型对比
  6. SQLite | Python3导入csv到SQLite3
  7. Jupyter notebook与Spyder集成
  8. Python XML的解析与创建
  9. java交通工具的类继承代码_Java作业-交通工具继承
  10. mysql添加临时索引_mysql创建索引/删除索引操作