Illumina二代测序有个致命缺陷,说到底还是基于PCR扩增的,所以存在偏向性和对于高GC含量区无法扩增等系统误差,测序错误是不可避免的,其次就是测序长度短;但其价格便宜,通量非常高,准确性达99%,综合性价比也受到青睐。短序列的reads在做基因组装的时候,遇到大的重复片段就会很吃力。

10X Genomics

2015年备受瞩目的测序黑马:10X Genomics,是常规Illumina二代测序的升级版,由于开发出了一套巧妙的Barcoding建库方案,使得Illumina这种短读长二代测序能够得到跨度在30-100Kb的linked reads信息,与二代测序数据相结合,在Scaffold的组装上能够得到媲美三代测序的组装结果;

基本原理: 首先将每一条长片段的DNA分配至不同的油滴微粒中,通过专利的GEM建库技术,长片段DNA被切碎成适合测序的大小,并且来源于相同油滴(同一条长片段DNA)的DNA片段,会带上相同的一段DNA序列标记(Barcode),之后在Illumina系统上测序完成后,可以理论上再将来源相同的DNA序列独立拼接,得到原先的长片段DNA序列。
对于不同GC含量区其效果如何呢?2015年10月Nat Review Genetics文章Genetic variation and the de novo assembly of human genomes中总结的PacBio、10X Genomics以及Illumina技术在不同GC含量DNA区域的覆盖度分布:

10X Genomics技术相对于Illumina来说,有改进,但依旧是个拱形,而PacBio则是无偏倚的均一分布,10X的技术,其Coverage一样是受GC含量影响较大的,那么如果真要应用10X技术,那么必须注意目标DNA的GC含量分布最好能控制在30~70%。
但10Xgenome毕竟是升级版,其也存在一些特有的优势:

(1) 微量样本:仅需1ng基因组DNA即可进行长片段建库;

(2) 精确分区:由于拥有众多的barcode和Partions,可对DNA进行精确分区;

(3) 长片段信息:该技术可与Illumina测序仪进行无缝对接,利用短Reads可获得长达100Kb的片段;

(4) 基因组组装质量提升:利用长片段信息结合Illumina组装数据组装的ScaffoldN50长度比单纯用Illumina方法提高十几倍。

第三代测序中的PacBio单分子实时(Single Molecule Real-Time, SMRT)DNA测序可以实现超过99.999%(QV50)的高度精确测序,且不受DNA序列中GC和AT含量的影响,平均读长可达20kb(最长>60kb)。

PacBio三代测序最大的死穴是:通量不足和单次(1X)测序错误率高(85%);但三代的错误是完全随机发生的,属于随机误差,可以靠覆盖度来自我纠错,如果通量不是限制因素,那么PacBio是目前最准确的测序方式:错误率可以无限接近罕见突变的发生率(即无法分辨是测序错误还是罕见突变)。2012年冷泉港实验室的Michael Schatz开发了一种纠错算法,用二代测序的短读长高精确数据对三代长读长数据进行纠错,这种称为”混合纠错拼接” (Hybrid error correction and de novo assembly of single-molecule sequencing reads)可以进一步提升PacBio测序精确度。
PBcR: 混合纠错拼接

PBcR: 混合纠错拼接 粉色长方形:单个PacBio RS reads;黑色竖线:测序错误;(a)由于测序错误碱基的存在使得两条reads就难确定是否在末端重叠;(b)高质量的短reads比对到存在错误的长reads;短reads中的黑色竖线表示 ‘mapping errors’ ,是长reads和短reads中测序错误的组合,此外双拷贝的重复序列的存在(灰色轮廓)导致在每一个拷贝中出现短reads的堆挤,为避免reads map到错误的重复区,仅保留最高比对值的短reads;(c)剩余的比对形成一致性序列(紫色长方形),长reads和短reads中共有的部分错误未能得到纠正;(d)overlap纠正后的长reads;(e) 最后的组装能够跨越重复区域。
Illumina reads纠错覆盖度

纠错的准确性和组装一致性在Illumina高质量reads达50X后开始收益递减,因此50X Illumina reads足够,纠错后PacBio长reads准确性将由85%提升至>99.9%,此时嵌合体和错误剪切reads分别为<2.5% 和 <1%。
目前在P6C4试剂下,大约每SMRT Cell平均可以做到 600M~1G数据量。
PacBio的长读长、无GC偏向性和无PCR扩增偏向性等独特优势有助于克服复杂的重复区域,从而跨越整个基因转录区,显著提升基因组和转录组的De Nove组装质量;

Illumina二代+PacBio三代数据分析

PBcR首先通过纠错来提升PacBio reads准确性,然后进行组装。PBcR的纠错和组装分为self-correction (using only PacBio RS data,自动运行fastqToCA) or correction with high-identity sequences(二代数据)。

self-correction

1

PBcR -length 500 -partitions 200 -l lambda -s pacbio.spec -fastq pacbio.filtered_subreads.fastq genomeSize=50000 > run.out 2>&1

高质量Illumina reads

1
2
3
4
5
6
7

#short read准备
fastqToCA -libraryname illumina -technology illumina -reads illumina.fastq > illumina.frg
#纠正
pacBioToCA -length 500 -partitions 200 -l ec_pacbio -t 16 -s pacbio.spec \
    -fastq pacbio.filtered_subreads.fastq illumina.frg > run.out 2>&1
#组装
runCA -p asm -d asm -s asm.spec ec_pacbio.frg > asm.out 2>&1

: 第一步short reads准备阶段请确认二代数据第四行质量编码值,一般是33,否则用-type参数指定,要不然会报错QV问题;
纠正时PBcR需要安装AMOS和blasr依赖软件,输入文件short reads (illumina.frg)和long reads (pacbio.filtered_subreads.fastq);
fastqToCA和PBcR两个中的libraryname需不同;
fastqToCA生成的frg文件后面没有序列信息 ,是正确的;

Spec files参数解释

PBcR混合组装需要指定两个Spec配置文件: pacbio.spec(纠错)和asm.spec(组装)。这两个文件都包含特定的算法参数和计算机硬件参数,通常情况下算法参数可以忽略(此时将用软件默认值),但是计算机硬件参数需要根据实际情况调整。
所有参数均为option = value形式,其中的value为布尔型(boolean),即true=1,false=0。
具体关于specfile参数解释见PBcR:SpecFiles Options

PacBio sequence error correction amd assemble via pacBioToCA相关推荐

  1. Comprehensive evaluation of error correction methods for high-throughput sequencing data

    Comprehensive evaluation of error correction methods for high-throughput sequencing data 高通量测序数据误差修正 ...

  2. Bi-level error correction for PacBio long reads

    Bi-level error correction for PacBio long reads 双级错误校正PacBio长read 最新的测序技术,如太平洋生物科学公司(PacBio)和牛津纳米孔机器 ...

  3. Bi-level error correction for PacBio long reads. PacBio长读数的两级纠错

    Bi-level error correction for PacBio long reads. PacBio长读数的两级纠错 作者: Liu Yuansheng; Lan Chaowang; Blu ...

  4. Efficient Hybrid De Novo Error Correction and Assembly for Long Reads

    Efficient Hybrid De Novo Error Correction and Assembly for Long Reads       长read的高效的混合从头纠错和装配 Abstr ...

  5. LoRDEC: accurate and efficient long read error correction LoRDEC:精确且高效的长read校正

    LoRDEC: accurate and efficient long read error correction LoRDEC:精确且高效的长read校正 动机:PacBio单分子实时测序是一种产生 ...

  6. HALC: High throughput algorithm for long read error correction

    Journal|[J]BMC BioinformaticsVolume 18, Issue 1. 2017. HALC: High throughput algorithm for long read ...

  7. Ratatosk - Hybrid error correction of long reads enables accurate variant calling and assembly

    Ratatosk - Hybrid error correction of long reads enables accurate variant calling and assembly   长读的 ...

  8. Comparative assessment of long-read error correction software applied to Nanopore RNA-sequencing dat

    Comparative assessment of long-read error correction software applied to Nanopore RNA-sequencing dat ...

  9. ParLECH: Parallel Long-Read Error Correction with Hadoop

    ParLECH: Parallel Long-Read Error Correction with Hadoop  使用Hadoop并行的长读错误更正 Abstract: Long-read sequ ...

最新文章

  1. 在Ubuntu 14.04上设置生产环境可用的Node.js
  2. 怎么学python-如何系统的学习python?
  3. AI在汽车中的应用:实用深度学习
  4. 【Python】import pandas时,报错 pandas Missing required dependencies ['numpy'] 原因分析
  5. 使用Docker构建Oracle ADF应用程序
  6. iPhone开发笔记[1/50]:初学iPhone上用Quartz 2D画图
  7. 软件测试 学习之路 DOS常用命令
  8. 再发Wallop和GMail邀请各4个!
  9. 安装ESXI 5.5卡在LSI_MR3.V00解决方案
  10. 亮风台AR眼镜震撼发布 HiAR 产品全面升级
  11. AutoCAD2012从入门到精通中文视频教程 第28课 文字和表格命令(1)(个人收藏)
  12. MLX90614系列 ——红外温度计
  13. 爬虫 Scrapy 学习:Spiders
  14. IE 打开速度慢的解决方法
  15. 推动区块链技术应用创新河南开展区块链应用场景需求和典型应用案例征集工作
  16. python函数实验总结_Python程序设计实验报告:实验六 函数
  17. 使用联想计算节点的方法整理
  18. 检查图片是否空白图片
  19. 1.javaSe常用类
  20. 西安python招聘信息_中软国际(陕西西安)2017招聘启事

热门文章

  1. 清华计算机系上热搜!近 9 成优秀毕业生放弃留学,前 50 名 41 人留校深造......
  2. 基于改进的点对特征的6D位姿估计
  3. 自动驾驶汽车视觉- 图像特征提取与匹配技术
  4. VS2017报错---无可用源
  5. JMC | 人工智能在药物合成中的当前和未来作用(3)
  6. RMSD:通过旋转计算两个分子间的最小rmsd
  7. 决策树算法(三)——计算香农熵
  8. input禁止后怎么实现复制功能_(变强、变秃)Java从零开始之JQuery购物车功能实操...
  9. 孪生网络图像相似度_生成对抗网络的进步多大,请看此文
  10. 在线作图|在线做Unifrac PCoA分析