我们用来练手的文章发表在 Nature Communication ,"High contiguity Arabidopsis thaliana genome assembly with a single nanopore flow cell", 非常不要脸的说,这篇文章是我师爷实验室发的。

简单讲讲故事内容,就是他们实验室买了一台nanopore仪器,就是下面这台, 目前仪器价格国内是8K左右,当然测序的价格就另说了。如同买台PS4主机,还要买游戏,买个单反,你还得买镜头。仪器只是败家的开始!

他们认为三代测序目前有两大问题,测的还不够长以及不够准。nanopore解决了其中一个问题,不够长。Arabidopsis thaliana 当年用一代测序,虽然可以认为是组装的金标准了,但是还是有很多区域是BAC连BAC文库搞不定的,所以就用这台仪器把 Arabidopsis thaliana 测了一波。显然就测一个nanopore,还是已知序列的物种是不可能发文章的,于是他们又用Pacbio sequel测了一波。最后用bionano 光学图谱验证了一次(请大家自行计算要多少钱)。

光测序不行,还得组装对吧。传统的组装方法是想办法利用高深度和随机错误进行纠错,然后用纠错后的长序列进行组装,最后用二代进行纠错。对于一台不错的服务器(20W起步吧)大约花个十天半个月就行。作者或许认为买一台20多w的外设配合不到1w的测序仪可能是太蠢了,于是他用了比较Li Heng大神开发的工具,Minimap+miniasm进行组装,然后用racon+pillon进行纠错,用了一台Macbook Pro 15.6寸花了4天就搞定了,并且和常规工具比较,还算过得去哦。

下面就是正式的分析:

根据文章提供的项目编号"PRJEB21270", 在European Nucleotide Archive上找到下载地址。

进入这个页面之后,就可以去下载作者用到的所有数据,我们下载Sequel和MinIon和Illuminia的数据就好了,数据量加起来差不多30G。

## Sequal
wget -c -q ftp://ftp.sra.ebi.ac.uk/vol1/ERA111/ERA1116568/bam/pb.bam
wget -c -q ftp://ftp.sra.ebi.ac.uk/vol1/ERA111/ERA1116568/bam/pb.bam.bai
## MinION
wget -c -q ftp://ftp.sra.ebi.ac.uk/vol1/ERA111/ERA1116595/fastq/ont.fq.gz

对于Illumina的二代测序,需要用prefetch进行下载

# Illuminia MiSeq
prefetch ERR2173372
fasterq-dump -O  . ERR2173372

拿到数据之后,我们就可以用作者提供的分析流程进行重复了。地址为https://github.com/fbemm/onefc-oneasm/wiki/Assembly-Generation

这就是大神的自信,把代码都给你,反正你也看不懂。当然我在重复的时候用的都是最新的软件,所以会有所不同

第一步:拿着80%~90%正确率的原始数据相互比对, 找序列之间的Overlap。这一步,我花了30分钟

time ~/opt/biosoft/minimap2/minimap2 -t 10 -x ava-ont ont.fq ont.fq > gzip -1 ont.paf.gz &

第二步:找到Overlap,就能够进行组装了。这一步我花了2分钟

time ~/opt/biosoft/miniasm/miniasm -f ont.fq ont.paf > ONTmin.gfa &
awk '/^S/{print ">"$2"\n"$3}' ONTmin.gfa | seqkit seq > ONTmin_IT0.fasta &

第三步: 原始的组装结果充满了错误,所以需要进行纠错。纠错分为两种,一种是用三代自身数据,一种是用二代数据进行纠错。当然这两步都是需要的

首先使用三代数据进行纠错,古语有云“事不过三”一般迭代个三次就差不多。这三步,差不多用了1个小时。

# Iteration 1
~/opt/biosoft/minimap2/minimap2 ONTmin_IT0.fasta ont.fq > ONTmin_IT0.paf &
time ~/opt/biosoft/racon/build/bin/racon -t 10 ont.fq ONTmin_IT0.paf ONTmin_IT0.fasta > ONTmin_IT1.fasta &
# Iteration 2
~/opt/biosoft/minimap2/minimap2 ONTmin_IT1.fasta ont.fq > ONTmin_IT1.paf
time ~/opt/biosoft/racon/build/bin/racon -t 10 ont.fq ONTmin_IT1.paf ONTmin_IT1.fasta> ONTmin_IT2.fasta
# Iteration 3
~/opt/biosoft/minimap2/minimap2 ONTmin_IT2.fasta ont.fq > ONTmin_IT2.paf
time ~/opt/biosoft/racon/build/bin/racon -t 10 ont.fq ONTmin_IT2.paf ONTmin_IT2.fasta > ONTmin_IT3.fasta

之后使用二代数据进行纠错。二代数据虽然短,但是测序质量高,所以一般都要用它进行纠错。推荐用30X PCR free的illuminia 测序数据。

Step 1: 数据预处理,过滤低质量短读,去接头。工具很多,常用的是trimmomatic,cutadapter. 我安利一个国内海普洛斯搞的一个工具fastp。

# data clean
fastp -q 30 -5 -l 100 -i ERR2173372_1.fastq -I ERR2173372_2.fastq -o i1_clean_1.fq -O i1_clean_2.fq

这里标准为:平均质量高于Q30,对5‘端进行低质量碱基删除,保留大于100bp的短读

Step2: 比对,这一步基本都只用了bwa了

# align
bwa index ONTmin_IT3.fasta
bwa mem -t 8 ONTmin_IT3.fasta il_clean_1.fastq il_clean_2.fastq | samtools sort -@ 8 > ONTmin_IT3.bam

step3: 使用比对后的BAM文件进行纠错

# short read consensus call
java -Xmx16G -jar pilon-1.22.jar --genome ONTmin_IT3.fasta --frags ONTmin_IT3.bam --fix snps --output ONTmin_IT4

二代纠错的时间明显比之前的久,需要一天时间。

大家拿出自己的笔记本实际感受下呗

参考文献

  • nanopore组装拟南芥: High contiguity Arabidopsis thaliana genome assembly with a single nanopore flow cell
  • 不纠错组装: Minimap and miniasm: fast mapping and de novo assembly for noisy long sequences
  • 三代组装软件评测: Comprehensive evaluation of non-hybrid genome assembly tools for third-generation PacBio long-read sequence data

三代组装软件miniasm笔记相关推荐

  1. 三代组装软件canu学习笔记

    三代组装软件canu学习笔记 (2017-08-07 14:17:43) 转载▼   分类: 三代 1:这个组装软件起源于PBcR包含在Celera Assembler中(http://wgs-ass ...

  2. Canu|三代组装软件

    Canu Canu是基于OLC算法,具有长reads的自纠错和组装功能,是应用最为广泛的三代组装软件(速度相对较慢). Canu相关使用方法来啦!!! 一.Canu的安装 方法一:conda安装 co ...

  3. nextpolish安装_希望组自主三代组装软件NextDenovo最新版本全球学术开源!

    图1. NextDenovo V2.0-beta.1上线Github 测序中国2019年10月18日消息,希望组面向全球释放三代测序数据高效纠错.组装软件NextDenovo最新版本V2.0-beta ...

  4. 三代组装软件Canu使用

    Canu简介 Canu是Celera的继任者,能用于组装PacBio和Nanopore两家公司得到的测序结果. Canu分为三个步骤,纠错,修整和组装,每一步都差不多是如下几个步骤: 加载read到r ...

  5. canu三代组装软件安装

    官方推荐流程: 1. 下载canu-2.2.tar.xz(官方推荐不下source code) 1.1 curl命令下载 curl -L https://github.com/marbl/canu/r ...

  6. 三代测序数据超快组装软件--大牛Li heng 力作

    三代测序数据超快组装软件--大牛Li heng 力作 (2017-06-19 16:53:46) 转载▼   分类: 三代 1:软件链接:https://github.com/lh3/miniasm ...

  7. Nature方法 | 三代长读长宏基因组组装软件metaFlye

                    简介                  标题:metaFlye:基于重复图的可拓展长序列宏基因组序列组装 metaFlye: scalable long-read me ...

  8. NBT:宏基因组二、三代混合组装软件OPERA-MS

    文章目录 宏基因组二.三代测序混合组装软件OPERA-MS 热心肠日报 摘要 主要结果 图1. OPERA-MS工作流程图 图2. 宏基因组数据混合组装基因组评测 图3. 组装虚拟肠道微生物组 图4. ...

  9. 常用转录组组装软件集合

    转录组组装软件 基因组组装 基因组组装(Genome assembly)是指使用测序方法将待测物种的基因组生成序列片段(即read),并根据reads 之间的重叠区域对片段进行拼接,先拼接成较长的连续 ...

最新文章

  1. Oracle update 多表关联更新
  2. 皮一皮:沉迷游戏的下场...
  3. 【Flutter】Flutter 布局组件 ( 布局组件简介 | Row 组件 | Column 组件 | SizedBox 组件 | ClipOval 组件 )
  4. 从业20年的程序员,“盘”出来的5种编程经验
  5. 密码学基础知识(一)信息安全与密码学
  6. 给一个不多于5位的正整数 要求_java练习题 打卡第5天
  7. 华为手机Android studio 配置ADB wifi 调试
  8. 解决win10系统alt+tab切换程序不显示程序缩略图问题
  9. 关于调ads1115时差分数据错误的时序分析,以及ads1115的计算公式
  10. layui define 的使用
  11. Java日常实习 京东/爱奇艺面经
  12. 如何在EDUIS中导出ETL字幕模板_Arctime Pro字幕软件 2.0 简单强大高效的跨平台字幕制作软件...
  13. 啊5G 你比4G多1G
  14. 山东省创新型中小企业认证解读
  15. J2SE、J2EE、J2ME
  16. 解决listview 嵌套listview
  17. Sql同一字段中相同数据的数量统计
  18. 彻底卸载Visual Studio2013、15、17方法
  19. android树状结构导航图
  20. 攻防世界web新手题(小白做题)

热门文章

  1. 生活轻哲学:【金钱哲学】和【择业哲学】
  2. mysql数据库文件持久化_Docker之深交Mysql持久化
  3. 多暂估的库存如何调整_去年暂估的库存如何在今年做冲销
  4. webservice编写
  5. RealsenseD435,D455参数对比(爹有娘有不如自己有)
  6. ios开发教程入门到精通
  7. 五大券商研报:逢大跌买入这些股
  8. bim 水利枢纽 运维_BIM在运维阶段应用案例
  9. Eclipse 使用的装逼神器之 Eclipse 全屏模式
  10. 使用plotly对美国疫情地图可视化