使用nextpolish对三代组装进行polish

NextPolish是武汉未来组开发的一个三代基因组polish工具(另外一个常用软件是Pilon)。NextPolish可以使用二代短读序列或者三代序列或者两者结合去纠正三代长读长序列在组装时导致的碱基错误(SNV/Indel)。由于它是专为polish设计,因此在运行速度和内存使用上都优与Pilon。

软件安装

先确保自己的服务器上安装了Python2.7, 且有Shutil和Signal,或者你可以利用conda新建一个python2.7的环境。

# shell

python -V

Python 2.7.15

# Python 交互命令行

import shutil

import signal

mkdir -p ~/opt/biosoft

cd ~/opt/biosoft

wget https://github.com/Nextomics/NextPolish/releases/download/v1.0.5/NextPolish.tgz

tar -zxvf NextPolish.tgz

# 编译软件

cd NextPolish && make -j 10

# 加入到.bashrc或.zshrc

export PATH=~/opt/biosoft/NextPolish:$PATH

软件使用

注意:如果你的基因组用的是miniasm这类缺少consensus步骤的组装软件,那么你需要先用运行如下命令,或者是运行racon利用三代序列进行polish。否则,由于基因组上存在过高的错误率,导致二代序列错误比对,影响polish效果。

threads=20

genome=input.genome.fa # 组装的基因组

lgsreads=input.lgs.reads.fq.gz # 三代长度序列

# 将三代回帖到参考基因组

minimap2 -a -t ${threads} -x map-ont/map-pb ${genome} ${lgsreads}| \

samtools view -F 0x4 -b - | \

samtools sort - -m 2g -@ ${threads} -o genome.lgs.bam

#建立索引

samtools index -@ ${threads} genome.lgs.bam

samtools faidx ${genome}

# 使用nextPolish.py 进行polish

python ~/opt/biosoft/NextPolish/lib/nextPolish.py \

-g ${genome} -t 5 --bam_lgs genome.lgs.bam -p ${threads} > genome.lgspolish.fa

生成的genome.lgspolish.fa才能用于后续的二代polish步骤。

NextPolish要求我们需要准备两个文件:

run.cfg: 配置文件,

sgs.fofn: 二代测序文件的位置信息

以使用NextDenovo组装Nanopore数据文章组装的结果为例进行介绍。在分析目录下有三个文件。

三代组装结果: nextgraph.assembly.contig.fasta

二代序列: ERR2173372_1.fastq,ERR2173372_2.fastq

第一步:创建一个文件,用于记录二代序列的位置信息

realpath ERR2173372_1.fastq ERR2173372_2.fastq > sgs.fofn

第二步:配置run.cfg文件

# 从NextPolish目录下复制配置文件

cp ~/opt/biosoft/NextPolish/doc/run.cfg run2.cfg

修改配置文件

[General]

job_type = local

job_prefix = nextPolish

task = default

rewrite = 1212

rerun = 3

parallel_jobs = 2

multithread_jobs = 10

genome = ./nextgraph.assembly.contig.fasta

genome_size = auto

workdir = ./01_rundir

polish_options = -p {multithread_jobs}

[sgs_option]

sgs_fofn = ./sgs.fofn

sgs_options = -max_depth 100

其中需要修改的参数为,其余参数查看官方的参数配置说明:

job_type: 任务类型,local表示单个节点运行。由于NextPolish使用DRMAA进行任务投递,因此还支持,SGE, PBS和SLURM

task: 任务类型, 用12,1212,121212,12121212来设置polish的轮数,建议迭代2轮就可以了。

parallel_jobs和multithread_jobs表示同时投递的任务数和每个任务的线程数,此处2 X 10=20

genome: 表示组装基因组的位置

workdir: 输出文件所在目录

sgs_options: 该选项设置二代测序polish的参数,包括-use_duplicate_reads, -unpaired, -max_depth, -bwa, -minimap2(默认使用)

运行方法

nextPolish run2.cfg &

在最后输出日志中,会提示最终存放的文件在什么位置,然后将这些文件合并到单个文件即可。

扫码即刻交流

nextpolish安装_使用nextpolish对三代组装进行polish相关推荐

  1. nextpolish安装_希望组自主三代组装软件NextDenovo最新版本全球学术开源!

    图1. NextDenovo V2.0-beta.1上线Github 测序中国2019年10月18日消息,希望组面向全球释放三代测序数据高效纠错.组装软件NextDenovo最新版本V2.0-beta ...

  2. nextpolish安装_「三代组装」使用Pilon对基因组进行polish

    软件安装 官方提供了编译好的jar包,方便使用 wget https://github.com/broadinstitute/pilon/releases/download/v1.23/pilon-1 ...

  3. nextpolish安装_NECAT: Nanopore数据的高效组装工具

    对MECAT2感兴趣的话,或者在MECAT2使用时遇到了什么问题,可以加'MECAT和NECAT问题解决群', 群号是:316859622 NECAT是肖传乐老师团队开发的一个针对Nanopore数据 ...

  4. nextpolish安装_NECAT | Nanopore数据的高效组装工具

    NECAT是肖传乐老师团队开发的一个针对Nanopore数据组装的软件,目前该工具尚未发表,除了https://github.com/xiaochuanle/NECAT有软件的介绍外,暂时没有中文资料 ...

  5. 「三代组装」Pacbio组装后如何用自身数据进行polish(更新版)

    之前那我由于需要对PacBio的组装结果进行polish,于是写了「三代组装」Pacbio组装后如何用自身数据进行polish.最近发现自己又有了需求,于是重新回顾了我之前写的这篇文章,但是在实践的时 ...

  6. Canu|三代组装软件

    Canu Canu是基于OLC算法,具有长reads的自纠错和组装功能,是应用最为广泛的三代组装软件(速度相对较慢). Canu相关使用方法来啦!!! 一.Canu的安装 方法一:conda安装 co ...

  7. 「三代组装」Pacbio组装后如何用自身数据进行polish

    三代数据由于其高错误率(目前应该是10%左右), 即便在组装前有一步纠错环节,但是组装得到序列依旧存在着许多错误,因此需要进行polish环节.polish分为两个层次,三代原始序列polish和二代 ...

  8. 三代组装软件canu学习笔记

    三代组装软件canu学习笔记 (2017-08-07 14:17:43) 转载▼   分类: 三代 1:这个组装软件起源于PBcR包含在Celera Assembler中(http://wgs-ass ...

  9. pyppeteer有java版本吗_Pyppeteer中文文档_序言_安装_基本使用及注意事项

    Pyppeteer中文文档_序言_安装_基本使用及注意事项 Pyppeteer是Puppeteer Javascript(无头) chrome/chromium 浏览器自动化库的Python非官方端口 ...

  10. 腾讯视频下载安装_如何上传视频到腾讯视频平台

    播放器软件很多,本文小编给大家推荐腾讯视频.我们可以在腾讯视频播放器上,观看各种电视剧.电影.综艺节目等内容.里面的大部分视频都是免费的,部分独播大剧可能会存在vip收费的情况,这也是无法避免的.腾讯 ...

最新文章

  1. 软件视频会议Vidyo体验
  2. wsdl文件是怎么生成的_电子标书怎么做需要注意的事项,您学会了吗?
  3. CodeForces - 1486B Eastern Exhibition(二维中位数)
  4. 【论文党福利】如何提取图像中的数据
  5. DeepLearningAI 学习笔记 1.3 浅层 logistic 神经网络
  6. 不要再使用JS框架了
  7. 大数据时代的全能日志分析专家--Splunk安装与实践
  8. nova5i有鸿蒙系统吗,华为nova 5i怎么样?值得入手么?
  9. Kubernetes入门——Longhorn简介
  10. oracle 已知表名查询所属的schema_sql注入联合查询总结
  11. linux+软盘启动程序,红旗Linux桌面版 4.0软盘启动硬盘安装过程图解 (Red Flag Linux 4.0)...
  12. 最大流最小割算法入门理解
  13. 如何远程访问办公室电脑(过年工作不打烊),亲测有效稳定
  14. Linux之ClamAV杀毒软件YUM安装和使用
  15. 工具推荐:最好用的pCap工具
  16. 机器学习基石 5.1 Recap and Preview
  17. python查看cpu温度_Python如何读取CPU和GPU的温度?
  18. 读完这篇文章,颠覆你之前对硬盘开盘的认知!
  19. linux内核编译时bad register name `%dil'错误
  20. $http与ajax的同步请求

热门文章

  1. 视频教程-2019年人工智能热门案例精讲之歌词生成器-机器学习
  2. Loda Button
  3. java 向路由器发送报文_9.IP选路 - loda0128的个人空间 - OSCHINA - 中文开源技术交流社区...
  4. 中科院信工所经验_信工所六室面试经历
  5. 如何制作一个蓄力跳的功能
  6. 强化Play To Earn生态,链游新势力海姆达尔Heimdallr蓄势待发
  7. python绘制语谱图(不掉包实现)
  8. V2X测试系列——V2X应用场景仿真及开发流程
  9. 时间维度表-数仓中最重要的维度之日期维度
  10. qt开源项目: tiled 瓦片 游戏地图编辑器