Microbiome:宏基因组分箱流程MetaWRAP安装和数据库布置
文章目录
- 简介
- 工作原理
- 优势
- 功能模块
- 软件安装
- 数据库配置
- **CheckM数据库**
- **KRAKEN数据库**
- **NCBI_nt**
- **NCBI物种信息**
- **人类基因组bmt索引**
- 设置数据库位置
- 参数简介
- Reference
- 猜你喜欢
- 写在后面
简介
MetaWRAP这是一套强大的宏基因组分析流程,专注于宏基因组Binning。文章于2018年9月15日发表于《Microbiome》。文章简介见参考文献链接。
软件开源,代码和教程如下:
https://github.com/bxlab/metaWRAP
工作原理
metaWRAP工作流程
图中红色代表分析模块,绿色代表宏基因组数据,橙色代表中间文件,蓝色代表结果图表。
实现原始序列的质控、物种注释和可视化、宏基因组拼接、三种主流Bin方法分析和结果筛选与可视化、Bin的重新组装、Bin的物种和功能注释等。轻松实现Bin相关分析和可视化的绝大部分需求。
优势
图2. 基于CAMI人工数据集高、中、低数据量下,对6款Bin软件结果的完整度和污染率进行评估。结果表明metaWRAP在各种情况下在完整度和污染率方面都表现更优秀。
功能模块
宏基因组数据预处理模块
- 质控Read_QC: read质控剪切和移除人类宿主
- 组装Assembly: 质控、使用megahit或metaSPAdes拼接
- 物种注释Kraken: 对reads和contigs层面进行可视化
分箱Bin处理模块
- 分箱Binning: 利用MaxBin2, metaBAT2, 和CONCOCT三个软件分别分箱;
- 提纯Bin_refinement:对多种Bin结果评估和综合分析,获得更好的结果;
- 重组装Reassemble_bins:利用原始序列和评估软件二次组装,改善Bin的N50、完整度4) 定量Quant_bins: 估计样品中每个bin的丰度并热图展示
- 气泡图Blobology: blobplots可视化群体的contigs的物种和Bin分布
- 物种注释Classify_bins: 对Bin物种注释
- 基因注释Annotate_bins: 预测Bin中的基因
软件安装
系统要求
系统要求是由处理的数据量决定的。其中一些软件,如KRAKEN、metaSPAdes对内存需求较高,推荐服务器至少8+核,64+GB内存,仅支持64位Linux系统。对于300 GB以上数据用户,推荐配置48核,512内存或更高。
软件原作者的教程中参数使用了96线程和900G内存,可以推断软件开发和测试所用服务器至少为96线程和1TB内存。
安装conda
(安过请跳过,详见- Nature Method:Bioconda解决生物软件安装的烦恼)
wget https://repo.continuum.io/miniconda/Miniconda2-latest-Linux-x86_64.sh
bash Miniconda2-latest-Linux-x86_64.sh
直接安装——我没成功,不推荐
此法使用方便,但可能安装不成功、环境不满足要求,或影响其它己安装程序。
# ORDER IS IMPORTANT!!!
conda config --add channels defaults
conda config --add channels conda-forge
conda config --add channels bioconda
conda config --add channels urskyconda install -c ursky metawrap-mg
虚拟环境安装——推荐
metaWRAP依赖超过140个软件作为依赖关系,容易引起与已经安装的软件冲突。因此强烈推荐使用conda虚拟环境安装。
每次使用要进入虚拟环境,结果要退出,多两行代码;但更安全。
conda create -n metawrap python=2.7
source activate metawrap# ORDER IS IMPORTANT!!!
conda config --add channels defaults
conda config --add channels conda-forge
conda config --add channels bioconda
conda config --add channels urskyconda install -c ursky metawrap-mg
手动安装——不推荐
当然,如果你不喜欢conda,软件也可以手动安装,这样可以更好的控制你的环境变量。依赖关系列表见 https://github.com/bxlab/metaWRAP/blob/master/installation/dependancies.md
不推荐,高手可能需要3-7天,对Linux不熟悉人简直是不可完成的任务。
数据库配置
conda安装软件并不带数据库,需要手动下载数据库,并设置数据库的位置。
关于数据库的下载,详见 https://github.com/bxlab/metaWRAP/blob/master/installation/database_installation.md
主要大小和依赖模块如下:
Database | Size | Used in module |
---|---|---|
Checkm | 1.4GB | binning, bin_refinement, reassemble_bins |
KRAKEN | 192GB | kraken |
NCBI_nt | 99GB | blobology, classify_bins |
NCBI_tax | 283MB | blobology, classify_bins |
Indexed hg38 | 34GB | read_qc |
这里我们安装数据库到~/db
目录,保证你有权限,但要保证至少有500GB的空间。请根据你的情况修改为自己有权限且空间足够的位置。
mkdir -p ~/db
CheckM数据库
下载文件276MB,解压后1.4GB
cd ~/db
mkdir checkm
checkm data setRoot
# CheckM will prompt to to chose your storage location...# Now manually download the database:
cd checkm
wget https://data.ace.uq.edu.au/public/CheckM_databases/checkm_data_2015_01_16.tar.gz
tar -xvf *.tar.gz
rm *.gz
KRAKEN数据库
下载建索引需要 > 300GB以上空间,完成后占用192GB空间
cd ~/db
mkdir kraken
kraken-build --standard --threads 24 --db kraken
kraken-build --db kraken --clean
NCBI_nt
41GB,我下载大约12h;解压后99GB
cd ~/db
mkdir NCBI_nt && cd NCBI_nt
wget -c "ftp://ftp.ncbi.nlm.nih.gov/blast/db/nt.*.tar.gz"
for a in nt.*.tar.gz; do tar xzf $a; done
NCBI物种信息
压缩文件45M,解压后351M
cd ~/db
mkdir NCBI_tax
cd NCBI_tax
wget ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz
tar -xvf taxdump.tar.gz
人类基因组bmt索引
下载人类基因组942M,解压后合并3.2G,并建索引34GB
mkdir BMTAGGER_INDEX
cd BMTAGGER_INDEX
wget ftp://hgdownload.soe.ucsc.edu/goldenPath/hg38/chromosomes/*fa.gz
gunzip *fa.gz
cat *fa > hg38.fa
rm chr*.fabmtool -d hg38.fa -o hg38.bitmask
srprism mkindex -i hg38.fa -o hg38.srprism -M 100000
设置数据库位置
配置文件为config-metawrap
,使用如下命令查找配置文件位置:
which config-metawrap
查使用vi/vim/gedit等文本编辑器来修改数据库的位置吧
参数简介
metaWRAP程序整理了所有的功能模块,可以独立运行。运行metaWRAP -h
显示模块名称
Usage: metawrap [module] --help
Options:read_qc 质控Raw read QC module
assembly 组装Assembly module
binning 分箱Binning module
bin_refinement 分箱提纯Refinement of bins from binning module
reassemble_bins 重装分箱Reassemble bins using metagenomic reads
quant_bins 定量Quantify the abundance of each bin across samples
blobology 可视化Blobology module
kraken 物种注释KRAKEN module
想查看每个模块的具体参数,如组装metawrap assembly -h
Usage: metawrap assembly [options] -1 reads_1.fastq -2 reads_2.fastq -o output_dir
Options:-1 STR 正向序列forward fastq reads
-2 STR 反向序列reverse fastq reads
-o STR 输出目录output directory
-m INT 内存大小memory in GB (default=10)
-t INT 线程number of threads (defualt=1)
--use-megahit assemble with megahit (default)
--use-metaspades assemble with metaspades instead of megahit
详细使用:见明天使用实战
Reference
Micribome https://microbiomejournal.biomedcentral.com/articles/10.1186/s40168-018-0541-1
热心肠日报 https://www.mr-gut.cn/papers/read/1059939857?kf=xread_daily
Microbiome:宏基因组分箱流程MetaWRAP简介 https://blog.csdn.net/woodcorpse/article/details/83040987
主页和软件安装教程:https://github.com/bxlab/metaWRAP
数据库布署:https://github.com/bxlab/metaWRAP/blob/master/installation/database_installation.md
使用教程:https://github.com/bxlab/metaWRAP/blob/master/Usage_tutorial.md
猜你喜欢
- 10000+: 菌群分析
宝宝与猫狗 提DNA发Nature 实验分析谁对结果影响大 Cell微生物专刊 肠道指挥大脑 - 系列教程:微生物组入门 Biostar 微生物组 宏基因组
- 专业技能:生信宝典 学术图表 高分文章 不可或缺的人
- 一文读懂:宏基因组 寄生虫益处 进化树
- 必备技能:提问 搜索 Endnote
- 文献阅读 热心肠 SemanticScholar Geenmedical
- 扩增子分析:图表解读 分析流程 统计绘图
- 16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
- 在线工具:16S预测培养基 生信绘图
- 科研经验:云笔记 云协作 公众号
- 编程模板: Shell R Perl
- 生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘
写在后面
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外2300+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA
Microbiome:宏基因组分箱流程MetaWRAP安装和数据库布置相关推荐
- Microbiome:宏基因组分箱流程MetaWRAP分析实战和结果解读
文章目录 MetaWRAP-a flexible pipeline for genome-resolved metagenomic data analysis 分析实战 0.下载肠道宏基因组数据 1. ...
- Microbiome:宏基因组分箱流程MetaWRAP简介
文章目录 MetaWRAP-a flexible pipeline for genome-resolved metagenomic data analysis 热心肠日报导读 摘要 背景 结果 结论 ...
- 广东生态所孙蔚旻团队EST发表利用稳定同位素示踪-宏基因组分箱联用技术揭示砷污染土壤中的厌氧砷氧化微生物及其代谢途径...
广东省生态环境技术研究所孙蔚旻团队ES&T发表:利用稳定同位素示踪-宏基因组分箱联用技术揭示砷污染土壤中的厌氧砷氧化微生物及其代谢途径 第一作者:张苗苗 通讯作者:孙蔚旻 通讯单位:广东省生态 ...
- 微生太 | 宏基因组分箱Binning(一)基础介绍与报告展示
本文首次发布于微信公众号:微生态 导读 只做宏基因组太单调?为什么不试试宏基因组Binning呢?一次测序,"宏基因组"+"Binning"两种分析,微生太帮您 ...
- es like and or_广东生态所孙蔚旻团队ESamp;T发表利用稳定同位素示踪宏基因组分箱联用技术揭示砷污染土壤中的厌氧砷氧化微生物及其代谢途径...
广东省生态环境技术研究所孙蔚旻团队ES&T发表:利用稳定同位素示踪-宏基因组分箱联用技术揭示砷污染土壤中的厌氧砷氧化微生物及其代谢途径 第一作者:张苗苗 通讯作者:孙蔚旻 通讯单位:广东省生态 ...
- 宏基因组分箱CheckM评估结果的提取
CheckM CheckM在前文已经提过了,是一款评估宏基因组分箱质量的软件.目前我使用MetaBAT2这款软件已经对我的数据进行了一次分箱,现在利用CheckM进行质量评估.目前阶段,我主要想看Co ...
- 宏基因组分箱整合工具 DAS Tool从零学起笔记
参考https://github.com/cmks/DAS_Tool DAS: dereplication, aggregation and scoring strategy DAS Tool可以将不 ...
- 从metaWRAP quant_bins计算模块理解宏基因组分箱bin的丰度计算
背景 在进行扩增子分析时,我们拿到的最关键的一个中间数据就是OTU/ASV表,在这个矩阵中,我们能获得我们的分析对象(OTU/ASV)在样本间的分布规律,并通过微生物群落的结构在样本之间的差异来解决一 ...
- 列注释_技术贴 | 宏基因组分箱 (Binning)第四课——COG EC RNA注释统计
点击蓝字↑↑↑"微生态",轻松关注不迷路 本文由阿童木根据实践经验而整理,希望对大家有帮助. 原创微文,欢迎转发转载. 只做宏基因组太单调?为什么不试试宏基因组Binning呢?一 ...
最新文章
- What’s new: Windows Phone 7 与 Windows Phone 6.5功能对比
- 初学git:用git bash往github push代码
- API 版本控制的几种方式
- Oracle的时区问题
- 【ABAP】通过ST05分析程序执行路径
- js blob 下载到本地文件
- angularjs 导出excel php,AngularJS 导出Excel指令
- WCF 之 消息契约(MessageContract)
- Angular InjectionToken的一个具体使用例子
- 华科高级软件测试技术1704班-02组 如何计算团队成员贡献分
- android 布局防抖动,Android全屏返回布局抖动问题
- repeater导出excel html,Repeater显示数据,并且导出到excel
- SQL Server中的零碎数据库还原
- Vmware 虚拟机远程连接失败解决办法
- Compiling XORP v1.2 in Debian 3.1
- OpenCV 利用MFC的Picture控件显示和处理图像
- MATLAB批量添加图例
- transmac装黑苹果_黑苹果安装教程
- 近视眼手术之后计算机专业,做完近视激光手术后多久可以整天对着电脑工作。应注意什么?...
- mp4数据恢复:mp4视频格式化怎么恢复