前情提要

如果您在学习本教程中存在困难,可能因为缺少背景知识,建议先阅读本系统前期文章

  • 宏基因组分析理论教程
  • 微生物组入门圣经+宏基因组分析实操课程
  • 1背景知识-Shell入门与本地blast实战
  • 2数据质控fastqc, Trimmomatic, MultiQC, khmer
  • 3组装拼接MEGAHIT和评估quast
  • 4基因注释Prokka
  • 5基于Kmer比较数据集sourmash
  • 5基于Kmer比较数据集sourmash
  • 6不比对快速估计基因丰度Salmon
  • 7bwa序列比对, samtools查看, bedtools丰度统计

宏基因组binning简介

宏基因组研究中,你想不想知道那些序列来自那些菌,想不想拼出末知菌的基因组呢?

其实这些可以有,很多高水平文章中都有,这个过程就叫Binning(我习惯将其翻译为分箱),是宏基因组分析提升档次的关键步骤。

想了解Bining的背景知识,请阅读《一文读懂宏基因组binning》。想全面了解哪些软件可以Binning,请看《精选30余款宏基因组分析软件》。想知道更全面的Bin软件及评估,可以阅读本月刚发表的Nature Method(http://dx.doi.org/10.1038/nmeth.4458),或阅读之前写的导读《Nature Method: 史上最权威宏基因组软件评估—人工重组宏基因组基准数据集》,其中有9款Bin软件的简介和比较。

分箱宏基因组

https://2017-cicese-metagenomics.readthedocs.io/en/latest/binning.html

宏基因组拼接以后,接下来常用的分析就是分箱(binning),即将组装的叠连群(contigs)进行分组或分箱,这些组内可能来自相近的分类学单元。有许多工具可用于Binning,详细介绍和评估见Nature Method: Critical Assessment of Metagenome Interpretation—a benchmark of metagenomics software。本文只介绍两款易用且高引的软件 ——MaxBin (引用105次) 和MetaBAT (引用123次)。为了进行分箱,我们先要使用bwa比对原始序列到拼接结果,估计叠连群的相对丰度。对于分箱的结果,我们要使用VizBin进行检查。

安装分箱工具

MaxBin安装

# 进入工作目录
wd=~/test/metagenome17
cd $wd
# 下载Maxbin
curl  https://downloads.jbei.org/data/microbial_communities/MaxBin/getfile.php?MaxBin-2.2.2.tar.gz > MaxBin-2.2.2.tar.gz
# 解压并安装
tar xzvf MaxBin-2.2.2.tar.gz
cd MaxBin-2.2.2/src
makecd $wd
git clone https://github.com/COL-IU/FragGeneScan.git
cd FragGeneScan
make clean
make fgscd $wd
git clone https://github.com/loneknightpy/idba.git
cd idba
./build.sh
sudo apt-get install bowtie2 hmmer
export PATH=$PATH:$wd/idba/bin
export PATH=$PATH:$wd/FragGeneScan
export PATH=$PATH:$wd/MaxBin-2.2.2

MetaBAT安装

cd $wd
# 此处如下载不成功,自己翻墙下载吧。百度云链接已经被和谐了
curl -L https://bitbucket.org/berkeleylab/metabat/downloads/metabat-static-binary-linux-x64_v0.32.4.tar.gz > metabatv0.32.4.tar.gz
tar xvf metabatv0.32.4.tar.gz

现在开始分箱(Binners)的时间到,注意MaxBin运行时是非常耗时的。本文为了演示,采用牺牲质量而换取时间的方式来让大家演示。

  1. 我们只用原文6个数据集中的2,而实际上Bin是数据越多越好的。我们取子集只是为了加速演示。
  2. 降低迭代次数,将默认的50次改为5次,将降低结果质量,但显著减少运行时间。详见官方帮助

第一种Bin方法 - MaxBin

Maxbin考虑每个contig的序列覆盖度四碱基频率,以记录每个bin的标志基因数量.

将count文件传递给MaxBin

mkdir binning
cd binning
mkdir maxbin
cd maxbin
ls $wd/mapping/*coverage.tab > abundance.list # 需要完成第7节:比对

开始bin

run_MaxBin.pl -contig $wd/mapping/subset_assembly.fa -abund_list abundance.list -max_iteration 5 -out mbin

此步会产生一系列文件。看一下文件,会发现产生一系统*.fasta的按数字排列的文件,这些就是预测的基因组bins。
先查看less mbin.summary的总体情况

Bin name        Completeness    Genome size     GC content
mbin.001.fasta  15.0%   228392  31.0
mbin.002.fasta  15.9%   404710  33.3
mbin.003.fasta  64.5%   1252476 55.1
mbin.004.fasta  81.3%   1718948 53.5
mbin.005.fasta  82.2%   2737044 37.0
mbin.006.fasta  69.2%   2106585 50.3
mbin.007.fasta  87.9%   1932782 46.1

将所有的bin文件链接起来,并将文件名作为序列名

for file in mbin.*.fasta
donum=${file//[!0-9]/}sed -e "/^>/ s/$/ ${num}/" mbin.$num.fasta >> maxbin_binned.concat.fasta
done

我们还要生成一个用于可视化的列表

echo label > maxbin_annotation.list
grep ">" maxbin_binned.concat.fasta |cut -f2 -d ' '>> maxbin_annotation.list

第二种方法 - MetaBAT

MetaBAT分箱考虑三点:测序reads覆盖度(read coverage)、覆盖度变异(coverage variance)、和四碱基频率(tetranucleotide frequencies)。

cd $wd/binning
mkdir metabat
cd metabat
ln -fs $wd/mapping/*abundtrim*sorted.bam .
# 统计contig覆盖度
$wd/metabat/jgi_summarize_bam_contig_depths --outputDepth depth_var.txt *bam

运行MetaBAT script

$wd/metabat/metabat -i $wd/mapping/subset_assembly.fa -a depth_var.txt --verysensitive -o metabat -v > log.txt

合并所有的bin结果

for file in metabat.*.fadonum=${file//[!0-9]/}sed -e "/^>/ s/$/ ${num}/" metabat.$num.fa >> metabat_binned.concat.fasta
done

生成bin编号注释文件

echo label > metabat_annotation.list
grep ">" metabat_binned.concat.fasta |cut -f2 -d ' '>> metabat_annotation.list

Bin的可视化

我们现在有MaxBin, MetaBin两种结果,首要先做的是质量评估。最常用的工具是CheckM。但是由于时间有限,今天只介绍VizBin使用。

安装VizBin

cd $wd
sudo apt-get install libatlas3-base libopenblas-base default-jre
curl -L https://github.com/claczny/VizBin/blob/master/VizBin-dist.jar?raw=true > VizBin-dist.jarjava -jar VizBin-dist.jar

想要显示图型界面,需要Xmanager安装成功。也可以在Windows上运行jar程序。


按选择(choose),菜单中选择$wd/mapping/binning/maxbin_binned.concat.fasta,可以直接点开始(Start)。

看到了什么,具体可以阅读VizBin原文。

上传注释文件,如下图

同样分析metaBAT的结果。

比较两种方法:
- 分别有多少bins?
- 有多少个明显的bins?

Reference

  1. Maxbin: https://microbiomejournal.biomedcentral.com/articles/10.1186/2049-2618-2-26
  2. 官方帮助 https://downloads.jbei.org/data/microbial_communities/MaxBin/README.txt

猜你喜欢

  • 一文读懂:1微生物组 2进化树 3预测群落功能
  • 热文:1图表规范 2DNA提取 3 实验vs分析
  • 必备技能:1提问 2搜索 3Endnote
  • 文献阅读 1热心肠 2SemanticScholar 3geenmedical
  • 扩增子分析:1图表解读 2分析流程 3统计绘图 4群落功能 5进化树
  • 科研团队经验:1云笔记 2云协作 3公众号
  • 系列教程:1Biostar 2微生物组 3宏基因组
  • 生物科普 1肠道细菌 2生命大跃进 3细胞的暗战 4人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外七十多位PI,七百多名一线科研人员加入。参与讨论,获得专业指导、问题解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职务”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA

宏基因组实战8. 分箱宏基因组binning, MqaxBin, MetaBin, VizBin相关推荐

  1. SemiBin宏基因组半监督分箱工具中GTDB数据的下载与配置

    最近想学一学宏基因组的分箱工具使用(讲真的,感觉bin还是挺复杂的,不是我这种小白该去涉猎的),本来想看看老牌工具metaWRAP的使用细节,奈何微信推送了一条新的分箱工具--SemiBin,还是基于 ...

  2. 宏基因组实战9. 组装assembly和分箱bin结果可视化—Anvi'o

    前情提要 如果您在学习本教程中存在困难,可能因为缺少背景知识,建议先阅读本系统前期文章 宏基因组分析理论教程 微生物组入门圣经+宏基因组分析实操课程 1背景知识-Shell入门与本地blast实战 2 ...

  3. 宏基因组实战10. 绘制圈图-Circos安装与使用

    前情提要 如果您在学习本教程中存在困难,可能因为缺少背景知识,建议先阅读本系列前期文章 宏基因组分析理论教程 微生物组入门圣经+宏基因组分析实操课程 1背景知识-Shell入门与本地blast实战 2 ...

  4. 数据仓库实验一分箱与数据平滑

    数据仓库实验一 实验描述: window_size表示平滑处理的窗口大小是指深度或者宽度吗? window_size与宽度等价吗? (1)分箱方法 1.等深分箱: 2.等宽分箱: (2)数据平滑 1. ...

  5. 三天实现独立分析宏基因组数据(有参、无参和分箱等)

    在广大粉丝的期待下,<生信宝典>联合<宏基因组>在2019年11月1-3日,北京鼓楼推出<宏基因组分析>专题培训第六期,为大家提供一条走进生信大门的捷径.为同行提供 ...

  6. 史上最权威宏基因组软件评估—人工重组宏基因组基准数据集

    写在前面 近年来,宏基因组学得到了快速发展,但由于研究对象包含成百上千物种混合体,仍面临三大挑战---高度复杂混合物种基因组拼接.混合序列分箱(bin)重构单菌基因组.基因组的物种分类鉴定与注释. 虽 ...

  7. 有声专栏-宏基因组专业词汇讲解——001宏基因组

    宏基因组专业词汇讲解--001宏基因组 有声专栏-宏基因组专业词汇讲解开播了,点击上方播放本词条的有声版.也可在喜马拉雅FM中搜索<宏基因组>持续收听本专辑更新. 对于刚接触宏基因组的同学 ...

  8. MetaWRAP分箱流程实战和结果解读

    MetaWRAP--灵活的单基因组精度宏基因组分析流程 关于宏基因组Binning,有无数的软件和数据库,大家分析费时费力,结果也差别很大.现在有了MetaWRAP,一个软件就够了,整合3个主流分箱工 ...

  9. 宏基因组分析实战教程1. 背景知识

    上次我写的学习经验和推荐的教程--<微生物组入门必读+宏基因组实操课程=新老司机赶快上车>,小伙伴们当天阅读破2700+人次,3.5天破3000+,达到了宏基因组快车满三千人发车的要求.我 ...

最新文章

  1. Json,String,Map之间的转换
  2. 正面迎战英特尔,英伟达要和博世一起卖自动驾驶系统
  3. 7-22 堆栈模拟队列 (25 分)
  4. Visio修改默认字体样式
  5. 软件体系结构设计文档_一个java架构师是如何设计出一个好的架构的
  6. java空心菱形_java 空心菱形
  7. vue+mintUI搭建移动端新闻类网站
  8. 微软私有云解决方案_毕马威 AI 工厂携手微软云技术 | 共创人工智能发展,共建创新解决方案...
  9. Java并发/多线程教程——1
  10. SQl 2000和SQL 2005之间的一些语法区别
  11. 阿里大牛总结:学会这些Kafka知识,吊打面试官就是分分钟的事
  12. UIImagePickerController本地化控件文字
  13. 概率论排列公式和组合公式实质 压强 : 压力=ps=压强*面积; 万有引力公式:
  14. C语言sizeof与strlen详解(附大量笔试题题解过程)
  15. c语言编译星座测试,用c语言编写程序,判断输入的日期(月,日)属于哪个星座?...
  16. 30岁之前一定要知道的7个金融概念-千氪
  17. SQLyog的下载安装与配置(转载)
  18. arduino uno r3单片机封装图_Arduino教程 Lesson 1 驱动安装及下载Blink程序
  19. 计算机硬盘密码解不开,Win10打不开磁盘显示需要输入48位恢复密钥以解锁此驱动器怎么办...
  20. python程序怎么运行-Python如何运行程序

热门文章

  1. 为什么大公司还在采用过时的技术?
  2. SQL数据库的数据体系结构
  3. MapReduce统计排序和HDFS的读写
  4. python怎么找资源_新手Python学习资源哪里找好呢 视频?
  5. 生成xml_Java操作XML
  6. api怎么写_API数据加密框架monkeyapiencrypt
  7. 三维重建的核心模块有哪些?
  8. 摊牌了,巴塞罗那自治大学3D视觉课件(免费获取)
  9. 室内+室外激光SLAM关键算法、代码和实战剖析正式开课(cartographer+LOAM+ LIO-SAM)
  10. 157所中国内地高校上榜!最新世界大学学术排名发布