宏基因组分箱整合工具 DAS Tool从零学起笔记
参考https://github.com/cmks/DAS_Tool
DAS: dereplication, aggregation and scoring strategy
DAS Tool可以将不同宏基因组分箱后得到的bins进行整合,得到更多高质量,高完整度,非冗余的bins,还能更好地展示strain variation微生物株系之间的差异。
在对DAS Tool进行input时,可以选用尽可能多的binning方法的结果,即使是一些只获得很少高质量的bins的binning方法也可能获得一些其他方法忽略的bins。
ABAWACA performs a hierarchical clustering on tetranucleotide frequencies and differential coverage, and takes marker genes into account. CONCOCT uses Gaussian mixture models and tetranucleotides frequencies with differential coverage9 . MaxBin 2 is based on an expectation-maximization algorithm and uses tetranucleotides, differential coverage and marker genes13. MetaBAT applies a k-medoid clustering on tetranucleotide frequencies and differential coverage.(引用自Recovery of genomes from metagenomes via a dereplication, aggregation and scoring strategy | Nature Microbiology)
DAS的核心思想是进行基于单拷贝基因评分判断bin质量的迭代。
步骤1:DAS工具的输入文件包括拼接结果中的scaffolds序列(灰线表示)和来自不同binning工具得到的bins集合(相同颜色的圆角矩形表示由同一binning方法得到的bins);
步骤2:预测每个bins中scaffold的单拷贝基因(蓝色形状表示),并进行打分;
步骤3:在所有结果中,将相同的bins进行合并,作为这个bins的备选集合;
步骤4:迭代选择高分bins,并更新集合剩余部分候选bins的分数。如果有分数相同的情况,选择scaffold N50值更高的bin。 N50值:覆盖50%基因组所需要的最小的contig长度
测序得到若干条reads,这些reads进行拼接,如果完全可以拼接起来,中间没有gap的序列称为contig,即连续的意思。如果中间有gap,但是可以知道gap的长度,这样的序列就叫做scaffold, 即脚手架(非连续)的意思。把contig 和 scaffold 从长到短进行排列,然后相加,当恰好加到1M的50%,也就是500k的时候 ,那一条 contig 或者scaffold 的长度就叫做Contig N50和Scaffold N50。很明显这个数值越大说明组装的质量越好。
即:从最长的开始倒数,数到长度为总长度一半的片段,最后一个被数到的片段越长,说明长的片段越多,最后组装的质量越好。
引用自基因组测序中N50和N90到底指什么?_Mr番茄蛋的博客-CSDN博客_n50是什么意思
最终输出包括来自不同输入文件预测的非冗余高分bins(分数大于threshold t)。
CheckM首先基于完整的已测序细菌基因组作为参考基因组,构建基因组的进化树,构建每个谱系(可以理解为一类物种)的单拷贝基因集(single copy genes,SCGs,为什么是单拷贝?因为这样可以开展基因组混合程度、污染程度等的评估)。在使用时,将Bin与参考基因组一起建树,基于进化关系找到Bin的参考物种,然后结合参考物种的单拷贝基因集,计算两个重要指标。Completeness,完整度,Bin基因与对应SCGs相比,基因数量是否完整,取值[0,100%],数值越大,表示Bin质量越好;Contamination,污染度,Bin基因包含多个物种的SCGs,即一个Bin存在多个物种的程度,取值[0,100%],数值越小,表示Bin质量越好。
实操
DAS_Tool -i methodA.scaffolds2bin,...,methodN.scaffolds2bin-l methodA,...,methodN -c contigs.fa -o myOutput-i, --bins Comma separated list of tab separated scaffolds to bin tables.-c, --contigs Contigs in fasta format.-o, --outputbasename Basename of output files.-l, --labels Comma separated list of binning prediction names. (optional)--search_engine Engine used for single copy gene identification [blast/diamond/usearch].(default: usearch)--write_bin_evals Write evaluation for each input bin set [0/1]. (default: 1)--create_plots Create binning performance plots [0/1]. (default: 1)--write_bins Export bins as fasta files [0/1]. (default: 0)--proteins Predicted proteins in prodigal fasta format (>scaffoldID_geneNo).Gene prediction step will be skipped if given. (optional)--score_threshold Score threshold until selection algorithm will keep selecting bins [0..1].(default: 0.5)--duplicate_penalty Penalty for duplicate single copy genes per bin (weight b).Only change if you know what you're doing. [0..3](default: 0.6)--megabin_penalty Penalty for megabins (weight c). Only change if you know what you're doing. [0..3](default: 0.5)--db_directory Directory of single copy gene database. (default: install_dir/db)--resume Use existing predicted single copy gene files from a previous run [0/1]. (default: 0)--debug Write debug information to log file.-t, --threads Number of threads to use. (default: 1)-v, --version Print version number and exit.-h, --help Show this message.
-i 输入不同binning方法得到的bins结果,文件格式为tabular scaffolds2bin file,包括tab分隔开的scaffold-IDs和bin-ID。
Scaffold_1 bin.01
Scaffold_8 bin.01
Scaffold_42 bin.02
Scaffold_49 bin.03
-l 与-i input的文件中一一对应的binning方法,逗号隔开
-c 组装好的contig的fasta文件
-o 文件输出至指定文件夹,输出文件包括DASTool_summary.txt(输出的bins和其质量与完整性的估计);DASTool_scaffolds2bin.txt(输出的bins和其对应包含的scaffold)
--search_engine
单拷贝基因识别的搜索方法,默认为usearch(需预先安装),还包括blast和diamond
--write_bin_evals
对每一个输入的bin set进行评估([method].eval)
--write_bins
以fasta文件输出bins (DASTool_bins)
--proteins
Prodigal预测的蛋白的fasta格式
--score_threshold
选择bin的阈值
--create_plots
显示每种方法的高质量 bin 的分布(DASTool_hqBins.pdf, DASTool_scores.pdf)
安装
可以使用bioconda进行安装,预先安装miniconda。
先添加conda channel
conda config --add channels defaults
conda config --add channels bioconda
conda config --add channels conda-forge
再使用conda进行安装
conda install -c bioconda das_tool
格式转换
输入的bins结果文件应该为tabular scaffolds2bin文件格式,可使用下面代码进行转换
src/Fasta_to_Scaffolds2Bin.sh
参数:
-i 需要转换的文件的路径
-e fasta > my_scaffolds2bin.tsv
-e 文件的扩展名
宏基因组分箱整合工具 DAS Tool从零学起笔记相关推荐
- Microbiome:宏基因组分箱流程MetaWRAP分析实战和结果解读
文章目录 MetaWRAP-a flexible pipeline for genome-resolved metagenomic data analysis 分析实战 0.下载肠道宏基因组数据 1. ...
- Microbiome:宏基因组分箱流程MetaWRAP简介
文章目录 MetaWRAP-a flexible pipeline for genome-resolved metagenomic data analysis 热心肠日报导读 摘要 背景 结果 结论 ...
- 广东生态所孙蔚旻团队EST发表利用稳定同位素示踪-宏基因组分箱联用技术揭示砷污染土壤中的厌氧砷氧化微生物及其代谢途径...
广东省生态环境技术研究所孙蔚旻团队ES&T发表:利用稳定同位素示踪-宏基因组分箱联用技术揭示砷污染土壤中的厌氧砷氧化微生物及其代谢途径 第一作者:张苗苗 通讯作者:孙蔚旻 通讯单位:广东省生态 ...
- Microbiome:宏基因组分箱流程MetaWRAP安装和数据库布置
文章目录 简介 工作原理 优势 功能模块 软件安装 数据库配置 **CheckM数据库** **KRAKEN数据库** **NCBI_nt** **NCBI物种信息** **人类基因组bmt索引** ...
- 微生太 | 宏基因组分箱Binning(一)基础介绍与报告展示
本文首次发布于微信公众号:微生态 导读 只做宏基因组太单调?为什么不试试宏基因组Binning呢?一次测序,"宏基因组"+"Binning"两种分析,微生太帮您 ...
- es like and or_广东生态所孙蔚旻团队ESamp;T发表利用稳定同位素示踪宏基因组分箱联用技术揭示砷污染土壤中的厌氧砷氧化微生物及其代谢途径...
广东省生态环境技术研究所孙蔚旻团队ES&T发表:利用稳定同位素示踪-宏基因组分箱联用技术揭示砷污染土壤中的厌氧砷氧化微生物及其代谢途径 第一作者:张苗苗 通讯作者:孙蔚旻 通讯单位:广东省生态 ...
- 宏基因组分箱CheckM评估结果的提取
CheckM CheckM在前文已经提过了,是一款评估宏基因组分箱质量的软件.目前我使用MetaBAT2这款软件已经对我的数据进行了一次分箱,现在利用CheckM进行质量评估.目前阶段,我主要想看Co ...
- 列注释_技术贴 | 宏基因组分箱 (Binning)第四课——COG EC RNA注释统计
点击蓝字↑↑↑"微生态",轻松关注不迷路 本文由阿童木根据实践经验而整理,希望对大家有帮助. 原创微文,欢迎转发转载. 只做宏基因组太单调?为什么不试试宏基因组Binning呢?一 ...
- 从metaWRAP quant_bins计算模块理解宏基因组分箱bin的丰度计算
背景 在进行扩增子分析时,我们拿到的最关键的一个中间数据就是OTU/ASV表,在这个矩阵中,我们能获得我们的分析对象(OTU/ASV)在样本间的分布规律,并通过微生物群落的结构在样本之间的差异来解决一 ...
最新文章
- oracle 查看统计情报,Oracle 查看收集统计信息
- 电源两端并联一个电容的作用(
- 恭喜!神策数据荣获“2020 InfoQ 最佳技术社区驱动力奖”
- malloc 两种实现方式:brk 和 mmap
- AspNetCore 多环境配置 以及注册 消费Consul
- python列表间隔合并_Python使用zip合并相邻列表项的方法示例
- AndroidStudio工具将Module项目导出成Jar和arr库
- php cdi_Quarkus的其他(非标准)CDI功能
- Git仓库初始化_企业级开发原则
- 多目录多源文件的驱动Makefile模板
- Android 可以输入的下拉框
- [转载] Python3 * 和 ** 运算符
- ARM开发7.3.1 基础实训( 1 ) 单个按键的输入系统设计( 1 )--LPC21XX
- python2中的print语句可以不用小括号。_Python基础语法 | 代码规范amp;判断语句amp;循环语句...
- 电大计算机考试试题及答案,电大统考计算机考试试题及答案.doc
- 小仲马《茶花女》读后感
- 哈佛幸福课-幸福笔记
- 大学生必看:基础IT技术文章300篇大合集!【包含信息/编码、IP/组网、程序逻辑、Web基础等】
- Android M 六大新特性
- 读书笔记-数据库系统概念-chapter3SQL