USEARCH11命令大全，200+命令中文简介，快速查找需要功能

序列比对
嵌合体检测和过滤
序列、树和基于图形的聚类
距离矩阵
多样性分析
fastq格式文件处理
Fasta和fastq文件处理格式
机器学习和鉴定有用OTUs
其它命令
OTU分析和去噪
OTU表命令
二代测序序列处理
序列和数据库检索
物种命令
树命令
标签与注释
猜你喜欢
写在后面

USEARCH是继Mothur、QIIME后的第三大流行扩增子分析流程，目前引用7350次。由Robert Edgar大神独立编写。官方网址：http://www.drive5.com/usearch/

详细介绍，请参阅

扩增子分析神器USEARCH
扩增子分析还聚OTU就真OUT了
USEARCH11发布，新功能简介

由于它有近200个命令和功能，对于新手在帮助文档中查找自己想要的功能也是非常困难的。特翻译此文，方便同行快速找到自己需要的功能，高效解决分析困难，专注科学问题。

对于具体命令使用存在困难，可在如下命令主页，查看单个命令的详细帮助页。

http://www.drive5.com/usearch/manual/cmds_all.html

命令按功能类别分为以下16大类，部分命令可以重复出现在不同类别中，如下翻译与上方英文页面一致。更新时间为2018年8月2日。

序列比对

Sequence alignment commands

命令	功能简介
allpairs_global	全局两两所有组合比较-全长匹配
allpairs_local	本地两两比较-部分匹配即可，类似blast
pairs_global	全局成对比较，即1vs2,3vs4
pairs_local	本地成对比较，即1vs2,3vs4

嵌合体检测和过滤

Chimera detection and filtering

命令	功能简介
annot	基于数据库注释序列
uchime2_ref	使用UCHIME2算法基于数据库去除嵌合体序列
uchime3_denovo	使用UCHIME3算法基于OTU集合自身(de novo)去除嵌合体序列
unoise3	扩增子去除噪音序列(低频扩增和测序错误等)，获得精确的序列变异，非聚类法获得较真实代表序列的新算法

序列、树和基于图形的聚类

Sequence, tree and graph-based clustering

命令	功能简介
closed_ref	生成有参OTU表
cluster_aggd	使用聚集法生成聚类距离矩阵
cluster_edges	查找图中可连接的元素
cluster_fast	UCLUST算法聚类
cluster_otus	UPARSE算法聚类
cluster_smallmem	UCLUST算法小内存模式聚类，适合低配电脑
cluster_tree	基于距离阈值和树构建簇

距离矩阵

Distance matrices

命令	功能简介
calc_distmx	计算稀疏的距离矩阵
calc_lcr_probs	基于距离矩阵和物种计算最低共同级别(最近共同祖先)的概率
distmx_split_identity	拆分距离矩阵为测试和训练集用于CVI
tree2distmx	基于树计算距离矩阵

多样性分析

Commands for diversity analysis

命令	功能简介
alpha_div	基于OTU表计算Alpha多样性
alpha_div_rare	采用稀疏方法计算Alpha多样性累得丰富度曲线
alpha_div_sig	统计alpha多样性组间差异
beta_div	基于OTU表计算beta多样性矩阵

fastq格式文件处理

Commands for reads in FASTQ format

命令	功能简介
fastq_chars	质量评估，报告质量值Q的分布频率
fastq_eestats	报告每个碱基位置的质量值
fastq_eestats2	报告不同长度reads的数量
fastq_filter	按错误率或其它阈值对序列进行质量控制
fastq_join	直接到双端序列按行连接为单个文件
fastq_mergepairs	合并双端序列，需要双端序列末端有重叠，否则抛弃
fastq_sra_splitpairs	拆分SRA格式为双端双文件格式

Fasta和fastq文件处理格式

Commands for sequences in FASTx format (FASTA and FASTQ)

命令	功能简介
fasta_explode	将去冗余的fasta序列按序列名中size=N进行去唯一化，还原为原始冗余状态
fasta_stripgaps	移除fasta文件中的空白N序列
fastx2qiime	转换usearch格式为qiime格式
fastx_demux	拆样，按barcode序列将序列按样品名重命名(demultiplex)
fastx_findorfs	鉴定核酸中的ORF，功能基因
fastx_get_sample_names	提取样品名
fastx_getlabels	提取序列标签
fastx_getseq	提取某个序列名对应的序列
fastx_getseqs	提取一组序列名对应的序列
fastx_getsubseq	按序列标签、起始、终止提取序列
fastx_info	汇报序列的摘要报告
fastx_learn	估计扩增序列的错误率
fastx_mask	屏蔽低复杂序列
fastx_relabel	按样本名重命名序列
fastx_revcomp	序列取反向互补
fastx_split	文件拆分为多个小文件
fastx_strip_annots	移除序列名中usearch格式的注释信息部分
fastx_subsample	提取序列的随机子集，相当于序列抽样
fastx_syncpairs	对应双端序列中的序列顺序，适合双端无法对应时使用
fastx_trim_primer	移除序列中的引物序列
fastx_truncate	去除序列左、右的部分，如barcode、引物
fastx_uniques	序列去冗余 (dereplicate)
fastx_uniques_persample	鉴定单样品中的非冗余序列
filter_lowc	过滤低复杂序列
filter_phix	过滤PhiX序列
sortbylength	按序列长度降序排序
sortbysize	按序列丰度size=N降序排列

机器学习和鉴定有用OTUs

Machine learning and finding informative OTUs

命令	功能简介
forest_classify	随机森林分类
forest_train	训练集建立随机森林模型
otutab_core	鉴定OTU表中的核心OTUs
otutab_forest_classify	OTU表中样品的随机森林分类
otutab_forest_train	基于OTU表的随机森林训练
otutab_select	鉴定有用OTUs (predictive of metadata)

其它命令

Miscellaneous commands

命令	功能简介
search_16s	在染色体或叠连群上鉴定16S序列
udb2bitvec	建立16S数据库索引，用于search_16s

OTU分析和去噪

Commands for OTU analysis and denoising

命令	功能简介
alpha_div	计算OTU表的17种Alpha多样性指数，输入OTU表需要抽平才合理
alpha_div_rare	计算Alpha多样性稀释曲线原始数据，可用Excel或R绘图
alpha_div_sig	按实验设计分组统计Alpha多样性组间显著性
annot	注释OTUs，如已知(人工重组模拟群落、参考数据库)，嵌合体等
beta_div	计算近10种beta多样性距离矩阵
closed_ref	基于参考数据库构建OTU表
cluster_aggd	使用凝聚法聚类距离矩阵
cluster_otus	采用UPARSE算法聚类序列
fastx_learn	估计扩增子序列中的错误率
filter_lowc	过滤低复杂度序列
filter_phix	过滤PhiX序列
nbc_tax	使用RDP分类算法物种分类
otutab	生成OTU表
otutab2biom	转换OTU表为biom(json)格式
otutab_binary	转换OTU表为0/1(有/无)二元格式
otutab_core	鉴定微生物组核心OTUs
otutab_counts2freqs	转换原始counts值为频率(相对丰度)
otutab_forest_classify	使用随机森林分类
otutab_forest_train	基于OTU表进行随机森林学习建决策树
otutab_group	按分组进行合并样品，多样品数值求合为一组
otutab_merge	合并两个或多个OTU表
otutab_octave	八度图展示OTU丰度分布
otutab_otu_subset	提取OTUs表子集
otutab_otus	提取OTUs表中OTUs的名字
otutab_rare	抽样OTUs数据量至相同
otutab_sample_subset	提取OTU表中部分样品
otutab_samples	提取OTU表中样品名
otutab_select	鉴定有用的OTUs(分组预测)
otutab_sortotus	OTU表按丰度降序排列
otutab_stats	OTU表基本信息统计，如样本、OTU数量，样本测序量分位数等
otutab_trim	按OTU表counts, OTU和样品数据量等条件过滤
otutab_xtalk	估计和过滤OTU表中的cross-talk
qiimemap2otutab	转换QIIME比对文件为OTU表
search_oligodb	检索匹配短序列，如引物
search_pcr	电子PCR，在数据库中检索成对引物(可以为多对引物)
search_pcr2	检索一对引物
search_phix	检索PhiX
sinaps	预测性状
sintax	预测物种分类
sintax_summary	按分类级汇总OTU表
tabbed2otutab	转换比对文件(read+OTU)为OTU表
uchime2_ref	基于参考数据库和UCHIME2算法检测嵌合体
uchime3_denovo	使用UCHIME3算法和OTU自身序列集检测嵌合体
unbias	校正OTU表中丰度偏差
unoise3	扩增子序列去噪，获得精度序列变异的特征序列(Features)
uparse_ref	分类来自人工重组群体的序列，类似于closed reference

OTU表命令

OTU table commands

命令	功能简介
alpha_div	基于OTU表计算Alpha多样性
alpha_div_rare	采用稀疏方法计算Alpha多样性丰富度曲线原始数值
alpha_div_sig	统计alpha多样性组间差异是否显著
beta_div	基于OTU表计算beta多样性矩阵
otutab	创建OTU表
otutab2biom	转换OTU表为biom(json)格式
otutab_binary	转换OTU表为0/1二元格式
otutab_core	鉴定核心微生物组OTUs
otutab_counts2freqs	转换counts值为频率(相对丰度)
otutab_forest_classify	使用随机森林分类
otutab_forest_train	基于OTU表进行随机森林学习建决策树
otutab_group	按分组进行样品求和合并
otutab_merge	合并两个或多个OTU表
otutab_octave	八度图展示OTU丰度分布
otutab_otu_subset	提取OTU表子集
otutab_otus	提取OTU表中OTU的名字
otutab_samples	提取OTU表中样品名
otutab_rare	抽样OTU数据量相同
otutab_sample_subset	提取OTU表中部分样品
otutab_select	鉴定有信息的OTUs(分组预测)
otutab_sortotus	OTU表按降序排列
otutab_stats	OTU表基本信息统计
otutab_trim	按OTU表count值, OTU和样品等条件过滤
otutab_xtalk	估计和过滤OTU表中的cross-talk
qiimemap2otutab	转换QIIME比对文件为OTU table
tabbed2otutab	转换比对文件(read+OTU)为OTU表
unbias	校正OTU表中丰度偏差

二代测序序列处理

Next-generation reads

命令	功能简介
fastq_chars	质量评估，报告质量值Q的质量分布频率
fastq_eestats	报告每个碱基位置的质量值
fastq_eestats2	报告不同长度reads的数量
fastq_filter	按fastq质量值的错误率或其它阈值对序列进行质量控制
fastq_join	直接到双端序列按行连接为单个文件
fastq_mergepairs	合并双端序列，需要双端末端有重叠，否则抛弃
fastq_sra_splitpairs	拆分SRA格式为双端双文件格式
fastx2qiime	转换usearch格式为qiime格式
fastx_demux	拆样，按barcode序列为分配序列的样品来源(demultiplex)
fastx_findorfs	鉴定核酸中的ORF，功能基因
fastx_get_sample_names	提取样品名
fastx_getlabels	提取序列标签
fastx_getseq	提取某个序列名对应的序列
fastx_getseqs	提取一组序列名对应的序列
fastx_getsubseq	按序列标签、起始、终止提取序列
fastx_info	汇报序列的摘要报告
fastx_learn	估计扩增序列的错误率
fastx_subsample	提取序列的随机子集，相当于序列抽样
fastx_syncpairs	对应双端序列的顺序
fastx_trim_primer	移除序列中的引物序列
fastx_truncate	去除序列左、右的部分，如barcode、引物
filter_lowc	过滤低复杂序列
filter_phix	过滤PhiX序列
search_oligodb	检索匹配短序列，如引物
search_pcr	电子PCR，在数据库中检索成对引物(可以为多对引物)
search_pcr2	检索一对引物
search_phix	检索PhiX

序列和数据库检索

Sequence database search

命令	功能简介
makeudb_sintax	制作物种注释数据库UDB格式索引，可节约计算时间
makeudb_ublast	创建ublast数据库索引
makeudb_usearch	创建usearch_global数据库索引
search_exact	检索完全相同的序列
search_global	全局比对检索数据库，不使用试探法加速
search_local	局部、本地比对检索数据库，不使用试探法加速
search_oligodb	检索匹配短序列，如引物
search_pcr	电子PCR，在数据库中检索成对引物(可以为多对引物)
search_pcr2	检索一对引物
search_peptidedb	检索匹配短肽序列
search_phix	检索PhiX
ublast	本地比对方法快速在数据库在检索，比BLAST更快
usearch_global	全局比对方法快速在数据库中检索
usearch_local	本地比对方法快速在数据库中检索，类似blast

物种命令

Taxonomy commands

命令	功能简介
calc_lcr_probs	基于距离矩阵和物种计算最低共同级别(最近共同祖先)的概率
makeudb_sintax	制作物种注释数据库UDB格式索引，可节约计算时间
nbc_tax	使用RDP分类算法物种分类
sintax	预测物种分类
sintax_summary	按分类级汇总OTU表，常用门、纲、目、科、属、种

树命令

Tree commands

命令	功能简介
calc_distmx	计算稀疏的距离矩阵
cluster_tree	基于距离阈值和树构建簇
subtree	提取指定结点下的子树
tree2distmx	基于树计算矩阵矩阵
tree_cvt	转换树文件格式，制表分隔与Newick格式相互转换
tree_subset	按叶子集提取树

标签与注释

Labels and annotations

命令	功能简介
fastx2qiime	转换usearch格式为qiime格式
fastx_getlabels	提取序列标签
fastx_relabel	按样本名重命名序列
fastx_strip_annots	移除序列名中usearch格式的注释信息
otutab_otus	提取OTUs表中OTU名字
otutab_samples	提取OTU表中样品名

写在后面

为鼓励读者交流、快速解决科研困难，我们建立了“宏基因组”专业讨论群，目前己有国内外1800+ 一线科研人员加入。参与讨论，获得专业解答，欢迎分享此文至朋友圈，并扫码加主编好友带你入群，务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助，首先阅读《如何优雅的提问》学习解决问题思路，仍末解决群内讨论，问题不私聊，帮助同行。

学习扩增子、宏基因组科研思路和分析实战，关注“宏基因组”

点击阅读原文，跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA