Mothur5_开始分析_OTUs、ASVs聚类与系统发育构建
本文主要介绍生物信息学软件 Mothur进行给OTUs、ASVs分配序列以及进行系统发育工作。
Mothur分析
到了可以分析数据的时候了。想做两件事——给OTUs、ASVs分配序列以及进行系统发育工作。首先使用remove.group命令从数据集中删除Mock样本:
mothur>remove.groups(count=stability.trim.contigs.good.unique.good.filter.unique.precluster.denovo.vsearch.pick.pick.count_table,fasta=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pick.fasta,taxonomy=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pds.wang.pick.taxonomy, groups=Mock)
01OTUs
现在有两个选项可以将序列聚类到OTUs中。对于像这样的小型数据集,可以使用dist.seqs和cluster执行传统方法:
mothur>dist.seqs(fasta=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pick.pick.fasta,cutoff=0.03)
聚类stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pick.pick.dist
mothur>cluster(column=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pick.pick.dist,count=stability.trim.contigs.good.unique.good.filter.unique.precluster.denovo.vsearch.pick.pick.pick.count_table)
另一种选择是使用cluster.split命令。在这种方法中,使用分类学信息将序列分为多个bin,然后在每个bin中进行聚类。在测试中,对纲和属水平数据进行拆分时得到的MCC值分别在整个测试数据集中的98.0%和93.0%以内。MCC值的下降导致OTU的形成量分别比整个数据集多4.7%和22.5%。聚类分裂启发式的使用可能不值得在聚类质量上损失。然而,随着数据规模的增大,可能需要使用启发式算法将数据聚类成OTUs。Cluster.split方法的优点是它应该更快,占用内存更少,并且可以在多个处理器上运行。在理想的世界中更喜欢传统路线,因为“Trad is rad”,但也认为这种幽默很有趣……在此命令中使用taxlevel=4,它对应于Order的级别。
mothur>cluster.split(fasta=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pick.pick.fasta,count=stability.trim.contigs.good.unique.good.filter.unique.precluster.denovo.vsearch.pick.pick.pick.count_table,taxonomy=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pds.wang.pick.pick.taxonomy, splitmethod=classify,taxlevel=4,cutoff=0.03)
接下来想知道每个组中每个OTU中有多少序列,可以使用make.shared命令来完成。在这里将Mothur的阈值设置为0.03:
mothur>make.shared(list=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pick.pick.opti_mcc.list,count=stability.trim.contigs.good.unique.good.filter.unique.precluster.denovo.vsearch.pick.pick.pick.count_table, label=0.03)
可能还想知道每个OTU的taxonomy,可以使用classify.otu命令获得每个OTU的共同的物种分类:
mothur>classify.otu(list=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pick.pick.opti_mcc.list,count=stability.trim.contigs.good.unique.good.filter.unique.precluster.denovo.vsearch.pick.pick.pick.count_table,taxonomy=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pds.wang.pick.pick.taxonomy, label=0.03)
stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pick.pick.opti_mcc.0.03.cons.taxonomy被打开后可以看到类似如下的文件:
这表明在样本中观察到Otu008一共5337次,并且所有序列(100%)都被归类为Alistipes(另枝菌属)的成员。
02ASVs
OTU通常表示彼此之间相差不超过3%的序列。相反,如果序列彼此不同,ASVs(又称ESVs)会努力将它们区分为不同的OTU。这种方法存在将同一基因组中的操纵子分离成单独的ASV的可能性以及ASV通常是一组相互间隔一个或两个碱基的序列(There are challenges with this approach including the possibility of separating operons from the same genome into separate ASVs and that an ASV is typically really a cluster of sequences that are one or two bases apart from each other.),但仍有人迎难而上。Mothur中内置的用于识别ASV的方法是pre.cluster。将序列聚类为ASV,然后删除嵌合体和污染物序列。可以使用make.shared命令将用于形成OTU的fasta和count_table文件转换为共享文件。
mothur>make.shared(count=stability.trim.contigs.good.unique.good.filter.unique.precluster.denovo.vsearch.pick.pick.pick.count_table)
这会产生一个共享和列表文件。可以使用的共享文件就像形成OTU或phylotypes的共享文件一样。可以使用列表文件为每个ASV生成共同的物种(consensus taxonomy)。
mothur>classify.otu(list=stability.trim.contigs.good.unique.good.filter.unique.precluster.denovo.vsearch.pick.pick.pick.asv.list,count=stability.trim.contigs.good.unique.good.filter.unique.precluster.denovo.vsearch.pick.pick.pick.count_table,taxonomy=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pds.wang.pick.pick.taxonomy, label=asv)
03Phylotypes
对于某些分析,可能希望根据它们的分类学分类将序列分类到phylotypes。可以使用phylotype命令:
mothur>phylotype(taxonomy=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pds.wang.pick.pick.taxonomy)
与cluster/cluster.split相比,phylotype的临界值编号略有不同。这里列出了1到6,分别对应从属到界的水平。因此,如果需要genus级别的共享文件,可以执行以下操作:
mothur>make.shared(list=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pds.wang.pick.pick.tx.list,count=stability.trim.contigs.good.unique.good.filter.unique.precluster.denovo.vsearch.pick.pick.pick.count_table, label=1)
如果还想知道这些OTU的物种注释,则可以在phylotypes上运行classify.otu:
mothur>classify.otu(list=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pds.wang.pick.pick.tx.list,count=stability.trim.contigs.good.unique.good.filter.unique.precluster.denovo.vsearch.pick.pick.pick.count_table,taxonomy=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pds.wang.pick.pick.taxonomy, label=1)
04Phylogenetic
如果对使用依赖于系统发育树的方法(例如计算系统多样性或unifrac命令)感兴趣,则需要生成树。随着序列数量的增加,此过程变得不稳定。以下是如何使用dist.seqs和clearcut:
mothur>dist.seqs(fasta=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pick.pick.fasta, output=lt, processors=8)
mothur>clearcut(phylip=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pick.pick.phylip.dist)
这篇推文对你有帮助吗?喜欢这篇文章吗?喜欢就不要错过呀,关注本知乎号查看更多的环境微生物生信分析相关文章。亦可以用微信扫描下方二维码关注“环微分析”微信公众号,小编在里面载入了更加完善的学习资料供广大生信分析研究者爱好者参考学习,也希望读者们发现错误后予以指出,小编愿与诸君共同进步!!!
学习环境微生物分析,关注“环微分析”公众号,持续更新,开源免费,敬请关注!
转载自原创文章:
Mothur5_开始分析_OTUs、ASVs聚类与系统发育构建
最后,再次感谢你阅读本篇文章,真心希望对你有所帮助。感谢!
Mothur5_开始分析_OTUs、ASVs聚类与系统发育构建相关推荐
- SCS【7】单细胞转录组之轨迹分析 (Monocle 3) 聚类、分类和计数细胞
点击关注,桓峰基因 桓峰基因公众号推出单细胞系列教程,有需要生信分析的老师可以联系我们!首选看下转录分析教程整理如下: Topic 6. 克隆进化之 Canopy Topic 7. 克隆进化之 Car ...
- 文献学习(part65)--稳健主成分聚类方法的构建及其比较研究
学习笔记,仅供参考,有错必纠 关键词:主成分聚类分析:稳健统计量: 协方差矩阵:离群值 文章目录 稳健主成分聚类方法的构建及其比较研究 摘要 引言 传统主成分聚类方法及其不稳健性 传统主成分聚类方法的 ...
- python文本分析与挖掘(一)-构建语料库
实现功能: python文本分析与挖掘(一)-构建语料库 实现代码: import os from warnings import simplefilter simplefilter(action=' ...
- R语言使用MatchIt包进行倾向性匹配分析、使用match.data函数构建匹配后的样本集合、使用可视化分析检验倾向性评分匹配后样本中的所有协变量的平衡情况
R语言使用MatchIt包进行倾向性匹配分析.使用match.data函数构建匹配后的样本集合.使用可视化分析检验倾向性评分匹配后样本中的所有协变量的平衡情况 目录
- R语言使用MatchIt包进行倾向性匹配分析、使用match.data函数构建匹配后的样本集合、通过分析不同分组对应的协变量的均值来判断倾向性评分匹配后样本中的所有协变量的平衡情况
R语言使用MatchIt包进行倾向性匹配分析.使用match.data函数构建匹配后的样本集合.通过分析不同分组对应的协变量的均值来判断倾向性评分匹配后样本中的所有协变量的平衡情况 目录
- R语言生存分析之COX比例风险模型构建及列线图(nomogram)、校准曲线(calibration curve)绘制示例
R语言生存分析之COX比例风险模型构建及列线图(nomogram).校准曲线(calibration curve)绘制示例 列线图(Alignment Diagram),又称诺莫图(Nomogram图 ...
- Nat. Mach. Intell. | 基于神经网络的迁移学习用于单细胞RNA-seq分析中的聚类和细胞类型分类...
今天给大家介绍由美国宾夕法尼亚大学佩雷尔曼医学院生物统计学,流行病学和信息学系Jian Hu等人在<Nature Machine Intelligence>上发表了一篇名为"It ...
- 网络舆情热点发现及分析(single-pass聚类)
热点话题的发现模型 在整个的过程中,介绍三个点: 预处理:基于网络新词的识别算法 热点话题发现:增量聚类算法Single-Pass 热点话题分析:文本倾向性分析 基于网络新词的识别算法 算法思路: 首 ...
- 《Python数据分析与挖掘实战》第14章——基于基站定位数据的商圈分析(层次聚类)
本文是基于<Python数据分析与挖掘实战>的实战第14章<基于基站定位数据的商圈分析>做的分析. 1 挖掘背景及目标 从某通信运营商提供的特定接口解析得到用户的定位数据.利用 ...
最新文章
- AlexeyAB DarkNet YOLOv3框架解析与应用实践(五)
- 树莓派linux系统识别u盘启动,树莓派Raspberry Pi实战之命令行下实现USB存储设备自动挂载...
- linux终端获取root,ubuntu18.04获取root权限并用root用户登录的实现
- echarts生成json地图最简单代码
- C语言程序密码输入退回,想程序高手求助--用C语言来编辑一个输入密码的程序...
- oracle11g导出空表
- mysql dml原理_InnoSQL/MySQL DML Flashback功能简介
- windows下运行python打印有颜色的字_Windows和Linux下Python输出彩色文字的方法教程...
- html5小猫钓鱼游戏思路,小猫钓鱼的游戏算法
- js判断数字,如果出现全角数字,将其转换为半角
- 调试winddows程序(windbg 和 Debug Diagnostic Tool)
- 关于游戏手柄按键的设计
- 盛金公式解一元三次方程_盛金公式解一元三次方程
- CHIPON 芯旺微的KF32A156系列的CAN FD模块的使用介绍
- dir-616 c1语言包,D-Link DIR616无线路由器设置教程
- android女孩名字的由来,诗经中的女孩灵动名字 寓意深刻而又唯美
- 微信报名怎么做_分享微信公众号搭建报名系统步骤
- html 框线设置颜色,css怎么设置边框颜色?
- Linux九阴真经之九阴白骨爪残卷7(Mariadb的三种安装方法)
- (开源) 从零实现一款图片编辑器