为进一步提高《微生物组实验手册》稿件质量,本项目新增大众评审环节。文章在通过同行评审后,采用公众号推送方式分享全文,任何人均可在线提交修改意见。公众号格式显示略有问题,建议电脑端点击文末阅读原文下载PDF审稿。在线文档(https://kdocs.cn/l/cL8RRqHIL)大众评审页面登记姓名、单位和行号索引的修改建议。修改意见的征集截止时间为推文发布后的72小时,文章将会结合有建设性的修改意见进一步修改后获得DOI在线发表,同时根据贡献程度列为审稿人或致谢。感谢广大同行提出宝贵意见。

基于扩增子数据的系统发育树的构建和展示

Construction and display of phylogenetic tree based on amplicon data

周欣1, 2,马紫英1, 2,祁智慧3,刘永鑫4,蔡磊1, 2, *

1真菌学国家重点实验室,中国科学院微生物研究所,北京;2生命科学学院,中国科学院大学,北京;3国家粮食和物资储备局科学研究院 北京;4植物基因组学国家重点实验室,中国科学院遗传与发育生物学研究所

*通讯作者邮箱: cail@im.ac.cn

摘要:随着高通量测序技术的发展,基于扩增子和宏基因组测序的微生物组学研究技术已经成为研究土壤、动植物及海洋等环境微生物多样性及功能的主要手段。基于扩增子的微生物组数据集,往往能获得数千至上万个OTUs (可操作分类单元),我们需要从中筛选获得高丰度及核心微生物类群进行系统发育树的构建和展示。系统发育树又名分子进化树,是生物信息学中描述不同生物或者不同基因之间进化关系的方法。通过系统学分类分析,可以帮助研究者推测生物的进化历程和亲缘关系。本文主要介绍基于IQ-TREE、MUSCLE、 USEARCH10等软件的下载安装、使用方法和步骤以及结果分析,实现从扩增子数据集的提取、数据处理到系统发育树的构建和美化等流程,方便研究者能更高效准确地实现基于扩增子数据的系统发育树构建以及下游系统发育树的编辑和展示,为发表高水平研究论文提供技术支持。

关键词:OTUs,系统发育树,微生物多样性,扩增子测序,iTOL

仪器设备

普通个人电脑 (Windows10系统64位版、CPU ≥ 双核、内存 ≥ 4 G、硬盘 ≥ 20 GB)

软件和数据库

1.gitforwidnows 2.23.0 (http://gitforwindows.org)

2.R 4.0.3 (https://www.r-project.org)

3.Rstudio 1.2.5019 (https://www.rstudio.com/products/rstudio/download)

4.USEARCH v10.0.240 (https://www.drive5.com/usearch/download.html)

5.MUSCLE (http://www.drive5.com/muscle/)

6.IQ-TREE v2.0.3 (http://www.iqtree.org)

7.trimAL (http://trimal.cgenomics.org/downloads)

软件的安装和使用

一、首先在C盘根目录新建名为bin的目录,其具体位置为C:\bin。

二、USEARCH软件的下载和安装

USEARCH软件 (http://www.drive5.com/usearch/download.html) 是Robert C. Edgar开发的一款超快的扩增子数据分析软件,在序列比对、OTU聚类、多样性分析等多领域广泛应用 (Edgar,2013)。

图1. USEARCH10软件的下载

注:32位usearch为免费版,但限制使用内存4GB,64位为收费版本,没有内存使用限制。选择接受许可协议,版本必须选择v10.0,选择填写邮箱,提交收到链接,下载后改名为usearch10并将软件放在Windows10系统中C:\bin目录中。

三、R语言的下载安装和使用

R语言是目前生物学、经济学等领域最流行的统计分析语言,下载最新版R语言(下载页面:https://cran.r-project.org);点击Download R for Windows完成R-4.0.3.win.exe安装程序的下载;双击安装程序,建议语言选择英文安装。

图2. R语言的下载

四、IQ-TREE的下载安装和使用

IQ-TREE软件是2015年发表的一款快速准确进行最大似然法 (Maximum Likelihood, ML) 构建系统发育树的软件 (Nguyen 等, 2015),目前已经更新到v2.2.2版本。IQ-TREE软件应用一种快速、有效的随机算法,在近似的计算时间内具有比RAxML软件和PhyML软件更高的精确度。此外IQ-TREE软件的模型选择速度比jModelTest快10-100倍,其自展支持率估算比RAxML软件快10-40倍并且支持宏基因组等大数据计算 (Minh 等, 2020)。IQ-TREE软件的下载界面:     (http://www.iqtree.org),选择下载最新版64位的IQ-TREE (v2.2.2) 软件 (如图3),解压后将其放在C:\bin目录中。

图3. IQ-TREE软件的下载

五、MUSCLE的下载安装和使用

MUSCLE软件是一款快速多重序列比对软件,MUSCLE软件具有比CLUSTALW等软件更快的比对速度以及精确度,它能在数分钟内完成数百条序列的比对。迄今,MUSCLE软件已经被引用了超过37000次,是生物学领域中最为广泛使用的软件之一 (Edgar , 2004)。MUSCLE软件的下载界面 (图4):(http://drive5.com/muscle),选择下载最新版的MUSCLE软件,解压后将其放在C:\bin目录中。

图4. MUSCLE软件的下载

六、trimAL 的下载安装和使用

完成精确的多序列比对后,通常要要过滤掉一些低质量以及高变异度的序列区域。trimAL软件能快速,精确切除和过滤低质量以及高变异度的序列,仅保留进化保守的区域用于后续分析。                                             trimAL软件的下载界面 (图5):(http://trimal.cgenomics.org/downloads),选择下载最新版的trimAL软件,解压后将其放在C:\bin目录中。

图5. trimAL软件的下载

七、Rstudio的下载安装和使用

Rstudio的下载页面:(https://rstudio.com/products/rstudio/download)。从网页中选择下载最新版的Rstudio,如RStudio Desktop 1.3.1093,双击安装程序进行默认安装。Rstudio安装完成后,按如图所示步骤调出“Terminal”界面,然后在Terminal窗口中输入ls (LS的小写),按回车进行测试,如果出现“command not found”错误,请按照下图重新进行操作和设置 (如图6)。

图6. Rstudio软件的设置及Terminal的调用

八、“git for windows”的下载安装和使用

“git for windows”软件 (v2.28.0) 是一款能在Windows系统下运行的命令行工具,能在Windows下运行部分Linux代码 (下载页面:https://gitforwindows.org/),按照默认参数右键管理员安装Git-2.28.0-64-bit.exe即可(如图7)。

图7. “git for windows”软件的下载

九、添加程序位置至Windows系统中的环境变量

我的电脑-右键属性-按右侧截图操作,测试是否安装成功:在RStudio的Terminal下输入:usearch10,按回车,如有出现USEARCH10的版本信息,则表明安装成功。若不成功,可检查环境变量配置,按下图进行操作 (如图8):

图8. Windows10系统的环境变量的设置

实验步骤

一、数据获得和操作流程概况

准备输入数据

本文中所有的测试数据集、所需软件、R脚本以及生成的结果均已上传到百度网盘,如需测试和使用可点击如下链接进行下载和使用 (百度网盘链接:链接: 链接: https://pan.baidu.com/s/15MIJzV0_5kNV3VF_o0rKZw 提取码: 5ru9)。具体整个技术流程概况以及各个软件的功能与彼此之间的联系如图所示(如图9):

图9. 系统发育树基本操作流程图

二、数据处理相关的命令行操作均在Rstudio “Terminal”界面进行

1.首先在C盘新建名为Tree_data目录

#切换到Tree_data目录中

$ cd C:\Tree_data

$ mkdir -p result/tree

$ cd result/tree

2.研究者可以根据实际情况0.001 到 0.01的阈值筛选高丰度OTU。

#统计OTU表中OTU数量,代码如下:

$ tail -n+2 ../otutab.txt | wc -l

#按相对丰度0.2 %筛选高丰度OTU,代码如下:

$ usearch10 -otutab_trim ../otutab.txt -min_otu_freq 0.002 -output otutab1.txt

#统计筛选OTUs表特征数量,代码如下:

$ tail -n+2 otutab1.txt | wc -l

#提取ID用于提取序列,代码如下:

$ cut -f 1 otutab1.txt | sed '1 s/#OTU ID/OTUID/' > otutab_high.id

3.在进行完OTU筛选后要根据OTUs的ID提取每个OTUs对应的fasta格式的代表性序列,手动整理物种注释和分组信息信息表annotation.txt,如图10所示。

#筛选高丰度菌/指定差异菌对应OTUs的代表性序列,代码如下:

$ usearch10 -fastx_getseqs ../otus.fa -labels otutab_high.id -fastaout high_otus.fa

$ head -n 10 annotation.txt

图10. annotation.txt文件中包含的内容

三、序列对齐及系统发育树的构建

#构建进化树,实现高丰度菌的进化树的分组信息展示与美化。

#起始文件为 result/tree目录中high_otus.fa (序列)、annotation.txt (物种和相对丰度)文件

# Muscle软件进行序列比对和对齐,代码如下:

$ cd Tree_data/result/tree

$ muscle -in high_otus.fa -out otus_aligned.fa

#trimAL软件进行低质量以及高变异度的序列的过滤和修剪,代码如下:

$ trimal -in otus_aligned.fa -out otus_aligned_trimed.fa -gt 0.95

#利用IQ-TREE软件进行ML系统发育树的构建,代码如下:

$ mkdir -p iqtree

$ iqtree -s otus_aligned_trimed.fa -bb 1000 -redo -alrt 1000 -m MFP -nt AUTO -pre iqtree/training_otus

#参数简介:

-m 参数:指定模型选项,MFP表示ModelFinder Plus(自动默认)

-redo参数:之前运行成功后生成了相应的文件,指定redo会重新跑一遍覆盖之前的文件;

-pre参数:将结果输入到iqtree文件夹中,且生成文件的前缀为training_otus;

-alrt参数:是否启用 SH-aLRT检验。

四、iTOL网站进行系统发育树的编辑和展示

在运用iTOL在线工具来进行系统发育树的美化之前,首先要使用“table2itol.R”这个R包 (https://github.com/mgoeker/table2itol) 生成用于系统发育树编辑和美化的注释文件。然后访问并登陆iTOL网站 (http://itol.embl.de/),上传otus.nwk,再拖拽以下命令行生成的不同注释文件 (分别位于“plan1”、“plan2”和“plan3”三个文件夹) 于iTOL主界面的系统发育树图上即完成系统发育树的美化。

# plan1生成外圈颜色、形状分类和丰度文件,代码如下:

$ cd Tree_data/result/tree

$ Rscript ../../script/table2itol.R -a -c double -D plan1 -i OTUID -l Genus -t %s -w 0.5 annotation.txt

# plan2生成丰度柱形图注释文件,代码如下:

$ Rscript ../../script/table2itol.R -a -d -c none -D plan2 -b Phylum -i OTUID -l Genus -t %s -w 0.5 annotation.txt

# plan3生成热图注释文件,代码如下:

$ Rscript ../../script/table2itol.R -c keep -D plan3 -i OTUID -t %s otutab.txt

#参数简介

-a:找不到输入列将终止运行 (默认不执行);

-c:将整数列转换为factor或具有小数点的数字;

-t:偏离提示标签时转换ID列;

-w:颜色带,区域宽度等;

-D:输出目录;

-i:OTUs列名;

-l:OTUs显示名称如种/属/科名。

注:当需要标注的颜色过多时,R脚本会采用形状+颜色的方式对类别进行区分。

结果与分析

1.IQ-TREE运行完成后会在iqtree文件下生成多个文件,主要包括程序运行日志training_otus.log、ML树文件 (含有UFBoot或BP/SH-aLRT评估分支置信度) 和系统发育树树文件training_otus.contree,本文测试数据中生成的系统发育树文件名称为training_otus.contree (如图11)。

图11. IQ-TREE软件建树生成的结果文件

2.首先进入iTOL在线网站,点击右上角注册 (仅限新用户) 和登陆,(如图12):

图12. iTOL在线网站主界面

3.完成账号登录后,点击My Tree按钮,进入个人主界面,然后点击“Upload tree files”上传文件夹中的training_otus.contree文件,获得如下树形图 (图13)。导入树文件之后,可以在iTOL在线网站的右上角选择下图红框中的“Basic”和“Advanced”进行系统发育树的编辑 (比如树形的变换、自展支持率的显示、字体大小和颜色的调整、分支的位置变换等)。iTOL在线网站具有非常强大的系统发育树的编辑和美化功能,研究者可根据自己的需求进行各种个性化的调整,关于编辑的具体使用方法可以参考iTOL的官方帮助文档 (https://itol.embl.de/help.cgi) 和iTOL官方视频资料 (https://itol.embl.de/video_tutorial.cgi)。

图13. iTOL在线网站的系统发育树展示和编辑

4.系统发育树的编辑:按住鼠标左键,将“plan1”文件夹中的“iTOL_labels-Genus.txt”文件拖到iTOL网页的当前主界面上,iTOL在线网站会自动将所有OTUs替换成其物种注释对应的属名,如图所示 (图14)。

图14.系统发育树中分支节点名称替换

5.系统发育树的按微生物门分类水平进行着色编辑:按住鼠标左键,将“plan2”文件夹中的“iTOL_treecolors-Phylum.txt”文件拖到iTOL网页的当前主界面上,iTOL在线网站会自动按微生物门对系统发育树进行着色”,如图所示 (图15)。同时注意,此处着色可分别进行标签、分支和全树着色。

图15.系统发育树图按门水平进行着色

6.添加其它系统发育树分组注释:使用三个不同分组的高丰度OTUs做进化树,可以把三个分组的高丰度OTUs的相对丰度,用柱状图形式进行展示。按住鼠标左键,将“plan2”文件夹中的“iTOL_simplebar-A.txt”、“iTOL_simplebar-B.txt”和“iTOL_simplebar-C.txt”文件拖到iTOL网页的当前主界面上,iTOL在线网站会自动将“KO”、“OE”和“WT”三个分组的高丰度OTUs用柱形图形式进行展现 (如图16)。

图16.添加高丰度OTUs不同分组柱形图的系统发育树图

7.在“plan1”、“plan2”和“plan3”文件夹中有很多其它系统发育树美化和编辑的文件。例如,“plan3”文件夹中的热图的添加等,研究者可以根据自己的需求进行灵活添加,最终达到自己的系统发育树展示和研究目的。最后,研究者可以点击iTOL在线网站右上角的“Export”按钮导出编辑完成的系统发育树图。本文最终生成的系统发育树图,如下图所示 (图17)。

图17.最终生成的系统发育树图

小结

本文简要介绍了微生物扩增子数据中的高丰度OTUs数据的筛选,代表性序列及对应物种注释的获取,以及系统发育树的构建方法。展示了一套完整操作流程,以帮助研究者学习和使用生成接近发表质量要求的系统发育树图的构建方法。研究者在建树过程中可以根据研究领域参考同行文献对系统发育树进行一些细节参数的调整,并使用AI (Adobe Illustrator)对特殊图形、字符和树进行进一步修改和美化。

致谢

感谢“git for windows”软件开发者提供的Git 软件(https://github.com/git-for-windows)及mgoeker在GitHub网站上开发和公开分享的R语言包“table2itol” (https://github.com/mgoeker/table2itol)。本文分析方法已应用于待

发表文章“Distribution and variations of mycotoxin producing fungal community in major rice production areas of China”。

参考文献

1.Edgar, R. C. (2004). MUSCLE: multiple sequence alignment with high accuracy and high throughput. 32(5):1792–1797.

2.Edgar, R. C. (2013). UPARSE: highly accurate OTU sequences from microbial amplicon reads. Nature Methods. 10(10): 996–998.

3.Minh, B. Q., Schmidt, H. A., Chernomor, O., Schrempf, D., Woodhams, M. D., von Haeseler, A. and Lanfear, R. (2020). IQ-TREE 2: New models and efficient methods for phylogenetic inference in the genomic era. Molecular Biology and Evolution. 37(5): 1530–1534.

4.Nguyen, L. T., Schmidt, H. A., von Haeseler, A. and Minh, B. Q. (2015). IQ-TREE: a fast and effective stochastic algorithm for estimating maximum-likelihood phylogenies. Molecular biology and evolution. 32(1): 268–274.

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文下载PDF审稿,或浏览器直接访问下载链接:http://210.75.224.110/github/MicrobiomeProtocol/04Review/210111/2003730XinZhou952632/Protocol2003730final.pdf

MPB:中科院微生物所蔡磊组-​基于扩增子数据的系统发育树的构建和展示相关推荐

  1. MPB:微生物所蔡磊组-​​基于二代测序的真菌基因组组装和注释

    为进一步提高<微生物组实验手册>稿件质量,本项目新增大众评审环节.文章在通过同行评审后,采用公众号推送方式分享全文,任何人均可在线提交修改意见.公众号格式显示略有问题,建议电脑端点击文末阅 ...

  2. Microbiome:中科院微生物所蔡磊组揭示病害影响植物微生物组群落构建与功能适应...

    病害影响植物微生物组群落构建与功能适应 Disease-induced changes in plant microbiome assembly and functional adaptation M ...

  3. NC | 中科院蔡磊组揭示跨界合成菌群增强番茄对镰刀枯萎病抗病能力

    跨界合成微生物群落增强番茄对镰刀枯萎病抗病能力 Cross-kingdom synthetic microbiota supports tomato suppression of Fusarium w ...

  4. 宏病毒组(五)|病毒基因组系统发育树

    我们通过宏病毒组测序,分析鉴定到病毒的种类及丰度后,通常会进一步去研究样品中鉴定到的病毒之间的相关性和互作情况.病毒的进化地位等,以便能更好地了解其生物学特性,提升对检测到的病毒认知. 目前宏病毒组个 ...

  5. iMeta|中科院微生物所刘双江组发布人源毛螺菌科菌株资源库和菌株水平代谢谱...

    点击蓝字 关注我们 hLchsp:毛螺菌科菌株资源库 https://doi.org/10.1002/imt2.58 RESEARCH ARTICLE ●2022年10月13日,中国科学院微生物研究所 ...

  6. 纯python统计基于orthofinder得到的系统发育树的关注点位置的树型结构

    对于某一个物种或某类物种在整个系统发育树中的位置存在一定争议的情况,使用直系同源基因构建单基因树,并对该物种或该类物种所在结构进行统计是可以对争议起到一定的解决作用的,在此留下全套流程和大家交流. 主 ...

  7. NC | 中科院先进院戴磊组开发SEER-FISH成像技术解析微生物组空间结构

    合成所科研进展 2023年3月17日,中国科学院深圳先进技术研究院合成微生物组学研究中心.深圳合成生物学创新研究院戴磊课题组在Nature子刊 Nature Communications上发表了基于成 ...

  8. MPB:微生物所东秀珠组-​​基于16S rRNA基因和基因组序列对细菌物种的初步鉴定...

    为进一步提高<微生物组实验手册>稿件质量,本项目新增大众评审环节.文章在通过同行评审后,采用公众号推送方式分享全文,任何人均可在线提交修改意见.公众号格式显示略有问题,建议电脑端点击文末阅 ...

  9. MPB:青岛大学苏晓泉组分享基于分类学和系统发育的宏基因组比较DMS算法

    为进一步提高<微生物组实验手册>稿件质量,本项目新增大众评审环节.文章在通过同行评审后,采用公众号推送方式分享全文,任何人均可在线提交修改意见.公众号格式显示略有问题,建议电脑端点击文末阅 ...

  10. mSystems | 中科院微生物所东秀珠组发现细菌和古菌协同代谢甜菜碱产甲烷

    中国南海冷泉细菌和产甲烷菌协同作用代谢甜菜碱产甲烷 Bacteria and archaea synergistically convert glycine betaine to biogenic m ...

最新文章

  1. ASP.NET Core Web Razor Pages系列教程:使用ASP.NET Core创建Razor Pages Web应用程序
  2. Hadoop大数据零基础高端实战培训系列配文本挖掘项目
  3. 阶跃函数和冲击函数相关性质及傅立叶变换求取方法
  4. CVPR 2019 | 无监督领域特定单图像去模糊
  5. MATLAB 图形着色
  6. 使用 Nginx + Gunicorn 部署 Flask 项目
  7. Android 四大组件之一(Activity)
  8. javaweb学习--jsp的四种属性范围
  9. node koa2 玩起来都是中间件啊
  10. 重装系统(windows系列:win10,win11专业版;Linux系列:Ubuntu18.04,22.04LTS安装)即装机必备软件汇总
  11. 实训项目:PHP双色球效果实现
  12. 【NLP】Transformer框架原理详解-1
  13. 自己动手画一个CPU——Logisim,下
  14. 2021年焊工(初级)考试报名及焊工(初级)实操考试视频
  15. 海豚调度(DolphinSchedulerDolphinScheduler)2.0的下载及安装(单机版)
  16. 基于xc7k325t fbg900的IBRET的测试流程
  17. python提示unmatched_Python: Unmatched group exception
  18. 【设计模式-行为型-中介者模式(Mediator)】
  19. 怎么用白光干涉仪的拼接测量功能
  20. onnx优化系列 - 获取中间Node的inference shape的方法

热门文章

  1. springboot 配置programe arguments 不生效
  2. JavaScript开发必备!这四款静态代码分析工具你了解吗?
  3. MATLAB多幅图片生成GIF动画
  4. 小程序纵向选项卡可以滑动_微信小程序实现选项卡滑动切换
  5. java poi 合并单元格 边框显示不全
  6. 微信HOOK-微信逆向-微信公众号爬虫系统
  7. 金牛判势 精品起涨预警 主升浪起爆点指标 通达信指标公式
  8. php bin2hex park,PHP bin2hex()函数与示例
  9. bin 转hex方法
  10. php是一种通用开源,caozha-admin(PHP网站后台管理框架)