本文主要介绍了使用MEGA7软件为获取的未知基因序列构建系统发育树,并从中获取基因序列的种属信息。

工欲善其事,必先利其器。我想,介绍构建系统发育树之前有必要介绍一下建树过程中用到的主要工具与关键词定义。

什么是MEGA?

MEGA (Molecular Evolutionary Genetics Analysis)是一款集序列比对、序列分析与系统进化树构建于一体的开源软件。MEGA软件具有分析效率高、操作简单和功能一体化等优点。登陆MEGA官网(https://www.megasoftware.net/)即可免费下载使用,Window/Mac/Linux三个平台都有可用的版本,当前最新版本是MEGA X。

什么是系统发育树?

系统发育树也称系统进化树(phylogenetic tree), 它是用类似树状分支的图来表示各种生物之间的亲缘关系, 通过对基因序列或蛋白质的对比分析来表征物种之间进化地位远近的一种方式。系统发育树主要是依靠它的拓扑结构和分支长度来展示所推演的进化过程。

--根据拓扑结构的不同系统发育树可以分为有根树和无根树。

有根树有一个根节点,代表所有其它节点的共同祖先,从根节点只有唯一路径经进化到达其他任何节点;

无根树只表明了节点之间的关系,没有进化方向,但是通过引入外群(outgroup)或外部参考物种可以在无根树中指派根节点。

可用来建树的数据: DNA or Protein (染色体基因、线粒体、叶绿体、16S、基因保守区(MLST、domain序列)等);可用来建树的方法:NJ(邻接法)、ML(最大似然法)、MP(最大简约法)、Bayes (贝叶斯法);可用来建树的模型:DNA(GTR、TN93、HKY等)、Protein(JTT、WAG、LG等)。

系统发育树构建的一般过程:

什么是BLAST?

BLAST全称Basic Local Alignment Search Tool,是查询序列在蛋白质数据库或者基因数据库中进行局部对比搜索的工具,分析的结果是以统计评分的方式呈现。其中,最常用的3个评分指标分别是E value,Total Score,Per.Ident。

E value

在BLAST结果页概述栏中,E value是默认按照由低到高的顺序排列。E value代表的是被比对的序列不相关的可能性,因此E value越小,代表序列相关性越大。若是E value无限趋近于0,则表示我们要检测的序列是完全匹配的。

Total Score

在概述栏中,Total Score分值越高,说明被BLAST的序列特异性越好。Total Score也是按照分值从高到低排列的。

Per.Ident

在概述栏中,Per.Ident代表了所在行的序列与被BLAST的序列的相似度。Per.Ident越大,表示该序列与被测序列相似度高,一般Per.Ident>97%就可以认为该序列与被测序列属于同属。

本文简要分享以MEGA7软件为工具,构建系统进化树的操作流程(具体参数细节请MEGA官网教程说明)。

当我们想要建立一个系统发育树时,大概率是两个原因:

1) 你获取了一个或多个基因片段,希望通过分子序列分析判定这些这些片段是来源于哪种属的?了解目标基因在整个进化体系中所处的地位,以及判断其与其他基因片段(或种)的亲缘关系;

2) 当你获取大量同源基因序列,你想要了解这些同源基因序列之间的进化关系与亲缘关系(譬如,新冠疫情全球爆发时,在世界各地采集的新冠病毒基因序列,往往呈现出来源于同一个国家或地区的亲缘关系更近)。

本文介绍第1种情况,假设以下是我获取的3段16SrRNA基因序列,分别命名为SW-1,ZL-2,XQ-3,以.txt文本文件形式保存:

01首先,登陆BLAST网站(https://blast.ncbi.nlm.nih.gov/Blast.cgi),界面如下:

然后点击“Nucleotide BLAST”按钮进行核苷酸序列比对,界面如下:

在“Enter accession number(s), gi(s), or FASTA sequence(s)”处输入上述“获取的序列.txt”文件中的第一段核苷酸序列SW-1;“Job Title”输入一个标识,用以区分,意义不大,输入“SW-1”;“Database”选择“rRNA/ITS databases”>“16S ribosomal RNA sequences (Bacteria and Archaea)”;勾选“Show results in a new window”。最后点击“BLAST”进行对比。对比结果如下图所示:

勾选需要下载的序列(构建一个系统发育树一般总共使用10~20条基因序列,一般选择相似度最高的(即最靠前)的序列进行建树),点击“Download”>“FASTA(complete sequence)”下载BLAST结果序列文件(在选择BLAST结果序列时,选择模式菌株序列会具有更强说服力与更高可信度)。

模式菌株:模式菌株(type strains)又称标准菌株,通常需要由至少两个不同国家的专门保藏机构保藏的菌株,一个菌株在同一个保藏机构有且仅有永久保藏号。保藏菌株是否是标准菌株的标志是在菌株名后有一个上标的T (Type),每种菌可以有多个标准菌株。
小技巧:一般可以根据BLAST结果最靠前的10个基因序列(Per.Ident>97%)来源菌属大致判断查询序列的来源菌属。譬如,本例的SW-1序列BLAST结果前10个都是“Pseudomonas”菌属,所以初步判定SW-1序列来源于“Pseudomonas”菌属。但这只是初步判断,并非一个强有力的依据。

结果文件(.txt)命名为“SW-1相似序列”,如下图所示:

按上述方法,依次将“获取的序列”文件中的“ZL-2”与“XQ-3”序列进行BLAST,下载的.txt文件分别命名为“ZL-2相似序列”,“XQ-3相似序列”。其中,SW-1,ZL-2,XQ-3共选取相似序列14条。

我们还将获取一个外源菌序列(本示例选择的是同科不同属的外源菌Cellvibrio mixtus)。文件如下图所示:

名词解释

外源菌:类似于“外群”,为了让查询菌的序列与相似序列更好地聚合,使得构建的系统发育树更具有可信度而引入的菌种。

外源菌的获取:可以先查询目标序列的所属属,再查其所属科级下的其他属。最后,去NCBI官网直接搜索该属名,选择一个对应的扩增区的模式菌株的序列即可尝试用于建树。

02此时,我们已经拥有了建立系统发育树所需要的全部数据。

然后,我们将需要用来建立系统发育树的.txt文本文件后缀改为.fas或.fasta,这样格式的文件才能够被MEGA软件识别与读取。

双击“获取的序列.fas”打开该文件,MEGA界面如下:

点击“Insert sequences from MEGA/FASTA/Text...”按钮,选择并导入“SW-1相似序列.fas”,“ZL-2相似序列.fas”,“XQ-3相似序列.fas”,“外源序列.fas”文件,显示如下,此按钮可以添加导入我们需要的序列文件。

打开所有用于构建系统发育树的序列.fas文件,如下图所示:

选择“Data”>“Select Gentic Code Table”进入密码子选择界面。

选择“Standard”标准密码子,选择“OK”继续。

选择“Edit”>“Select All”全选所有数据。

选择“Alignment”>“Align by ClustalW”进行序列比对。

弹出参数设置界面,无需更改,选择“OK”继续。

出现对比进度条框,等待完成...

可见,对比完成后,序列碱基明显被对齐。

将对齐后的序列前后裁齐,即选择前后端处不齐平的序列所在列,敲击键盘“delete”键删除。

裁剪齐平后,选择“Data”>“Export Alignment”>“MEGA Format”,保存裁剪齐了的对齐了的序列到“获取的序列.meg”。

提示“Input title of the data”,输入“获取的序列”,点击“OK”继续。

确认是否是蛋白编辑序列,这里选择“No”继续。

获得的“获取的序列.meg”如下所示:

03接下来,我们需要先探索最佳的建树模型,用于后续使用。

打开MEGA7主界面,如下图所示:

选择“Analysis”>“Models”>“Find Best DNA/Protein Model”,进入选取文件界面。

选择“获取的序列.meg”并打开,提示数据类型选择“Nucleotide Sequences”核苷酸序列,点击“OK”继续。

在分析偏好界面,“Statistical Method”选择“Maximum Likelihood”,“Gaps/Missing Data Treatment”选择“Use all sites”,“Branch Swap Filter”选择“Very Strong”,点击“Compute”继续。

等待分析进度条完成...

可见“Model”列中“GTR+G+I”的“Parameters”系数(43)最大,DNA模型预测结果表示选择“GTR+G+I”最佳。

进入主界面,选择“Phylogeny”>“Construct/Test Maximum Likelihood Tree...”进行基于MEGA的最大似然法建树。

选择文件“获取的序列.meg”,进入分析偏好界面。依据之前预测最合适的模型为GTR+G+I,所以“Model/Method”选择“General Time Reversible(GTR)”,“Rates among Sites”选择“Gamma distributed with Invariant sites(G+I)”。此外,“Test of Phylogeny”选择“Bootstrap”,“No. of Bootstrap Replications”选择“100”(一般都是100的整数倍,数值越大,评估次数越多,消耗的时间越多)。点击“Compute”开始进行建树计算。

等待建树进度条完成...

计算完成,结果界面如下:

系统发育树已经初步构成,但是直观可见存在个别序列影响树的结构与美观。这里我们做的是删除NR103934.2与NR043421基因序列(即在对齐裁剪序列之后和生成.meg文件之前删除这两个基因序列,只需要选中需要删除的序列,右击鼠标选delete就可以,后续分析步骤相同),重新计算与构建系统进化树。
重建的系统进化树“Original Tree”结果如下图所示:

点击“Bootstrap consensus tree”,结果如下图所示:

Original tree 与Bootstrap consensus tree有什么区别?
1)在构建系统树时,使用了Bootstrap法进行检验。在做Bootstrap时,以原序列为蓝本随机重组生成新的序列,重复估算模型。如果原序列计算得到的分枝在新Bootstrap中依然频繁出现,则该分枝的可信度高。分枝在Bootstrap中出现的频率就是表征分枝可信度的参数;
2)Original Tree是步长检验构建的 N次株树中的最优系统树。未经过多棵树合并,所以Original Tree上有计算得到的距离数据,可以精确地表征两个基因的亲缘远近;MEGA形成的Original Tree上也有频率参数,实际来自Bootstrap Consensus Tree的对应分枝;
3)Bootstrap Consensus Tree 是很多次Bootstrap得到的平均结果,它不包含进化距离信息(在设置View时无法调用,也没有意义),分枝上的数字代表该分枝的频率参数,即经步长检验有百分之几的树具有这根树枝,反应了该树枝的可信度。另外,它的拓扑结构也可能与Original Tree很不相同。

也可以选择“Tree/Branch Style”>“Radiation”,更换成放射状树枝风格。

也可以“Tree/Branch Style”>“Circle”,更换成环状树枝风格。

选择“Image”>“Save as PNG file”可将系统发育树保存为PNG图片格式。

一般这种样式的系统发育树往往不能满足期刊发表的要求,我们往往使用“Image”>“Copy to Clipborad”复制并粘贴到Word或IA软件中进行规范化与美化,操作如下图:

以Original Tree为例,使用Word修改规范后的图如下:

由以上系统发育树可以判定,SW-1,ZL-2与XQ-3三个基因序列来源于Pseudomonas菌属。此外也能基本判定SW-1,ZL-2基因序列来源于Pseudomonas stutzeri菌种,XQ-3基因序列来源于Pseudomonas mendoccina菌种。

到这里我们的建树工作基本已经完成了,从中我们获取了未知序列的基本种属信息与系统发育关系。当然这只是确定种属信息的一种方法,我们往往也会从其他方面考证,比如全基因组测序,纯化培养试验。

P.S:本文是小编结合网络教学资料与自身实践经验所作,偏重于经验分享。如果发现错误,希望各位读者在本公众号后台留言或发送邮箱(1633729012@qq.com)为我们指正,非常感谢!

本文提供所有数据原文件与MEGA7软件安装包,百度网盘下载链接:

https://pan.baidu.com/s/1K5o-I3tZP9LWxa66YMOBDQ

提取码:1234

这篇推文对你有帮助吗?喜欢这篇文章吗?喜欢就不要错过呀,关注本知乎号查看更多的环境微生物生信分析相关文章。亦可以用微信扫描下方二维码关注“环微分析”微信公众号,小编在里面载入了更加完善的学习资料供广大生信分析研究者爱好者参考学习,也希望读者们发现错误后予以指出,小编愿与诸君共同进步!!!

学习环境微生物分析,关注“环微分析”公众号,持续更新,开源免费,敬请关注!

转载自原创文章:

如何使用MEGA软件构建系统发育树_速成实用经验​

最后,再次感谢你阅读本篇文章,真心希望对你有所帮助。感谢!

如何使用MEGA软件构建系统发育树_速成实用经验相关推荐

  1. vbn中使用的3种流程控制结构是_细菌进化树构建:从模式种序列下载到构建系统发育树一键搞定...

    细菌进化树 • 构 建 细菌进化树构建:从模式种序列下载到构建系统发育树一键搞定 对于细菌新种或者新属的发现,总是那么让人期待,但是当我们批量获得16S序列后,逐一对这些尚不知分类地位的序列进行比对并 ...

  2. linux下phylip软件构建NJ树,进化树构建-NJ法lpar;megarpar;

    进化树构建-NJ法 V1.2 By ZHAO Yangguo, email: sunshine.zhao@yahoo.com.cn 通过长期的分析认为对于16S rDNA序列的进化(Phyligene ...

  3. 创建父需求子需求构建需求树_用pc构建DIY计算集群(超级计算机)

    ----------------------------------------------------------------- 用pc构建DIY计算集群 目录 /构建计算集群 0. |-- /0前 ...

  4. 创建父需求子需求构建需求树_还不知道B+树 ?看完,别再问我什么是B+树 了

    前言 每当我们执行某个 SQL 发现很慢时,都会下意识地反应是否加了索引,那么大家是否有想过加了索引为啥会使数据查找更快呢,索引的底层一般又是用什么结构存储的呢,相信大家看了标题已经有答案了,没错!B ...

  5. Linux多线程贝叶斯建树教程,构建系统发育树:贝叶斯法建树

    写在前面:我对建树也是一知半解,这里只是想记录一下自己跟别人学习的建树方法,可能不具有普适性.但毕竟写在公众平台,大家自主参考. 用phylosuite进行.nex文件的准备,用在线建树网站CIPRE ...

  6. Mega软件操作教程

    Mega软件操作教程 001-a 进化树基本概念知识点讲解(理论讲解) 001-b 进化树原理和建树方法的选择(理论讲解) 001-c 进化树结构术语等(理论讲解) 001-d 分子系统进化分析流程( ...

  7. MEGA软件——系统发育树构建方法(图文讲解) 转载

    转载:http://www.plob.org/2012/12/02/4927.html 一.序列文本的准备 构树之前先将目标基因序列都分别保存为txt文本文件中(或者把所有序列保存在同一个txt文本中 ...

  8. MEGA | 多序列比对及系统发育树的构建

    MEGA是一个用于多序列比对和可视化.以及构建系统发育树的免费程序.自1993年发布以来,MEGA共更新9个版本 (没有第八.九版),今年发布的MEGA 11为处理更大的数据集进行了优化. 之前我们介 ...

  9. 构建单拷贝同源蛋白系统发育树,一条命令提序列!

    由于基因重组与基因突变的存在,利用16S rRNA构建的系统发育树通常不够可靠,而使用基于全基因组的单拷贝同源蛋白系统发育树则不会存在这方面的困扰,16S rRNA序列也就1500个碱基左右,而全基因 ...

  10. 基于短核苷酸序列频率构建细菌系统发育树

    谷禾健康 目前,原核生物的系统发育分类依赖于16S rRNA基因序列,这种序列在细菌中广泛存在且高度保守,但即使16S rDNA测序的结果显示某些细菌间序列相似性≥99%,但它们仍然不能被归为同一物种 ...

最新文章

  1. windows10 安装 mysql8.0.12 详解
  2. 201521123011《Java程序设计》第6周学习总结
  3. 有什么办法可以判断页面是静态还是动态?_网络营销——网络营销专员到底是教你如何选择网站页面制作...
  4. Mozilla开发全新的公开网络API WebXR 来实现增强现实
  5. Reducing the Dimensionality of Data with Neural Networks:神经网络用于降维
  6. 第七章 字典和集合[DDT书本学习 小甲鱼]【2】
  7. 夜视模式,多少猥琐相机假汝之名
  8. 一个java文件里面可以写多少个class
  9. 国内最火5款Java微服务开源项目
  10. Vue一些其他指令:v-text、v-html、v-pre、v-once
  11. 谈薪资被 HR 怼了:估计你一辈子就是个程序员!气不过啊。。。
  12. CentOS_mini下安装docker 之 安装docker CE
  13. 【JAVA】学习java 运行环境配置
  14. coreldraw怎样定数等分_CorelDRAW基础教程,教你cdr如何等分分割图片
  15. SM74HC595D电路级联教程
  16. C#,《数值算法:科学计算的艺术,Numerical Recipes: The Art of Scientific Computing》
  17. 额温枪方案工作流程、测温原理、功能
  18. 电路及esd静电防护
  19. 用python画分析曲线图
  20. 如何写毕业设计——外文翻译

热门文章

  1. 网络安全等级保护2.0标准解析
  2. echarts柱状图实现重叠
  3. 身份证号中提取性别、年龄、年月日的Excel(WPS)公式
  4. 百变头像框制作微信小程序源码下载,免服务器和域名
  5. 2023苏州科技大学计算机考研信息汇总
  6. 5分钟轻松搞定产品需求文档!这可能史上最全PRD文档模板
  7. Visio网络及设备模板库
  8. Hi3559AV100移植友方4G模块N720V5(一)
  9. 工厂车间现场管理必备利器,MES生产管理系统
  10. React09——使用脚手架编程