我在此介绍几个进化树分析及其相关软件的使用和应用范围。这几个软件分别是PHYLIP、PUZZLE、PAUP、TREEVIEW、CLUSTALX和PHYLO-WIN(LINUX)。

在介绍软件之前,我先简要地叙述一下有关进化树分析的一些方法学问题。

进化树也称种系树,英文名叫“Phyligenetic tree”。对于一个完整的进化树分析需要以下几个步骤:

⑴ 要对所分析的多序列目标进行排列(To align sequences)。做ALIGNMENT的软件很多,最经常使用的有CLUSTALX和CLUSTALW,前者是在WINDOW下的而后者是在DOS下的。

⑵ 要构建一个进化树(To reconstrut phyligenetic tree)。构建进化树的算法主要分为两类:独立元素法(discrete character methods)和距离依靠法(distance methods)。所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的(例如:一个序列上可能包含很多的酶切位点,而每个酶切位点的存在与否是由几个碱基的状态决定的,也就是说一个序列碱基的状态决定着它的酶切位点状态,当多个序列进行进化树分析时,进化树的拓扑形状也就由这些碱基的状态决定了)。而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。进化树枝条的长度代表着进化距离。独立元素法包括最大简约性法(Maximum Parsimony methods)和最大可能性法(Maximum Likelihood methods);距离依靠法包括除权配对法(UPGMAM)和邻位相连法(Neighbor-joining)。

⑶ 对进化树进行评估。主要采用Bootstraping法。进化树的构建是一个统计学问题。我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果我们采用了一个适当的方法,那么所构建的进化树就会接近真实的“进化树”。模拟的进化树需要一种数学方法来对其进行评估。不同的算法有不同的适用目标。

一般来说,最大简约性法适用于符合以下条件的多序列:

i 所要比较的序列的碱基差别小,

ii 对于序列上的每一个碱基有近似相等的变异率,

iii 没有过多的颠换/转换的倾向,iv 所检验的序列的碱基数目较多(大于几千个碱基);

用最大可能性法分析序列则不需以上的诸多条件,但是此种方法计算极其耗时。如果分析的序列较多,有可能要花上几天的时间才能计算完毕。

UPGMAM(Unweighted pair group method with arithmetic mean)假设在进化过程中所有核苷酸/氨基酸都有相同的变异率,也就是存在着一个分子钟。这种算法得到的进化树相对来说不是很准确,现在已经很少使用。邻位相连法是一个经常被使用的算法,它构建的进化树相对准确,而且计算快捷。其缺点是序列上的所有位点都被同等对待,而且,所分析的序列的进化距离不能太大。

另外,需要特别指出的是对于一些特定多序列对象来说可能没有任何一个现存算法非常适合它。最好是我们来发展一个更好的算法来解决它。但无疑这是非常难的。我想如果有人能建立这样一个算法的话,那他(她)完全可以在Proc.Natl.Acad.Sci.USA.上发一篇高质量的文章。

下面介绍几个软件的使用。首先是PHYLIP。其是多个软件的压缩包,下载后双击则自动解压。当你解压后就挥发现PHYLIP的功能极其强大,主要包括五个方面的功能软件:

i,DNA和蛋白质序列数据的分析软件。

ii,序列数据转变成距离数据后,对距离数据分析的软件。

iii,对基因频率和连续的元素分析的软件。

iv,把序列的每个碱基/氨基酸独立看待(碱基/氨基酸只有0和1的状态)时,对序列进行分析的软件。

v,按照DOLLO简约性算法对序列进行分析的软件。

vi,绘制和修改进化树的软件。在此,我主要对前两种功能软件进行说明。

我们现在有几个序列如下:

Mo3 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGCACGGTACCAT

Mo5 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT

Mo6 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT

Mo7 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACAGTACCAT

Mo8 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACAGTACCAT

Mo9 ATGTATCTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT

Mo12 ATGTATTTCGTACATTACTG CCAGCCACCATGAATATTGTACGGTACCAT

Mo13 ATGTATCTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT

要对这8个序列进行进化树分析,按照上面的步骤,首先用CLUSTALX排列序列,输出格式为 *.PHY。

图中的8和50分别表示8个序列和每个序列有50个碱基。然后,打开软件SEQBOOT:

按路径输入刚才生成的 *.PHY文件,并在Random number seed (must be odd) ?的下面输入一个4N+1的数字后,屏幕显示如下:

图中的D、J、R、I、O、1、2代表可选择的选项,键入这些字母,程序的条件就会发生改变。D选项无须改变。J选项有三种条件可以选择,分别是Bootstrap、Jackknife和Permute。文章上面提到用Bootstraping法对进化树进行评估,所谓Bootstraping法就是从整个序列的碱基(氨基酸)中任意选取一半,剩下的一半序列随机补齐组成一个新的序列。这样,一个序列就可以变成了许多序列。一个多序列组也就可以变成许多个多序列组。

根据某种算法(最大简约性法、最大可能性法、除权配对法或邻位相连法)每个多序列组都可以生成一个进化树。将生成的许多进化树进行比较,按照多数规则(majority-rule)我们就会得到一个最“逼真”的进化树。Jackknife则是另外一种随机选取序列的方法。

它与Bootstrap法的区别是不将剩下的一半序列补齐,只生成一个缩短了一半的新序列。Permute是另外一种取样方法,其目的与Bootstrap和Jackknife法不同,这里不再介绍。R选项让使用者输入republicate的数目。所谓republicate就是用Bootstrap法生成的一个多序列组。根据多序列中所含的序列的数目的不同可以选取不同的republicate。当我们设置好条件后,键入Y按回车。得到一个文件outfile

Outfile用记事本打开如下:

这个文件包括了100个republicate。

打开DNAPARS(最大简约性法)或DNAML(最大可能性法)软件。将刚才生成的outfile文件更名后输入。

选项O是让使用者设定一个序列作为outgroup。一般选择一个亲缘关系与所分析序列组很接近的序列作为outgroup(本例子不选outgroup),outgroup选择的好坏将直接影响到最后的进化树的好坏。选项M是输入刚才设置的republicate的数目。设置好条件后,键入Y按回车。生成两个文件outfile和treefile。

Outfile打开。

该文件包括了227个进化树。Treefile可以用TREEVIEW软件打开同样包含了这227个进化树。

打开CONSENSE软件,将刚才生成的treefile文件更名后输入。

键入Y按回车。生成两个文件outfile和treefile。Treefile用TREEVIEW打开。

我们看出两个树是同样的。但在outfile的树上的数字表示该枝条的Bootstrap支持率(除以100.6)。到现在,8个序列的进化树分析(最大简约法)已经完成。

如果要用邻位相连法对这8个序列进行分析的话,也首先执行SEQBOOT软件将这8个序列变成100个republicate。然后,打开DNADIST软件,把SEQBOOT生成的文件输入。

选项D有四种距离模式可以选择,分别是Kimura 2-parameter、Jin/Nei、Maximum-likelihood和Jukes-Cantor。选项T一般键入一个15-30之间的数字。选项M键入100。运行后生成文件。

这个文件包含了与输入文件相同的100个republicate,只不过每个republicate是以两两序列的进化距离来表示。文件中的每个republicate都省略了第一排的Mo3 Mo5 Mo6 Mo7 Mo8 Mo9 Mo12 Mo13。以这个输出文件为输入文件,执行NEIGHBOR软件。

选项M键入100。生成两个文件outfile和treefile用记事本和TREEVIEW打开后,发现这两个文件都含有100个进化树。再将treefile文件更名后输入CONSENSE软件,又得到两个文件outfile和treefile,这就是最后的结果。以上是对DNA序列的分析,如果要对蛋白质序列进行分析,PROTDIST、PROTPARS等软件。其他软件的用法可以参照PHYLIP的documents。

下面介绍PUZZLE软件。它是用最大可能性的方法来构建进化树的一个软件,并且对树进行bootstrap评估。该软件搜寻进化树时用的算法是quartet puzzling,这个算法相对较快,但如要分析的序列较多时,也相当耗时。另有LINUX版,运行起来相对较快。PUZZLE的输入格式为PHYLIP INTERLEAVED。CLUSTAL可以生成此格式文件。PUZZLE的界面与PHYLIP类似,也是MS-DOS下的软件。

PHYLO-WIN是LINUX下的一个软件。界面友好,极易操作。(责任编辑:admin)

linux系统发育树的构建步骤,步一步教你如何做系统进化树相关推荐

  1. linux系统发育树的构建步骤,megacc构建进化树.mao文件生成方法

    基于linux版megacc构建系统进化树命令如下: /biosoft/MEGA/megacc -a .mao -d fasta -o ./ -a输入的是构建进化树的参数 .mao文件 -d输入的是多 ...

  2. linux系统发育树的构建步骤,手把手教你用 Fast Tree 快速构建序列进化树

    常见的建树方法有:贝叶斯法(Bayesian),最大似然法(Maximum likelihood,ML),最大简约法(Maximum parsimony,MP),邻接法(Neighbor-Joinin ...

  3. linux系统发育树的构建步骤,分子进化树构建的简要步骤(以蛋白为例)

    PhyML利用氨基酸序列建树步骤 (核酸建树也可以作为参考) 前言:本文阅读对象适合建树新手,生物信息学高手请勿嘲笑,其中有什么错误还恳请指点.为什么要建树及其你要解决什么问题这里不做讨论,只是一个纯 ...

  4. 使用GENBANK数据进行分子系统发育树的构建

    一.引言 GENBANK是目前最大而权威的分子序列数据库,调用其中数据可以进行分子系统发育树的构建. 1.序列数据获取(以皿蛛系统发育树为例) 在GenBank中,每一个物种或阶元都有一个taxid, ...

  5. MEGA | 多序列比对及系统发育树的构建

    MEGA是一个用于多序列比对和可视化.以及构建系统发育树的免费程序.自1993年发布以来,MEGA共更新9个版本 (没有第八.九版),今年发布的MEGA 11为处理更大的数据集进行了优化. 之前我们介 ...

  6. 【超详细】Linux内核树的构建

    本文档因为过于繁琐,现已弃用.最新教程请见[Linux内核树]五步构建. 目录 前言 检查是否已有构建好的内核树 下载内核源码 开始构建 1. 安装必须的包 2. 生成配置文件 3. 开始make 附 ...

  7. 视频 | 生信Linux - 系统发育树构建1

    点击阅读原文跳转完整教案. 1 Linux初探,打开新世界的大门 1.1 Linux系统简介和目录理解 1.1.1 为什么要用Linux系统 1.1.2 Linux系统无处不在 1.1.3 免费的Li ...

  8. 如何构建古生物化石的系统发育树

    构建古生物化石的系统发育树需要以下步骤: 收集数据: 首先要收集大量的古生物学数据,包括化石的形态特征和生物学特征. 数据分析: 利用各种生物学分析方法,对收集的数据进行分析. 构建分支: 根据分析结 ...

  9. linux下phylip软件构建NJ树,进化树构建-NJ法lpar;megarpar;

    进化树构建-NJ法 V1.2 By ZHAO Yangguo, email: sunshine.zhao@yahoo.com.cn 通过长期的分析认为对于16S rDNA序列的进化(Phyligene ...

  10. 宏病毒组(五)|病毒基因组系统发育树

    我们通过宏病毒组测序,分析鉴定到病毒的种类及丰度后,通常会进一步去研究样品中鉴定到的病毒之间的相关性和互作情况.病毒的进化地位等,以便能更好地了解其生物学特性,提升对检测到的病毒认知. 目前宏病毒组个 ...

最新文章

  1. Sprites实现翻页按钮,圆角,宽度不固定
  2. arXiv爆款:想了解Attention就看它!清华计图胡事民团队出品
  3. 开始→运行→命令集锦
  4. nginx--阿里云--success
  5. Android之倍数提高工作效率的 Android Studio 奇技
  6. 字符,字符串,int之间互相转换
  7. Windows Mobile 编程 (Win32) - 获取设备能力
  8. [leetcode]1.两数之和
  9. HBase权威指南阅读——第一章
  10. python雨课堂答案_雨课堂和微助教的比较分析
  11. 撤消 git rebase
  12. 《二代征信》与你的生活息息相关 (1)
  13. centos搭建流媒体服务器
  14. C# 保存图片到本地文件夹中
  15. Element ui 组件中用键盘事件
  16. XMap 简易的Java-xml映射工具类库
  17. Atom终端命令行插件
  18. 先进先出物料架_仓库物料的先进先出FIFO管理(如何做到先进先出)
  19. 机器学习笔记十九:正则化思想
  20. Linux能ping通IP,ping不通域名

热门文章

  1. linux搭建dlna媒体服务器,Serviio:一款功能强大的DLNA媒体服务器软件
  2. Chrome 的人都需要知道的「神器」扩展:「油猴」使用详解
  3. linux鼠标垫图片,如何自制智能游戏鼠标垫
  4. 2023年前实现大型工业企业5G应用渗透率超35%!模组企业如何保驾护航?
  5. 【ubutun22.04】mac修改与吉林大学校园网链接
  6. 计算主波长色纯度色温和色坐标转换CIE1931图色坐标显示NTSC色饱和度
  7. 计算机科学与技术导论结课报告,计算机科学与技术导论课程报告.doc
  8. 高通9008端口刷linux,高通命令进入9008端口方式汇总
  9. JS设计模式——责任链模式
  10. 金蝶服务器存在但无账套信息,金蝶KIS专业版