【实验目的】

1、熟悉构建分子系统发生树的基本过程,获得使用不同建树方法、建树材料和建树参数对建树结果影响的正确认识;

2、掌握使用Clustalx进行序列多重比对的操作方法;

3、掌握使用Phylip软件构建系统发生树的操作方法。

【实验原理】

在现代分子进化研究中,根据现有生物基因或物种多样性来重建生物的进化史是一个非常重要的问题。一个可靠的系统发生的推断,将揭示出有关生物进化过程的顺序,有助于我们了解生物进化的历史和进化机制。

对于一个完整的进化树分析需要以下几个步骤:⑴ 要对所分析的多序列目标进行比对(alignment)。 ⑵ 要构建一个进化树(phyligenetic tree)。构建进化树的算法主要分为两类:独立元素法(discrete character methods)和距离依靠法(distance methods)。所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的(例如:一个序列上可能包含很多的酶切位点,而每个酶切位点的存在与否是由几个碱基的状态决定的,也就是说一个序列碱基的状态决定着它的酶切位点状态,当多个序列进行进化树分析时,进化树的拓扑形状也就由这些碱基的状态决定了)。而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。进化树枝条的长度代表着进化距离。独立元素法包括最大简约性法(Maximum Parsimony methods)和最大可能性法(Maximum Likelihood methods);距离依靠法包括除权配对法(UPGMAM)和邻位相连法(Neighbor-joining)。⑶ 对进化树进行评估,主要采用Bootstraping法。进化树的构建是一个统计学问题,我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果我们采用了一个适当的方法,那么所构建的进化树就会接近真实的"进化树"。模拟的进化树需要一种数学方法来对其进行评估。不同的算法有不同的适用目标。一般来说,最大简约性法适用于符合以下条件的多序列:i 所要比较的序列的碱基差别小,ii 对于序列上的每一个碱基有近似相等的变异率,iii 没有过多的颠换/转换的倾向,iv 所检验的序列的碱基数目较多(大于几千个碱基);用最大可能性法分析序列则不需以上的诸多条件,但是此种方法计算极其耗时。如果分析的序列较多,有可能要花上几天的时间才能计算完毕。UPGMAM(Unweighted pair group method with arithmetic mean)假设在进化过程中所有核苷酸/氨基酸都有相同的变异率,也就是存在着一个分子钟。这种算法得到的进化树相对来说不是很准确,现在已经很少使用。邻位相连法是一个经常被使用的算法,它构建的进化树相对准确,而且计算快捷。其缺点是序列上的所有位点都被同等对待,而且,所分析的序列的进化距离不能太大。另外,需要特别指出的是对于一些特定多序列对象来说可能没有任何一个现存算法非常适合它。

CLUSTALX和PHYLIP软件能够实现上述的建树步骤。CLUSTALX是Windows界面下的多重序列比对软件。PHYLIP是多个软件的压缩包,功能极其强大,主要包括五个方面的功能软件:i,DNA和蛋白质序列数据的分析软件。ii,序列数据转变成距离数据后,对距离数据分析的软件。 iii,对基因频率和连续的元素分析的软件。iv,把序列的每个碱基/氨基酸独立看待(碱基/氨基酸只有0和1的状态)时,对序列进行分析的软件。v,按照DOLLO简约性算法对序列进行分析的软件。vi,绘制和修改进化树的软件。

【实验内容】

1、使用CLUSTALX软件对已知八条DNA序列(如下)进行多重序列比对;

M._mulatta   AAGCTTTTCT GGCGCAACCA TCCTCATGAT TGCTCACGGA CTCACCTCTT

M._fascicu   AAGCTTCTCC GGCGCAACCA CCCTTATAAT CGCCCACGGG CTCACCTCTT

M._sylvanu   AAGCTTCTCC GGTGCAACTA TCCTTATAGT TGCCCATGGA CTCACCTCTT

Homo_sapie   AAGCTTCACC GGCGCAGTCA TTCTCATAAT CGCCCACGGG CTTACATCCT

Gorilla      AAGCTTCACC GGCGCAGTTG TTCTTATAAT TGCCCACGGA CTTACATCAT

Pongo        AAGCTTCACC GGCGCAACCA CCCTCATGAT TGCCCATGGA CTCACATCCT

Saimiri_sc   AAGCTTCACC GGCGCAATGA TCCTAATAAT CGCTCACGGG TTTACTTCGT

Lemur_catt   AAGCTTCATA GGAGCAACCA TTCTAATAAT CGCACATGGC CTTACATCAT

2、使用PHYLIP 软件包构建上述DNA分子系统发生树。

【实验方法】

一、用CLUSTALX软件对已知DNA序列做多序列比对。

操作步骤:

1、以FASTA格式准备8个DNA序列test.seq(或txt)文件。

2、双击进入CLUSTALX程序,点FILE进入LOAD SEQUENCE,打开test.seq(或txt)文件。

3、点ALIGNMENT,在默认alignment parameters下,点击Do complete Alignment 。在新出现的窗口中点击ALIGN进行比对,这时输出两个文件(默认输出文件格式为Clustal格式):比对文件test.aln和向导树文件test.dnd。

4、点FILE进入Save sequence as,在format 框中选PHYLIP,文件在PHYLIP软件目录下以test.phy存在,点击OK。

5、将PHYLIP软件目录下的test.phy文件拷贝到EXE文件夹中。用计事本方式打开的test.phy文件的部分序列如下:

图中的8和50分别表示8个序列和每个序列有50个碱基。

二、用PHYLIP软件推导进化树。

1、进入EXE文件夹,点击SEQBOOT软件输入test.phy文件名,回车。

图中的D、J、R、I、O、1、2代表可选择的选项,键入这些字母,程序的条件就会发生改变。D选项无须改变。J选项有三种条件可以选择,分别是Bootstrap、Jackknife和Permute。文章上面提到用Bootstraping法对进化树进行评估,所谓Bootstraping法就是从整个序列的碱基(氨基酸)中任意选取一半,剩下的一半序列随机补齐组成一个新的序列。这样,一个序列就可以变成了许多序列。一个多序列组也就可以变成许多个多序列组。根据某种算法(最大简约性法、最大可能性法、除权配对法或邻位相连法)每个多序列组都可以生成一个进化树。将生成的许多进化树进行比较,按照多数规则(majority-rule)我们就会得到一个最"逼真"的进化树。Jackknife则是另外一种随机选取序列的方法。它与Bootstrap法的区别是不将剩下的一半序列补齐,只生成一个缩短了一半的新序列。Permute是另外一种取样方法,其目的与Bootstrap和Jackknife法不同,这里不再介绍。R选项让使用者输入republicate的数目。所谓republicate就是用Bootstrap法生成的一个多序列组。根据多序列中所含的序列的数目的不同可以选取不同的republicate,此处选200,输入Y确认参数并在Random number seed (must be odd) ?的下面输入一个奇数(比如3)。当我们设置好条件后按回车,程序开始运行,并在EXE文件夹中产生一个文件outfile,Outfile用记事本打开如下:

这个文件包括了200个republicate。

2、 文件outfile改为infile。点击DNADIST程序。选项M是输入刚才设置的republicate的数目,输入D选择data sets,输入200。

设置好条件后,输入Y确认参数。程序开始运行,并在EXE文件夹中产生outfile,部分内容如下:

将outfile文件名改为infile,为避免与原先infile文件重复,将 原先文件名改为infile1。

3、EXE文件夹中选择通过距离矩阵推测进化树的算法,点击NEIGHBOR程序。输入M更改参数,输入D选择data sets。输入200。输入奇数种子3。

输Y确认参数。程序开始运行,并在EXE文件夹中产生outfile和outtree两个结果输出。outtree文件是一个树文件,可以用treeview等软件打开。outfile是一个分析结果的输出报告,包括了树和其他一些分析报告,可以用记事本直接打开。部分内容如下:

4、将outtree文件名改为intree,点击DRAWTREE程序,输入font1文件名,作为参数。输Y确认参数。程序开始运行,并出现Tree Preview图。

5、点击DRAWGRAM程序,输入font1文件名,作为参数。输Y确认参数。程序开始运行,并出现Tree Preview图。

6、将EXE文件夹中的outfile文件名改为outfile1,以避免被新生成的outfile 文件覆盖。点击CONSENSE程序。输入Y确认设置。EXE文件夹中新生成outfile和outtree。Outfile文件用记事本打开,内容如下:

7 、将EXE文件夹中的intree文件名改为intree1,将outtree改intree。点击DRAWTREE程序,输入font1文件名,作为参数。输Y确认参数。程序开始运行,并出现Tree Preview图。

8、点击DRAWGRAM程序,输入font1文件名,作为参数。输Y确认参数。程序开始运行,并出现Tree Preview图。

【作业】

1、提交使用CLUSTALX及PHYLIP软件进行多重序列比对及构建系统发生树的结果;

2、总结多重序列比对及构建系统发生树的关键事项。

转载:http://www.bioon.com.cn/protocol/showarticle.asp?newsid=19432

转载于:https://www.cnblogs.com/ZHshuang463508120/p/3376731.html

多重序列比对 CLUSTALX相关推荐

  1. MAFFT多重序列比对图解教程

    [絮语] 一提到多重序列比对,很多人禁不住就想到ClustalW(Clustalx为ClustalW的GUI版),其实有一款多重序列比对软件-MAFFT,不论从比对速度(Muscle>MAFFT ...

  2. 2022.01.23【读书笔记】丨生物信息学与功能基因组学(第六章 多重序列比对 上)

    学习目标 理解使用ClustalW进行多重序列比对(MSA)的三个主要阶段: 描述几种其他的多重序列比对(MSA)程序,了解他们的工作原理,比对它们与ClustalW的异同: 理解进行基准研究的重要性 ...

  3. 生信漫谈如何做出美美的多序列比对图

    前言 做生信的小朋友看到别人文章里面的多序列比对图是不是感觉特别好看,特别养眼,但是让自己去做,出的图真是惨不忍睹,无法直视,被老板ds,没办法,因为你们没有找到好用的软件,还有你也没要找到正确的使用 ...

  4. 生物信息领域常用软件工具及数据库

    常用工具 1. PSi-blast Psi-balst是一种更加高灵敏的Blastp程序,对于发现远亲物种的相似蛋白或某个蛋白家族的新成员非常有效.多用于生成蛋白质的多序列比对(MSA)和PSSM(特 ...

  5. Nature | 原核生物基因的生物地理学研究

    摘要 微生物基因编码了地球上生命的大部分功能.目前人们对基因在全球生物圈的分布以及对人类和地球健康的影响知之甚少.本研究构建了一个来自14种生境的公开可用的宏基因组的3.03亿个物种级基因非冗余基因集 ...

  6. 芬兰阿尔托大学人工智能实验室程路组博士生招聘-肠道菌群进化与人类疾病等方向...

    芬兰阿尔托大学计算机系人工智能实验室程路课题组博士研究生职位 1 课题组介绍 单位:芬兰阿尔托大学计算机系 (https://www.aalto.fi/en/department-of-comput ...

  7. Annual Review:人与微生物组

    本公众号之前推荐并解读过一篇植物微生物组综述<Annu Rev:植物微生物组-系统见解与展望>,今天再给大家推荐一篇人类微生物组的综述. 本文是Rob Knight (https://kn ...

  8. 多重比对序列的格式及其应用

    这里对多重序列比对格式(Multiple sequence alignment – MSA)进行总结.在做系统演化分析.序列功能分析.基因预测等,都需要涉及到多重序列比对.特别是当需要用不同软件对多重 ...

  9. Read correction for non-uniform coverages 读校正非均匀覆盖

    下一代测序技术可以产生大量的短序列,具有广泛的应用前景.序列误差引起的噪声导致了几种校正方法的发展. 主要的校正范式期望较高的(30-40X)统一覆盖范围,以便正确地从用于校正的读操作中推断出一组参考 ...

  10. CoLoRMap: Correcting Long Reads by Mapping short reads CoLoRMap:通过映射短读来纠正长读

    CoLoRMap: Correcting Long Reads by Mapping short reads CoLoRMap:通过映射短读来纠正长读 Motivation: 第二代测序技术为测序基因 ...

最新文章

  1. lua搭建ui_构建类魔兽UI插件的lua安全沙箱
  2. centos源码安装mysql5.7.25-boost
  3. python三维图-python 三维坐标图
  4. C++输入输出:cin/cout 还是 scanf/printf?
  5. Python基础(四)--字典与集合
  6. 9-3:C++多态之多态的实现原理之虚函数表,虚函数表指针静态绑定和动态绑定
  7. 图像处理经典文章合集
  8. RabbitMQ, ZeroMQ, Kafka 是一个层级的东西吗, 相互之间有哪些优缺点
  9. 佩戴口罩、洗手消毒引导正确防疫插画素材
  10. mac电脑mysql终端_Mac上用终端管理MySQL
  11. 为什么linux/mac os系统和windows系统不一样(文件系统)
  12. 我的世界java下载慢怎么办_漫话:为什么你下载小电影的时候进度总是卡在99%就不动了?...
  13. Ubuntu sudo nopasswd方法
  14. android安卓源码海量项目合集打包-1
  15. Spotfire 将字符串日期 转换为 日期格式
  16. 【模拟考勤打卡程序vim报错分享】
  17. 计算机就业前景调查报告问题,计算机专业就业前景调查报告.docx
  18. 文明与征服北条时宗最强阵容搭配指南
  19. 数据分析师需要学什么?数据分析师必备的7种能力
  20. 删除yum.repos.d

热门文章

  1. 怎么样建立局域网?一般局域网需要几台电脑才可以?
  2. 幼儿编程Scratch第31讲:垃圾车-乐高入门机器人-WeDo
  3. 超人视觉助我成功转型机器视觉行业
  4. Detours学习之七:Detours示例程序构建
  5. 修图类APP原型设计分享– Hello Camera
  6. 【清明专刊】悼念逝去老友司徒正美,致敬曾改变世界的Flash
  7. CSR8670项目实战:BlueSiri轻智能蓝牙音箱
  8. proteus仿真常见报错信息
  9. C++设计模式:UML工具及常用符号
  10. 名师李涛老师主讲 Photoshop CS2 (全教程下载)