几个多序列比对软件:Muscle,ClustalW和T-coffee的简单比较

转自:https://www.plob.org/article/4104.html

ClustalW是现在用的最广和最经典的多序列比对软件, Muscle是速度最快的多序列比对之一,T-coffee是越来越受到欢迎的软件.它们各自有什么优点和缺点呢?

ClustalW不仅可以用来做多序列比对,也能做Profile-profile比对,以及基于Neighbor-joining方法构建进化树.但是最常用的是多序列比对.从速度上来说,它有两种运行模式:accurate,slow 和fast,appropriate.即使是fast模式它的速度也不如Muscle,但是slow模式也比T-coffee要快.ClustalW是现在用的最广和最经典的多序列比对软件, Muscle是速度最快的多序列比对之一,T-coffee是越来越受到欢迎的软件.它们各自有什么优点和缺点呢?

ClustalW不仅可以用来做多序列比对,也能做Profile-profile比对,以及基于Neighbor-joining方法构建进化树.但是最常用的是多序列比对.从速度上来说,它有两种运行模式:accurate,slow 和fast,appropriate.即使是fast模式它的速度也不如Muscle,但是slow模式也比T-coffee要快.

ClustalW的基本原理是首先做序列的两两比对,根据该两两比对计算两两距离矩阵,然后用NJ或者UPGMA方法构建Binary进化树作为guide tree,最后用progressive的方法根据guide tree逐步添加序列进行比对,一直到所有序列都比对好.

Muscle的功能仅限于多序列比对,它的最大优势是速度,比clustalw的速度快几个数量级,而且序列数越多速度的差别越大.它的时间复杂度为O(NL^2+N^3L),空间复杂度为O(N^2+NL+L^2).它之所以比clustalw快一方面是因为没有进行两两序列比对,用序列间共有的word数表征序列间的相似性;另一方面用UPGMA代替NJ构建guide tree. 如果没有对于结果的refinement过程,时间更短,时间复杂度为O(NL^2),也就是说时间和序列数成线性关系.一个形象的例子是,5000条长度为350的数据进行比对只需要7分钟,而用Clustalw则可能需要1年. 尽管如此,muscle对于内存的要求较高,从它的空间复杂度可以看出来.

T-coffee之所以广受欢迎可能是因为它的准确度和强大的功能.它能够整合很多信息,如结构信息,实验数据等用于序列比对.它的基本原理是首先构建一个库包含有clustalw得到的序列两两比对和fasta得到的局部两两比对,并且给每个比对一个权重.然后把全局比对和局部比对的结果进行整合,每个两两比对中每个位点的比对都是综合了库中该两两比对的序列和其他序列比对的结果,这样就给该位点比对一个权重用以表明该位点的该比对在整个库中的合理性程度.最后是progressive比对过程..该方法的最大优势在于能够整合各种信息,所以它的可拓展性较强,从2000年出现以来到现在T-coffee得到了极大的发展,功能非常丰富. 但是它的缺点是速度非常慢,其时间复杂度为O(N^2L^2)+O(N^3L)+O(N^3)+O(NL^2),因此数据集较小(n<100)的时候用它比较合适.

以上是三个软件的比较简单的比较,如果想知道的更具体需要看原始文献.需要注意的是,虽然从总体上来说,不同的软件的效果不一样,但是如果我们只是针对具体的问题想做一个比对,那么最好是综合几种方法得到的结果更可靠. 此外,当序列的相似性较高的时候(>80%),以上的任何一个软件的准确度都能够达到90%以上.

相关的论文:

ClustalW和ClustalX

ClustalW and ClustalX version 2 (2007) Larkin MA, Blackshields G, Brown NP, Chenna R, McGettigan PA, McWilliam H, Valentin F, Wallace IM, Wilm A, Lopez R, Thompson JD, Gibson TJ and Higgins DG .Bioinformatics 2007 23(21): 2947-2948. doi:10.1093/bioinformatics/btm404

A new bioinformatics analysis tools framework at EMBL-EBI (2010).Goujon M, McWilliam H, Li W, Valentin F, Squizzato S, Paern J, Lopez R.Nucleic acids research 2010 Jul, 38 Suppl: W695-9.doi:10.1093/nar/gkq313

Muscle

Edgar, Robert C. (2004), MUSCLE: multiple sequence alignment with high accuracy and high throughput, Nucleic Acids Research 32(5), 1792-97.

Edgar, Robert C (2004), MUSCLE: a multiple sequence alignment method with reduced time and space complexity. BMC Bioinformatics, 5(1):113.

T-coffee

T-Coffee: A novel method for multiple sequence alignments. Notredame,Higgins,Heringa,JMB,302(205-217)2000 [pdf][medline]

几个多序列比对软件:Muscle,ClustalW和T-coffee的简单比较相关推荐

  1. clustalw序列比对_几个多序列比对软件:Muscle,ClustalW和T-coffee的简单比较

    ClustalW是现在用的最广和最经典的多序列比对软件, Muscle是速度最快的多序列比对之一,T-coffee是越来越受到欢迎的软件.它们各自有什么优点和缺点呢? ClustalW不仅可以用来做多 ...

  2. 序列比对软件/比对工具的比较

    序列比对软件/比对工具的比较 要做序列比对,看文献与一大堆的方法,看得头晕眼花,我是谁我在哪,我在干什么???(附带问号脸),哈哈哈哈,做比对分析的小伙伴估计都深有同感吧..... 目前我用到的序列比 ...

  3. 做简单的android 软件推荐,Android_适用于Android开发的简单聊天软件,适用于android 开发。是一个简 - phpStudy...

    适用于Android开发的简单聊天软件 适用于android 开发.是一个简单的聊天软件,包括知识点,各个控件的运用(ExpandableListView,ViewPager,Spinner,Line ...

  4. u盘电视测试软件,智能电视安装软件无法识别U盘怎么办?简单几招教你搞定!...

    原标题:智能电视安装软件无法识别U盘怎么办?简单几招教你搞定! U盘是智能电视及网络机顶盒安装软件必备的工具,但是也经常会出现U盘插在智能设备上不识别的情况,那么针出现这类情况有哪些原因呢?又该如何解 ...

  5. 如何切换IP软件,切换电脑手机IP如此简单

    切换 IP 软件,切换电脑手机 IP 如此简单 大家 在工作 和生活 中 肯定会时不时遇到需要换 IP 的情况 , 为了预防需要换 IP 的时候束手无策,小编在此给大家介绍一款专门用来换 IP 的软件 ...

  6. 工控软件/PLC的信息远传的简单解决方案

    工控软件/PLC的信息远传的简单解决方案 针对现在的物联网趋势,很多小伙伴想迈出工控信息远传这一步,但是又会出于对软件行业的陌生而望而却步.本人有10年工控经验以及物联网平台开发.对接经验,这里分享一 ...

  7. 软件开发的过程中, 一定需要简单设计?

    2017.7.4, 深圳, Ken Fang 前言: 简单设计只是写文档, 而不能指导开发, 这样的简单设计, 就只是在瞎折腾. 但是, 软件开发的过程中, 不做简单设计, 软件开发就永远做不好. 简 ...

  8. 软件咨询——并不像看上去那样简单

    软件咨询--并不像看上去那样简单 很多做过开发的都有过做咨询顾问的幻想--苦心钻研一门技术,然后成为这个领域的专家,穿梭于各种充满诱惑的华丽场所,给那些像热锅上的蚂蚁一样焦急的客户提出高明的建议,而客 ...

  9. 多序列比对软件Jalview的安装及使用体验

    Jalview是一个用于多序列比对编辑.可视化和分析的免费程序.使用系统发育树和主成分分析 (PCA) 图对序列进行分析,并探索分子结构和注释. Jalview 内置了 DNA.RNA .蛋白质序列的 ...

  10. linux序列比对程序,序列比对软件简单使用教程

    linux可以使用的序列比对的工具有三个.blast.blat.seqmap.这三个软件都需要把待blast的序列做成fa格式 构建fa格式的序列 如果有个待比对的序列是含有两列,其中包括第一列(ID ...

最新文章

  1. 最大流增广路(KM算法) HDOJ 1853 Cyclic Tour
  2. 【蓝桥杯真题】地宫取宝(搜索-记忆化搜索详解)
  3. python向量化和c哪个快_在python中向量化6 for循环累积和
  4. 阿里云服务器安装onlyoffice_阿里云服务器安装 JDK 8
  5. 正则表达式30分钟入门教程--deerchao
  6. 第7章-2、INTEL8086处理器的寻址方式-1.1h
  7. The word is not correctly spelled问题
  8. pd虚拟机 17.1.2 Intel核心Mac专用版
  9. 【读书笔记《Android游戏编程之从零开始》】10.游戏开发基础(View 游戏框架)
  10. FineReport 参数查询
  11. 问题解决:shared_ptr Assertion px != 0 failed 及debug经验分享
  12. Ubuntu输入正确密码,屏幕一闪,又回到登录界面
  13. 【ava数据集可视化】ava数据集ID可视化 A Video Dataset of Spatio-temporally Localized Atomic Visual Actions
  14. 电路原理 | 电路基本定理
  15. 罗振宇为何说什么都错?
  16. 计算机二级可以抵消计算机挂科吗,妈妈再也不用担心我挂科啦!| 计算机二级office考试...
  17. windows中Linux ubuntu子系统 安装talib 编译talib python 安装 talib 报错 - 简书
  18. 写一个自己的谷歌浏览器扩展程序(脚本)
  19. Spring Boot开发基于三层架构设计:Dao层、Service层、Controller层
  20. 黑域傻瓜启动器使用教程_使用相对安全性保存密码[傻瓜指南]

热门文章

  1. ORACLE 商业收费标准
  2. iptable之我也不知道
  3. 【GIS】夜光遥感数据时序分析
  4. 个人知乎 ##功能一-登录注册
  5. java knn kd树_KNN算法之KD树
  6. SVM支持向量机原理详解
  7. 参考文献标准格式总结
  8. matlab:读取图像序列
  9. 深海迷航坐标传送代码_《深海迷航》秘籍代码怎么用及深海迷航代码大全
  10. 经纬度坐标转像素坐标