需要用到的软件

  1. MAFFT:多重比对,conda下可以直接安装;也可以通过在线网站https://mafft.cbrc.jp/alignment/server/
  2. AliView:可视化比对结果,http://www.ormbunkar.se/aliview/
  3. BMGE:用于移除比对效果差的区域,conda下直接安装

MAFFT多重比对和Aliview的可视化

下面介绍command lind 和 online两种方法。

command

mafft --auto seqence.fasta > sequence_aln.fasta--auto表示自动选择算法

online

在网站上选择上传你的fasta文件或者复制到选框中,其他选项暂时保持默认。点击最下方的submit。

结果

无论哪种方法,在选择--auto时,都会报告出多重比对使用的算法:

点击上方的‘Fasta format’进行下载。

补充

前面我们使用的是自动选择算法并保持参数默认。此时的空位罚分是1.53,软件会选择合适的算法,但是不能够自己修改参数,如果需要更好的比对效果,需要自己定义空位罚分,下面我们设定罚分为2。(如果图省事可以使用默认的参数)

mafft --auto --op 2 seq.fasta > seq_op2_aln.fasta

将两个比对结果用Aliview可视化结果如下:

op=1.53

op=2

从图上我们看到,比对长度不一致,当罚分增加时,gap会变少。这符合生物进化规律,基因突变的概率总是比从获得一段外源基因高。

Aliview纠正比对结果

图上可以看到 1020-1040 这一段比对结果并不理想,很明显不符合实际情况。

我们选择这一段区域,点击‘Align’ - ‘Realign selected block’

似乎规律了一些,但是我们分析时还是需要考虑这一段是否是我们分析所需要的,有没有必要剔除。

BMGE过滤修剪多重比对结果

多重比对对齐包含高变异和保守区域。因此,在基因的某些部分中,核苷酸的同源性很明显,但在其他部位中变异度非常高。为了避免在下游系统发育分析中对比对误差产生的问题,我们将基于gap的比例和这些区域内发现的遗传变异来识别不良的区域,我们将从比对结果中排除它们。

bmgen -i seq_aln.fasta -t DNA -of seq_filtered.fasta -oh seq_filtered.html

当我们增加gap的比例时,BMGE会选择更多的区域

bmgen -i seq_aln.fasta -t DNA -g 0.3  -of seq_filtered.fasta -oh seq_filtered.html


基于密码子的手动对齐

同样的,先经过MAFFT的多重比对。
接下来便交给Aliview
下图是核苷酸序列经过多重比对的结果

我们使用工具栏的第四个图标将核苷酸转换成氨基酸:

接着点击Sigma图表计算终止密码子数目,发现有三个终止密码子。
我们依次点击sigma旁边的按钮选择比对结果最好的一个。
接着,删除首尾区域,首位不对齐主要原因并不是因为生物分化巨大,而是由于数据缺失。
之后我们检查中间区段是否有大量gap存在,进行手工删除。
至此,我们便得到了较为准确的多重比对结果。

怎么做好多重比对(Multiple sequence alignment)?相关推荐

  1. MSA多序列比对(multiple sequence alignment)

    MSA多序列比对(multiple sequence alignment) 把两个以上序列对齐,逐列比较其字符的异同,使得每一列的字符尽可能一致,以发现其共同的结构特征 文章中作者通过多序列比对找出与 ...

  2. A Comprehensive Analysis of Sequence Alignment Algorithms for LongRead Sequencing

    A Comprehensive Analysis of Sequence Alignment Algorithms for LongRead Sequencing   长Read序列比对算法的综合分析 ...

  3. Paper Reading : Fast, scalable generation of high-quality protein multiple sequence alignments us

    0.简介 摘要中说道目前大多数都是使用渐进式路线启发式算法计算,但是对于成千上万个序列数据集时,这些方法可能已经到达瓶颈.难以保证在很大数量级数据上保证质量.本文介绍的clustal omega的新程 ...

  4. 序列联配Sequence Alignment

    为何要序列联配?相似与同源的区别在哪里? 播报文章 小飞鱼传说 2021-05-05 16:54 关注 构建系统发育树最基本的前提是所使用的序列需均为同源序列. 1. 序列联配(Alignment)的 ...

  5. T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval

    T2VLAD:文本-视频检索的全局-局部序列比对 摘要 介绍 netVLAD理解 相关工作 方法 视频表示 文本表示 局部比对 全局对齐 专家特征提取 实验 可视化 结论 摘要 文本视频检索是一项具有 ...

  6. 多重比对序列的格式及其应用

    这里对多重序列比对格式(Multiple sequence alignment – MSA)进行总结.在做系统演化分析.序列功能分析.基因预测等,都需要涉及到多重序列比对.特别是当需要用不同软件对多重 ...

  7. 序列多重比对工具:MUSCLE

    https://www.bilibili.com/video/BV1aK4y1f7oS?p=18  系统发育树 多行 连接成 一行 Muscle MUSCLE是RC Edgar开发的序列多重比对(Mu ...

  8. alignment object and alignment tools

    文章目录 multiple sequence alignment object Writing Alignments manipulating alignment result Alignment T ...

  9. Bi-level error correction for PacBio long reads

    Bi-level error correction for PacBio long reads 双级错误校正PacBio长read 最新的测序技术,如太平洋生物科学公司(PacBio)和牛津纳米孔机器 ...

最新文章

  1. win7下的IP-主机名映射
  2. xCode中工程相关的一些处理:一个工程包含多个Target的用途和使用方法【转】...
  3. Asp.net 序列化应用实例(转载)
  4. Python 变量作用域
  5. Bootstrap3 代码-程序输出
  6. python pdf转word
  7. 取消链接文件失败。 我应该再试一次吗?
  8. Spring项目跟Axis2结合
  9. Leetcode: Generate Parentheses
  10. paip.提升性能3倍--使用栈跟VirtualAlloc代替堆的使用.
  11. matlab仿真建模,matlab系统建模仿真.ppt
  12. 【OpenCV-Python】29.OpenCV的特征检测——特征匹配
  13. twaver html5 2d demo,TWaver 2D+GIS+3D的试用和在线Demo
  14. 每日一坑:Github配置ssh后,拉代码依旧需要鉴权,且鉴权失败。
  15. es6字符串添加html标签,JavaScript_详解JavaScript ES6中的模板字符串,在 ES6 中引入了一种新的字符 - phpStudy...
  16. mysql是一个大型数据库_MySQL是一个大型关系型数据库管理系统(RDBMS)。
  17. 10.setTimeout和setInterval的区别以及模拟实现:
  18. 2020年11月14日
  19. ABBA(组合数学/dp)
  20. 质量管理知识点大盘点(之一)

热门文章

  1. 合众达电子SEED_VPM642开发板调试及应用(技术小结)
  2. HTML——初识HTML(HTML基础知识)
  3. 奔图3305_奔图打印机耗材型号对照表
  4. 使用matplotlib绘制图形(条形图,饼状图,散点图,直方图)
  5. Wikipedia corpus英文语料处理,获得原文
  6. python distance_Python实现各类距离
  7. parquet存储linux文件,使用AWS Lambda读取存储在S3中的Parquet文件(Python 3)
  8. vue 实战 之 饿了吗 页头模板
  9. 牛客网——牛牛的通勤
  10. 都江堰php,都江堰