怎么做好多重比对(Multiple sequence alignment)?
需要用到的软件
- MAFFT:多重比对,conda下可以直接安装;也可以通过在线网站https://mafft.cbrc.jp/alignment/server/
- AliView:可视化比对结果,http://www.ormbunkar.se/aliview/
- BMGE:用于移除比对效果差的区域,conda下直接安装
MAFFT多重比对和Aliview的可视化
下面介绍command lind 和 online两种方法。
command
mafft --auto seqence.fasta > sequence_aln.fasta--auto表示自动选择算法
online
在网站上选择上传你的fasta文件或者复制到选框中,其他选项暂时保持默认。点击最下方的submit。
结果
无论哪种方法,在选择--auto
时,都会报告出多重比对使用的算法:
点击上方的‘Fasta format’进行下载。
补充
前面我们使用的是自动选择算法并保持参数默认。此时的空位罚分是1.53,软件会选择合适的算法,但是不能够自己修改参数,如果需要更好的比对效果,需要自己定义空位罚分,下面我们设定罚分为2。(如果图省事可以使用默认的参数)
mafft --auto --op 2 seq.fasta > seq_op2_aln.fasta
将两个比对结果用Aliview可视化结果如下:
op=1.53
op=2
从图上我们看到,比对长度不一致,当罚分增加时,gap会变少。这符合生物进化规律,基因突变的概率总是比从获得一段外源基因高。
Aliview纠正比对结果
图上可以看到 1020-1040 这一段比对结果并不理想,很明显不符合实际情况。
我们选择这一段区域,点击‘Align’ - ‘Realign selected block’
似乎规律了一些,但是我们分析时还是需要考虑这一段是否是我们分析所需要的,有没有必要剔除。
BMGE过滤修剪多重比对结果
多重比对对齐包含高变异和保守区域。因此,在基因的某些部分中,核苷酸的同源性很明显,但在其他部位中变异度非常高。为了避免在下游系统发育分析中对比对误差产生的问题,我们将基于gap的比例和这些区域内发现的遗传变异来识别不良的区域,我们将从比对结果中排除它们。
bmgen -i seq_aln.fasta -t DNA -of seq_filtered.fasta -oh seq_filtered.html
当我们增加gap的比例时,BMGE会选择更多的区域
bmgen -i seq_aln.fasta -t DNA -g 0.3 -of seq_filtered.fasta -oh seq_filtered.html
基于密码子的手动对齐
同样的,先经过MAFFT的多重比对。
接下来便交给Aliview
下图是核苷酸序列经过多重比对的结果
我们使用工具栏的第四个图标将核苷酸转换成氨基酸:
接着点击Sigma图表计算终止密码子数目,发现有三个终止密码子。
我们依次点击sigma旁边的按钮选择比对结果最好的一个。
接着,删除首尾区域,首位不对齐主要原因并不是因为生物分化巨大,而是由于数据缺失。
之后我们检查中间区段是否有大量gap存在,进行手工删除。
至此,我们便得到了较为准确的多重比对结果。
怎么做好多重比对(Multiple sequence alignment)?相关推荐
- MSA多序列比对(multiple sequence alignment)
MSA多序列比对(multiple sequence alignment) 把两个以上序列对齐,逐列比较其字符的异同,使得每一列的字符尽可能一致,以发现其共同的结构特征 文章中作者通过多序列比对找出与 ...
- A Comprehensive Analysis of Sequence Alignment Algorithms for LongRead Sequencing
A Comprehensive Analysis of Sequence Alignment Algorithms for LongRead Sequencing 长Read序列比对算法的综合分析 ...
- Paper Reading : Fast, scalable generation of high-quality protein multiple sequence alignments us
0.简介 摘要中说道目前大多数都是使用渐进式路线启发式算法计算,但是对于成千上万个序列数据集时,这些方法可能已经到达瓶颈.难以保证在很大数量级数据上保证质量.本文介绍的clustal omega的新程 ...
- 序列联配Sequence Alignment
为何要序列联配?相似与同源的区别在哪里? 播报文章 小飞鱼传说 2021-05-05 16:54 关注 构建系统发育树最基本的前提是所使用的序列需均为同源序列. 1. 序列联配(Alignment)的 ...
- T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval
T2VLAD:文本-视频检索的全局-局部序列比对 摘要 介绍 netVLAD理解 相关工作 方法 视频表示 文本表示 局部比对 全局对齐 专家特征提取 实验 可视化 结论 摘要 文本视频检索是一项具有 ...
- 多重比对序列的格式及其应用
这里对多重序列比对格式(Multiple sequence alignment – MSA)进行总结.在做系统演化分析.序列功能分析.基因预测等,都需要涉及到多重序列比对.特别是当需要用不同软件对多重 ...
- 序列多重比对工具:MUSCLE
https://www.bilibili.com/video/BV1aK4y1f7oS?p=18 系统发育树 多行 连接成 一行 Muscle MUSCLE是RC Edgar开发的序列多重比对(Mu ...
- alignment object and alignment tools
文章目录 multiple sequence alignment object Writing Alignments manipulating alignment result Alignment T ...
- Bi-level error correction for PacBio long reads
Bi-level error correction for PacBio long reads 双级错误校正PacBio长read 最新的测序技术,如太平洋生物科学公司(PacBio)和牛津纳米孔机器 ...
最新文章
- win7下的IP-主机名映射
- xCode中工程相关的一些处理:一个工程包含多个Target的用途和使用方法【转】...
- Asp.net 序列化应用实例(转载)
- Python 变量作用域
- Bootstrap3 代码-程序输出
- python pdf转word
- 取消链接文件失败。 我应该再试一次吗?
- Spring项目跟Axis2结合
- Leetcode: Generate Parentheses
- paip.提升性能3倍--使用栈跟VirtualAlloc代替堆的使用.
- matlab仿真建模,matlab系统建模仿真.ppt
- 【OpenCV-Python】29.OpenCV的特征检测——特征匹配
- twaver html5 2d demo,TWaver 2D+GIS+3D的试用和在线Demo
- 每日一坑:Github配置ssh后,拉代码依旧需要鉴权,且鉴权失败。
- es6字符串添加html标签,JavaScript_详解JavaScript ES6中的模板字符串,在 ES6 中引入了一种新的字符 - phpStudy...
- mysql是一个大型数据库_MySQL是一个大型关系型数据库管理系统(RDBMS)。
- 10.setTimeout和setInterval的区别以及模拟实现:
- 2020年11月14日
- ABBA(组合数学/dp)
- 质量管理知识点大盘点(之一)
热门文章
- 合众达电子SEED_VPM642开发板调试及应用(技术小结)
- HTML——初识HTML(HTML基础知识)
- 奔图3305_奔图打印机耗材型号对照表
- 使用matplotlib绘制图形(条形图,饼状图,散点图,直方图)
- Wikipedia corpus英文语料处理,获得原文
- python distance_Python实现各类距离
- parquet存储linux文件,使用AWS Lambda读取存储在S3中的Parquet文件(Python 3)
- vue 实战 之 饿了吗 页头模板
- 牛客网——牛牛的通勤
- 都江堰php,都江堰