2022.01.23【读书笔记】丨生物信息学与功能基因组学（第六章多重序列比对上）

学习目标
- 理解使用ClustalW进行多重序列比对（MSA）的三个主要阶段；
- 描述几种其他的多重序列比对（MSA）程序，了解他们的工作原理，比对它们与ClustalW的异同；
- 理解进行基准研究的重要性，并且理解关于MSA的几个基本结论；
- 理解关于基因组区域的MSA的几个问题。
6.1 引言
- 本章探讨MSA的一般性问题
  - 介绍MSA的五种方法；
  - 认识用于MSA的数据库，比如Pfam；
  - 讨论基因组DNA的多重序列比对。
- 多重比对序列的定义
  - 多重序列比对就是一组3条或者多条可以部分或整体相匹配的蛋白质（或核酸）序列。
  - 一个蛋白质家族不一定有一个“正确”的比对结果（β球蛋白与肌红蛋白，只共享25%的一致性，但三维结构却几乎一样）
  - 一个多重序列比对的特点是其具有氨基酸残基比对上的列，这种比对可以通过氨基酸残基的特性确定，比如：
    - 存在高度保守的氨基酸残基，如可以形成二硫键的半胱氨酸。
    - 存在保守的motif，如跨膜跨度或免疫球蛋白功能域。
    - 存在蛋白质二级结构的保守特征，如有助于形成α螺旋、β折叠或者过渡域的残基。
    - 存在显示了插入或缺失的一致模式的区域。
- 多重序列比对的典型应用和实际策略
  - 什么时候使用多重序列比对？为什么使用多重序列比对？
  - 1. 如果所研究的蛋白质与一大组蛋白质相关，那么这组蛋白质成员通常可以提供关于该蛋白可能的功能、结构、进化方面的信息
  - 2. 大多数蛋白质家族又远缘的成员，使用MSA可以比双序列比对更灵敏地发现同源关系。
  - 3. 查看数据库搜索结果时，MSA的格式对于显示保守残基与motif更直观。
  - 4. 评价突变（SNP）是否有害地算法通常依赖DNA和蛋白质地多重序列比对以评估跨物种的保守度——有害的编译倾向于发生在更保守的位点
  - 5. 对于种群数据的研究可以为许多涉及进化、结构及功能的生物问题提供深入的理解
  - 6. 当任意一个物种的完整基因组被测序时，研究的一个主要部分是定义所有基因产物属于哪个蛋白质家族。
  - 7. 系统发育算法使用多重序列比对结果作为原始数据开始，生成系统发育树。
  - 8. 包含转录尹祖结合位点和其他保守元件的共有序列主要基于多重序列比对检测的保守非编码序列进行鉴定。
6.2 物种主要的多重序列比对方法
- 常用的五种方法
  - 精确法
  - 渐进比对法
  - 迭代法
  - 基于一致性的方法
  - 基于结构的方法
- 精确法
  Needleman和Wunsch（描述）用于双序列比对的动态规划算法的沿用
  - 沿用双序列比对的动态规划算法，比对矩阵呈现多维，目标是最大化每对序列比对得分的加和。
  - 优劣：精确法可以生成最有比对，但时间和空间上对于过多序列是不可行的。对于N个序列，计算的时间要求是O（2^N * L^N）,N是序列数量，L是序列平均长度。与之相比，ClustalW的时间复杂度是O（N^4+L^2）,MUSCLE的时间复杂度是O（N^4+NL^2）,这些算法很快，但启发式算法并不能保证产生最优比对）
- 渐进比对方法
  Fitch和Yasunobu（1975）提出，由将其应用于5S核糖RNA序列的比对的Hogeweg和Hesper（1984）描述。Da-Fei Feng和Russell Doolittle(1987.1990)推广
  - 方法策略
    - 需要计算所有待比对的蛋白质序列间的两两比对得分，开始于最相似的序列，然后渐进地添加更多地序列参与比对。
  - 优劣：支持快速地比对成百上千个序列。主要的限制是最终的比对结果依赖于添加序列的顺序。
  - 常用的渐进比对工具
    - ClustalW
      - 网页工具
    - 分三个阶段进行
      - 第一步：一系列双序列比对
        
        第一步，使用动态规划算法产生所有待比对蛋白质间的双序列比对，比如，五个序列产生10个双序列比对得分
      - 第二步：建立引导树
        
        利用距离（或相似度得分）矩阵计算一个引导树
        
        构建引导树的两种主要方式（第七章介绍）
        
        算术平均不加权成对组别法（UPGMA）
        
        邻接法
        
        树的主要特征
        
        拓扑结构（分支的顺序）
        
        进化距离（分支的长度）
        
        树可以用来反映参与多重比对的多个序列相关程度
      - 第三步：基于引导树上出现的顺序进行一系列步骤，创建多重比对序列
        
        算法引导从树中选择两个最相近的序列进行双序列比对。这两个序列出现在树的叶子节点，即现存序列的位置。下一个序列被加入双序列比对或者被用来做另一个双序列比对。比对渐进地进行,直到达到树的根结点，所有的序列都完成比对。
- 迭代法
  - 迭代法利用渐进比对的策略计算一个次优解，之后利用动态规划或其他方法修正比对结果直到解收敛。一个初始树被划分并且重新比对了两侧的谱。因此这些方法构造一个初始比对，之后修改并尝试改进它，利用一些目标函数来最大化分数.
  - 渐进比对法存在局限性，在比对过程种一旦出现错误就无法更正，迭代法可以克服这一限制。
  - MAFFT多重序列比对包，包括渐进比对法：
    - 类似ClustalW的单轮渐进法，在细化步骤使用一个快速傅立叶变换；
    - 双轮方法，首先生成多重序列比对，之后通过比对结果计算细化的剧烈，形成二次渐进比对；
    - PartTree渐进式比对：使用匹配的6元组来计算成对距离，这种方法被叫做k-mer计数。
  - MUSCLE操作分为三个阶段
    - 使用渐进多重序列比对产生一个粗略的比对结果
    - 改进树并且构建了一个新的渐进比对
    - 通过系统地粪狗树以获得子集，引导树被迭代精炼；删除树的一条边（或枝）以创建二分树。
- 基于一致性
  - 主要思想：对于序列x，y和z，如果残基x比对上z，z比对上y，那么x应该比对上y。
  - 基于一致性的方法在对双序列比对进行打分时参考了多个序列的信息内容。这种方法的独特之处在于它整合了来自多重序列比对的证据取直到双序列比对。
  - ProbCons算法包含五步
    - 该算法计算每一对序列的后验概率矩阵
    - 计算每一个双序列比对的准确度期望
    - 利用“概率一致性转换”对每一个双序列比对的质量得分进行重新估计
    - 利用层次聚类法构建一个准确度期望的引导树
    - 按照引导树给出的顺序，渐进地对序列进行比对
- 基于结构
  - 使用一个或多个待比对蛋白质地三维结构信息可能提高多重序列比对的准确度。可以让用户整合结构信息的算法包括PRALINE和T-COFFEE的Expresso模块
6.3 用标准数据集进行研究：方法，发现和挑战
- 使用标准集对各种算法，软件进行研究可以获得“金标准”的正确答案，这个答案由高可信度的真阳性关系组成，之后比较软件程序去客观地评判哪一个是最精确的。
- 评价标准数据集的质量的因素：
  - 关联性：基准数据集应该包括用户在使用软件时实际遇到的任务
  - 可解性：任务不应该太简单或者太难
  - 可伸缩性：有些任务是小规模的，而有些任务序列分析大量的蛋白质
  - 可获得性：基准数据库应该是公开的
  - 独立性：用于构建基准数据库的方法不应该被用于进行序列比对
  - 可拓展：基准数据集应该随着时间的改变而拓展以适应新的问题
- 公认的可用于多重序列比对的基准数据集：BAliBASE、HOMSTRAD、OXBench、PREFAB、SABmark以及IRMBASE。常用方法是基于已知三维结构的蛋白质获得比对结果，三维结构是通过X射线衍射结晶技术获得的。
- MSA算法在一个基准数据集中的表现可以通过一些客观的打分函数评估，常用的方法时衡量成对加和得分。
欢迎加入生信交流群一起交流，二维码过期可加VX：bbplayer2021

2022.01.23【读书笔记】丨生物信息学与功能基因组学（第六章多重序列比对上）相关推荐

2020.11.3【读书笔记】丨生物信息学与功能基因组学（第二章序列数据的获取下）
2.7 基因组浏览器三个主流基因组浏览器:Ensemble.UCSC和NCBI 基因组组装定义: 所获得的一个物种DNA序列按照染色体的形式进行的一种组装. 内容: 对基因组的注释,如起止位点.外 ...
2021.12.19【读书笔记】丨生物信息学与功能基因组学（第五章高级数据库搜索下）
5.5 用类似于BLAST的比对工具快速搜索基因组DNA 需求:随着基因组DNA数据库数量增长,对比对工具要求越来越高能在基因组DNA中找到外显子比对时考虑基因组DNA包含的测序错误有相应的算法 ...
2021.11.22【读书笔记】丨生物信息学与功能基因组学（第五章第五节用类似于BLAST的比对工具快速搜索基因组DNA）
5.5 用类似于BLAST的比对工具快速搜索基因组DNA 需求:随着基因组DNA数据库数量增长,对比对工具要求越来越高能在基因组DNA中找到外显子比对时考虑基因组DNA包含的测序错误有相应的算法 ...
2021.11.21【读书笔记】丨生物信息学与功能基因组学（第五章高级数据库搜索中）
5.3 寻找远缘相关蛋白质:位置特异性迭代BLAST(PSI-BLAST)和DELTA-BLAST PAM250矩阵给探测远缘相关蛋白质提供了一个更好的打分系统,可以改变打分矩阵来检测远缘蛋白质,但仍 ...
读书笔记:《流畅的Python》第五章一等函数
# 一等对象/一等函数 ''' 1.在运行时创建 2.能赋值给变量或数据结构中的元素 3.能作为函数的参数传给函数 4.能作为函数的返回值返回结果 '''# 函数对象本身时function对象的实例d ...
读书笔记——《深入理解计算机系统》第三章_程序的机器级表示（一）
前言:已经大四,没有去找工作,选择了保研,之所以这样选择,有三个原因,一.刚进校时,听说保研都是牛人才能行的事,所以一心努力保研:二.2008年开始,经济危机比较严重,工作不好找,虽然软件专业要找一份 ...
读书笔记丨《数据产品经理修炼手册:从零基础到大数据产品实践》丨DAY4
日期:2022年7月24日内容:第四章数据仓库理论与应用(p77-p104) 4.1 了解大数据基础Hadoop 一.Hadoop及三驾马车 01.什么是hadoop? Hadoop是一个分布式系统 ...
读书笔记丨《数据产品经理修炼手册:从零基础到大数据产品实践》丨DAY1
学习内容及时间2022.06.01: 第一章[初识数据产品经理](p1-p24) 1.1为什么要有数据产品经理 1.1.1大数据行业现状: {什么是大数据?}: 1.目前没有一个统一准确的定义,因为不 ...
读书笔记丨《数据产品经理修炼手册:从零基础到大数据产品实践》丨DAY5
内容:第5章大数据分析平台实践时间:2022年8月7日 5.1 大数据分析平台的前世今生 5.1.1 大数据分析平台构建的背景构建一个大数据分析平台,结合多个业务系统,从中抽取海 ...

2022.01.23【读书笔记】丨生物信息学与功能基因组学（第六章多重序列比对上）

2022.01.23【读书笔记】丨生物信息学与功能基因组学（第六章多重序列比对上）相关推荐

最新文章

热门文章

2022.01.23【读书笔记】丨生物信息学与功能基因组学（第六章 多重序列比对 上）

2022.01.23【读书笔记】丨生物信息学与功能基因组学（第六章 多重序列比对 上）相关推荐

最新文章

热门文章

2022.01.23【读书笔记】丨生物信息学与功能基因组学（第六章多重序列比对上）

2022.01.23【读书笔记】丨生物信息学与功能基因组学（第六章多重序列比对上）相关推荐