文章目录

  • 一.替换计分矩阵:
    • 1.DNA序列比对的替换计分矩阵
    • 2.蛋白质序列比对的替换计分矩阵
  • 二.比对算法
  • 三.BLAST的一些参数

一.替换计分矩阵:

1.DNA序列比对的替换计分矩阵

1.等价矩阵:最简单的一种替换计分矩阵,即相同核苷酸间匹配得分,不匹配则不得分。缺点在于没有区别对待不同碱基的替换,因此实际应用很少。
2.转换-颠换矩阵:是考虑碱基的转换和颠换而设计的矩阵,因为碱基转换比颠换容易的多,因此转换得分会比颠换得分高一点,此种矩阵应用也较少。
3.BLAST矩阵 :大量实际比对发现当两个核苷酸相同时得分为+5,不同则得分为-4时比对的效果较好,因此这种打分方法被广泛地用于DNA序列比对,被称为BLAST矩阵。

2.蛋白质序列比对的替换计分矩阵

1.等价矩阵:同DNA等价矩阵,应用少。
2.遗传密码矩阵:计算一个氨基酸要转化为另一种氨基酸所需的密码子变化数目而得到。
3疏水性矩阵:根据20种氨基酸侧链基团疏水性的不同以及氨基酸替换前后理化性质变化的大小而指定的矩阵,适用于偏蛋白质功能方面的比对。
4.PAM矩阵:PAM(point accepted matrix)矩阵也叫可接受点突变矩阵,是根据进化中氨基酸的实际替换率大小制定的矩阵,即若某两个氨基酸之间替换频繁,那么这样的替换得分就较高。PAM-1表示每100个氨基酸平均仅发生一个突变时的矩阵,PAM-1可以自乘n次得到PAM-n,代表某些氨基酸位置经历多次突变。此方法较为广泛使用。
5.BLOSUM矩阵:此矩阵也是通过替换率得到,但和PAM两种矩阵的形成方式不同,来源数据亦不同。BLOSUM矩阵的编号代表的是序列可能相同的最高水平,即若是BLOSUM-62那么代表此矩阵是由具有62%相同比例的序列被统计后形成的。因此高相似性的序列应使用高编号的BLOSUM矩阵,低编号的PAM矩阵,反之亦然1

二.比对算法

首先,序列之间比对会产生几种情况即匹配、失配(即不同氨基酸或碱基对上)、插入或缺失(产生空位)。设x、y两条序列,那么当需要比对两条链时,利用动态规划算法,即一直在匹配中采取最好的结果,局部最优演化为全链最优。
1.将空位罚分一视同仁,即不考虑空位延伸的特殊性时:
S ( i , j ) = m a x { S ( i − 1 , j − 1 ) + w ( x i , y j ) S ( i − 1 , j ) + d S ( i , j − 1 ) + d S (i,j) = max\left\{ \begin{array}{c} S(i-1,j-1)+w(x_i,y_j) \\ S(i-1,j)+d \\ S(i,j-1)+d\end{array}\right. S(i,j)=max⎩⎨⎧​S(i−1,j−1)+w(xi​,yj​)S(i−1,j)+dS(i,j−1)+d​其中 S 表示在比对中某一个点的累计得分最大值,w 表示 某个位置根据计算的得分如w(xi,yj)表示xi,yj处匹配上的得分。d 是对上了空位所要罚的分(负值)。S(i-1,j) + d 表示 xi 对上了一个空位, 因为此时x 的 i-1 位与 y 的 j 位对上了,所以 x 的 i 位被空出来不能匹配了。因此 ,同理 S(i,j-1) + d 表示 yj 对上了一个空位。按照此方法,将两条序列排列下来,寻找最大得分的排列,即可得到最佳的序列匹配结果。
2.对空位延伸和开启采取不同打分方式时:
概率学上来讲,相邻碱基N次独立删除的概率小于1次含N个碱基的片段删除的概率,因此罚分中gap-open > gap-extended, 一般gap-open默认设置为11,而gap-extended默认设置为1。
S ( i , j ) = m a x { S ( i − 1 , j − 1 ) + s ( x i , y j ) X ( i − 1 , j − 1 ) + s ( x i , y j ) Y ( i − 1 , j − 1 ) + s ( x i , y j ) S (i,j) = max\left\{ \begin{array}{c} S(i-1,j-1)+s(x_i,y_j) \\ X(i-1,j-1)+s(x_i,y_j) \\ Y(i-1,j-1)+s(x_i,y_j)\end{array}\right. S(i,j)=max⎩⎨⎧​S(i−1,j−1)+s(xi​,yj​)X(i−1,j−1)+s(xi​,yj​)Y(i−1,j−1)+s(xi​,yj​)​ X ( i , j ) = m a x { M ( i − 1 , j ) + d X ( i − 1 , j ) + e X (i,j) = max\left\{ \begin{array}{c} M(i-1,j)+d \\ X(i-1,j)+e \end{array}\right. X(i,j)=max{M(i−1,j)+dX(i−1,j)+e​ Y ( i , j ) = m a x { M ( i , j − 1 ) + d Y ( i , j − 1 ) + e Y (i,j) = max\left\{ \begin{array}{c} M(i,j-1)+d \\ Y(i,j-1)+e \end{array}\right. Y(i,j)=max{M(i,j−1)+dY(i,j−1)+e​此处 S 与上例相同,一个gap-open罚分设置为d(负分),一个gap-extend设置罚分为e,用X或者Y记录分数时即表示(xi,yj)位置对上空位,S(i,j)则表示在(xi,yj)位置处是匹配上的。因此X(i,j) 与 Y(i,j) 分别表示Xi与Yj对上了一个空位。在空位之前的位置都是未知的,空位的上一位可能匹配但也可能是空位,若是两个空位连着,那么第二个空位罚分即变为e。按照此计分方式,同样可将最大得分的排列找出,从而得到最佳匹配结果2

三.BLAST的一些参数

BLAST首先将查询序列拆分为种子序列,种子序列长度设定时氨基酸长度一般默认为3,碱基长度默认为11。若查询长度为n,种子序列长度为w,那分成的种子序列有n-w+1个。得到的种子序列用于后续与数据库序列进行对比,这些对比依赖的就是上述的各种打分矩阵,通过寻找word hits并且延伸(extend)这些种子序列从而找到查询序列在数据库中的匹配。当然其中会涉及到一些重要参数,对于两个随机序列s和t,随机观察到一个比对得分等于或大于x的概率为:
其中s代表查询序列长度,t代表被查询的数据库的长度,乘积st表示搜索空间的大小,可以看出x值取的越大,那么P(S≥x)的概率就越小,即表明设置比对得分越高,那么得到的结果就越少。经过BLAST后得分高于x的返回片段对的期望数量为:在这两个式子中,K与λ都与打分矩阵的选择有关系。可以从两个式子中分析得到,期望值越大,那么S(即得分)就越小,比对结果就越不准确。上式即为常见的P值和E值的换算方法,可以看出E值越大,P值也越大,但是两者不成正比关系。通常情况下人们会使用低于0.05的P值来衡量统计的显著性,但是在BLAST中一般采取E值来衡量搜索效果的好坏。

题外话:想写博客很久了,终于开始了,非常开心 O(∩_∩)O~~!一枚生信菜鸡就要开始慢慢分享自己的生信之旅了,既相当于自己的学习记录也可能帮助到别人,也能备忘,何乐而不为呢?第一篇写的比较长,但是确实是我个人认为比较基础的内容,掌握后绝不吃亏!之后也会认真写的!冲冲冲!!!
ps:若有侵权情况或者有错误,请通知我,我立刻修改!


  1. 内容多来自于李霞主编的《生物信息学》书籍。 ↩︎

  2. 内容多来自于B站上传的【推荐课程】北京大学生物信息学:学习方法(完整带课件)系列视频。 ↩︎

BLAST背后的知识(一点原理)相关推荐

  1. 详解知识蒸馏原理和代码

    目录 知识蒸馏 原理 概念 技巧 举例说明 KL 散度及损失 KD训练代码 导入包 网络架构 teacher网络 student网络 teacher网络训练 定义基本函数 训练主函数 student网 ...

  2. 学建筑要学哪些计算机绘图,图纸转线稿背后的计算机绘图原理

    又是新的一周,制图教室和大家准时相见~ 各位童鞋如果对于PS比较熟悉的话应该都会知道一个所谓的'图纸转线稿'的操作.具体操作本身并不复杂,比如我们用PS打开任意一张图纸. 复制一份,Ctrl+I反向. ...

  3. 计算机原理与应用简称,基础知识-计算机原理与应用.ppt

    基础知识-计算机原理与应用 第1章 基础知识 本章内容: 单片机的概念 单片机的发展.基本的结构和特点 单片机的应用模式和领域 MCS-51单片机等. 1.1 计算机的一些概念 1.2 单片机 单片机 ...

  4. 红外测温相关背景知识与原理

    红外测温相关背景知识与原理 红外测温背景 色散发现背景:1665-1666年英国伦敦大瘟疫,牛顿在躲避瘟疫期间研究了微积分.色散.万有引力(微积分发现了科学的数学,色散发现了科学的光学.万有引力发现了 ...

  5. mysql匹配数据结构_MySQL索引背后的数据结构及原理

    前两天经历了武汉一行腾讯面试,数据库索引是一个面试热点,在此搜集相关资料,以备学习之用. 下面是一位牛人写得关于数据库索引的精品之作,因为很好,不敢修饰,转载至此与博友共享. 本文以MySQL数据库为 ...

  6. AI绘画爆火背后:扩散模型原理及实现

    Datawhale干货 技术:Diffusion扩散模型 最近爆火的AI绘图,相信大家并不陌生了. 从AI绘图软件生成的作品打败一众人类艺术家,斩获数字艺术类冠军,到如今DALL.E.Imagen.n ...

  7. mysql是如何管理数据结构_MySQL索引背后的数据结构和原理

    这是我看到的一篇博客,讲得非常详细,分享给大家:http://blog.codinglabs.org/articles/theory-of-mysql-index.html Abstract: 本文以 ...

  8. ip网络基础知识及原理_关于网络测试的5个命令

    1. ping命令 ping [选项] ip 或域名 #探测指定IP或域名的网络情况 选项: -c 次数:指定ping包的次数 2. telnet命令 telnet [域名或IP] [端口] #远程管 ...

  9. 计算机原理寄存器基础知识,微机原理——基础知识及计算机基本组成

    微机原理基础 期末复习要求 理解Bit byte word doubleword 等基本概念 计算机常用的数制和编码 十进制.二进制.十六进制的运算和转换 常用的ASCII码:数字.大小写英文字母的A ...

最新文章

  1. 幼儿园语言活动包括哪几类_幼儿园教育:《一起玩》语言活动教案
  2. IE6、IE7、IE8、Firefox兼容性CSS
  3. Effective C++ -----条款06:若不想使用编译器自动生成的函数,就该明确拒绝
  4. DL之MaskR-CNN:Mask R-CNN算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略
  5. 《Programming WPF》学习(二)Application及其设置
  6. 不要轻易和少妇上床:金融危机是这…
  7. 配置mysql使其允许外部ip进行登录
  8. android 打包相关问题记录
  9. android 足球游戏,足球游戏哪个好玩,安卓单机足球游戏哪个好玩
  10. 您已关注公众号满1年,诚邀您免费加入金融学习交流群!
  11. 华为徐直军:以持续创新加快数字化发展
  12. css如何让不确定宽度的div水平居中
  13. 基于链表的两个集合的交集(C++)
  14. 搭建centos在线yum源镜像服务器,搭建CentOS在线yum源镜像服务器(上)
  15. Windows 端口
  16. Java实现简单的计算器(原创)
  17. 前端小项目(四)| 咖啡厅网页页面
  18. 用思维导图描绘5G场景
  19. 数据库系统概述---第二章关系数据库
  20. 论文复现-1论文重读:Black-Box Tuning for Language-Model-as-a-Service

热门文章

  1. 使用FreePicPdf 提取书签并生成书签
  2. 天下数据浅谈大数据和大规模数据的区别
  3. 后一个数 减 前一个数 形成新列表
  4. 【PTA】输入一个正整数n(1≤n≤9),打印一个高度为n的、由“*”组成的直角三角形图案。当n=3时,输出如下直角三角形图案:
  5. linux tar:谨慎地拒绝创建空归档文件
  6. 生活随机-谨慎的司机
  7. php架构师之路 知乎,知乎后端开发工程师 交叉面(第一次面试遇到架构师)
  8. 手写板行业调研报告 - 市场现状分析与发展前景预测
  9. 利用copy命令合成一个图片马使用
  10. java 中结束程序方法