• BLAST算法使用局部比对搜索的策略

    • BLAST算法组成部分:列表、扫描、延伸

      • BLASTP算法可以描述为以下3个阶段

        • 蛋白质搜索中,BLAST编译一个初步的两两比对序列,称为字段对

          • BLASTP算法编译了一个由查询序列生成的固定长度为w的字段列表。使用比对序列的分数建立一个阈值T。BLASTP字段大小默认为3(BLASTN为11),则20种氨基酸可能字段共有8000个。修改“字段大小”参数可以修改查询时间和灵敏度。
        • 算法在整个数据库中扫描打到某个阈值分数T的字段对。若扫描出结果,则使用有空位和无空位比对方法延伸匹配区段。BLAST延伸字段对来寻找分数超过阈值S的结果,并输出给用户。分数则通过打分矩阵并考虑空位罚分计算出来

          • 达到阈值T的片段对构成的列表编译完后,BLAST算法将对整个数据库进行扫描来找到匹配。目前BLAST版本(以书第三版为准),算法寻找两个间隔在一定距离为A之内的字段,然后生这两个匹配的一个无空位的延伸。
        • 回溯的结果会展示出插入或者缺失位点,以及不匹配的区段

          • 在BLASTP搜索中,可以修改f参数,调整默认值(11)来比较不同阈值水平下的影响

            • 结论:更低的阈值参数导致更精确而更慢的搜索
            • 灵敏度和速度之间的权衡就是BLAST算法的核心
    • BLAST算法:局部比对搜索的统计学和期望值E(较难)

      • 为了量化匹配显著还是随即发生,我们需要了解BLAST的统计学显著性。

        • 用查询序列与一个长度统一的随机序列的数据库进行比对,将其得分进行做图后,形状是一个机制分布图(虚线)。这种分布性质能使我们估计一个搜索的最高得分随机出现的可能性。
      • 描述随机条件下得分至少为某个特定值S的HSP的期望值公式为:E=Kmne^-λS

        • E:期望值
        • S:比对分数
        • K:搜索空间的度量因子(数据库大小)
        • λ:度量打分系统的参数
        • m/n:两条比对序列的长度
      • 公式具有以下特点:

        • 随着S的增加,E值成指数下降,E值接近零时,一个比对随机发生的可能性也就会接近于0
        • 一对随机的氨基酸的期望比对得分必须是负值
        • 查询使用的数据库大小以及序列长度将影响某个特定比对随即发生的可能性
        • 公式理论根据无空位比对推导,对于有空位的比对,需要通过模拟K、λ以及熵值H来估计
    • BLAST算法:E值与P值间的关系

      • P值是指进行相同比对时,随机序列的得分大于等于查询序列得分的概率
      • 显著性最高的是接近0的P值,P值与E值是反映比对显著性的两种不同方式,一个具体给定E值得HSP的概率为:p=1-e^-E

  • BLAST的搜索策略
    • 一般性概念

      • BLAST搜索是一种用来对蛋白质或者DNA序列数据库进行搜索的工具。
      • 搜索策略概览

    • BLAST搜索的原则

      • 如何凭借搜索结果的显著性

        • 判断基因或蛋白质之间同源性的问题不能仅仅依赖于序列,还需要使用生物学上的标准来支持同源性的推导。
        • 以人类RBP4蛋白质作为查询序列,限制在RefSeq数据库中进行BLAST搜索,为了确定两个蛋白质是否同源,我们可以提出以下几个问题:

          • 1.期望值是否显著?否
          • 2.两个蛋白质是否具有相近大小?否
          • 3.两个蛋白质是否具有相同的模体或特征信号?是(GXW,见4.17)

          • 4.两个蛋白质能否作为一个合理的多重序列比对的一部分?能
          • 5.两个蛋白质是否共有一个相似的生物学功能?是
          • 6.两个蛋白质是否共有一个相似的三维结构?是,杯状的花萼结构
          • 7.基因组学能否提供信息?能
          • 8.如果一个BLAST搜索得到一个蛋白质的边缘匹配,以这个远缘相关蛋白质作为查询序列再进行一次新的BLAST搜索。
      • 如何解决结果过多的问题

        • 选择RefSeq数据库,去冗余
        • 限制物种类别
        • 选择序列的一部分进行搜索
        • 调整打分矩阵
        • 调整期望值E
      • 如何解决结果过少问题

        • 去掉限制,降低期望值阈值
        • 使用高PAM、低BLOSUM值的打分矩阵
      • 案例:多结构域蛋白(HIV-1 pol)的BLAST检索

        • 搜索概述
        • 多个匹配项期望值极低并且均与不同HIV病毒隔离群相对应

          • 观察氨基酸替换频率的差异反映选择性进化压力。
        • 重新设置RefSeq蛋白质数据库,能够看到业主,赤拟谷盗和一组真菌中都存在一些同源蛋白质

        • 继续了解Pol蛋白在整个生命树中的分布情况,可以利用NP_057849作为查询序列,限制物种为细菌得到结果

        • 了解与HIV-1 POL蛋白同源的人类蛋白质,可以将物种改为人类,即可找到匹配

  • 使用BLAST预测基因,找到新基因
    • 找新基因的原因:

      • 想要在某个物种上研究一个尚未被刻画过的蛋白
      • 某个蛋白在一个物种的组织中描述过,而在另一个物种相同组织中尚未被发现
      • 想要研究病毒是否拥有球蛋白或者脂质转运蛋白
      • 当已知蛋白无法颛臾你感兴趣的糖类,如何在数据库中找到新的转运蛋白
    • 寻找新基因策略

      • 策略总结

      • 寻找步骤

        • 1.选择一个感兴趣的蛋白质的名字,包括对应的物种和访问编号。
        • 2.选择一个由基因组DNA或者表达序列标签(ESTs)组成的DNA数据库,在NCBI或者其他网站上进行TBLASTN搜索
        • 3.搜集疑似新蛋白的有关信息

          • 根据第二步得到的序列继续BLAST搜索得到更加完整的序列
        • 4.证实基因及其对应蛋白质是新发现的。

          • 同一物种中氨基酸一致性没有达到100%
          • 不同物种达到100%一致性
          • 如果没有数据库匹配原始查询序列,需要重头开始
        • 5.对新发现的蛋白质与家族其他成员进行多重序列比对
        • 6.用邻接法、最大简约法等构建一个系统发育树
        • 7.预测你发现的蛋白质的二级和三级结构(第13章),并将其与一直结构比较
        • 8.确定该基因受到的进化选择是正向还是负向(第七章)
        • 9.探讨新发现的基因的重要性
      • 项目优点

        • 让你了解何时以及如何使用BLAST系列程序
        • 让你熟悉多种可供搜索的数据库
        • 要求你解析不同类型的BLAST输出结果
  • 展望
    • BLAST搜索已经陈炜一种不可或缺的工具,用以分析一个DNA或蛋白质序列与公共数据库中数百万甚至数万亿条序列的关系。然而,对于用蛋白质查询序列进行更常规搜索的大多数生物学家而言,他们更倾向于使用第五章介绍的DELTA—BLAST或HMMER程序,因为这些程序构建的打分矩阵更优。
  • 建议
    • 练习多次搜索,探索可选参数阅读NCBI文档来学习参数。
    • 尝试使用客户端BLAST进行比对序列
    • 参考指南:https://www.ncbi.nlm.nih.gov/books/NBK1734/

2021.01.05【读书笔记】丨生物信息学与功能基因组学(第四章 局部比对搜索基本工具-BLAST 下)相关推荐

  1. 2020.11.3【读书笔记】丨生物信息学与功能基因组学(第二章 序列数据的获取 下)

    2.7 基因组浏览器 三个主流基因组浏览器:Ensemble.UCSC和NCBI 基因组组装 定义: 所获得的一个物种DNA序列按照染色体的形式进行的一种组装. 内容: 对基因组的注释,如起止位点.外 ...

  2. 2021.12.19【读书笔记】丨生物信息学与功能基因组学(第五章 高级数据库搜索 下)

    5.5 用类似于BLAST的比对工具快速搜索基因组DNA 需求:随着基因组DNA数据库数量增长,对比对工具要求越来越高 能在基因组DNA中找到外显子 比对时考虑基因组DNA包含的测序错误 有相应的算法 ...

  3. 2021.11.22【读书笔记】丨生物信息学与功能基因组学(第五章第五节 用类似于BLAST的比对工具快速搜索基因组DNA)

    5.5 用类似于BLAST的比对工具快速搜索基因组DNA 需求:随着基因组DNA数据库数量增长,对比对工具要求越来越高 能在基因组DNA中找到外显子 比对时考虑基因组DNA包含的测序错误 有相应的算法 ...

  4. 2022.01.23【读书笔记】丨生物信息学与功能基因组学(第六章 多重序列比对 上)

    学习目标 理解使用ClustalW进行多重序列比对(MSA)的三个主要阶段: 描述几种其他的多重序列比对(MSA)程序,了解他们的工作原理,比对它们与ClustalW的异同: 理解进行基准研究的重要性 ...

  5. 2021.11.21【读书笔记】丨生物信息学与功能基因组学(第五章 高级数据库搜索 中 )

    5.3 寻找远缘相关蛋白质:位置特异性迭代BLAST(PSI-BLAST)和DELTA-BLAST PAM250矩阵给探测远缘相关蛋白质提供了一个更好的打分系统,可以改变打分矩阵来检测远缘蛋白质,但仍 ...

  6. 读书笔记丨《数据产品经理修炼手册:从零基础到大数据产品实践》丨DAY4

    日期:2022年7月24日 内容:第四章数据仓库理论与应用(p77-p104) 4.1 了解大数据基础Hadoop 一.Hadoop及三驾马车 01.什么是hadoop? Hadoop是一个分布式系统 ...

  7. 读书笔记:《流畅的Python》第五章 一等函数

    # 一等对象/一等函数 ''' 1.在运行时创建 2.能赋值给变量或数据结构中的元素 3.能作为函数的参数传给函数 4.能作为函数的返回值返回结果 '''# 函数对象本身时function对象的实例d ...

  8. 读书笔记——《深入理解计算机系统》第三章_程序的机器级表示(一)

    前言:已经大四,没有去找工作,选择了保研,之所以这样选择,有三个原因,一.刚进校时,听说保研都是牛人才能行的事,所以一心努力保研:二.2008年开始,经济危机比较严重,工作不好找,虽然软件专业要找一份 ...

  9. 2021.01.05丨根据基因名称拼接表达量与相关注释

    这一步是在进行最后的数据汇总工作中用到的,将基因的count与FPKM值和基因注释的结果组合在一起,得到一个完整的数据.方便客户进行后续研究.算法与之前那篇基因ID匹配注释文本一文相似,用了两个for ...

  10. 读书笔记丨《数据产品经理修炼手册:从零基础到大数据产品实践》丨DAY1

    学习内容及时间2022.06.01: 第一章[初识数据产品经理](p1-p24) 1.1为什么要有数据产品经理 1.1.1大数据行业现状: {什么是大数据?}: 1.目前没有一个统一准确的定义,因为不 ...

最新文章

  1. python构建cnn图片匹配_tensorflow搭建cnn人脸识别训练+识别代码(python)
  2. 特征工程(三)Doc2Vec
  3. div如何添加滚动条?
  4. tomcat重启后session没有清除的解决办法
  5. CodeForces - 160E Buses and People(线段树+三维偏序)
  6. 光纤收发器长距离的传输过程出现死机的解决方案
  7. openssl数字证书常见格式与协议介绍
  8. 该学学数据结构了,不会数据结构真是寸步难行啊。。。。。
  9. 计算机中win是哪个版本,win7系统应该选择哪个版本比较好
  10. 一个著名防外挂软件,下面转载一遍关于nProtect的破解
  11. CefSharp 中过滤图片 RequestHandler
  12. 【JAVA】PAT 乙级 1059 C语言竞赛(测试点1、2超时) 内含1-10000的素数表和0-10000是否素数的boolean值
  13. 利用U盘里的GHOST文件恢复系统
  14. 国产台式电子计算机,国产十大台式电子管名机6——东方红82-Y型收音机(一)
  15. 英语发音规则---E字母(总结)-[复习中]
  16. 浅谈Git原理和常用命令(学习笔记)
  17. 1168: 账单(指针专题,多实例)
  18. 马云的菜鸟网络已犯了几个关键性的重大战略错误
  19. java 自动化编译_构建Jenkins自动化编译管理环境
  20. NOIP2017普及组:棋盘

热门文章

  1. mysql ndb存储引擎_Cluster的NDB存储引擎
  2. 力扣539题 最小时间差
  3. Simulink与控制系统仿真笔记01
  4. 中科院计算机软件所导师,中国科学院软件研究所硕士生导师刘立祥
  5. 卡西欧计算器计算一元二次方正组
  6. android商品上架功能实现,Android仿京东、天猫app的商品详情页的布局架构, 以及功能实现...
  7. [经典之作]vml经典之作
  8. jcp jsr_Oracle提交了第三次JCP改革JSR,以提高透明度
  9. Mybatis什么时候用resultMap,什么时候用resultType
  10. Mongodb之Chunk研究