第二章 序列比对——Blast局部比对

 阅读量: 330

主要为基因组测序比对相关知识,部分内容作笔记自查使用。如有错误或遗漏还请海涵,可评论或邮箱联系。
最后修改时间:2020-04-16 16:18:55 星期四


Blast局部比对流程


一、Filtering

【目的】
防止由于低复杂度和重复片段存在,而产生大量有统计学意义,但无生物学实际意义的比对结果

  • 低复杂度和重复片段:

    • {\left( {CA} \right)_n}(CA)n
    • KLKLKLKLKLKL

【方法】
将查询序列中极低复杂度的片段mask掉

  • mask掩码

    • 核酸残基用{N_s}Ns
    • 氨基酸残基用{X_s}Xs

【程序参数】
-F:开启过滤


二、Seeding

【目的】
鸽子洞思想。将查询序列切片成一个一个的w-mers以便快速查找,其中w为切片长度

【方法】

  • 氨基酸序列,w取3
  • 核酸序列,w取11

【程序参数】
-W 数字:设定切片长度w


三、Search

【目的】
拿seeding产生list中的每一个word,去数据库中做匹配。保留匹配值大于设定阈值T的匹配点位置

  • 对于氨基酸,使用BLOSUM矩阵或PAM矩阵
  • 对于核酸,使用相同+5不相同-4,或相同+2不相同-3

【方法】
1、 哈希表法:给word设定键值,通过键值直接寻址找匹配
2、 有限自动机法:程序确定word里每一个字符的转换状态,然后去数据库中搜索


四、Extending

【目的】
将Search步骤找到的匹配点向前向后延伸,使之成为一个HSP。在扩展后的区域,应用Smith-Waterman动态规划算法,以便确定最终的比对,从而显著降低了计算量

【方法】
设定cutoff值S。如果延伸过程中,比对的打分低于S,我们就停止。下例设定S=0


五、Evaluation

【目的】
评估找到的比对结果的显著性。如果显著性水平高,说明该比对并不是因为随机原因而比对成功的

【方法】
E = kmne{}^{ - \lambda S}E=kmneλS
m:查询序列长度
n:数据库长度
S:HSP的原始得分

通常E<0.05,认为具有统计意义上的显著性


Blast程序

类型 工具名 用途
核酸blast blastn 短序列标准搜索
megablast 相似序列(单物种)之间比对
discontiguous megablast 跨物种序列比对
蛋白质blast blastp 标准搜索
psi-blast 使用blastp搜索结果,构建位置特异性打分矩阵(PSSM),迭代搜索
phi-blast 发现具有相同表达模型且相似的蛋白质序列
核酸->蛋白 blastx 核酸序列转换成蛋白质序列搜索
tblastx 核酸序列转换成蛋白质序列,再将核算数据库转换成蛋白质数据库搜索
蛋白->核酸 tblastn 蛋白质序列转换成核酸序列搜索

第二章 序列比对——Blast局部比对相关推荐

  1. 第二章 序列比对——Needleman-Wunsch全局比对

    [生信]第二章 序列比对--Needleman-Wunsch全局比对 主要为基因组测序比对相关知识,部分内容作笔记自查使用.如有错误或遗漏还请海涵,可评论或邮箱联系. 最后修改时间:2020-04-0 ...

  2. 4月19日读书笔记——第二章序列构成的数组(1)

    流畅的python 第二章 序列构成的数组 在这之前,我想要先知道什么是序列.维基百科的答案是 数学上,序列是被排成一列的对象(或事件):这样,每个元素不是在其他元素之前,就是在其他元素之后. 例如: ...

  3. python程序设计第二章序列类型 题库及选解

    由于学校的python是笔试,所以找了份感觉比较好的题库刷了下其中前八章的填空和判断,附上选解.各章链接如下 python程序设计题库完整版 https://blog.csdn.net/lijia11 ...

  4. 2020.11.3【读书笔记】丨生物信息学与功能基因组学(第二章 序列数据的获取 下)

    2.7 基因组浏览器 三个主流基因组浏览器:Ensemble.UCSC和NCBI 基因组组装 定义: 所获得的一个物种DNA序列按照染色体的形式进行的一种组装. 内容: 对基因组的注释,如起止位点.外 ...

  5. 王道考研 计算机网络笔记 第二章:物理层

    本文基于2019 王道考研 计算机网络: 2019 王道考研 计算机网络 个人笔记总结 第一章:王道考研 计算机网络笔记 第一章:概述&计算机网络体系结构 后续章节将陆续更新- 第二章 一.物 ...

  6. 序列比对-BLAST

    一.BWA BWA主要是将reads比对到大型基因组上,主要功能是:序列比对.首先通过BWT(Burrows-Wheeler Transformation,BWT压缩算法)为大型参考基因组建立索引,然 ...

  7. 【v2.x OGE-example 第二章(第二节) 修改器的使用】

    2019独角兽企业重金招聘Python工程师标准>>> [v2.x OGE-example 第二章(第二节) 修改器的使用] 1. 位置:Modifier_example --> ...

  8. python语言程序设计2019版第二章课后答案-python语言程序设计基础课后答案第二章...

    python语言程序设计基础课后答案第二章 以下合法的用户自定义标识符是____________. 导入模块或者模块中的元素要使用关键字________ . 下列哪个函数是用来控制画笔的尺寸的____ ...

  9. python编程入门经典 评分-《Python编程入门经典》--第二章:数值和运算符

    一.在字符串中包含不同的数字 在第一章中使用格式说明符将两个字符串连接在一起时,用到了格式说明符%s,它的含义是"一个字符串".由于数值和字符串有不同的类型,必须使用不同的说明符将 ...

最新文章

  1. python 远程控制win10界面切换_Python3如何实现Win10桌面自动切换
  2. Excel 自动更正选项
  3. 腾讯云数据库2020年度盛典等你来
  4. 如何在SAP云平台Neo环境里进行workflow(工作流)的开发
  5. 评分较高对鸿蒙文,万倍增幅:鸿蒙至高神,加入诸天万界群
  6. php 命名空间实现的原理,php命名空间实现的理解
  7. typeof关键字简介
  8. xml可以打包成jar吗_国内飞机上可以带化妆品吗 坐飞机怎么打包化妆品
  9. 网站重构之精简你的代码
  10. MapReduce运行流程分析
  11. 华硕笔记本Delete键和Insert键合二为一与分离
  12. python constants_Python constants包_程序模块 - PyPI - Python中文网
  13. 概念:蓝筹主板创业板新三板科创板
  14. Mac使用数据线连接安卓手机传输文件
  15. php判断字符串长度
  16. Tableau学习笔记⑦(数据分层、数据组、数据集)
  17. python 爬取_我用Python爬取了妹子网100G的套图
  18. 超级准确的Android/JAVA面试题合集,背会你就10k!
  19. 数据库理论作业 第八章 29 33
  20. BreakPoint Hex Workshop v6.7.3.5308 Incl Keyfilemaker and Patch-EMBRACE

热门文章

  1. java uml 为什么_Java开发为什么需要UML (转)
  2. 实操教程|详细记录solov2的ncnn实现和优化
  3. CVPR2021 | PAConv:一种位置自适应卷积,点云分类、分割任务表现SOTA
  4. 屡现黑马!2021THE泰晤士高等教育学科排名发布!斯坦福成为最大赢家,清华、北大强势逆袭!...
  5. 学习SLAM需要哪些预备知识?
  6. 在数据库创建表的时候,时间设置为什么类型,会随着每次提交的时间发生变化
  7. 奥比中光Gemini 3D双目结构光深度相机在Android平台上深度数据噪点非常多的问题
  8. RDKit:基于RDKit的溶解度预测的机器学习模型
  9. JGG:中大骆观正组开发微量样品m(6)A测序新技术
  10. MPB:山东农大高峥、周波等-​​​尾菜堆肥微生物组样品取样方法