2021.11.22【读书笔记】丨生物信息学与功能基因组学(第五章第五节 用类似于BLAST的比对工具快速搜索基因组DNA)
- 5.5 用类似于BLAST的比对工具快速搜索基因组DNA
- 需求:随着基因组DNA数据库数量增长,对比对工具要求越来越高
- 能在基因组DNA中找到外显子
- 比对时考虑基因组DNA包含的测序错误
- 有相应的算法解决相关物种的基因组在比对中出现删除、重复、倒置或移位的问题
- 有相应的算法解决DNA序列之间的小差异,如SNP位点
- 用标准集去评估基因组比对效果
- 时使用序列进化随机模型(ROSE)软件包船舰一个模拟序列集进行测试,可以得到全局比对工具LAGAN灵敏度最高,局部比对工具(如BLASTZ)在编译区段的比对更加精确
- PatternHunter:非连续的种子提高灵敏度
- PatternHunter在匹配位点中间加入错配位点,提升了速度与灵敏度(描述了两种模型)
- 以匹配为1,错配为0为例,模型格式如下:
- BLASTN:11111111111
- PatternHunter:110100110010101111(另一种11101001010011011)
- 原因:在相邻种子匹配之间会共享的剪辑很少,使得匹配比使用连续种子模型更加独立
- BLASTZ和MegaBLAST等同源蛋白质搜索算法也用到了该策略
- 图示
- BLASTZ
- 专门比对人类和小鼠基因组DNA序列。
- 功能:
- 谱系特异性的散在重复序列会被从两个序列中移除
- 用12个单词长度来匹配并不允许空位将其延申,当得分超过某一阈值,延申会允许出现空位,即1110100110010101111
- 对于邻近成功比对的区段在重复第二步时使用的是更低的(更灵敏)单词长度,比如7。
- 可以使用UCSC可视化BLASTZ比对的基因组序列
- 图示
- 可以使用UCSC可视化BLASTZ比对的基因组序列
- Enredo和Pecan(略)
- Ensemble用于多序列比对,其比对结果比基于其他准则的其他软件更加精确
- MegaBLAST和不连续MegaBLAST
- MegaBLAST:NCBI被优化用于快速比对长DNA查询序列的工具,默认单词长度为28,可调至256,提升运行速度。
- 单词长度小,灵敏度高,运行速度低。
- 可定义输出的相似度百分比阈值
- 可定义相应的匹配和错配得分
- 不连续MegaBLAST为了比对更多远缘相关基因组序列的工具。
- 图示
- MegaBLAST:NCBI被优化用于快速比对长DNA查询序列的工具,默认单词长度为28,可调至256,提升运行速度。
- 类BLAST比对工具(BLAT)
- 极快速的基因组DNA搜索工具
- BLAT将整个基因组DNA数据库分解成单词的索引,这些单词包含基因组中所有非重叠11-mers。
- BLAT所用的数据库索引策略也被SSAH2和后续的MegaBLAST采用
- 其他性质:
- BLAST会在出现两个匹配时激发延伸,BLAT需要多个匹配;
- BLAT主要为了找到与查询序列相似达95%以上的匹配
- BLAT会搜索内含子与外显子的边界,实质上是建立了一个基因结构的模型。
- 查询案例,图示
- LAGAN
- 双序列比对
- 图示
- 分三个步骤进行全局双序列比对
- 1. 在两条序列中首先生成局部比对从而识别一组锚,允许多个短的不精确单词的匹配而不是长的精确单词匹配;
- 2. 生成粗略的全局图谱,包含根据得分排序的最大锚的集合;
- 3. 计算最终的全局比对,被限制在粗略图谱定义的优先区域运行。
- 双序列比对
- SSAHA2
- SSAHA2将DNA数据库转换为固定单词长度的哈希表,双序列比对则可以在哈希表中快速寻找匹配。
- 需求:随着基因组DNA数据库数量增长,对比对工具要求越来越高
- 欢迎加群交流,或者加VX:bbplayer2021,邀请进群
2021.11.22【读书笔记】丨生物信息学与功能基因组学(第五章第五节 用类似于BLAST的比对工具快速搜索基因组DNA)相关推荐
- 2020.11.3【读书笔记】丨生物信息学与功能基因组学(第二章 序列数据的获取 下)
2.7 基因组浏览器 三个主流基因组浏览器:Ensemble.UCSC和NCBI 基因组组装 定义: 所获得的一个物种DNA序列按照染色体的形式进行的一种组装. 内容: 对基因组的注释,如起止位点.外 ...
- 2021.12.19【读书笔记】丨生物信息学与功能基因组学(第五章 高级数据库搜索 下)
5.5 用类似于BLAST的比对工具快速搜索基因组DNA 需求:随着基因组DNA数据库数量增长,对比对工具要求越来越高 能在基因组DNA中找到外显子 比对时考虑基因组DNA包含的测序错误 有相应的算法 ...
- 2021.11.21【读书笔记】丨生物信息学与功能基因组学(第五章 高级数据库搜索 中 )
5.3 寻找远缘相关蛋白质:位置特异性迭代BLAST(PSI-BLAST)和DELTA-BLAST PAM250矩阵给探测远缘相关蛋白质提供了一个更好的打分系统,可以改变打分矩阵来检测远缘蛋白质,但仍 ...
- 2022.01.23【读书笔记】丨生物信息学与功能基因组学(第六章 多重序列比对 上)
学习目标 理解使用ClustalW进行多重序列比对(MSA)的三个主要阶段: 描述几种其他的多重序列比对(MSA)程序,了解他们的工作原理,比对它们与ClustalW的异同: 理解进行基准研究的重要性 ...
- 尚硅谷——谷粒商城项目开发记录——2021.11.22
尚硅谷--谷粒商城项目开发记录--2021.11.22 概念: 1.对象优化: 新增的API: ES6 给 Object 拓展了许多新的方法,如: keys(obj): 获取对象的所有 key 形成的 ...
- 读书笔记——《深入理解计算机系统》第三章_程序的机器级表示(一)
前言:已经大四,没有去找工作,选择了保研,之所以这样选择,有三个原因,一.刚进校时,听说保研都是牛人才能行的事,所以一心努力保研:二.2008年开始,经济危机比较严重,工作不好找,虽然软件专业要找一份 ...
- 读书笔记丨《数据产品经理修炼手册:从零基础到大数据产品实践》丨DAY4
日期:2022年7月24日 内容:第四章数据仓库理论与应用(p77-p104) 4.1 了解大数据基础Hadoop 一.Hadoop及三驾马车 01.什么是hadoop? Hadoop是一个分布式系统 ...
- 2022.04.11【读书笔记】|单细胞转录组概述
文章目录 摘要 研究意义 转录组学意义 技术比较 研究方法 细胞筛选 文库构建 测序 实验方法 实验流程 常见问题 分析内容(重点) 分析内容总览 细胞亚群分类 细胞类型频率统计 Marker基因分析 ...
- 读书笔记丨《数据产品经理修炼手册:从零基础到大数据产品实践》丨DAY1
学习内容及时间2022.06.01: 第一章[初识数据产品经理](p1-p24) 1.1为什么要有数据产品经理 1.1.1大数据行业现状: {什么是大数据?}: 1.目前没有一个统一准确的定义,因为不 ...
最新文章
- 浏览器快捷键_用浏览器输入框代替Alfred - 介绍快速唤起浏览器输入框的方法,以及它能怎么取代 Alfred...
- 实习随记-不定时更新
- nebual的图数据结构
- SAP MM BAPI_PO_CREATE1的用法
- python实现Longest Common Subsequence最长公共子序列算法
- 【DFS】n皇后问题(代码逐句分析)
- 掌握Thinkphp3.2.0----标签库
- LTP 语义依存分析
- 题137.pta数据结构题集-03-树3 Tree Traversals Again (25 分)
- 无线网络技术导论笔记(第五讲)
- 工作笔记-Hazelcast安装和基本配置
- 计算机看游戏显卡,如何看电脑显卡性能
- Unexpected Error 0x8ffe2740 Occured
- oracle11g 企业管理器无法登陆
- Oracle数据库之表空间(tablespace)---面试再也不害怕系列之一
- Linux进程地址空间
- Opegnl ES之四边形绘制
- java poi导出excel,合并单元格
- 如何选择网络任务才能够轻松赚钱?(快营通分享)
- 转:rsync远程备份实测和总结