一、如雷贯耳的BLAST

Blast(Basic Local Alignment Search Tool),可谓生信领域最常用的工具,拿到一段序列(测序结果,或设计好的引物等等),一般都会去blast一下,查找相似序列。

在查找相似序列的基础上衍生出了各种作用,比如鉴别基因组,蛋白质,查找特定靶区,检验引物特异性等等。自打1990年由Altschul SF等人开发出来,NCBI引进,至今还在改善,更新算法。

1 量身选用数据库

网址:https://blast.ncbi.nlm.nih.gov/Blast.cgi

做BLAST不仅要考虑选择哪种算法,还要考虑选哪个数据库来比对。我们最常用的可能就人类或小鼠基因组+转录组,但仍可根据自身情况选择合适的数据库,能大大节省检索时间,并提高返回的结果的质量和特异性。

不过这么多库怎么选呢,可以点一下旁边的问号(Help),查看选所的数据库的说明:

再者,如果你已经知道你要查的序列来自哪个物种,或你要跟哪个物种比对,也可以在Organism选项框中输入,也可以减少BLAST的操作程序,节省时间。

2 不同序列不同算法

BLAST工具跟一套手术器械似的,不同的算法干不同的活,得根据自己需要的信息,选择需要的工具。可以看到检索页面上方有5个选项卡,分别代表5种查询类型。

各大类之下可能还有几个小分类可选:

它们的功能要点总结如下:

3 结果解读

找一小段蛋白序列来试一下那个新算法Quickblastp。可能是我的序列太短了,并没有感觉到Quick (0.0) 如果你的序列够长可以体会一下。

首先会看到一个表头,展示这次比对的基本信息,如比对类型、序列长度、所选的数据库等等,就不贴图了。接下来就是图形描述(Graphic Summary)。

第一部分是保守域,当检测到时才会显示。

第二部分是比对上的序列(hit)在查询序列上的分布。

有刻度的条带是序列的坐标,其下的每一个细条带代表一段hit,其颜色是按上方的颜色标尺显示比例得分(alignment score),得分越高,相似度越高。

另外还可注意E value,E值越低,相似度越高,点击可显示详细信息。

保守域也可点开查看详情,在每个hit上悬浮鼠标可看到它编码的蛋白的3D结构图以及功能等详细说明,在下方的列表中点开+号还可看到具体的序列。

二、读懂Blast结果图

众所周知,同源性是预测基因和蛋白质功能的主要线索,而序列同源性的判断则离不开两个或多个序列之间相似性的检测。一般来说,序列间的相似度越高,它们是同源序列的可能性就越高。

其中,序列比对无疑是评估序列相似性的最简单方法。显然,Blast就是序列比对检测的中坚力量。Blast自1990年首次亮相以来,凭借从各大数据库(EST、PDB数据库等)获取信息的能力,迅速成为序列比对界的领头羊。

老实说,Blast的界面非常友好,点击相应模块后,大家只需在序列框中丢上自己的靶序列,勾选好物种基因组,点击搜索即可!

可看着结果界面涌现出的几十个、数百个甚至数千个候选匹配序列,不少选择困难症的童鞋表示头疼不已:结果辣么多,究竟哪个才是最优解?

本文以NM_001206932为例,分解BLAST结果页面,让大家迅速摆脱Blast新手身份。

1 Blast结果解析

首先会看到一个表头,即本次比对的基本信息,如比对类型、序列长度、所选的数据库等等。如果所选的数据库不合适,请及时迷途知返哦。

接下来就是Blast的结果显示图(Graphic Summary):颜色比例尺,其中相似度从高到低排列分别为:红、紫、绿、蓝、黑,红色区域越多则表示有较好的比对结果。

而在Blast结果的描述区域,两个衡量标准最为重要:Max Score和E值(E value),前者匹配片段越长,相似性越高则Score值越大;后者是得到上述Score值的概率的大小。E值越小表示随机情况下得到该Score值的可能性越低。

而点击相应注释名称,又或者在结果显示图(Graphic Summary)中点击对应的线条,均可以查看比对结果的详细信息。

其中,Expect(E值)、Identities(一致性)、Gaps(缺失或插入)三项是评价blast结果的标准。E值接近零或者为零时,具体上就是完全匹配了;一致性:匹配上的碱基数占总序列长的百分数。

如此,就可对Blast结果做到了如指掌,然而有些急性子的科研者却对Blast的运行速度有些瞧不上眼,因而又挖掘出了序列比对的新神器Blat,不仅让序列比对速度翻倍增长,而且其共线性输出结果更加简单易读,咱们下面会提到Blat。

2 步骤序列对比常用在线工具

1. SimiTriX-SimiTetra

功能:多序列比对相似性展示

网址:http://cotton.hzau.edu.cn/EN/tools/BioERCP/simitrix.php

2. MUSCLE

功能:运行速度比较快的多序列比对

网址:http://www.ebi.ac.uk/Tools/msa/muscle/#

3. Clustal Omega

功能:DNA、RNA、蛋白的多序列比对

网址:http://www.ebi.ac.uk/Tools/msa/clustalo/

4. ClustalW2

功能:应用较广泛的多序列比对

网址:http://www.ebi.ac.uk/Tools/msa/clustalw2/

5. T-Coffee

功能:准确度高,速度慢的多序列比对

网址:http://www.ebi.ac.uk/Tools/msa/tcoffee/

三、Blat更快一步

拿到一段乱七八糟的序列,可以通过blast得到它的信息;设计完引物也可以通过blast看看它的特异性。但是大家有没有感觉到Blast速度真是太慢了,网页打开慢,计算过程也慢....

比如我想找一段氨基酸序列对应的蛋白质,当我点完Blast,等了两分钟还没出结果(时间就是金钱啊....我们怎么能这样浪费金钱呢...)

所以这里给大家推荐另一个工具Blat:

http://genome.ucsc.edu/cgi-bin/hgBlat ,在UCSC的主页可以打开。Blast相对于这种比对有几个缺陷:速度偏慢、结果难于处理、无法表示出包含intron的基因定位等。Blat就是在这种形势下应运而生了。

Blat的主要特点就是:速度快,共线性输出结果简单易读。

在Genome一栏选好物种信息。Query type选择你输入的序列类型,是蛋白还是DNA等,当然也可以让Blat自动识别(Blat's guess),Output type选hyperlink,结果中有超链接,可以点击进去在USCS中具体查看该基因信息;选psl则结果为表格形式。

一点Blat立马出结果,点击details可以查看具体的比对信息,点击browser可以查看对应的基因信息

这是点击browser后的页面,即常见的UCSC显示基因信息的页面。可以看出这段氨基酸数列是P53蛋白。

本文首发于“解螺旋精选”微信公众号

转载请注明:解螺旋·临床医生科研成长平台

snapgene怎么比对序列_找不到相似序列?快来Blast一下!相关推荐

  1. python序列_什么是Python的序列协议?

    这不是真的一致. int PySequence_Check(PyObject *s) { if (PyDict_Check(s)) return 0; return s != NULL &&a ...

  2. numpy序列预处理dna序列_个人隐私DNA亲子鉴定序列

    个人隐私DNA亲子鉴定序列 DNA亲子鉴定是基于医学,法律或个人原因解决亲子关系的最先进,最准确的方法. 周转时间:凭借先进的DNA技术,亲子鉴定准确,快速且价格合理.现在可以在样品到达实验室后的3至 ...

  3. python输出质数序列_用python打印素数序列

    您需要检查从2到n-1(实际上是sqrt(n))的所有数字,但是好的,让它为n). 如果n可被任何数字整除,则它不是素数.如果一个数字是素数,就打印出来.for num in range(2,101) ...

  4. 典型的Top K算法_找出一个数组里面前K个最大数

    原文 典型的Top K算法_找出一个数组里面前K个最大数...或找出1亿个浮点数中最大的10000个...一个文本文件,找出前10个经常出现的词,但这次文件比较长,说是上亿行或十亿行,总之无法一次读入 ...

  5. hmm 求隐藏序列_结巴分词3--基于汉字成词能力的HMM模型识别未登录词

    1 算法简介 在结巴分词2--基于前缀词典及动态规划实现分词 博文中,博主已经介绍了基于前缀词典和动态规划方法实现分词,但是如果没有前缀词典或者有些词不在前缀词典中,jieba分词一样可以分词,那么j ...

  6. 流畅的python目录_流畅的python python 序列

    内置序列 容器类型 list .tuple和collections.deque这些序列能放入不同的类型的数据 扁平序列 str.byets.bytearray.memoryview(内存视图)和arr ...

  7. python 什么是序列_从零起步学Python——什么是序列?

    おかえり!欢迎回来! 今天我们要学习的是序列以及一些通用的操作,你--准备好了吗? 一.什么是序列? 序列是python的最基本数据结构. "X=1",X是一个变量,值为1: &q ...

  8. hmm 求隐藏序列_自然语言处理(3)隐马尔科夫模型 HMM

    1 前言 隐马尔科夫模型(Hidden Markov Model,以下简称 HMM)是比较经典的机器学习模型了,它在语音识别,自然语言处理,模式识别等领域得到广泛的应用.隐马尔科夫模型继承了马尔科夫链 ...

  9. bam获取序列_如何从BAM文件中提取fastq

    虽然高通量测序分析最常用的操作是将fastq比对到参考基因组得到BAM文件,但偶尔我们也需要提取BAM文件中特定区域中fastq.最开始我认为这是一个非常简单的操作,因为samtools其实已经提供了 ...

  10. java输出栈的弹出序列_剑指offer:栈的压入、弹出序列(Java)

    1.题目描述 输入两个整数序列,第一个序列表示栈的压入顺序,请判断第二个序列是否可能为该栈的弹出顺序.假设压入栈的所有数字均不相等.例如序列1,2,3,4,5是某栈的压入顺序,序列4,5,3,2,1是 ...

最新文章

  1. 有人问你如何掌握隐含狄利克雷分布(LDA),把这篇文章甩给他
  2. RIM终于想通了-RIM开放新的API
  3. 2000+引用的fastp推出重磅更新,再提速一倍!
  4. python 字符串 删除 空格 换行符
  5. 中科院张士峰:基于深度学习的通用物体检测算法对比探索
  6. 封装的人人网客户端调用接口
  7. 【Java】详解菜单组件
  8. The Best Vacation CodeForces - 1358D(贪心+尺取)
  9. 讲字节数组转化为base64_Base64编码简介及简单实现
  10. html之file标签 --- 图片上传前预览 -- FileReader
  11. java typereference_记录一下jackson中TypeReference的使用
  12. 天池 在线编程 部门统计(哈希)
  13. C++面向对象编程之类的使用(基础案例学习)
  14. python importsystem
  15. JS设置弹出小窗口。
  16. CSS侧边栏宽度不动(更改页面宽度时),内容区宽度自适应
  17. iso 绝对pe_深度 WinPE 4.2 维护光盘ISO(含U盘PE制作工具) 下载地址
  18. mybatis order by concat用法
  19. k8s教程01(k8s环境配置及私有仓库搭建)
  20. 华为疯狂扩招3000名数据分析师,招聘要求让人窒息!

热门文章

  1. Trie图的学习过程
  2. 再暴BBSxp 7.0 Beta 2漏洞
  3. 9.深入分布式缓存:从原理到实践 --- Tair探秘
  4. 6.docker images
  5. 41. 使用内容发布网络(2)
  6. 2. PDO 的使用
  7. 36. PHP面向对象
  8. 沙绿色background-color:#e5eecc; border:solid 1px #c3c3c3;
  9. django应用之corsheaders[跨域设置]
  10. 第一次冲刺个人计划表