snapgene怎么比对序列_找不到相似序列？快来Blast一下！

一、如雷贯耳的BLAST

Blast（Basic Local Alignment Search Tool），可谓生信领域最常用的工具，拿到一段序列（测序结果，或设计好的引物等等），一般都会去blast一下，查找相似序列。

在查找相似序列的基础上衍生出了各种作用，比如鉴别基因组，蛋白质，查找特定靶区，检验引物特异性等等。自打1990年由Altschul SF等人开发出来，NCBI引进，至今还在改善，更新算法。

1 量身选用数据库

网址：https://blast.ncbi.nlm.nih.gov/Blast.cgi

做BLAST不仅要考虑选择哪种算法，还要考虑选哪个数据库来比对。我们最常用的可能就人类或小鼠基因组+转录组，但仍可根据自身情况选择合适的数据库，能大大节省检索时间，并提高返回的结果的质量和特异性。

不过这么多库怎么选呢，可以点一下旁边的问号（Help），查看选所的数据库的说明：

再者，如果你已经知道你要查的序列来自哪个物种，或你要跟哪个物种比对，也可以在Organism选项框中输入，也可以减少BLAST的操作程序，节省时间。

2 不同序列不同算法

BLAST工具跟一套手术器械似的，不同的算法干不同的活，得根据自己需要的信息，选择需要的工具。可以看到检索页面上方有5个选项卡，分别代表5种查询类型。

各大类之下可能还有几个小分类可选：

它们的功能要点总结如下：

3 结果解读

找一小段蛋白序列来试一下那个新算法Quickblastp。可能是我的序列太短了，并没有感觉到Quick (0.0) 如果你的序列够长可以体会一下。

首先会看到一个表头，展示这次比对的基本信息，如比对类型、序列长度、所选的数据库等等，就不贴图了。接下来就是图形描述（Graphic Summary）。

第一部分是保守域，当检测到时才会显示。

第二部分是比对上的序列（hit）在查询序列上的分布。

有刻度的条带是序列的坐标，其下的每一个细条带代表一段hit，其颜色是按上方的颜色标尺显示比例得分（alignment score），得分越高，相似度越高。

另外还可注意E value，E值越低，相似度越高，点击可显示详细信息。

保守域也可点开查看详情，在每个hit上悬浮鼠标可看到它编码的蛋白的3D结构图以及功能等详细说明，在下方的列表中点开+号还可看到具体的序列。

二、读懂Blast结果图

众所周知，同源性是预测基因和蛋白质功能的主要线索，而序列同源性的判断则离不开两个或多个序列之间相似性的检测。一般来说，序列间的相似度越高，它们是同源序列的可能性就越高。

其中，序列比对无疑是评估序列相似性的最简单方法。显然，Blast就是序列比对检测的中坚力量。Blast自1990年首次亮相以来，凭借从各大数据库（EST、PDB数据库等）获取信息的能力，迅速成为序列比对界的领头羊。

老实说，Blast的界面非常友好，点击相应模块后，大家只需在序列框中丢上自己的靶序列，勾选好物种基因组，点击搜索即可！

可看着结果界面涌现出的几十个、数百个甚至数千个候选匹配序列，不少选择困难症的童鞋表示头疼不已：结果辣么多，究竟哪个才是最优解？

本文以NM_001206932为例，分解BLAST结果页面，让大家迅速摆脱Blast新手身份。

1 Blast结果解析

首先会看到一个表头，即本次比对的基本信息，如比对类型、序列长度、所选的数据库等等。如果所选的数据库不合适，请及时迷途知返哦。

接下来就是Blast的结果显示图（Graphic Summary）：颜色比例尺，其中相似度从高到低排列分别为：红、紫、绿、蓝、黑，红色区域越多则表示有较好的比对结果。

而在Blast结果的描述区域，两个衡量标准最为重要：Max Score和E值（E value），前者匹配片段越长，相似性越高则Score值越大；后者是得到上述Score值的概率的大小。E值越小表示随机情况下得到该Score值的可能性越低。

而点击相应注释名称，又或者在结果显示图（Graphic Summary）中点击对应的线条，均可以查看比对结果的详细信息。

其中，Expect(E值)、Identities（一致性）、Gaps（缺失或插入）三项是评价blast结果的标准。E值接近零或者为零时，具体上就是完全匹配了；一致性：匹配上的碱基数占总序列长的百分数。

如此，就可对Blast结果做到了如指掌，然而有些急性子的科研者却对Blast的运行速度有些瞧不上眼，因而又挖掘出了序列比对的新神器Blat，不仅让序列比对速度翻倍增长，而且其共线性输出结果更加简单易读，咱们下面会提到Blat。

2 步骤序列对比常用在线工具

1. SimiTriX-SimiTetra

功能：多序列比对相似性展示

网址：http://cotton.hzau.edu.cn/EN/tools/BioERCP/simitrix.php

2. MUSCLE

功能：运行速度比较快的多序列比对

网址：http://www.ebi.ac.uk/Tools/msa/muscle/#

3. Clustal Omega

功能：DNA、RNA、蛋白的多序列比对

网址：http://www.ebi.ac.uk/Tools/msa/clustalo/

4. ClustalW2

功能：应用较广泛的多序列比对

网址：http://www.ebi.ac.uk/Tools/msa/clustalw2/

5. T-Coffee

功能：准确度高,速度慢的多序列比对

网址：http://www.ebi.ac.uk/Tools/msa/tcoffee/

三、Blat更快一步

拿到一段乱七八糟的序列，可以通过blast得到它的信息；设计完引物也可以通过blast看看它的特异性。但是大家有没有感觉到Blast速度真是太慢了，网页打开慢，计算过程也慢....

比如我想找一段氨基酸序列对应的蛋白质，当我点完Blast，等了两分钟还没出结果（时间就是金钱啊....我们怎么能这样浪费金钱呢...）

所以这里给大家推荐另一个工具Blat：

http://genome.ucsc.edu/cgi-bin/hgBlat ，在UCSC的主页可以打开。Blast相对于这种比对有几个缺陷：速度偏慢、结果难于处理、无法表示出包含intron的基因定位等。Blat就是在这种形势下应运而生了。

Blat的主要特点就是：速度快，共线性输出结果简单易读。

在Genome一栏选好物种信息。Query type选择你输入的序列类型，是蛋白还是DNA等，当然也可以让Blat自动识别（Blat's guess），Output type选hyperlink，结果中有超链接，可以点击进去在USCS中具体查看该基因信息；选psl则结果为表格形式。

一点Blat立马出结果，点击details可以查看具体的比对信息，点击browser可以查看对应的基因信息

这是点击browser后的页面，即常见的UCSC显示基因信息的页面。可以看出这段氨基酸数列是P53蛋白。

本文首发于“解螺旋精选”微信公众号

转载请注明：解螺旋·临床医生科研成长平台