一、在NCBI 中搜索BLAST

点击这个,然后

来到这个页面,再点

来到了这个下载页面,选择合适的,开始下载

二、开始安装

建议不要安装在C盘。
安装结束后,然后设置环境变量,在path后,添加一句:D:\blast-2.12.0+\bin
然后打开cmd,输入blastn,出现下图所示,就证明安装成功。

然后在D:\blast-2.12.0+目录下,新建db文件,添加环境变量BLASTDB

三、使用Blast+

先整理好要用的fasta文件,也可以从网上下载,将fasta文件放在db文件夹下,然后打开cmd.输入如下。
-in:代表用来构库的基因组文件的地址和文件名
-dbtype:代表构建的是什么库,prot代表蛋白库 ,nucl代表核酸

然后就可以看到目录下,多了这些文件

然后进行目标序列与库序列进行比对

-query:代表的是要进行比对的序列文件
-db:为前面用于建库的基因组文件
-out:为输出文件的文件名
-evalue:为筛选标准(evalue越低,相似性越高)
-outfmt:输出文件格式,6代表表格形式。

第一列为: Query id ,查询序列ID标识
第二列为: Subject id ,比对上的目标序列ID标识
第三列为: % identity 序列比对的一致性百分比
第四列为: alignment length 符合比对的比对区域的长度
第五列为:mismatches 比对区域的错配数
第六列为:gap opening 比对区域的gap数目
第七列和第八列为:Query开始碱基位置q.start和结束碱基位置q.end
第九列和第十列为:Subject开始碱基位置s.start和结束碱基位置 s.end
第十一列为:期望值 e-value,比对结果的期望值,将比对序列随机打乱重新组合,和数据库进行对比,如果功能越保守,则该值越低。
第十二列为:比对结果的bit score值

  • score值表示两序列的同源性,分值越高表明它们之间相似的程度越大。表格中的数据是由score值由高到低排序的。

  • e-value值就是socre值可靠性的评价。它表明在随机的情况下,其它序列与目标序列相似度要大于score值的可能性。所以它的分值越低越好。
    E值的计算:
    E=Kmn(e-lambdaS)**
    其中,S就是score,E就是e-value,K和lambda与数据库和算法有关,是个常量;m代表目标序列的长度,n代表数据库的大小。
    通常来讲,我们认为E值小于10-5就是比较可性的S值结果。我们可以想象,相同的数据库,E=0.001时如果有1000条都有机会比现在这个S值要高的话,那么把E设置为10-6时可能就会只得到一条结果,就是S值最可靠的那个。

但是E值也不是万能的。它在以下几个情况下有局限性:

  1. 当目标序列过小时,E值会偏大,因为无法得到较高的S值。
  2. 当两序列同源性虽然高,但有较大的gap(空隙)时,S值会下降。这个时候gap scores就非常有用。
  3. 有些序列的非功能区有较低的随机性时,可能会造成两序列较高的同源性。
  4. E值总结:
    E值适合于有一定长度,而且复杂度不能太低的序列。
    当E值小于10-5时,表明两序列有较高的同源性,而不是因为计算错误。
    当E值小于10-6时,表明两序列的同源性非常高,几乎没有必要再做确认。

参考文献

  • BLAST中的E值(E-value)是什么意思? http://blog.sciencenet.cn/blog-830496-676326.html
  • 本地化的NCBI BLAST+的安装及使用 https://www.jianshu.com/p/2f551c0f9060

本地化BLAST+进行目标序列比对相关推荐

  1. 【NLP】选择目标序列:贪心搜索和Beam search

    构建seq2seq模型,并训练完成后,我们只要将源句子输入进训练好的模型,执行一次前向传播就能得到目标句子,但是值得注意的是: seq2seq模型的decoder部分实际上相当于一个语言模型,相比于R ...

  2. 【天坑】BLAST比对序列时遭受的痛苦

    1. makeblastdb出错 你可能makeblastdb频繁报错,说是出现重复条目-- 如果使用的是NCBI来源的nt.fa,请不要添加-hash_index这个参数. 2. 创建好的数据库不能 ...

  3. BWA比对及Samtools提取目标序列

    今天想看一下自己的序列里面会不会有某细菌基因组存在,主要使用BWA和Samtools: bwa主要用于将低差异度的短序列与参考基因组进行比对.主要包含三种比对算法:backtrack.SW和MEM,第 ...

  4. NCBI引物设计、检验引物特异性、检索基因序列、BLAST

    B站upLily的储物间 NCBI 引物设计及检验引物特异性 primer-BLAST设计引物 进入primer-BLAST 1.进入ncbi中的BLAST 2.下拉选择primer-BLAST pr ...

  5. 叶绿体基因组注释、圈图绘制~ CPGAVAS2,OGDRAW(图文教程)

    前言 叶绿体基因组(cpDNA)是环状的,在大小.结构和基因含量方面都相对保守,目前常被用于属水平的进化研究以及分子鉴定.叶绿体基因的注释是目前对基因组最常见.最基础的分析. 一.CPGAVAS2的使 ...

  6. 序列比对-BLAST

    一.BWA BWA主要是将reads比对到大型基因组上,主要功能是:序列比对.首先通过BWT(Burrows-Wheeler Transformation,BWT压缩算法)为大型参考基因组建立索引,然 ...

  7. 生物信息学(3)——双序列比对之BLAST算法简介

    生物信息学系列博客索引 生物信息学(1)--双序列比对之Needleman-Wunsch(NW)算法详解及C++实现 生物信息学(2)--双序列比对之Smith-Waterman(SW)算法详解 生物 ...

  8. 第二章 序列比对——Blast局部比对

    第二章 序列比对--Blast局部比对  阅读量: 330 主要为基因组测序比对相关知识,部分内容作笔记自查使用.如有错误或遗漏还请海涵,可评论或邮箱联系. 最后修改时间:2020-04-16 16: ...

  9. linux比对nt数据库,linux BLAST序列比对 (nt/nr库)

    安装本地blast序列比对软件,我们可以搜索一个查询序列定制数据库,例如想研究一个新测序的基因组,或者感兴趣的一组蛋白质序列.有时我们希望把程序插入到一个流程中,例如搜索一个大量的查询序列,例如你的测 ...

最新文章

  1. Flutter retrofit:only “package“ and “asset“ schemes supported
  2. Apache Flink 零基础入门(九)Flink支持哪些数据类型
  3. 8.12模拟:dp递推
  4. 互联网晚报 | 12月14日 星期二 | “植发第一股”雍禾医疗登陆港交所;商汤科技将延迟上市;“拍照搜题”等作业APP暂时下线...
  5. 信息学奥赛C++语言: 计算两个数的最大公约数
  6. 判断字符串是否是空格
  7. Java中的基本类型和引用类型(未完)
  8. C# in depth (第六章 实现迭代器的捷径)
  9. 为无线网路上好锁,WEP、WPA无线加密对比
  10. 空间参考---墨卡托投影、高斯-克吕格投影、UTM投影的异同
  11. Java技术体系简介
  12. carry函数在C语言中用法,常考词的语法与用法:careless, carry, case
  13. 关于IE浏览器的一些思路
  14. 基于python的智能风扇设计_基于单片机的智能风扇的设计与实现
  15. 计算机视觉方向简介 | 深度学习3D重建
  16. 7.Mapping详解
  17. Mysql可视化软件-Navicat和SQLyog
  18. java list集合包含_Java 中的集合类包括 ArrayList 、 Linke
  19. 随机生成华人姓名的Java工具类:权重 + 随机
  20. Windows的任务调度机制

热门文章

  1. Android二手书交易app设计(2)启动图Activity
  2. Real6410移植linux-2.6.39.1记录(3)-USB驱动移植(USB HOST以及USB OTG)
  3. 计算机室在初中英语教学中的应用,浅谈现代教育技术在初中英语教学中的运用...
  4. MBUS系列产品特点(科慧铭远)
  5. 从cics服务器中获取信息错误:该用户 不是客户端方式,怎么在CICS服务器端识别当前连接到CICS服务器端的CICS客户端...
  6. MyBatis的resultType
  7. 英语学习相关网站及工具的记录
  8. html内敛样式background,js获取内联样式的方法
  9. EasyUI-DataGrid下数据库数字替换成文本信息显示以及不同状态显示不同颜色
  10. 《前端》权限链接--vue前端权限控制方案详解附demo_feiyu_may的博客-CSDN博客_vue 前端权限