Basic local alignment search tool (BLAST)

包括:blastn, blastp, blastx, tblastn, tblastx等. 使用conda安装即可。

conda install -c bioconda blast
# blast安装perl模块的方法
conda install perl-digest-md5

本地BLAST的基本步骤

  1. 用makeblastdb为BLAST提供数据库
  2. 选择blast工具,blastn,blastp
  3. 运行工具,有必要的还可以对输出结果进行修饰

第一步:建立检索所需数据库

BLAST数据库分为两类,核酸数据库和氨基酸数据库,可以用makeblastbd创建。可以用help参数简单看下说明。

$ makeblastdb -help
USAGEmakeblastdb [-h] [-help] [-in input_file] [-input_type type]-dbtype molecule_type [-title database_title] [-parse_seqids][-hash_index] [-mask_data mask_data_files] [-mask_id mask_algo_ids][-mask_desc mask_algo_descriptions] [-gi_mask][-gi_mask_name gi_based_mask_names] [-out database_name][-max_file_sz number_of_bytes] [-logfile File_Name] [-taxid TaxID][-taxid_map TaxIDMapFile] [-version]
-dbtype <String, `nucl', `prot'>

具体以拟南芥基因组作为案例,介绍使用方法:
: 拟南芥的基因组可以在TAIR上下在,也可在ensemblgenomes下载。后者还可以下载其他植物的基因组

# 下载基因组
wget ftp://ftp.ensemblgenomes.org/pub/plants/release-36/fasta/arabidopsis_thaliana/dna/Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz
gzip -d Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz
# 构建核酸BLAST数据库
makeblastdb -in Arabidopsis_thaliana.TAIR10.dna.toplevel.fa -dbtype nucl -out TAIR10 -parse_seqids# 下载拟南芥protein数据
wget ftp://ftp.ensemblgenomes.org/pub/plants/release-36/fasta/arabidopsis_thaliana/pep/Arabidopsis_thaliana.TAIR10.pep.all.fa.gz
# 构建蛋白BLAST数据库
gzip -d Arabidopsis_thaliana.TAIR10.pep.all.fa.gz
makeblastdb -in  Arabidopsis_thaliana.TAIR10.pep.all.fa -dbtype prot -out TAIR10 -parse_seqids

如果你从NCBI或者其他渠道下载了格式化过的数据库,那么可以用blastdbcmd去检索blast数据库,参数很多,常用就如下几个

  • db string : string表示数据库所在路径
  • dbtype string,: string在(guess, nucl, prot)中选择一个
  • 检索相关参数
    • -entry all 或 555, AC147927 或 gnl|dbname|tag'
    • -entry_batch 提供一个包含多个检索关键字的文件
    • -info 数据库基本信息
  • 输出格式 -outfmt %f %s %a %g ...默认是%f
  • out 输出文件
  • show_blastdb_search_path: blast检索数据库路径

使用案例

# 查看信息
blastdbcmd -db TAIR10 -dbtype nucl -info
# 所有数据
blastdbcmd -db TAIR10 -dbtype nucl -entry all | head
# 具体关键字,如GI号
blastdbcmd -db TAIR10 -dbtype nucl -entry 3 | head

还有其他有意思的参数,可以看帮助文件了解

可选:BLAST安装和更新nr和nt库

安装nt/nr库需要先进行环境变量配置,在家目录下新建一个.ncbirc配置文件,然后添加如下内容

Basic local alignment search tool (BLAST)相关推荐

  1. Efficient local alignment discovery amongst noisy long reads

    有效的局部比对发现在嘈杂的长读 Long read sequencers portend the possibility of producing reference quality genomes ...

  2. 图像拼接--Construction and Refinement of Panoramic Mosaics with Global and Local Alignment

    Construction and Refinement of Panoramic Mosaics with Global and Local Alignment International Confe ...

  3. 「一文搞定序列比对算法」Global以及Local Alignment序列比对算法的实现

    序列比对是什么以及序列比对主要的作用是什么,本篇博客就一笔带过,因为不是主要分享内容. 序列比对,此处引申为pairwise alignment会更加恰当一些,用于比较2条序列之间的相似程度,推断它们 ...

  4. 【AM】Glow-TTS: A Generative Flow for Text-to-Speech via Monotonic Alignment Search

    文章目录 1. Related Work 1.1. Alignment Estimation between Text and Speech 1.2. Text-to-Speech Models 1. ...

  5. SAP CRM Service Order search Tool

    Created by Jerry Wang, last modified on Mar 21, 2014 这个工具能够根据UI 上的search条件( Main Category和Created on ...

  6. 从FASTQ到BAM经历了什么?

    第2期 从FASTQ到BAM经历了什么? GeneDock聚道科技 为生命计算,助看病不难! 已关注 杨杨杨 等 20 人赞同了该文章 生信小白:肉哥啊,上次介绍了数据处理过程中的三种重要格式,那从F ...

  7. 从技术上解读大数据的应用现状和开源未来

    来源:网络大数据 作者 | 韩锐. Lizy Kurian John.詹剑锋 摘要:近年来,随着大数据系统的快速发展,各式各样的开源基准测试集被开发出来,以评测和分析大数据系统并促进其技术改进.然而, ...

  8. 从技术上解读大数据的应用现状和开源未来! | 技术头条

    作者 | 韩锐. Lizy Kurian John.詹剑锋 责编 | 胡巍巍 近年来,随着大数据系统的快速发展,各式各样的开源基准测试集被开发出来,以评测和分析大数据系统并促进其技术改进.然而,迄今为 ...

  9. bam获取序列_如何从BAM文件中提取fastq

    虽然高通量测序分析最常用的操作是将fastq比对到参考基因组得到BAM文件,但偶尔我们也需要提取BAM文件中特定区域中fastq.最开始我认为这是一个非常简单的操作,因为samtools其实已经提供了 ...

最新文章

  1. Http协议原理解析
  2. 成本并非企业奔向云计算的唯一原因
  3. Keil uVision5 下载程序 add flash programming algorithm选项缺少需要的下载算法的解决办法
  4. 【AI不惑境】残差网络的前世今生与原理
  5. dropout理解(三)
  6. hdu-2612-Find a way(广搜,bfs)
  7. Django实战(10):单元测试
  8. PHP数组的访问方法有几种,PHP数组的几种遍历方法
  9. linux oom-killer
  10. 绑定校园卡服务器没有响应,单击校园卡管理系统常见问题汇总.doc
  11. [裴礼文数学分析中的典型问题与方法习题参考解答]5.1.8
  12. linux免费私人云盘软件,Appnode+kodexplorer免费搭建私有云盘
  13. 尔雅大学计算机基础知识点,超星尔雅_大学计算机基础_章节测试答案
  14. mysql登录框万能密码_网站登录万能密码
  15. 《MySQL DBA: InnoDB_doublewrite/ChangeBuffer/AHI/FNP》
  16. 斑马打印机ZPL语言和EPL语言的区别是什么
  17. 登陆+注册(vue+elementUI)
  18. 计算机专业招聘人才的需求,对计算机专业人才需求现状
  19. ln x的matlab表示,ln在matlab中怎么表示
  20. 搞数仓也得懂几个常用机器学习算法

热门文章

  1. 2021综述:视频监控中的多目标跟踪
  2. 基于激光点云语义信息的闭环检测
  3. 今日最佳:导师给你指了一个研究方向后...
  4. “双一流”本科生可得13.2万补贴!这座城市发布重磅人才新政
  5. 学生服务器选用什么系统,学生云服务器系统选择
  6. ListFileItem fileItems=sfu.parseRequest(request); fileitems 为,空
  7. 机器学习-卷积神经网络简介
  8. pyhton 中的字符串切片问题
  9. MPB:山大倪金凤组-白蚁肠道木质纤维素降解细菌的分离与培养
  10. 耗时很长的程序忘加nohup就运行了怎么办?