Basic local alignment search tool (BLAST)
Basic local alignment search tool (BLAST)
包括:blastn, blastp, blastx, tblastn, tblastx等. 使用conda安装即可。
conda install -c bioconda blast
# blast安装perl模块的方法
conda install perl-digest-md5
本地BLAST的基本步骤
- 用makeblastdb为BLAST提供数据库
- 选择blast工具,blastn,blastp
- 运行工具,有必要的还可以对输出结果进行修饰
第一步:建立检索所需数据库
BLAST数据库分为两类,核酸数据库和氨基酸数据库,可以用makeblastbd
创建。可以用help参数简单看下说明。
$ makeblastdb -help
USAGEmakeblastdb [-h] [-help] [-in input_file] [-input_type type]-dbtype molecule_type [-title database_title] [-parse_seqids][-hash_index] [-mask_data mask_data_files] [-mask_id mask_algo_ids][-mask_desc mask_algo_descriptions] [-gi_mask][-gi_mask_name gi_based_mask_names] [-out database_name][-max_file_sz number_of_bytes] [-logfile File_Name] [-taxid TaxID][-taxid_map TaxIDMapFile] [-version]
-dbtype <String, `nucl', `prot'>
具体以拟南芥基因组作为案例,介绍使用方法:
注: 拟南芥的基因组可以在TAIR上下在,也可在ensemblgenomes下载。后者还可以下载其他植物的基因组
# 下载基因组
wget ftp://ftp.ensemblgenomes.org/pub/plants/release-36/fasta/arabidopsis_thaliana/dna/Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz
gzip -d Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz
# 构建核酸BLAST数据库
makeblastdb -in Arabidopsis_thaliana.TAIR10.dna.toplevel.fa -dbtype nucl -out TAIR10 -parse_seqids# 下载拟南芥protein数据
wget ftp://ftp.ensemblgenomes.org/pub/plants/release-36/fasta/arabidopsis_thaliana/pep/Arabidopsis_thaliana.TAIR10.pep.all.fa.gz
# 构建蛋白BLAST数据库
gzip -d Arabidopsis_thaliana.TAIR10.pep.all.fa.gz
makeblastdb -in Arabidopsis_thaliana.TAIR10.pep.all.fa -dbtype prot -out TAIR10 -parse_seqids
如果你从NCBI或者其他渠道下载了格式化过的数据库,那么可以用blastdbcmd
去检索blast数据库,参数很多,常用就如下几个
- db string : string表示数据库所在路径
- dbtype string,: string在(guess, nucl, prot)中选择一个
- 检索相关参数
- -entry all 或 555, AC147927 或 gnl|dbname|tag'
- -entry_batch 提供一个包含多个检索关键字的文件
- -info 数据库基本信息
- 输出格式 -outfmt %f %s %a %g ...默认是%f
- out 输出文件
- show_blastdb_search_path: blast检索数据库路径
使用案例
# 查看信息
blastdbcmd -db TAIR10 -dbtype nucl -info
# 所有数据
blastdbcmd -db TAIR10 -dbtype nucl -entry all | head
# 具体关键字,如GI号
blastdbcmd -db TAIR10 -dbtype nucl -entry 3 | head
还有其他有意思的参数,可以看帮助文件了解
可选:BLAST安装和更新nr和nt库
安装nt/nr库需要先进行环境变量配置,在家目录下新建一个.ncbirc
配置文件,然后添加如下内容
Basic local alignment search tool (BLAST)相关推荐
- Efficient local alignment discovery amongst noisy long reads
有效的局部比对发现在嘈杂的长读 Long read sequencers portend the possibility of producing reference quality genomes ...
- 图像拼接--Construction and Refinement of Panoramic Mosaics with Global and Local Alignment
Construction and Refinement of Panoramic Mosaics with Global and Local Alignment International Confe ...
- 「一文搞定序列比对算法」Global以及Local Alignment序列比对算法的实现
序列比对是什么以及序列比对主要的作用是什么,本篇博客就一笔带过,因为不是主要分享内容. 序列比对,此处引申为pairwise alignment会更加恰当一些,用于比较2条序列之间的相似程度,推断它们 ...
- 【AM】Glow-TTS: A Generative Flow for Text-to-Speech via Monotonic Alignment Search
文章目录 1. Related Work 1.1. Alignment Estimation between Text and Speech 1.2. Text-to-Speech Models 1. ...
- SAP CRM Service Order search Tool
Created by Jerry Wang, last modified on Mar 21, 2014 这个工具能够根据UI 上的search条件( Main Category和Created on ...
- 从FASTQ到BAM经历了什么?
第2期 从FASTQ到BAM经历了什么? GeneDock聚道科技 为生命计算,助看病不难! 已关注 杨杨杨 等 20 人赞同了该文章 生信小白:肉哥啊,上次介绍了数据处理过程中的三种重要格式,那从F ...
- 从技术上解读大数据的应用现状和开源未来
来源:网络大数据 作者 | 韩锐. Lizy Kurian John.詹剑锋 摘要:近年来,随着大数据系统的快速发展,各式各样的开源基准测试集被开发出来,以评测和分析大数据系统并促进其技术改进.然而, ...
- 从技术上解读大数据的应用现状和开源未来! | 技术头条
作者 | 韩锐. Lizy Kurian John.詹剑锋 责编 | 胡巍巍 近年来,随着大数据系统的快速发展,各式各样的开源基准测试集被开发出来,以评测和分析大数据系统并促进其技术改进.然而,迄今为 ...
- bam获取序列_如何从BAM文件中提取fastq
虽然高通量测序分析最常用的操作是将fastq比对到参考基因组得到BAM文件,但偶尔我们也需要提取BAM文件中特定区域中fastq.最开始我认为这是一个非常简单的操作,因为samtools其实已经提供了 ...
最新文章
- Http协议原理解析
- 成本并非企业奔向云计算的唯一原因
- Keil uVision5 下载程序 add flash programming algorithm选项缺少需要的下载算法的解决办法
- 【AI不惑境】残差网络的前世今生与原理
- dropout理解(三)
- hdu-2612-Find a way(广搜,bfs)
- Django实战(10):单元测试
- PHP数组的访问方法有几种,PHP数组的几种遍历方法
- linux oom-killer
- 绑定校园卡服务器没有响应,单击校园卡管理系统常见问题汇总.doc
- [裴礼文数学分析中的典型问题与方法习题参考解答]5.1.8
- linux免费私人云盘软件,Appnode+kodexplorer免费搭建私有云盘
- 尔雅大学计算机基础知识点,超星尔雅_大学计算机基础_章节测试答案
- mysql登录框万能密码_网站登录万能密码
- 《MySQL DBA: InnoDB_doublewrite/ChangeBuffer/AHI/FNP》
- 斑马打印机ZPL语言和EPL语言的区别是什么
- 登陆+注册(vue+elementUI)
- 计算机专业招聘人才的需求,对计算机专业人才需求现状
- ln x的matlab表示,ln在matlab中怎么表示
- 搞数仓也得懂几个常用机器学习算法
热门文章
- 2021综述:视频监控中的多目标跟踪
- 基于激光点云语义信息的闭环检测
- 今日最佳:导师给你指了一个研究方向后...
- “双一流”本科生可得13.2万补贴!这座城市发布重磅人才新政
- 学生服务器选用什么系统,学生云服务器系统选择
- ListFileItem fileItems=sfu.parseRequest(request); fileitems 为,空
- 机器学习-卷积神经网络简介
- pyhton 中的字符串切片问题
- MPB:山大倪金凤组-白蚁肠道木质纤维素降解细菌的分离与培养
- 耗时很长的程序忘加nohup就运行了怎么办?