DIAMOND: 超快的蛋白序列比对软件
相见恨晚,还好遇到了它
今天用BLASTX将我的转录本序列在UniProt蛋白数据库(700w条序列)中搜索,80个线程,过了1小时大概就分析1000条吧。实在是有点慢,于是我想到之前耳闻的DIAMOND,据说速度非常快,于是我测试了下。没想到,这工具居然那么快。
根据DIAMOND介绍,它有以下特点
- 比BLAST快500到20,000倍
- 长序列的移框联配分析(frameshift alignment)
- 资源消耗小,普通台式机和笔记本都能运行
- 输出格式多样
我就看中它一点,速度快。
软件安装异常的简单,因为提供了预编译的64位可执行文件
wget http://github.com/bbuchfink/diamond/releases/download/v0.9.25/diamond-linux64.tar.gz
tar xzf diamond-linux64.tar.gz
# 有root全新啊
sudo mv diamond /usr/local/bin
# 无root权限, ~/bin是自己当前目录下
mv diamond ~/bin
因为 diamon的功能就是将蛋白或者翻译后的核苷酸和蛋白数据库进行比对,没有BLAST那么多功能,所以软件使用也是异常的简单。
第一步: 先从NCBI上下载蛋白数据库。 NR库是NCBI的非冗余蛋白数据库,
wget ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz
gunzip nr.gz
也可以从ftp://ftp.ncbi.nlm.nih.gov/refseq/release/plant/下载植物的蛋白数据库
第二步: 建库。就两个参数,--in nr
输入文件,--db nr
输出的数据库前缀
diamond makedb --in nr --db nr
第三步: 搜索。就两个子命令,blastp和blastx,前者比对蛋白,后者比对DNA序列
diamond blastx --db nr -q reads.fna -o dna_matches_fmt6.txt
diamond blastp --db nr -q reads.faa -o protein_matches_fmt6.txt
-q/--query
输入检索序列,--out/-o
输出文件,默认以--outfmt 6
输出结果和BLAST+的--outfmt 6
结果一致。
注意事项:
- 默认参数主要是针对段短序列,对于比较长的序列,使用
--sensitive
或--more-senstive
提高敏感度。 - 默认的e-value阈值是0.001, 而BLAST是10,因此会比BLAST结果更加严格
性能优化:
- 设置比较低的
-e
参数 - 设置
-k
参数,减少输出的联配数目。这会降低临时文件大小和最终结果 --top
会输出得分比最好的分数低一定百分比的结果,--compress 1
: 输出结果会以gzip进行压缩
参考文献
Benjamin Buchfink, Chao Xie, and Daniel H. Huson. Fast and sensitive protein alignment
using diamond. Nature methods, 12(1):59–60, Jan 2015.
版权声明:本博客所有文章除特别声明外,均采用 知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议 (CC BY-NC-ND 4.0) 进行许可。
DIAMOND: 超快的蛋白序列比对软件相关推荐
- WebMGA:超快的基因组序列聚类注释在线工具
文章目录 超快的基因组序列聚类注释在线工具WebMGA 序列聚类cd-hit 基因预测ORF prediction 蛋白COG注释 作者简介 参考文献 猜你喜欢 写在后面 超快的基因组序列聚类注释在线 ...
- Kraken:使用精确比对的超快速宏基因组序列分类软件
文章目录 Kraken:使用精确比对的超快速宏基因组序列分类 热心肠日报 摘要 主要结果 图1. Kraken序列分类算法 图2. 基于三个模拟宏基因组的分类程序准确性和速度比较 图3. 基于三个模拟 ...
- STAR: ultrafast universal RNA-seq aligner STAR:超快的通用RNA-seq比对器
STAR:超快的通用RNA-seq比对器 动机:因为不连续的转录本结构,相对短的片段长度,和测序技术持续增加的通量,高通量RNA-seq数据的准确比对是一个有挑战性且仍未解决的问题.当前可用的RNA- ...
- 三代测序数据超快组装软件--大牛Li heng 力作
三代测序数据超快组装软件--大牛Li heng 力作 (2017-06-19 16:53:46) 转载▼ 分类: 三代 1:软件链接:https://github.com/lh3/miniasm ...
- 《预训练周刊》第6期:GAN人脸预训练模型、通过深度生成模型进行蛋白序列设计
No.06 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第6期< ...
- AAAI21最佳论文Informer:效果远超Transformer的长序列预测神器???
Informer:最强最快的序列预测神器??? AAAI21最佳论文Informer:效果远超Transformer的长序列预测神器! 01 简介 在很多实际应用问题中,我们需要对长序列时间序列进行预 ...
- AAAI21最佳论文Informer:效果远超Transformer的长序列预测神器!
Informer:最强最快的序列预测神器 AAAI21最佳论文Informer:效果远超Transformer的长序列预测神器! 作者:一元,公众号:炼丹笔记 01 简介 在很多实际应用问题中,我们需 ...
- AAAI2020/风格迁移:Ultrafast Photorealistic Style Transfer via Neural Architecture基于神经结构搜索的超快逼真风格转移
AAAI2020/风格迁移:Ultrafast Photorealistic Style Transfer via Neural Architecture基于神经结构搜索的超快逼真风格转移 0.摘要 ...
- 利用Transformer替代MSA从蛋白序列中学习Contact Map
点击上方"CVer",选择加"星标"置顶 重磅干货,第一时间送达 本文转载自:GoDesign --背景-- 基于深度学习的蛋白结构预测在近年来取得了不少突破, ...
- ECCV2020|超快的车道线检测,代码模型已开源
作者|cfzd 来源|https://zhuanlan.zhihu.com/p/157530787 很高兴和大家分享一下我们刚刚被 ECCV 2020 接收的新工作:一种超快速的车道线检测算法(Ult ...
最新文章
- Linux下统计当前文件夹下的文件个数、目录个数
- 磁盘加密软件TrueCrypt知识大全(三)之加密非系统分区/设备
- 主定理(master theorem)学习小记
- java内存高水位_jvm(1)---java内存结构
- STM32项目(六)—— 中文电子捡货标签
- OpenFeign, Zuul, Gateway相互不兼容的问题总结
- 【转】 基于C#.NET的高端智能化网络爬虫 2
- Thrift在windows7下的安装与实践
- 计算机硬盘换,无需重新安装系统即可更换硬盘的方法(计算机无需重新安装系统即可更换硬盘)...
- 计算机硬件测试流程,驱动精灵如何检测电脑硬件 检测硬件看完你就懂了
- tk免费顶级域名注册及使用
- tippy.js_Tippy.js的指令包装
- java.sql.SQLException: Incorrect string value: '\xF0\x9F\x90\x94
- 【工具-DVWA】DVWA的安装和使用
- 快速编写HTML代码常用的方法
- ZZULI - 小新三连(二):小新在努力
- python爬取旅游信息_用Python爬取分析全国旅游数据-Go语言中文社区
- 金字塔原理(6)- 确定逻辑顺序
- 关于aPaaS平台的那些事儿
- 量子计算机是伪科学,别再被伪科学“量子产品”蒙蔽了