相见恨晚,还好遇到了它

今天用BLASTX将我的转录本序列在UniProt蛋白数据库(700w条序列)中搜索,80个线程,过了1小时大概就分析1000条吧。实在是有点慢,于是我想到之前耳闻的DIAMOND,据说速度非常快,于是我测试了下。没想到,这工具居然那么快。

根据DIAMOND介绍,它有以下特点

  • 比BLAST快500到20,000倍
  • 长序列的移框联配分析(frameshift alignment)
  • 资源消耗小,普通台式机和笔记本都能运行
  • 输出格式多样

我就看中它一点,速度快。

软件安装异常的简单,因为提供了预编译的64位可执行文件

wget http://github.com/bbuchfink/diamond/releases/download/v0.9.25/diamond-linux64.tar.gz
tar xzf diamond-linux64.tar.gz
# 有root全新啊
sudo mv diamond /usr/local/bin
# 无root权限, ~/bin是自己当前目录下
mv diamond ~/bin

因为 diamon的功能就是将蛋白或者翻译后的核苷酸和蛋白数据库进行比对,没有BLAST那么多功能,所以软件使用也是异常的简单。

第一步: 先从NCBI上下载蛋白数据库。 NR库是NCBI的非冗余蛋白数据库,

wget ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz
gunzip nr.gz

也可以从ftp://ftp.ncbi.nlm.nih.gov/refseq/release/plant/下载植物的蛋白数据库

第二步: 建库。就两个参数,--in nr输入文件,--db nr 输出的数据库前缀

diamond makedb --in nr --db nr

第三步: 搜索。就两个子命令,blastp和blastx,前者比对蛋白,后者比对DNA序列

diamond blastx --db nr -q reads.fna -o dna_matches_fmt6.txt
diamond blastp --db nr -q reads.faa -o protein_matches_fmt6.txt

-q/--query输入检索序列,--out/-o输出文件,默认以--outfmt 6输出结果和BLAST+的--outfmt 6结果一致。

注意事项:

  • 默认参数主要是针对段短序列,对于比较长的序列,使用--sensitive--more-senstive提高敏感度。
  • 默认的e-value阈值是0.001, 而BLAST是10,因此会比BLAST结果更加严格

性能优化:

  • 设置比较低的-e参数
  • 设置-k参数,减少输出的联配数目。这会降低临时文件大小和最终结果
  • --top会输出得分比最好的分数低一定百分比的结果,
  • --compress 1: 输出结果会以gzip进行压缩

参考文献

Benjamin Buchfink, Chao Xie, and Daniel H. Huson. Fast and sensitive protein alignment
using diamond. Nature methods, 12(1):59–60, Jan 2015.


版权声明:本博客所有文章除特别声明外,均采用 知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议 (CC BY-NC-ND 4.0) 进行许可。

扫码即刻交流

DIAMOND: 超快的蛋白序列比对软件相关推荐

  1. WebMGA:超快的基因组序列聚类注释在线工具

    文章目录 超快的基因组序列聚类注释在线工具WebMGA 序列聚类cd-hit 基因预测ORF prediction 蛋白COG注释 作者简介 参考文献 猜你喜欢 写在后面 超快的基因组序列聚类注释在线 ...

  2. Kraken:使用精确比对的超快速宏基因组序列分类软件

    文章目录 Kraken:使用精确比对的超快速宏基因组序列分类 热心肠日报 摘要 主要结果 图1. Kraken序列分类算法 图2. 基于三个模拟宏基因组的分类程序准确性和速度比较 图3. 基于三个模拟 ...

  3. STAR: ultrafast universal RNA-seq aligner STAR:超快的通用RNA-seq比对器

    STAR:超快的通用RNA-seq比对器 动机:因为不连续的转录本结构,相对短的片段长度,和测序技术持续增加的通量,高通量RNA-seq数据的准确比对是一个有挑战性且仍未解决的问题.当前可用的RNA- ...

  4. 三代测序数据超快组装软件--大牛Li heng 力作

    三代测序数据超快组装软件--大牛Li heng 力作 (2017-06-19 16:53:46) 转载▼   分类: 三代 1:软件链接:https://github.com/lh3/miniasm ...

  5. 《预训练周刊》第6期:GAN人脸预训练模型、通过深度生成模型进行蛋白序列设计

    No.06 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第6期< ...

  6. AAAI21最佳论文Informer:效果远超Transformer的长序列预测神器???

    Informer:最强最快的序列预测神器??? AAAI21最佳论文Informer:效果远超Transformer的长序列预测神器! 01 简介 在很多实际应用问题中,我们需要对长序列时间序列进行预 ...

  7. AAAI21最佳论文Informer:效果远超Transformer的长序列预测神器!

    Informer:最强最快的序列预测神器 AAAI21最佳论文Informer:效果远超Transformer的长序列预测神器! 作者:一元,公众号:炼丹笔记 01 简介 在很多实际应用问题中,我们需 ...

  8. AAAI2020/风格迁移:Ultrafast Photorealistic Style Transfer via Neural Architecture基于神经结构搜索的超快逼真风格转移

    AAAI2020/风格迁移:Ultrafast Photorealistic Style Transfer via Neural Architecture基于神经结构搜索的超快逼真风格转移 0.摘要 ...

  9. 利用Transformer替代MSA从蛋白序列中学习Contact Map

    点击上方"CVer",选择加"星标"置顶 重磅干货,第一时间送达 本文转载自:GoDesign --背景-- 基于深度学习的蛋白结构预测在近年来取得了不少突破, ...

  10. ECCV2020|超快的车道线检测,代码模型已开源

    作者|cfzd 来源|https://zhuanlan.zhihu.com/p/157530787 很高兴和大家分享一下我们刚刚被 ECCV 2020 接收的新工作:一种超快速的车道线检测算法(Ult ...

最新文章

  1. Linux下统计当前文件夹下的文件个数、目录个数
  2. 磁盘加密软件TrueCrypt知识大全(三)之加密非系统分区/设备
  3. 主定理(master theorem)学习小记
  4. java内存高水位_jvm(1)---java内存结构
  5. STM32项目(六)—— 中文电子捡货标签
  6. OpenFeign, Zuul, Gateway相互不兼容的问题总结
  7. 【转】 基于C#.NET的高端智能化网络爬虫 2
  8. Thrift在windows7下的安装与实践
  9. 计算机硬盘换,无需重新安装系统即可更换硬盘的方法(计算机无需重新安装系统即可更换硬盘)...
  10. 计算机硬件测试流程,驱动精灵如何检测电脑硬件 检测硬件看完你就懂了
  11. tk免费顶级域名注册及使用
  12. tippy.js_Tippy.js的指令包装
  13. java.sql.SQLException: Incorrect string value: '\xF0\x9F\x90\x94
  14. 【工具-DVWA】DVWA的安装和使用
  15. 快速编写HTML代码常用的方法
  16. ZZULI - 小新三连(二):小新在努力
  17. python爬取旅游信息_用Python爬取分析全国旅游数据-Go语言中文社区
  18. 金字塔原理(6)- 确定逻辑顺序
  19. 关于aPaaS平台的那些事儿
  20. 量子计算机是伪科学,别再被伪科学“量子产品”蒙蔽了

热门文章

  1. 浅谈歌词文件(LRC、QRC、KRC)
  2. javascript定时器的计时事件
  3. MFC显示位图和显示透明位图
  4. 如何下载全国行政边界线(国界、省界、县界、乡镇界)
  5. 查看Android应用签名信息
  6. linux win10五笔码表,wubiLex(Win10微软五笔码表安装管理助手)V9.6.0.1 正式版
  7. 40个增长和管理你的WordPress网站的有用博客工具
  8. win10 专业版安装系统
  9. HDTunePro v5.00 硬盘专业工具(绿色版)
  10. 我是如何自学C语言的(一个菜鸟的学习路)