OrthoMCL是目前最常用的基因家族分析软件,从2013年发布2.0版本之后再也没有更新过,虽然它的安装过程复杂负责,但是依旧挡不住大家对他的喜好。

当然软件安装复杂是相对于之前,现在用Docker就可以轻松的安装和使用OrthoMCL。由于

docker pull jasonkwan/orthomcl_docker

由于该容器自带一个run_orthomcl.py, 只要你准备好输入数据和配置文件,就能够自动化进行分析.

其中run_orthomcl.py的参数有5个

  • -t/--table_path fasta_table的文件路径
  • -s/--start_stage: 开始阶段,1,2,3,4
  • -e/--end_stage: 结束阶段, 1,2,3,4
  • -p/--processors: 线程数
  • -c/--config_file: 配置文件

其中-s和-e的1-4分别对应为

  • 1: 使用orthomclAdjustFasta, orthomclFilterFasta进行数据预处理
  • 2: 使用DIAMOND进行all-vs-all blast
  • 3: 使用MySQL数据库寻找配对
  • 4: 使用MCL处理配对

分析流程

我们以一个具体的案例说明下。新建一个文件夹,例如说test, 里面是收集好的物种氨基酸序列。

$ ls
Alyrata.faa  Athaliana.faa  Chirsuta.faa

由于Docker版本的OrthoMCL使用DIAMOND进行blastp比对,因此一定要保证你的氨基酸序列中没有".",否则会报错。可以用seqkit grep过滤不合格的序列。

seqkit grep -s -vrp '"\."' input.fa > output.faa

之后创建一个fasta_table,放在test目录下。该文件分为两列,第一列是文件名,第二列是缩写。

Alyrata.faa Aly
Athaliana.faa   Ath
Chirsuta.faa    Chi

准备配置文件orthomcl.config,同样放在test目录下

dbVendor=mysql
dbConnectString=dbi:mysql:orthomcl:mysql_local_infile=1
dbLogin=root
dbPassword=PAssw0rd
similarSequencesTable=SimilarSequences
orthologTable=Ortholog
inParalogTable=InParalog
coOrthologTable=CoOrtholog
interTaxonMatchView=InterTaxonMatch
percentMatchCutoff=50
evalueExponentCutoff=-5
oracleIndexTblSpc=NONE

在test同级目录下运行如下命令

docker run --privileged=true  --rm -it --volume $PWD/test:/outdir:rw jasonkwan/orthomcl_docker:latest bash

就会进入Docker的交互命令行,运行run_orthomcl.py

cd outdir
run_orthomcl.py --table_path fasta_table --config_file orthomcl.config --processors 32 &

假如不希望进入交互命令行,那么需要按照下面的方法进行运行

docker run --privileged=true  --rm --volume $PWD/test:/outdir:rw jasonkwan/orthomcl_docker:latest /bin/bash -c "/tmp/.runconfig.sh && run_orthomcl.py --table_path /outdir/fasta_table --config_file /outdir/orthomcl.config --processors 32 "

最终输出结果是groups.txt。下一个问题是,当你有了groups.txt后,下面能做什么分析呢?

按照对基因组学文章的整理,基本上就是下面两个

  • 使用单拷贝基因构建系统发育树。
  • 使用CAFE进行基因家族扩张收缩分析

我正在找一篇文章尝试重现这个流程。

参考资料

  • https://hub.docker.com/r/jasonkwan/orthomcl_docker
  • https://bitbucket.org/jason_c_kwan/orthomcl_docker/src/master/Dockerfile
  • 特别感谢Leo在Docker上的帮助
  • Dockerfile中CMD和ENTRYPOINT: https://www.cnblogs.com/sparkdev/p/8461576.html

使用OrthoMCL鉴定直系同源基因组相关推荐

  1. 几种同源关系:直系同源、旁系同源和异同源

    搞生物信息的必须搞清楚这几种同源关系! 参考:直系同源和旁系同源 直系同源(orthologous) 指的是不同物种之间的同源性,例如蛋白质的同源性,DNA序列的同源性.Orthologs是指来自于不 ...

  2. COG:直系同源蛋白数据库

    为了研究不同物种间保守的蛋白功能,进一步揭示其进化关系,1997年的时候科学家选取了七个完整基因组的蛋白序列,根据序列和功能相似性,将这些蛋白进行了分类.这个分类叫做cluster of orthol ...

  3. Nature:基于宏基因组测序构建人类肠道微生物组参考基因集

    文章目录 基于宏基因组测序构建人类肠道微生物组参考基因集 文章影响 作者简介 热心肠日报 摘要 正文 宏基因组测序肠道微生物组 图1. 人类肠道微生物组的覆盖度 人类肠道微生物组的基因集 图2. 预测 ...

  4. NBT:人类微生物组千万基因的参考基因集

    文章目录 人类肠道中整合参考基因集 热心肠日报 摘要 要点 Main 结果Results 构建整合基因集 图1. IGC的构建 整合基因集的质量和完整度 图2. IGC覆盖度 IGC中的物种 图3. ...

  5. 使用OrthoFinder进行基因家族分析

    谈论到直系同源基因分析的时候,大部分教程都是介绍OrthoMCL,这是2003年发表的一个工具,目前的引用次数已经达到了3000多,但这个软件似乎在2013年之后就不在更新,而且安装时还需要用到MyS ...

  6. NC | 土壤微生物组的结构和功能揭示全球湿地N2O释放

    点击蓝字,关注我们 编译:林丽敏     校稿:朱琪 论文ID 原名:Structure and function of the soil microbiome underlying N2O emis ...

  7. MPB:微生物所东秀珠组-​​基于16S rRNA基因和基因组序列对细菌物种的初步鉴定...

    为进一步提高<微生物组实验手册>稿件质量,本项目新增大众评审环节.文章在通过同行评审后,采用公众号推送方式分享全文,任何人均可在线提交修改意见.公众号格式显示略有问题,建议电脑端点击文末阅 ...

  8. EID:宏基因组测序在新发腹泻病毒鉴定中的应用

    宏基因组测序在新发腹泻病毒鉴定中的应用 撰文:李杰 常熟理工学院生物与食品工程学院 责编:刘永鑫 中科院遗传发育所 写在前面 发现和鉴定新病毒以及确定新病毒与疾病的关系是预防.诊断和治疗新发病毒性传染 ...

  9. 一作解读:EID-2017-宏基因组测序在新发腹泻病毒鉴定中的应用

    文章目录 宏基因组测序在新发腹泻病毒鉴定中的应用 写在前面 背景 研究方法 病料收集与反饲 文库构建 基因组组装 基因组注释 研究结果 Reference 作者简介 猜你喜欢 写在后面 宏基因组测序在 ...

最新文章

  1. Zabbix邮件报警设置方法
  2. boost::hana::test::TestLogical用法的测试程序
  3. java线程实现及线程池的使用
  4. RocketMQ核心概念(翻译)
  5. 最新深度学习文本分类模型汇总(github开源)
  6. NotificationManager和Notification区别
  7. 【Saba MMD Win10x64编译】
  8. 模拟器安装 xposed
  9. 机械秒表的使用方法_秒表、机械秒表、504秒表,505无暂停机械秒表
  10. 华为防火墙基于IP地址的带宽管理
  11. 【笔记】ThreadFactory自定义线程名前缀
  12. 百度网盘打不开的问题的解决
  13. 加速媒体业务智能化升级 第四范式发布智能推荐系统先荐
  14. WPF免费绘图库推荐
  15. [转]十分简明易懂的FFT(快速傅里叶变换)
  16. 永恒之境服务器维护,7月22日服务器例行维护公告(已完成)
  17. 对象及变量的并发访问(案例加总结)--学习笔记
  18. 8月5号 图论,拓扑排序入门
  19. OpenV2X 车路协同开源平台 Columbia 版本正式发布!
  20. mysql rpo是什么意思_揭开数据库RPO等于0的秘密(下)

热门文章

  1. 与 Hadoop 对比,如何看待 Spark 技术?
  2. Linux 每天定时关机 设置
  3. Avnet EDI需求分析
  4. C/C++游戏项目详细教程:《贪吃蛇》
  5. Beyond Compare 4.2.9破解
  6. win7如何显示隐藏文件与文件夹
  7. ps学习笔记2(修复无损、水印等方法)
  8. 【SSD论文解读】 论文中用到的数据集:Pascal VOC、MS COCO、ImageNet
  9. Android SQLite之乐学成语项目数据库存储
  10. Fastjson介绍