在基因组注释上,MAKER算是一个很强大的分析流程。能够识别重复序列,将EST和蛋白序列比对到基因组,进行从头预测,并在最后整合这三个结果保证结果的可靠性。此外,MAKER还可以不断训练,最初的输出结果可以继续用作输入训练基因预测的算法,从而获取更高质量的基因模型。

Maker的使用比较简单,在软件安装成后,会有一个"data"文件夹存放测试数据

ls ~/opt/biosoft/maker/data
dpp_contig.fasta  dpp_est.fasta  dpp_protein.fasta  hsap_contig.fasta  hsap_est.fasta  hsap_protein.fasta  te_proteins.fasta

以"dpp"开头的数据集为例,protein表示是同源物种的蛋白序列,est是表达序列标签,存放的是片段化的cDNA序列,而contig则是需要被预测的基因组序列。

让我们新建一个文件夹,并将这些测试数据拷贝过来。

mkdir test01 ; cd test01
cp ~/opt/biosoft/maker/data/dpp* .

由于基因组注释设计到多个程序,多个步骤,每个步骤可能都有很多参数需要调整,因此就需要建立专门的配置文件用来告诉maker应该如何控制流程的运行。

如下步骤创建三个以ctl结尾的配置文件

~/opt/biosoft/maker/bin/maker -CTL
ls *.ctl
maker_bopts.ctl  maker_exe.ctl  maker_opts.ctl
  • maker_exe.ctl: 执行程序的路径
  • maker_bopt.ctl: BLAST和Exonerat的过滤参数
  • maker_opt.ctl: 其他信息,例如输入基因组文件

maker_exe.ctl和maker_bopt.ctl可以简单用less查看,可不做修改,maker_opt.ctl是主要调整的对象。 使用vim maker_opt.ctl修改如下内容

genome=dpp_contig.fasta
est=dpp_est.fasta
protein=dpp_protein.fasta
est2genome=1

修改完之后多花几分钟看看每个参数的设置,尽管很枯燥,但是考虑这个工具你可能会反复多次使用,所以这点时间是一定要花的。

随后就可以在当前路径运行程序

~/opt/biosoft/maker/bin/maker &> maker.log &

输出结果见"dpp_contig.maker.output", 重点是"dpp_contig_master_datastore_index.log"文件,由于maker会拆分数据集并行计算,因此该文件记录总体的运行情况,需要关注其中是否有"FAILED","RETRY","SKIPPED_SAMLL","DIED_SIPPED_PERMANET",因为这意味着有些数据出于某些原因没有运算。

最后,我们需要将并行运算的结果进行整合,导出GFF文件, 转录本序列和蛋白序列

~/opt/biosoft/maker/bin/fasta_merge -d dpp_contig_master_datastore_index.log
~/opt/biosoft/maker/bin/gff3_merge -d dpp_contig_master_datastore_index.log

在该目录下就会出现, "dpp_contig.all.gff", "dpp_contig.all.maker.proteins.fasta","dpp_contig.all.maker.transcripts.fasta"

其中GFF文件就需要用IGV,JBrowse, Apollo下展示来检查下注释是否正确。

附录

软件安装:MAKER可以免费用于学术用途,但是未经许可不可商用。目前有两个版本2018年5月4日更新的2.31.10和测试版3.01.02.出于稳定性考虑,安装前者。后续假设已经在http://yandell.topaz.genetics.utah.edu/cgi-bin/maker_license.cgi进行登记,并且下载了压缩包"maker-2.31.10.tgz"

先检查下自己的系统情况,看需要补充哪些库

tar xf maker-2.31.10.tgz
cd maker/src
perl Build.PL

这一步之后会罗列出后续需要运行的命令来完成安装

./Build installdeps
./Build installexes
./Build install
./Build status

参考资料

  • Genome Annotation and Curation Using MAKER and MAKER-P

使用MAKER进行全基因组基因注释-基础篇相关推荐

  1. 全基因组重测序基础及高级分析知识汇总

    全基因组重测序基础及高级分析知识汇总 oddxix 已关注 2018.09.20 17:04 字数 11355 阅读 212评论 0喜欢 6 转自:http://www.360doc.com/cont ...

  2. Prokka:快速原核基因组、宏基因组基因注释

    文章目录 Prokka:快速原核基因组注释 热心肠日报 摘要 1 简介 2 描述 2.1 输入 2.2 注释 表1 Prokka使用的功能预测工具 2.3 输出 表2. 输出结果介绍 3 结果 表3. ...

  3. 【ESP32最全学习笔记(基础篇)——1.ESP32简介】

      ESP32 新手?从这里开始! 关于本教程: ESP32 基础篇                                 1.ESP32简介 ☑ 2.ESP32 Arduino 集成开发环 ...

  4. 【ESP32最全学习笔记(基础篇)——5.ESP32 数字输入和数字输出(Arduino IDE)】

    关于本教程: ESP32 基础篇 1.ESP32简介 2.ESP32 Arduino 集成开发环境 3.VS 代码和 PlatformIO 4.ESP32 引脚 5.ESP32 输入输出 ☑ 6.ES ...

  5. 【ESP32最全学习笔记(基础篇)——9.ESP32 深度睡眠模式】

    关于本教程: ESP32 基础篇 1.ESP32简介 2.ESP32 Arduino 集成开发环境 3.VS 代码和 PlatformIO 4.ESP32 引脚 5.ESP32 输入输出 6.ESP3 ...

  6. 【ESP32最全学习笔记(基础篇)——4.ESP32 引脚介绍】

    关于本教程: ESP32 基础篇 1.ESP32简介 2.ESP32 Arduino 集成开发环境 3.VS 代码和 PlatformIO 4.ESP32 引脚 ☑ 5.ESP32 输入输出 6.ES ...

  7. 使用MAKER进行基因注释(高级篇之GeneMark-ET模型训练)

    GeneMarkGeorgia Institute of Technology开发的一系列基因预测工具.真核生物基因组预测主要会用到GeneMark-ES/ET, 其中GeneMark-ES可用于无监 ...

  8. 使用MAKER进行基因注释(高级篇之AUGUSTUS模型训练)

    准备训练集和测试集 根据Augutus的官方教程,可靠的基因结构序列的要求如下: 提供基因的编码部分,包含上游几KB.通常而言,基因越多,效果越好,至少准备200个基因以上.还得保证这些基因中要有足够 ...

  9. GEMMA 全基因组关联分析+CMplot多性状曼哈顿+QQ图脚本

    这里写自定义目录标题 GEMMA 全基因组关联分析+CMplot多性状曼哈顿+QQ图脚本 GEMMA 全基因组关联分析+CMplot多性状曼哈顿+QQ图脚本 ###GEMMA 全基因组关联分析+CMp ...

  10. Nat. Commun | 用于全基因组药物重定位的系统网络算法

    1. 背景 DNA/RNA测序的最新进展实现了通过"精确"定位个性化疾病模块来快速识别新靶标并重新利用已批准的药物治疗异质性疾病.基因组学时代,药物开发已成为高度集成的系统性问题, ...

最新文章

  1. react 统一字段验证_如何使用React的受控输入进行即时表单字段验证
  2. Android LruCache 压缩图片 有效避免程序OOM
  3. MobileNet、GhostNet理解及测试
  4. matlab pca可视化,利用Matlab实现PCA demo展示
  5. mysql链路跟踪工具_EasySwoole利用链路追踪组件制作甩锅工具
  6. java最常见的runtime_Java常见runtime exception
  7. vscode web版搭建_VS Code 1.39 发布!Web 版 VS Code 是否离我们越来越近了?(文末彩蛋)...
  8. 异常详细信息: System.Web.HttpException: 服务器太忙
  9. 【科研】计算社会科学与复杂科学
  10. Spring Boot + Vue 开发的物流管理系统,附源码
  11. 全志F1c100s主线linux入坑记录 (2)芯片超频
  12. ST六轴传感器LSM6DSO使用记录
  13. android项目epub格式电子书开源开发
  14. QT5串口读取宇电温控器温度
  15. 对多个Word文件批量添加页码,自由分页。Word精灵V5.0
  16. 阿里云王文彬:希望云计算支撑百亿设备
  17. 金融工资和计算机工资待遇,【成都京东金融工资】计算机待遇-看准网
  18. Android 版本主要变更与适配
  19. 应聘时如何回答quot;你的期望薪资…
  20. PyTorch: N-Gram Language Modeling

热门文章

  1. 【全网世界区划最全整理输出之第二部分】全世界所有国家的行政区划整理,省市信息,已按照国家,省,市排好序,可直接复制使用,第二部分到8167行,总条数:21088
  2. R语言绘图的配色——ggsci
  3. 联想笔记本电脑整机拆解
  4. 分享几个HIFI音乐下载网站
  5. 二阶滤波器原理及算法程序
  6. 通过Numba调用CUDA用GPU为Python加速:进阶理解网格跨步、多流、共享内存
  7. 微软笔试题三道(略微偏向竞赛题)
  8. 原生android tv 盒子,超强大的安卓7.0电视盒子是什么体验!
  9. Stellar Repair for Excel 6.0.X Crack
  10. VB.net,VB2005实现TCP协议编程