前情提要

如果您在学习本教程中存在困难,可能因为缺少背景知识,建议先阅读本系统前期文章

  • 宏基因组分析理论教程

  • 微生物组入门圣经+宏基因组分析实操课程

  • 1背景知识-Shell入门与本地blast实战

  • 2数据质控fastqc, Trimmomatic, MultiQC, khmer

  • 3组装拼接MEGAHIT和评估quast

Prokka注释基因

Annotation with Prokka https://2017-cicese-metagenomics.readthedocs.io/en/latest/prokka_tutorial.html

Prokka简介

细菌基因组、宏基因组的基因注释一直是一个非常复杂的问题,Prokka的出现改变了这一切。

Prokka: rapid prokaryotic genome annotation,快速的原核基因组注释。就是上面的神兽,猜猜是什么动物,但真不是皮卡丘。

Prokka是一个命令行软件工具,可以在一台典型台式机上在约10分钟内充分注释一个细菌基因组草图。它产生标准兼容的输出文件以进行进一步分析或者在基因组浏览器中查看。Prokka是用Perl实现的,在遵循开源GPLv2许可证下可以从 http://www.vicbioinformatics.com/software.prokka.shtml 免费获得。

此软件2014年发表于Bioinformatics,截止2017年11月2日Google学术统计引用1265,最新版本1.12于2017年3月14日更新,大小360MB。因为它是一个复杂的分析流程,依赖关系众多。

安装程序

进入工作目录,即你下载数据的目录

# 设置工作目录 wd,用户根据自己的实际情修改
wd=~/test/metagenome17
cd $wd
# 下载prokka
git clone https://github.com/tseemann/prokka.git
# 安装依赖关系
sudo apt-get -y install bioperl libdatetime-perl libxml-simple-perl libdigest-md5-perl
# 安装perl包XML
sudo bash
export PERL_MM_USE_DEFAULT=1
export PERL_EXTUTILS_AUTOINSTALL="--defaultdeps"
perl -MCPAN -e 'install "XML::Simple"'
exit

添加环境变量和设置数据库

# 添加环境变量
export PATH=$PATH:`pwd`/prokka/bin
# 自动搜索并添加数据库
prokka --setupdb
# 测序数据库
prokka --listdb

Prokka使用Uniprot-DB数据库,可使用–usegenus –genus Enterococcus指定额外的数据库

运行Prokka注释contig

# 建立工作目录
mkdir annotation
cd annotation
# 准备输入文件
ln -fs ../assembly/combined/final.contigs.fa ./
# 一句命令10分钟搞定之前别人半年的工作
prokka final.contigs.fa --outdir prokka_annotation --prefix metagG --metagenome --kingdom Bacteria

就是这么简单,一句命令10分钟搞定之前别人半年的工作。给你输出了你想要的,不想要的各种格式结果。

输出文件说明详见下面链接 https://github.com/tseemann/prokka/blob/master/README.md#output-files

下表我列出各种输出结果格式简介

表1. Prokka 结果说明
Extension | Description
—-|—-
.gff | 基因注释文件,包括gff和序列,可用igv直接查看
.gbk | Genebank格式,来自gff
.fna | 输入contig核酸文件
.faa | 翻译CDS的AA序列
.ffn | 所有转录本核酸序列
.sqn | 用于提交的序列
.fsa | 输入序列,但有sqn的描述,用于tbl2asn生成sqn文件
.tbl | 特征表,用于tbl2asn生成sqn文件
.err | 错误报告
.log | 日志
.txt | 统计结果
.tsv | 所有注释基因特征表格

查看结果

# 进入结果目录
cd prokka_annotation
# 结果总结
cat metagG.txtorganism: Genus species strain
contigs: 7904
bases: 13222363
CDS: 12199
tmRNA: 4
tRNA: 300
repeat_region: 7

上面我们看到结果统计的叠连群(contigs)数量,预测基因(CDS)数量等基本信息。下面看一下预测的基因序列。

预测基因展示:

# 查看序列的基因序列
less -S metagG.fsa>k141_4 [gcode=11] [organism=Genus species] [strain=strain]
ATCGTTTCCCTGCAGACGTCCACCGAGACGAGGTCCGTGGCTTCCACCAGTGCCCCGAGG
GCTACGATGTTGGCCACCTTTTCGCTGCCAAGTTCAAGCGCCGTGGTATGACACGGCACC
GGCAGCACGATGATATCGGATCTGGGGTCGGGATAATCCAGCAGGTCGGAATTGTAAATC
AGCGCTCCGCCCGGTTTTATGATACCGATGAAT
>k141_6 [gcode=11] [organism=Genus species] [strain=strain]
ACAGAACAACCAGGTGGAAACGTATGGTAATTATTGACACGAACACCCACGCCTTGTATT
ATAAGCGTCGCCCCTTGAAACGGGCGGCGTTTTTCATGCACCTTGACAGAGTTATATAGG
CAGGAGAGTAAGCGGGAGAAGGTAAGAGCGATTTATGGAGAGTTTGATCCTGGCTCAGGA
CGAACGCTGGCGGCGTGCCTAACACATGCAAGTCGAACGGTCTG

结果众多,不再一一列举,下面用到自然会提到并介绍,用不到的我也不懂了,今天就到这里了。

Reference

  1. 教程原文 https://2017-cicese-metagenomics.readthedocs.io/en/latest/prokka_tutorial.html

  2. Prokka: rapid prokaryotic genome annotation https://www.ncbi.nlm.nih.gov/pubmed/24642063

  3. Prokka中文摘要 http://www.chinapubmed.net/24642063

  4. Prokka官网 http://www.vicbioinformatics.com/software.prokka.shtml

  5. Seemann T. Prokka: rapid prokaryotic genome annotation. Bioinformatics. 2014 Jul 15;30(14):2068-9. PMID:24642063

  6. 官方帮助 https://github.com/tseemann/prokka/blob/master/README.md

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外3000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读

宏基因组实战4. 基因注释Prokka相关推荐

  1. 宏基因组实战6. 不比对快速估计基因丰度Salmon

    前情提要 如果您在学习本教程中存在困难,可能因为缺少背景知识,建议先阅读本系统前期文章 宏基因组分析理论教程 微生物组入门圣经+宏基因组分析实操课程 1背景知识-Shell入门与本地blast实战 2 ...

  2. 宏基因组实战10. 绘制圈图-Circos安装与使用

    前情提要 如果您在学习本教程中存在困难,可能因为缺少背景知识,建议先阅读本系列前期文章 宏基因组分析理论教程 微生物组入门圣经+宏基因组分析实操课程 1背景知识-Shell入门与本地blast实战 2 ...

  3. 宏基因组实战9. 组装assembly和分箱bin结果可视化—Anvi'o

    前情提要 如果您在学习本教程中存在困难,可能因为缺少背景知识,建议先阅读本系统前期文章 宏基因组分析理论教程 微生物组入门圣经+宏基因组分析实操课程 1背景知识-Shell入门与本地blast实战 2 ...

  4. 宏基因组实战8. 分箱宏基因组binning, MqaxBin, MetaBin, VizBin

    前情提要 如果您在学习本教程中存在困难,可能因为缺少背景知识,建议先阅读本系统前期文章 宏基因组分析理论教程 微生物组入门圣经+宏基因组分析实操课程 1背景知识-Shell入门与本地blast实战 2 ...

  5. 宏基因组实战7. bwa序列比对, samtools查看, bedtools丰度统计

    前情提要 如果您在学习本教程中存在困难,可能因为缺少背景知识,建议先阅读本系统前期文章 宏基因组分析理论教程 微生物组入门圣经+宏基因组分析实操课程 1背景知识-Shell入门与本地blast实战 2 ...

  6. 宏基因组定量、功能注释和高级分析代码

    今天是第1283期日报. Nature子刊:Salmon不比对快速定量宏基因组基因 Nature Methods[IF:28.467] ① Salmon是一种准确快速定量转录本丰度的方法:② 它是第一 ...

  7. 宏基因组实战3. MEGAHIT组装拼接及quast评估

    前情提要 如果您在学习本教程中存在困难,可能因为缺少背景知识,建议先阅读本系统前期文章 宏基因组分析理论教程 微生物组入门圣经+宏基因组分析实操课程 1背景知识-Shell入门与本地blast实战 2 ...

  8. 你想要的宏基因组-微生物组知识全在这(2020.5)

    文章目录 征稿.转载.合作 文章分类导航目录 精选文章推荐 会议.招聘广告 科研经验 软件流程 扩增子分析 扩增子教程 QIIME2教程(2020.2) 易生信-扩增子教程 Webserver在线分析 ...

  9. 你想要的宏基因组-微生物组知识全在这(2023.01)

    欢迎点击上方蓝色"宏基因组"关注我们! 宏基因组/微生物组是当今世界科研最热门的研究领域之一,为加强宏基因组学技术和成果交流传播,推动全球华人微生物组领域发展,中科院青年科研人员创 ...

最新文章

  1. Python网络编程(OSI模型、网络协议、TCP)
  2. allocator_is_always_equal的实例
  3. 关于推荐系统的一些小结
  4. Angular self study 1 - Bootstrap
  5. 你了解的继承方式html,法定继承、遗嘱继承、遗赠,这三种房产过户方式你了解多少?...
  6. python编程100例-【python】编程语言入门经典100例--30
  7. 低照度图像修复方法总结
  8. php 字符如何与16进制数比较大小
  9. 谷歌浏览器32位安装包_谷歌团队新作!只需下载3M安装包,就能让你的手机浏览器跟踪眼球运动...
  10. 10个免费网络管理工具
  11. 如何在AngularJS中使用SpreadJS?
  12. NiFi ListSFTP精讲
  13. 海致大数据京信_2018华为全联接大会|海致网聚提出公安大数据个人计算新理念...
  14. matlab怎么定义矩阵变量_MATLAB01:基本的数学运算与矩阵运算
  15. redis--bugger分析
  16. Navicat15导入DMP数据文件
  17. 傅里叶分析的方方面面:复正弦、负频率
  18. 正则表达式中反斜杠的另一用法
  19. LuoguP1637 三元上升子序列
  20. 《从程序员到项目经理》读后感-合群

热门文章

  1. 美团社招Java开发一面,二面,三面,四面合并面经
  2. 领歌leangoo敏捷工具个人工作台功能
  3. Leangoo领歌敏捷工具新增测试管理功能
  4. /* * 编程第三题(20分) 打印所有的水仙花数。所谓水仙花数是指一个三位数,其各位数字的立方和等于该数本身。(例153=1*1*1+3*3*3+5*5*5) */
  5. 嵌入式学习笔记-记录系统启动次数
  6. 浅谈IO及不同的理解
  7. java不同工厂生产不同电器_完整案例分析再加知识整合——艾特抽象工厂模式,超详细的...
  8. python游戏代码五子棋_用20行Python代码实现2048小游戏,你会吗?
  9. 【swjtu】数字电路实验3_1位十进制计数器
  10. 【Windows系统】基于vscode搭建go语言开发环境