文章目录

  • metaProdigal:宏基因组序列中的基因和翻译起始位点预测
    • 热心肠日报
    • 摘要
      • 动机 Motivation
      • 结果 Results
      • 可用性 Availability
    • 主要结果
      • 表1. 大肠杆菌K12的样本基因预测相似性
      • 图1. 簇中最佳最差距离和识别器的示例
      • 图2. MetaProdigal的算法描述
      • 表2. Refseq的51个基因组序列的分析上的表现
      • 表3. 在2443个实验验证的基因上预测起始位点的表现
      • 表4. 基于51个基因组在不同置信度下的估计
    • 4. 结论 CONCLUSION
    • 扩展阅读
    • 猜你喜欢
    • 写在后面

metaProdigal:宏基因组序列中的基因和翻译起始位点预测

Gene and translation initiation site prediction in metagenomic sequences

Bioinformatics, [4.531]

2012-7-12 ORIGINAL PAPER

DOI: https://doi.org/10.1093/bioinformatics/bts429

第一作者:Doug Hyatt1,2*

通讯作者:Doug Hyatt1,2*

其它作者:Philip F. LoCascio1, Loren J. Hauser1,2 and Edward C. Uberbacher1,2

作者主要单位:

1美国田纳西州橡树岭,橡树岭国家实验室,计算生物学与生物信息学小组(Computational Biology and Bioinformatics Group, Oak Ridge National Laboratory, Oak Ridge, TN, 37831, USA)

2美国田纳西州诺克斯维尔,田纳西大学基因组科学技术研究生院(Genome Science and Technology Graduate School, The University of Tennessee, Knoxville, TN, 37996, USA)

热心肠日报

宏基因组序列中的基因和翻译起始位点预测

  1. metaProdigal是Prodigal的宏基因组中预测基因的专业版本,可实现高度准确地识别短和匿名编码序列中的基因;
  2. 该方法的新颖价值包括增强的翻译起始位点识别,识别使用替代遗传密码的序列和评估每个基因置信度值的能力;
  3. 可以根据要求输出蛋白质翻译,DNA序列和有关序列中每个潜在起始位点的详细信息;
  4. 软件运行速度快,支持多线程加速,原生安装或conda安装都非常方便,单线程下7小时可处理1GB数据。

点评:由橡树岭国家实验室计算生物学与生物信息学小组开发的Prodigal是原核生物基因鉴定的流行软件,引用3千多次可谓神作。2012年开发的metaProdigal版本,改进了宏基因组中的基因鉴定能力,支持多线程,可作为宏基因组分析中基因鉴定步骤的推荐软件之一。

摘要

动机 Motivation

宏基因组序列中的基因预测仍然是一个难题。当前的测序技术无法获得足够的覆盖范围来组装典型样品中的单个基因组。因此,测序会产生大量短序列,其确切来源尚不清楚。由于这些序列通常小于基因的平均长度,因此算法必须基于很少的数据进行预测。

结果 Results

我们提出了MetaProdigal,这是基因预测程序Prodigal的宏基因组版本,可以高度准确地识别短而匿名编码序列中的基因。该方法的新颖价值包括增强的翻译起始位点识别识别使用替代遗传密码的序列评估每个基因置信度值的能力。我们将MetaProdigal的结果与其他方法进行比较,最后讨论未来的改进。

可用性 Availability

Prodigal软件可根据通用公共许可从
https://github.com/hyattpd/prodigal 免费获得。

联系方式:hyattpd@ornl.gov

补充信息:补充数据可从Bioinformatics在线获得。

主要结果

表1. 大肠杆菌K12的样本基因预测相似性

Sample gene prediction similarities for Escherichia coli K12

表1显示了大肠杆菌K12与多种生物之间的基因预测相似性计算示例。在这些生物中的每一个上训练Prodigal,然后在大肠杆菌上运行,并使用前述公式计算基因预测相似性。 “ NG”表示第二个训练文件预测的基因数量。 “ 3’M”和“ 5’M”表示在大肠杆菌预测中匹配终止密码子和起始密码子的基因数量。 “XB”表示匹配方程式中的(a’+ d’)/ 600 项目,并表示从最终结果中我们要罚分的基因数量。下一列“M”代表匹配数。然后将其除以4313(大肠杆菌预测中的基因数)以获得灵敏度(Sn),并除以第一列(NG)的数量即可得出精确度(Pr)。最终的基因预测相似度就是Sn和Pr的和谐均值。请注意,在标有星号的情况下,我们使用上述替代公式来计算M,因为开始的<90%是正确的(即5’M / 3’M <0.9)。

从表1可以看出,大肠杆菌S88产生的基因预测与原始物种非常接近,而对于相同物种,这种预测是可以预期的。 高度相似的肠沙门氏菌也表现出色。 事实证明,两个古细菌距离很远,尤其是带有TTG起始基序的多年生青霉。 最后,由于使用完全不同的遗传密码,牛支原体在该表中的表现最差。 艰难梭菌被证明令有感兴趣,因为它无法预测大肠杆菌中的许多真实基因(约15%),但它确实预测的基因大多数是正确的(98%Sp)。

图1. 簇中最佳最差距离和识别器的示例

Example of best worst distance and recognizer in cluster

在计算两个簇之间的距离时,我们检查了通过合并它们而创建的新簇。 对于潜在的新聚类中的每个点,我们将其定位在距离它最远的点,即具有最低的基因预测相似性的点,该点对应于初始数据点最少识别的序列。 然后,我们选择具有“最佳”距离的数据点,可以将其粗略地视为合并簇中的最中心点。 我们将此序列标记为簇的“识别器”。 图1显示了使用这些概念的示例簇,其中铜绿假单胞菌将根据其最差的基因预测相似性优于其他两种生物,选择其作为簇的识别器。 在聚类算法的每个步骤中,将两个最接近的簇合并,直到仅剩下一个包含所有1415个序列的簇。

图2. MetaProdigal的算法描述

Pseudocode description of the MetaProdigal algorithm

MetaProdigal的算法如图2所示。一个序列到达标准输入,建立了该片段的GC上限和下限,并且仅使用对基因组中指定范围GC含量经过训练的基因组进行训练的训练文件来执行完整的动态规划。 选择得分最高的基因模型集,并将其与每个基因的置信度得分以及有关所用训练文件的详细信息(所用遗传密码,Shine-Dalgarno偏好等)一起输出给用户。 此外,与普通版的Prodigal一样,可以根据要求输出蛋白质翻译,DNA序列和有关序列中每个潜在起始位点的详细信息

由于多次运行完整的动态规划算法,这对短片段完全有效,因此与现有程序(如MetaGene Annotator和MetaGeneMark)相比,MetaProdigal的运行速度较慢(Noguchi等人,2008; Zhu等人,2010)。 但是,完成的基因组版本仅需约15-20秒即可在单个处理器上分析典型的4M bp基因组,因此,即使每个序列运行5至6个训练文件,宏基因组版本也可以在大约100秒分析4M数据。 可以在单个处理器上7小时内分析1 GB的样本,根据我们的经验,这是可以接受的运行时间,特别是考虑到可以轻松地将样本分割并在多个处理器上运行的情况。

表2. Refseq的51个基因组序列的分析上的表现

Performance on 51 genome sequences from Refseq

表3. 在2443个实验验证的基因上预测起始位点的表现

Performance on 2443 experimentally verified genes and start sites

表4. 基于51个基因组在不同置信度下的估计

Prodigal confidence estimations for 51 genome sequences from Refseq

使用第2节中描述的置信度度量,如果仅考虑高置信度基因,中等置信度基因等,我们可以将结果细分为置信区间,并检查灵敏度和精度的变化。表4显示了300 bp和700 bp的分析结果。 基于3.1节中描述的MetaGeneMark数据集的700 bp片段。 在此表中,如果仅接受该置信度或更高的基因,则灵敏度(Sn),精度(Pr)和F分数与算法的性能相对应。 例如,Prodigal可以通过仅接受对700 bp片段具有100%置信度的基因来达到99.2%的精确度,但是它无法鉴定出40%具有这种严格限制的真实基因。

更长的序列长度上,Prodigal的置信度得分与实际表现非常吻合。例如,在700 bp处,具有100%置信度得分的基因的99.2%是真实阳性,而具有90–99.99%的置信度得分的基因的95%是真实阳性。然而,根据我们数据集的Refseq注释,在较小的序列长度(150和300 bp)处,比较会变差,并且在50-59%置信区间内只有38.7%的基因是真正的阳性。这表明该算法的评分功能还有进一步的改进空间,特别是在我们对Bonferroni分数的修改中(Bonferroni,1935年)。也许,该算法应消除更多得分较低的基因,或添加更多规则以根据片段或基因长度来惩罚我们的得分。但是,我们不愿基于单个数据集进行更改,因为可以认为它适合测试集数据。在较大的数据集中检查这些得分较低的基因,看是否应保留它们是未来版本的一个有价值的目标。不管实际表现如何,置信度估计为研究人员提供了一种宝贵的工具,可用来确定是保留还是消除给定的基因模型。我们认为,这种置信度百分比测量是对数字得分的显着改进,数字得分的含义通常很难理解或不适用于实际问题。

4. 结论 CONCLUSION

我们使用Prodigal构建了用于宏基因组基因预测的开源启发式从头算法。 该程序可以独立分析片段,从而通过使用多个处理器来实现加速。 尽管我们了解测序错误带来的问题,但我们选择专注于其他较少受到关注的问题,例如翻译起始位点识别,替代遗传密码的处理以及基于置信度的分数过滤机制。 在未来的版本中,我们希望更详细地解决排序错误,并以较小的片段长度进一步改善程序的性能。

扩展阅读

  • 基因注释Prokka
  • Prokka:快速原核基因组、宏基因组基因注释
  • Prodigal:原核基因识别和翻译起始位点鉴定

猜你喜欢

  • 10000+: 菌群分析
    宝宝与猫狗 提DNA发Nature 实验分析谁对结果影响大 Cell微生物专刊 肠道指挥大脑
  • 系列教程:微生物组入门 Biostar 微生物组 宏基因组
  • 专业技能:生信宝典 学术图表 高分文章 不可或缺的人
  • 一文读懂:宏基因组 寄生虫益处 进化树
  • 必备技能:提问 搜索 Endnote
  • 文献阅读 热心肠 SemanticScholar Geenmedical
  • 扩增子分析:图表解读 分析流程 统计绘图
  • 16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
  • 在线工具:16S预测培养基 生信绘图
  • 科研经验:云笔记 云协作 公众号
  • 编程模板: Shell R Perl
  • 生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。

学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA

metaProdigal:宏基因组序列中的基因和翻译起始位点预测相关推荐

  1. Bioinformatics:吉林大学刘富组-深度学习从宏基因组序列中识别短病毒序列Virtifier...

    Virtifier: 基于深度学习方法的宏基因组病毒序列分类方法 Virtifier: a deep learning-based identifier for viral sequences fro ...

  2. Bioinformatics BIB|港城大孙燕妮组用于识别和分析宏基因组数据中噬菌体序列的网站...

    PhaBOX: 用于识别和分析宏基因组数据中噬菌体序列的网站 PhaBOX: a server for identifying and characterizing phage contigs in ...

  3. 宏基因组序列物种分类之kraken 1/2和Bracken的使用

    细菌基因组测序完,想看看样本有没有被其他的菌污染? 人的转录组测序完,想快速看看人.微生物的序列的比例? 元/宏基因组测序完,想快速获得样本中物种的丰度信息? REFERENCE Wood DE, S ...

  4. Microbiome | 宏基因组测序中减少样品中真核宿主的DNA污染

    Microbiome | 宏基因组测序中减少样品中真核宿主的DNA污染 文献导读 与16S rRNA测序相比,使用鸟枪法宏基因组测序不仅可以更加深入地了解样本中微生物的分类和功能,也可以避免PCR扩增 ...

  5. NAR:dbCAN2鉴定宏基因组CAZYome碳水化合物相关基因

    宏基因组数据分析中,经常会使用多种多样的数据库,如综述型的有NCBI非冗余核酸或蛋白序列库(NR).KEGG.COG.eggNOG.RFAM等.专业型的数据库有CAZy(碳水化合物酶).ARBD(抗生 ...

  6. NAR-2018-dbCAN2鉴定宏基因组CAZYome碳水化合物相关基因

    文章目录 Science哈扎人CAZYome分析实例 实例解读 分析方法探索(顺藤摸瓜) dbCAN2--碳水化合物在线分析服务器 dbCAN2简介 在线分析 本地软件和数据库下载 Reference ...

  7. Nature子刊:三代测序重构菌株水平宏基因组序列的计算框架iGDA

    https://doi.org/10.1038/s41467-021-23289-4 2021年5月24日,美国西奈山伊坎医学院冯智星等在Nature Communications发文题为Detect ...

  8. Kraken:使用精确比对的超快速宏基因组序列分类软件

    文章目录 Kraken:使用精确比对的超快速宏基因组序列分类 热心肠日报 摘要 主要结果 图1. Kraken序列分类算法 图2. 基于三个模拟宏基因组的分类程序准确性和速度比较 图3. 基于三个模拟 ...

  9. CADD-- 一种用于对整个基因组序列中的疾病原因突变进行排序的新方法 《自然遗传学》

    华盛顿大学和哈德森·阿尔法生物技术研究所的研究人员已经开发出一种新的组织和确定遗传数据优先级的方法. 联合注释依赖耗竭(CADD)方法将帮助科学家寻找人类基因组中的致病突变事件. 当前组织人类遗传变异 ...

最新文章

  1. Jquery实现form表单回填数据
  2. Xamarin.Forms XAML的辅助功能Code Snippet
  3. VB100年底测试:McAfee金山遗憾出局 瑞星表现令人意外
  4. 解决子线程操作UI的方法
  5. 删除.svn 隐藏文件
  6. java textarea 自动滚动条_月光软件站 - 编程文档 - Java - 如何实现滚动条的自动滚动到textarea的末尾...
  7. VC 界面库 皮肤库
  8. 电脑桌面云便签如何导入导出便签内容数据?
  9. 【线性代数(12)】线性方程组、方程组解的结构
  10. 华为外包测试2年,不甘被替换,168天的学习转岗成正式员工
  11. kafka中topic默认属性_Kafka的Topic配置详解
  12. github的verified标签是什么
  13. UltraVNC,UltraVNC软件可以用来干嘛?
  14. YOLOv5改进之十三:主干网络C3替换为轻量化网络EfficientNetv2
  15. 尚硅谷周阳老师2020最新Springcloud完整版学习
  16. 赵小楼《天道》深度解析(74)站着对话、品性、尊严都需要代价和成本的
  17. ios 其他 清理不了_iOS/Android都无法回避的一件事儿:是它们让手机越来越好用...
  18. python 全栈开发,Day136(爬虫系列之第3章-Selenium模块)
  19. ssm基于BS架构的校园爱心捐赠与物品交换平台的设计与实现毕业设计源码
  20. 推荐系统笔记之关联规则推荐(四)

热门文章

  1. 分布式事务 GTS 的价值和原理浅析
  2. 阿里p8程序员吐槽:新来应届生都开卡宴上班,当时就震惊了!
  3. 强势安利5款高质量办公软件,极大提高办公效率
  4. 飞书携手生态伙伴法大大 齐心守护健康
  5. 字符串-字符串反转(双指针)
  6. MySQL中的联合查询
  7. 神经网络中的注意力机制总结及PyTorch实战
  8. redis java spring_spring配置redis(xml+java方式)(最底层)
  9. 数字加密c语言程序_大厂程序员整理的 C++ 资源大全,不私藏了,都送给你们吧...
  10. ACM MM'21 | 超轻量8.5M!更高效的RGB-D显著性检测模型DFM-Net