本文转载自热心肠研究院,原文链接:https://mp.weixin.qq.com/s/ZJRtnm0j3gJupXsXzB5VUw

今天是第1766期日报。

Nature子刊:教你使用 CAMI 基准测试工具包评估宏基因组学软件

Nature Protocols[IF:10.419]

① 为发展评估宏基因组数据处理技术,采用基准评估必不可少;② 文章综述了”宏基因组解释的关键评估(CAMI)”计划的基准评测工作流程和操作教程;③ CAMI旨在确定微生物组研究基准的最佳做法,包括确定基准数据集、性能指标、基准测试程序和评估程序,且确保可重复性,从而为宏基因组组装、分箱、分析结果提供公正的性能评估;④ 为便于开发人员,作者结合代码演示了CAMI工具包基准测试的使用方法,分析了不同研究软件的结果。

Tutorial: assessing metagenomics software with the CAMI benchmarking toolkit
03-01, doi: 10.1038/s41596-020-00480-3

【主编评语】计算方法是菌群研究的关键,获得定量且无偏的性能评估对方法开发者和应用研究者很重要。为了在方法之间进行有意义的比较,确定最佳实践和常用示例数据并减少基准测试的计算成本,有必要使用标准化的数据集、过程和度量标准进行评估。在本教程中,作者描述了由较大的研究人员群体共同确定的计算宏组学基准测试中的新兴标准。作者解释了最相关的评估指标,用于评估宏基因组装配/组装,分箱和分析结果,并提供有关如何生成它们的分步说明。本教程将为同行提供参考,并有助于在菌群研究中提供信息丰富且可重复的基准测试。(@刘永鑫-中科院-宏基因组)

VirSorter2:病毒组鉴定软件升级版发布

Microbiome[IF:11.607]

① 目前针对病毒序列识别的计算方法有两种,一种是综合考虑基因含量和基因组结构特征来识别病毒序列,另外一种是根据已知病毒中序列的特征,使用机器学习识别病毒序列;② VirSorter2采用模块化设计,利用自定义分类器中的基因组数据库来提高病毒序列检测的准确性,并且能识别一些代表性不足的病毒组;③ 与其他病毒识别软件相比,VirSorter2在病毒识别方面表现出较高的准确性;④ VirSorter2能够一定程度地减少真核基因组和质粒的错误识别。

VirSorter2: a multi-classifier, expert-guided approach to detect diverse DNA and RNA viruses
02-01, doi: 10.1186/s40168-020-00990-y

【主编评语】本文介绍了VirSorter2,这是一种DNA和RNA病毒识别工具,可利用自定义自动分类器集合中的基因组信息数据库更新来提高病毒序列检测的准确性和范围。通过多分类器和模块化设计,VirSorter2展示了主要病毒组之间更高的整体准确性,并将提高我们对各种生态系统中的病毒进化,多样性和病毒-微生物相互作用的了解。VirSorter2可以对测序数据中的所有类型的病毒进行可靠的检测并可以在大规模数据集中轻松检测到新的病毒多样性。这将使研究人员能够调查所有病毒在地球生物群系中所扮演的角色,并更好地了解这些病毒是如何限制基本微生物过程的。VirSorter2的源代码可以免费获得(https://bitbucket.org/MAVERICLab/virsorter2)。(@刘永鑫-中科院-宏基因组)

EukDetect:基于宏基因组测序准确灵敏地检测真核微生物

Microbiome[IF:11.607]

① EukDetect 是一款使用通用标记基因准确识别真核微生物的软件;② 其数据库整合了3713个真核生物(包括596个原生生物、2010个真菌、146个非链霉古生菌和961个非脊椎后生动物),得到241个保守基因家族的521,824个通用标记基因;③ 该软件具有广泛的真核微生物分类性能,在低丰度和近缘物种上表现良好,并对基因组中的细菌序列污染具有鲁棒性;④ 此软件的标记基因方法大幅提升了在宿主及环境中,与疾病相关的真核微生物的检测能力。

Accurate and sensitive detection of microbial eukaryotes from whole metagenome shotgun sequencing
03-03, doi: 10.1186/s40168-021-01015-y

【主编评语】在包括宿主相关菌群在内的自然微生物系统中,真核微生物会随着细菌和古细菌一起被发现。尽管真核微生物对这些群落至关重要,但使用鸟枪法测序技术研究它们仍具有挑战性,因此经常被排除在外。本文介绍了EukDetect,一种生物信息学方法,可在鸟枪法宏基因组测序数据中识别真核生物。EukDetect具有广泛的真核微生物分类学范围,在低丰度和近缘种上表现良好,并且对真核生物基因组中的细菌污染具有抵抗力。EukDetect提供了一种自动可靠的方法来表征来自各种菌群的鸟枪测序数据集中的真核生物。作者证明了它使使用标准鸟枪测序分析时会被假阳性所遗漏或掩盖的发现成为可能。EukDetect将极大地促进我们对真核微生物如何贡献于菌群的理解。(@刘永鑫-中科院-宏基因组)

使用PathoFact鉴定宏基因组中毒力因子和耐药基因

Microbiome[IF:11.607]

① PathoFact是一种能够高度准确和特异性对毒力因子、细菌毒素和抗菌素耐药基因预测的工具;② 该软件用python编写,snakemake封装流程,可实现工作流程化处理、并行性以及中断后恢复处理的任务;③ 毒力因子数据库纳入VFDB和必需基因数据库,使用随机森林训练模型;毒素数据库由毒素和毒素目标数据库(T3DB)构建;抗菌素耐药基因由CARD、ARDB和UNIPROT数据库构建;④ PathoFact是目前唯一将以上三个功能结合且灵活又高性能的预测软件。

PathoFact: a pipeline for the prediction of virulence factors and antimicrobial resistance genes in metagenomic data
02-17, doi: 10.1186/s40168-020-00993-9

【主编评语】PathoFact是一个能够高度准确地(分别为0.921、0.832和0.979)和特异性(0.957、0.989和0.994)对毒力因子、细菌毒素和耐药基因进行预测的工具。该工具结合了这些致病因子的预测和可移动遗传元件的识别。通过考虑相关基因的基因组背景,这为分析提供了进一步的深度。此外,PathoFact的毒力因子,毒素和抗菌素耐药基因模块可以独立应用,从而使其成为一个灵活而通用的工具。在预测毒力因子和毒素基因方面,PathoFact优于所有现有的工作流程。在预测抗菌素耐药性方面,它的性能可与一套流程相媲美,而优于其他。PathoFact及其模型和数据库可在https://pathofact.lcsb.uni.lu上免费获得。(@刘永鑫-中科院-宏基因组)

GutBalance:一个基于人类肠道菌群进行疾病预测和解决了组成问题的生物标志物发现的服务器

Briefings in Bioinformatics[IF:8.99]

① 如何最好地对高维菌群数据进行分类仍然是一个悬而未决的问题,部分原因是难以正确处理组成性数据;② 通过将DBA远端平衡用作基于菌群的监督疾病分类的特征,作者从GMrepo数据库中开发了一个基于平衡的模型存储库。存储库中的疾病模型可以预测新提交的样本的疾病风险;③ 作者强调了平衡-疾病关联的概念,并开发了GBDAD。通过将平衡-疾病关联与MicroPhenoDB中已证明的微生物-疾病关联联系起来,可以可靠地推断出新的物种-疾病关联。

GutBalance: a server for the human gut microbiome-based disease prediction and biomarker discovery with compositionality addressed
01-30, doi: 10.1093/bib/bbaa436

【主编评语】组成变换属于菌群数据的监督学习,是决定疾病分类器性能和可靠性的关键步骤。人们重视远端判别平衡分析(DBA)方法的出色性能,该方法在处理高维菌群数据分类时选择细菌对和三个的远端平衡。通过将该方法应用于GMrepo数据库中所有疾病表型的物种水平丰度,作者建立了基于平衡的模型库,用于人类肠道菌群相关疾病的分类。该模型存储库支持对新样本的疾病风险进行预测。更重要的是,作者强调了平衡-疾病关联的概念,而不是传统的微生物-疾病关联,并建立了人类肠道平衡-疾病关联数据库(GBDAD)。模型存储库和GBDAD数据库部署在GutBalance服务器上,该服务器支持对疾病模型、与疾病相关的平衡和感兴趣的疾病相关物种进行交互可视化和系统的询问。并发现基于平衡的物种-疾病关联性将加速胃肠道微生态学研究和临床试验中新的微生物-疾病关联性假说的产生。(@刘永鑫-中科院-宏基因组)

通过生成对抗网络模型进行微生物组模拟

GigaScience[IF:5.993]

① 模拟真实的菌群数据具有挑战性,因为很难使用明确的统计模型对它们的相关结构进行建模;② 本研究设计了一个新颖的模拟框架,称为MB-GAN,它使用了生成对抗网络(GAN)并利用深度学习群落的方法;③ MB-GAN可以自动从给定的微生物丰度中学习并计算与它们无法区分的模拟丰度;④ MB-GAN避免了明确的统计建模假设,它只需要真实的数据集作为输入;⑤ 与传统的GAN不同,MB-GAN易于应用并且可以有效地收敛。

MB-GAN: Microbiome Simulation via Generative Adversarial Network
02-05, doi: 10.1093/gigascience/giab005

【主编评语】在本文介绍了一个新颖的菌群模拟模型MB-GAN,并表明它可以模拟高保真微生物组丰度。作者通过修改鉴别器网络,从而纳入基于菌群多样性的测量。与原始GAN框架相比,此算法可以快速、稳健地收敛。因此,可以在无需明确建模的情况下轻松地基于一组输入的微生物组丰度来模拟新的数据集。在真实的数据研究中,作者证明了模拟的菌群丰度具有相似的数据特征,包括一阶(样本水平属性,如稀疏性和多样性)和二阶特性(分类群间的相关性)。总之,MB-GAN通过为真实数据提供高保真度的模拟数据,可以评估各种类型的菌群研究。(@刘永鑫-中科院-宏基因组)

R包microeco:微生物组扩增子数据统计和可视化

FEMS Microbiology Ecology[IF:3.675]

① 当前的microeco版本共有10个模块,各个模块根据经验封装了一系列重要的函数来快速方便有针对性的进行分析;② 使用microeco包最基本的操作是构建microtable对象,构建此对象与phyloseq包相似,但更为简洁,修改也较容易;③ Microeco包目前涵盖了多种常用的分析方法类别,是为了快速发掘数据中的有用信息,同时兼顾到易使用性和简洁性;④ 通过使用microeco包中内置函数可以直接转换microtable对象到phyloseq对象。

microeco: an R package for data mining in microbial community ecology
2020-12-17, doi: 10.1093/femsec/fiaa255

【主编评语】基于高通量测序的群落数据分析分为前期的生物信息学分析和后续的统计分析,后续的分析则更注重于统计方法的使用和结果展示的快速性和灵活性。目前来看,依然缺少全面、简洁、快速的后续分析软件包。本文中提到的R语言包microeco 基于R6 class开发,整合了多种微生物群落生态学中常用的分析方法,归类成每个模块,以方便学习和使用,并研发了多种分析方法,同时提供了详细的教程,软件包已上传至CRAN,建议安装Github的更新版本。安装方法和使用教程等详见Github链接:https://github.com/ChiLiubio/microeco(@刘永鑫-中科院-宏基因组)

青岛大学团队开发菌群16S扩增子功能校正算法Meta-Apo

BMC Genomics[IF:3.594]

① 使用配对的宏基因组(WGS):16S扩增子数据对用作训练集,Meta-Apo算法就可以为大规模的16S扩增子样本生成校正后的功能谱,结果与WGS更加一致;② 通过Meta-Apo校正后,疾病分类的准确性提高到95.12%,同时检测疾病的敏感性也大大提高了;③ Meta-Apo提供了一种跨平台菌群分析策略,可以显著提高状态分类的性能;④ Meta-Apo能够综合16S扩增子测序的较低成本和WGS的较高精确度两方面的优势,使大规模的微生物组研究受益匪浅。

Meta-Apo improves accuracy of 16S-amplicon-based prediction of microbiome function
01-06, doi: 10.1186/s12864-020-07307-1

【主编评语】作者开发了Meta-Apo(Metagenomic Apochromat),这是一种菌群16S扩增子测序的功能校正算法,可以极大地减少甚至消除由于PCR扩增偏好性以及16S rRNA基因-全基因组关联信息的差异从而导致的同一微生物组样本基于16S扩增子的功能谱与WGS产生的结果之间存在偏差,使两种方法得出结论更加一致。另外,Meta-Apo还可以在WGS和16S扩增子样品之间进行跨平台功能比较,可以极大的改善基于16S扩增子的菌群诊断。总而言之,利用Meta-Apo,可以让低成本的16S扩增子测序产生与WGS相近的、可靠的、高分辨率的菌群功能图谱。对于之前和新兴微生物组项目,借助Meta-Apo等新工具,16S扩增子的测序和分析策略将继续为菌群功能研究做贡献。(@刘永鑫-中科院-宏基因组)

中国医科大学附属第一医院:胃癌诊断的潜在生物标志物

Genomics, Proteomics and Bioinformatics[IF:7.051]

① 对30份胃癌组织及30份健康组织进行无标记蛋白组分析,鉴定出537个差异表达蛋白(其中280个在胃癌组织中上调);② sirtuin信号通路、细胞运动(包括肿瘤细胞的组织侵袭)在胃癌组织中显著激活,而氧化磷酸化在胃癌组织中被显著抑制;③ 挑选4个蛋白(ATP5B、ATP5O、NDUFB4、NDUFB8)的组合,在训练集及验证集中区分胃癌及健康对照的AUC分别为0.996及0.886;④ 在独立队列中,基于ELISA及免疫组化组织芯片方法检测的AUC分别为0.778及0.805。

Screening of Potential Biomarkers for Gastric Cancer with Diagnostic Value Using Label-free Global Proteome Analysis
02-17, doi: 10.1016/j.gpb.2020.06.012

【主编评语】中国医科大学附属第一医院的王振宁团队在Genomics, Proteomics and Bioinformatics上发表的一项最新研究,通过无标记蛋白组分析,鉴定出了537个在胃癌组织及健康组织中差异化表达的蛋白。基于随机森林模型挑选其中4个蛋白作为诊断特征,可在不同队列中较准确地区分胃癌及健康对照。(@szx)

感谢本期日报的创作者:黄思思,lzm,Chengkai,刘永鑫-中科院-宏基因组,szx

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读

方法革新:8个宏基因组分析新工具 | 热心肠日报相关推荐

  1. metaSPAdes:新型多功能宏基因组拼接工具

    文章目录 metaSPAdes:新型多功能宏基因组拼接软件 热心肠日报 摘要 结果 metaSPAdes流程概述 表1. 所有数据集和所有组装程序的支架总长度(以兆为单位) 图1. 支架累计长度图 表 ...

  2. 新技能Get!宏基因组分析结果导入qiime2分析和可视化

    最近读微生态公众号中宏基因组的文章,发现阿童木写的教程,宏基因组的数据可以导入qiime2分析.于是有了发现新大陆的感觉,qiime2是一个优秀的可视化工具,有它在手,分析不愁呀,可是作者并没有给出怎 ...

  3. 微生物组-宏基因组分析专题研讨会(2022.5)

    福利公告:为了响应学员的学习需求,经过易生信培训团队的讨论筹备,现决定安排扩增子16S分析.宏基因组.Python课程和转录组的线上直播课.报名参加线上直播课的老师可在1年内选择参加同课程的一次线下课 ...

  4. 最后两天-微生物组-宏基因组分析(线上/线下同时开课,2020最后一期)

    福利公告:为了响应学员的学习需求,经过易生信培训团队的讨论筹备,现决定安排扩增子16S分析.宏基因组.Python课程和转录组的线上直播课.报名参加线上直播课的老师可在1年内选择参加同课程的一次线下课 ...

  5. 最后一周报名微生物组-宏基因组分析(线上/线下同步开课,2020最后一期)

    福利公告:为了响应学员的学习需求,经过易生信培训团队的讨论筹备,现决定安排扩增子16S分析.宏基因组.Python课程和转录组的线上直播课.报名参加线上直播课的老师可在1年内选择参加同课程的一次线下课 ...

  6. 微生物组-宏基因组分析第9期(报名直播课免费参加线下2020最后一期)

    福利公告:为了响应学员的学习需求,经过易生信培训团队的讨论筹备,现决定安排扩增子16S分析.宏基因组.Python课程和转录组的线上直播课.报名参加线上直播课的老师可在1年内选择参加同课程的一次线下课 ...

  7. 微生物组-宏基因组分析第9期(报名直播课免费参加线下2020.10本年最后一期)

    福利公告:为了响应学员的学习需求,经过易生信培训团队的讨论筹备,现决定安排扩增子16S分析.宏基因组.Python课程和转录组的线上直播课.报名参加线上直播课的老师可在1年内选择参加同课程的一次线下课 ...

  8. 宏基因组分析第9期(报名直播课免费参加线下2020.10本年最后一期)

    福利公告:为了响应学员的学习需求,经过易生信培训团队的讨论筹备,现决定安排扩增子16S分析.宏基因组.Python课程和转录组的线上直播课.报名参加线上直播课的老师可在1年内选择参加同课程的一次线下课 ...

  9. 最后一周 | 微生物组-宏基因组分析第8期(报名直播课免费参加线下2020.7)

    福利公告:为了响应学员的学习需求,经过易生信培训团队的讨论筹备,现决定安排扩增子16S分析.宏基因组.Python课程和转录组的线上直播课.报名参加线上直播课的老师可在1年内选择参加同课程的一次线下课 ...

最新文章

  1. 码农翻身之——分布式,集群,负载均衡
  2. swfupload 进度条 提示 中文乱码
  3. php 数据库 加载图片,图片显示不出来,但是数据库里有显示
  4. 2020蓝桥杯省赛---java---B---8(走方格)
  5. JavaOne 2015 –第二十版十大收获
  6. Javascript日期函数使用需要注意地方
  7. 修改固态硬盘的物理序列号_买固态怕踩坑?收下这些软件,轻松鉴别好坏
  8. 敏捷项目管理流程-Scrum框架最全总结
  9. php后台+前端开发过程整理
  10. HTML之表单的基本知识
  11. 20190804:有效的括号(误删补发)
  12. mac和jar的关系
  13. Java语言程序设计(基础篇)第十版 第一章复习题答案
  14. json格式化的网站
  15. MATLAB之牛顿插值法
  16. 计算机可以怎样做游戏,如何制做游戏 怎么制做游戏
  17. QQ空间技术架构之深刻揭秘
  18. 五四青年节。无奋斗,不青春!
  19. Atcoder题解与视频集
  20. linux 中qq的安装程序,linux下的QQ安装、使用方法

热门文章

  1. 不懂Redis Cluster原理,我被同事diss了!
  2. 深入浅出Java微服务视频
  3. 微服务的接入层设计与动静资源隔离
  4. 微信小程序直播如何接入?开源代码接入案例分享
  5. 销售流程管理-leangoo
  6. js空对象undefined
  7. 2、已知n个人(以编号1,2,3...n分别表示)围坐在一张圆桌周围。从编号为k的人开始报数,数到m的那个人出列; * 他的下一个人又从1开始报数,数到m的那个人又出列;依此规律重复下去,直
  8. 算法笔记-递归算法、递归排序、递归的时间复杂度、master公式(也叫主方法)
  9. 基于点线特征避免单目视觉SLAM的退化
  10. Python安装库较慢问题,Python报错pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool解决方法