基于大数据整合准确预测土壤的枯萎病发生

Predicting disease occurrence with high accuracy based on soil macroecological patterns of Fusarium wilt

  • Article,2020-07-17

  • The ISME Journal, [IF 9.49]

  • DOI:https://doi.org/10.1038/s41396-020-0720-5

  • 第一作者:Jun Yuan(袁军), Tao Wen(文涛

  • 通讯作者 Qirong Shen (沈其荣,shenqirong@njau.edu.cn)

  • 主要单位:南京农业大学(The Key Laboratory of Plant Immunity, Jiangsu Provincial Key Lab for Organic Solid Waste Utilization, National Engineering Research Center for Organic-based Fertilizers, Jiangsu Collaborative Innovation Center for Solid Organic Waste Resource Utilization, Nanjing Agricultural University)

写在前面

副主编(文涛)寄语:从团队的角度来讲:作为南农沈其荣老师旗下土壤微生物团队的成员,我们团队,袁军老师还有我十分感谢在修改文章阶段,刘永鑫老师对文章提出的建议和改进,我们几乎全部采纳了刘老师的建议。

从个人的角度来讲:做了这么多篇文献解读,终于做到自己的文章了,这应该是第一篇让我们完整控制从0到1的整个过程的文章。我确实成长了许多,也见证了宏基因组帮助过我的这几年和微生信生物公众号的成长。所以在致谢部分我们毫不犹豫添加了对刘老师的致谢和这两个公众号带给我的成长的感谢。

主要结果

1. 世界范围内镰刀菌枯萎病相关微生物组数据的基本统计

我们收集了目前世界上公开发表的大部分有关镰刀菌枯萎病相关的土壤微生物测序研究,并展示了这些研究主要的分布,发现大部分研究取样点都在中国(图1),这于我国的种植模式有关。其次我们分析了这些测序项目的一些基本特征,种植作物,国家,测序区域,测序平台等。发现大部分数据都是使用Illumina的各种平台测定的(图1),表明了数据公开在这几年逐渐被多数人接受。

为了得到目标数据,本研究使用两种策略来获得原始测序数据。1)基于已发表研究,通过关键词(Fusarium wilt community、Fusarium wilt structure或Fusarium wilt microbiome)从谷歌学术查找与镰刀菌枯萎病微生物群落相关的研究论文,得到测序样品登录号,对这些原始数据分析发现,大部分相关研究的原始数据存储在美国生物技术信息中心(NCBI),但也有一部分数据存储在日本核酸数据库(DDBJ)和欧洲核酸数据库(EUI)。2)目前NCBI上存储了大量尚未公开发表文章的数据,往往这些数据的分组及其采样信息被描述的很清楚,我们通过项目号搜索Fusarium wilt community、Fusarium wilt structure或Fusarium wilt microbiome,在NCBI上得到一批目前尚未发表但有原始数据的项目。将以上两种策略得到的相关项目合并,即为最终整合的项目数量。

当得到足够的相关测序项目后,使用相关生物信息学工具下载核酸序列(原始数据);然后以QIIME、USEARCH工具为核心,使用R、Python和Shell等语言为胶水,对原始数据进行分析,得到常见的OTU表格;最后合并不同研究的OTU,得到基于整合后的多个独立研究的合并表格。

图1 微生物组数据样本收集概况

A. 细菌16S,B. 真菌ITS

2. 整合的微生物组数据基本多样性特征

就细菌群落而言,将全部OTU表格合并之后发现群落中OTU的数量已经超过40000个。为了对微生物群落进行一个概括,首先使用传统的多样性分析方法表征基于多研究整合的微生物群落的宏观特征。将OTU表格按照3000条序列数抽平随后计算Chao1、Shannon和evenness_pielou三个指标,但是这三个指标均没有在发病土壤和健康土壤中表现出差异(图2A);其次通过Bray-Curtis举例对群落进行PCoA排序,通过多元置换方差分析进行差异检测后发现发病细菌群落和健康土壤群落之间显著不同(p = 0.001;permutational multivariate analysis of variance (PERMANOVA) by Adonis)(图2B);最后通过堆叠柱状图展示细菌群落在门水平上的物种分布和丰度特征,发现健康细菌群落中变形菌门(Proteobacteria)、放线菌门(Actinobacteria)和酸杆菌门(Acidobacteria)相对丰度较发病土壤高(图2C),但是发病土壤细菌群落中有更多的特有OTU(发病土壤802个,健康土壤118个)。

就真菌群落而言,将全部OTU表格合并之后发现群落中OTU的数量已经超过8000个,这个数量是远远小于细菌群落的,这与土壤中真菌数量少、数据库不够全面有关。我们使用与细菌群落数据处理相同的流程对整合后的真菌群落进行alpha多样性分析发现,与细菌群落表现不同,这些指标在健康土壤中显著高于发病土壤(图2D);同样通过Bray-Curtis距离对群落进行PCoA排序,通过多元置换方差分析进行差异检测,发现真菌微生物群落在发病和健康土壤中显著不同(p-values < 0.05;permutational multivariate analysis of variance (PERMANOVA) by Adonis)(图2E)。在发病土壤中Ascomycota的相对丰度更高,而在健康土壤中Mortierellomycota却更多(图2F)。

虽然PCoA排序可以从总体上确定基于整合分析的发病微生物群落和健康微生物群落之间的不同,但是这远未达到预期目的,为了找出造成发病和健康土壤中微生物群落差异的特征微生物,我们使用了在微生物领域运用很好的机器学习。

图2 枯萎病发病和健康土壤的微生物群落多样性和物种组成


3. 机器学习区分枯萎病发病和健康土壤的微生物群落特征

为了更好的区分枯萎病患病土壤和健康土壤的微生物群落,我们选择了三个机器学习算法,即随机森林(RF)、支持向量机(SVM)和逻辑回归(LR),分别对发病土壤和健康土壤的微生物群落进行学习并构建分类器,根据准确度,我们选择了随机森林(一种用于分类和回归分析的稳定机器学习算法)创建了分类模型。由于对不同分类等级微生物进行建模后的效果不同,因此我们将细菌微生物群落分类单元按照门、纲、目、科、属和OTU水平分别进行分类建模,以获得区分枯萎病土壤和健康土壤中最佳的分类器,结果表明,无论是细菌群落还是真菌群落,均在OTU水平上建模效果最佳,准确度分别为98.94%和96.42%(图3A-B)。

为了进一步验证模型的准确度,一方面我们纳入剩余的研究并进行分类预测。通过分析来自NCBI SRA数据库的13个独立的细菌测序数据集(包括26个患病土壤样本和321个健康土壤样本)进行细菌模型验证,发现细菌模型对所有采集样本预测的平均准确率为94.46%,其中,对患病样本的准确率为91.75%,对健康样本的准确率为96.45%)。同时,我们使用来自NCBI SRA数据库的6个独立的真菌测试数据集(包括21个病土样本和144个健康土样本)进行真菌模型验证,发现真菌模型对所有采集样本的平均准确率为93.05%,其中,对患病样本的准确率为91.67%,对健康样本的准确率为95.25%。

另一方面,我们从全国范围内采集了枯萎病发病和健康土壤,具体如下:我们于2019年4月下旬分别从海南、广东、北京和江苏采集了包含香蕉、黄瓜、西瓜和百合在内的4种不同作物的田间土壤样品,采样时选择至少连作5年且遭受镰刀菌枯萎病感染的地块,同时选择了没有发生枯萎病的新开垦农田进行健康土壤收集,为了避免地理因素引起的差异,在病害地附近选择健康地。将样本采集后按照标准的DNA提取、建库和测序流程测定了土壤中的细菌群落和真菌群落。原始数据的处理流程同样采取先前整合数据的分析流程。通过细菌模型对样本分类预测,发现所有样本的平均准确率为90.00%,其中对患病样本的准确率为87.50%,对健康样本的准确率为92.50%(图3I)。使用真菌模型进行分类预测,表明所有样本的平均准确率为80.00%,其中对病土样本的准确率为97.50%,对健康土样本的准确率为62.50%(图3I)。这一结果说明我们通过随机森林建模得到的分类器对枯萎病发病和健康土壤的微生物群落特征进行了良好的区分。

图3 机器学习建模、特征提取和预测

4. 基于机器学习得到的微生物特征解析

随机森林分类器很好的区分了枯萎病发病土壤和健康土壤,更重要的是我们得到了作为区分发病和健康土壤的特征微生物。就细菌群落而言,我们通过交叉检验对参与建模的1339个OTU重要性进行评估,发现其中45个OTU对分类器的确定性至关重要,我们称这45个OTU为特征OTU,也叫生物标记物(图4C)。这些OTU的平均丰度在4.84%~0.16%,对分类影响最大的OTU属于Gemmatimonadetes菌门。这45个OTU中有33个在发病微生物群落中相对丰度较高(FDR adjusted P < 0.05, Wilcoxon rank sum test;),他们主要属于变形菌门(Proteobacteria)和酸杆菌门(Acidobacteria),在更低的分类水平上属于Sphingomonadaceae、Hyphomicrobiaceae、Koribacteraceae和Xanthomonadaceae菌科;但是在健康土壤中相对丰度较高的微生物在更低的分类水平上属于Streptomycetaceae、Bradyrhizobiaceae、Inobacteraceae、Comamonadaceae和Chthoniobacteraceae科。就真菌群落而言,我们通过交叉检验对参与建模的177个OTU重要性进行评估,发现其中40个OTU对分类效果至关重要,其中26个OTU在发病土壤中具有较高的相对丰度,其余14个在健康土壤中丰度较高,这些属于Fusarium和Mycothermus属的OTU在发病土壤中丰度较高,但是属于Aspergillus、Mortierella和Neurospora属的OTU在健康土壤中丰度较高(图4D)。与我们认识一致的是尖孢镰刀菌在发病土壤中的丰度(7.80%)高于健康土壤(4.00%),但是同属于镰刀菌属的Fusarium keratoplasticum的相对丰度却在健康土壤中更高。

图4 特征细菌和真菌丰度展示


45个细菌OTU特征展示


40个真菌OTU特征展示

5. 细菌特征OTU网络分析

细菌特征OTU网络分析表明,健康网络中包含的节点和连接数较多,并且网络平均度(average degree)和中心紧密度(centralization-closeness)较高。一些被注释为Bacillaceae、Hyphomicrobiaceae、Bradyrhizobiaceae、Comamonadaceae、Streptomycetaceae和Chthoniobacteraceae的OTU在健康网络中连接数更高,同时他们在健康土壤群落中相对丰度更高。另外一些注释为Alicyclobacillaceae和Sphingomonadaceae的OTU在发病网络中连接数较高,同时在发病土壤群落中相对丰度较高。值得注意的是,OTU1111883和549433属于Gemmatimonadetes门,在分类器中的重要性较高,在发病土壤群落中相对丰度及与其他OTU之间的连接数也更多。这些OTU可能在发病微生物群落中具有重要作用(图5A-B)。

真菌特征网络不同于细菌特征网络,发病真菌特征网络包含的节点和连接数更多,平均度(average degree)和中心紧密度(centralization-closeness)也更高。就具体的OTU而言,三个分别属于Aspergillus、Remersonia属和Stephanosporaceae科的OTU在发病真菌网络中具有较高的中心度(center degree)和中介性(betweenness)。在健康真菌特征网络中属于Chaetomiaceae属的OTU具有较高的中心度和中介性(图5C-D)。

图5. 细菌真菌特征OTU网络分析

作者介绍

沈其荣教授

沈其荣简介:南京农业大学学术委员会主任,长期从事土壤微生物、有机肥和生物有机肥研究。提出和建立了土壤微生物区系调控的理论和技术体系,并研发出调控土壤微生物区系的有机(类) 肥料系列产品(有机肥、有机无机复混肥、生物有机肥、全元生物有机肥),相关技术工艺已被全国600 多家企业采用;研发的土壤熏蒸与生物有机肥联用防治土传病害综合技术效果显著,为中国土壤生物肥力提升和有机(类)肥料产业发展做出了重大贡献。以第一完成人获国家技术发明二等奖1项、国家科技进步二等奖1项、国家专利金奖1项、国家专利优秀奖1项、国家教学成果二等奖1项以及省部级一等奖8项。以第一和第二 完成人获中国发明专利60多件、国际PCT专利6件,其中50多件专利在企业 得到转化发表SCI论文400多篇,H指数50,2014年-2018 年连续五年入选 ELSEVIER中国高被引学者榜单。获全国创新争先奖状、国家教学名师、全国师 德先进个人、全国优秀科技工作者、江苏省劳模和先进工作者、农业部和江苏省突出贡献专家、江苏省十大杰出发明人和江苏省首届发明人奖。已累计培养硕士研究生121 名、博士研究生83 名。目前和曾经兼任:国家973 计划首席科 学家、 国家863 计划现代农业领域主题专家、第六届和第七届国家自然科学基 金委生命学部专家咨询委员会委员、 第七届国务院学位委员会农业资源与环境 学科评议组召集人、中国有机(类)肥料产业技术创新联盟理事长、中国土壤 学会副理事长、中国植物营养学会生物与有机肥专业委员会主任、农业部耕地 质量建设与管理专家组组长、教育部和农业部科技委委员、中国农科院学术委 员会委员、江苏省自然科学基金委农业学科组组长等社会职务。

袁军

袁军,博士,就职于南京农业大学资环学院沈其荣教授团队。研究方向:植物-土壤反馈,土壤微生物群落调控,连作障碍修复,新型肥料研发。目前以第一作者在The ISME Journal, Microbiome, SBB 等国际著名期刊上发表十余篇文章。

文涛

文涛,博士在读,2016年就读于南京农业大学,荣拜资环院沈其荣教授课题组,研究方向为根际微生物生态。在The ISME Journal,Microbiome,BMC Plant Biology 等期刊上发文。目前正在写差异分析一站式解决R包:Easystat,网络分析可视化R包:ggClusterNet等多个R包。“微生信生物”公众号创始人,2019.1加入“宏基因组”公众号任编辑,2019.12起任副主编,发表《Microbiome:根系分泌物驱动土壤记忆抵御植物病原菌》、《DADA2中文教程v1.8》、《Graphlan学习笔记》和《中国核酸数据库GSA数据提交指南》等文章10余篇。大家有兴趣可以通过2018203048@njau.edu.cn交流。欢迎打扰!

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读

ISME:基于大数据准确预测土壤的枯萎病发生相关推荐

  1. ISME:南农沈其荣团队基于大数据准确预测土壤的枯萎病发生

    基于大数据整合准确预测土壤的枯萎病发生 Predicting disease occurrence with high accuracy based on soil macroecological p ...

  2. ​易生信-宏基因组积微学术论坛:基于大数据整合准确预测土壤的枯萎病发生...

    博彩众家之长,积微成就突破.为促进我国宏基因组研究领域的学术交流和技术分享,推动微生物组领域的发展,"宏基因组"公众号联合国内外优秀人才组织"易生信-宏基因组 积微学术论 ...

  3. ​易生信-宏基因组2020 积微学术论坛:基于大数据整合准确预测土壤的枯萎病发生...

    博彩众家之长,积微成就突破.为促进我国宏基因组研究领域的学术交流和技术分享,推动微生物组领域的发展,"宏基因组"公众号联合国内外优秀人才组织"易生信-宏基因组 积微学术论 ...

  4. 积微论坛第一期 - 基于大数据整合预测土壤枯萎病的发生 (文稿分享)

    生物信息学习的正确姿势 NGS系列文章包括NGS基础.高颜值在线绘图和分析.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流 ...

  5. 基于大数据的预测工具:寿命计算器,准确率高达98%,算算你能活多久?

    寿命计算器,准确率高达98% 如果应用商城里有一款APP,安装之后就可以知道确切的死亡时间,你会下载吗? 这样的桥段出现在电影<倒忌时>中,影片讲述一款能够预测人寿命的软件并受到大家欢迎, ...

  6. 基于大数据方法的经济研究:前沿进展与研究综述 | 特别推荐

    基于大数据方法的经济研究:前沿进展与研究综述 李华杰 史丹 马丽梅 摘要: 随着数据挖掘和分析技术的不断提高,基于大数据方法对经济的研究日益增多,大数据对经济研究和应用具有重要的现实意义.本文梳理了近 ...

  7. 【2016年第1期】基于大数据的小麦蚜虫发生程度决策树预测分类模型

    张晴晴,刘勇,牟少敏,温孚江 山东农业大学农业大数据研究中心,山东 泰安 271018 摘要:小麦蚜虫是危害小麦的主要害虫.其发生程度预测特别是短期预测一直是植物保护领域难以解决的科学问题.传统预测方 ...

  8. 基于大数据的用户行为预测

    2019独角兽企业重金招聘Python工程师标准>>> 随着智能手机的普及和APP形态的愈发丰富,移动设备的应用安装量急剧上升.用户在每天使用这些APP的过程中,也会产生大量的线上和 ...

  9. 基于大数据的股票数据可视化分析与预测系统

    温馨提示:文末有 CSDN 平台官方提供的博主 Wechat / QQ 名片 :) 1. 项目简介 股票市场行情分析与预测是数据分析领域里面的重头戏,其符合大数据的四大特征:交易量大.频率高.数据种类 ...

最新文章

  1. 推荐6个绝赞良心工具,总有一些适合你!
  2. 鼠标点击实现划掉文字效果
  3. 第九章 思科竞争谋略
  4. lvds接口屏线安装图解_五分钟让你学会液晶拼接屏安装方法
  5. [C#] 動的にアセンブリをロードする
  6. [Android Pro] Android源码编译之Nexus5真机编译
  7. 敏感词过滤算法:前缀树算法
  8. 强化学习中价值迭代和策略迭代各有什么优缺点?
  9. linux文件系统变为只读的修复
  10. linux脚本自动 输入命令,Linux脚本自动输入密码
  11. VRay5.0 for 3dsMax2016-2021及素材库
  12. Ubantu16.04+CUDA10.0安装mmaction以及提取UCF101的frame和optical flow
  13. 查看Mysql数据库版本
  14. Linux嵌入式树莓派CUPS驱动打印机
  15. 史上最后一位数学全才——庞加莱
  16. sap 双计量单位_ERP软件中双计量单位如何使用
  17. matlab 单相整流电路,基于MATLAB的单相桥式整流电路研究
  18. Java数据库插入记录的语句-单引号-双引号values('username+'-'+password
  19. mac os 10.8.5下 微信开发者工具安装问题
  20. ubuntu装pl2303USB转串口驱动(详细,亲测)

热门文章

  1. 【从单体架构到分布式架构】(二)请求增多,单点变集群(1):负载均衡
  2. 软件项目随着数据量的不断增加,有什么优化方案么?
  3. 你应该避免的8种常见SQL错误用法!
  4. 中下层确实没钱了,消费枯竭!?
  5. 分享Leangoo敏捷工具操作视频
  6. MVC框架内容-模型
  7. 嵌入式开发板高低温试验的小技巧
  8. 二叉树-二叉树的最大深度(递归 )
  9. docker 从harbor 拉取镜像慢_Harbor丨使用的正确姿势
  10. 官宣!清华大学要搬迁!