今天给大家介绍华中科技大学同济医学院及剑桥大学联合发表在Nature Machine Intelligence的一篇文章。文章中作者提出了一个基于XGBoost机器学习的模型,可以提前10天以上预测患者的死亡率,准确率超过90%,从而实现对COVID-19患者的检测、早期干预,并有可能降低死亡率。

1

背景

自2019年12月以来,随着新冠肺炎疫情的大爆发,危急病例的死亡率逐渐上升,全球各个国家的医疗服务都承受了巨大压力,重症监护资源短缺。在此阶段,因为没有可用的预后生物标志物来区分需要立即就医的患者并估计其相关死亡率,所以对疾病严重程度进行快速、准确和早期的临床评估至关重要。

在这种情况下,作者回顾性分析了来自中国武汉地区的485例患者的血液样本,以确定可靠且有意义的死亡风险指标,设计了一种基于最新的可解释机器学习算法的数学建模方法,旨在识别患者死亡率的最具区别性的生物标志物。该问题即转化为分类任务,其中输入数据包括患者基本信息,症状,血液样本以及实验室检查的结果,具体到肝功能,肾脏功能,凝血功能,电解质和炎性因子,这些数据从最初的一般,严重和危重三类患者中采样(表1),也包括在检查期结束后存活或死亡对应的相关结果。最终该分类器旨在揭示最关键的生物标志物,以区分即将面临风险的患者,从而减轻临床负担并潜在地降低死亡率。

表1 患病严重情况评估标准

通过使用标准病例报告表收集病历,其中包括流行病学,人口统计学,临床,实验室和死亡率结果信息(表2和补充数据1)。临床结果随访至2020年2月24日。该研究获得同济医院伦理委员会的批准。

2

数据源

模型训练的数据来源在2020年1月10日至2月18日期间收集的所有患者的医学信息。由于来自孕妇和哺乳期妇女,小于18岁的患者以及其数据资料完整度不足80%,所以这部分数据未包括在后续分析中。而对于剩下的375例患者,经统计发现发烧是最常见的初始症状(49.9%),其次是咳嗽(13.9%),疲劳(3.7%)和呼吸困难(2.1%)。患者年龄分布为58.83±16.46岁,而男性约占59.7%。具有流行病学史的患者包括武汉居民(37.9%),家族成员(6.4%)和卫生工作者(1.9%)。具体统计结果如下表所示,在随后分析包括的375例病例中,有201例从COVID-19中康复并出院,其余174例死亡。此后,又招募了2020年2月19日至2020年2月24日期间的110名新出院或死亡的患者作为外部测试数据集进行分析。

表2 病例信息收集情况

所有485名(375+110)患者的最小、最大和中位随访时间(从入院到死亡或出院)分别为0天02:01:58(小时:分钟:秒)、35天04:05:54和11天04:15:36。在作者的研究中看到的高死亡率与同济医院收治的武汉重症和危重病例的较高比率有关。医生仅在入院时根据表1中的标准根据经验评估患者的严重程度。

图1 病人入院流程图

3

模型

3.1机器学习模型的开发

大多数病人在住院期间都采集了多个血样。然而,模型训练和测试仅使用来自最终样本的数据作为模型的输入,以评估疾病严重程度的关键生物标志物,区分需要立即医疗援助的患者,并准确地将相应的特征与每个标签匹配。尽管如此,该模型可应用于所有其他血液样本,并估计已识别生物标志物的预测潜力。缺失的数据被填充为“-1”。模型输出对应于患者死亡率。存活的病人被分为0类,死亡的病人被分为1类。

本研究使用一个有监督的XGBoost分类器作为预测模型。XGBoost是一种高性能的机器学习算法,由于其基于递归树的决策系统,其具有很好的可解释性。相比之下,黑盒建模策略的内部模型机制通常很难解释。XGBoost中每个单独特征的重要性是由它在树的每个决策步骤中的累积使用决定的。这将计算出表征每个特征的相对重要性的度量,这对于评估模型结果中最具区别性的特征特别有价值,尤其是当它们与有意义的临床参数相关时。

XGBoost最初使用以下默认参数设置进行训练:最大深度等于4,学习率等于0.2,树估计器的数量设置为150,正则化参数α的值设置为1,并且'subsample'和'colsample_bytree'都设置 到0.9以防止在具有许多特征和小样本量的情况下过度拟合。作者将其称为“Multi-tree XGBoost algorithm”。

3.2 可操作决策树的特征重要性

为了评估即将死亡风险的标记,作者评估了每个患者参数对算法决策的贡献。通过多树XGBoost根据其重要性对特征进行排序(补充图1和2以及补充算法1)。当主要特征的数量增加到四个时,模型的性能显示曲线下面积(AUC)分数没有改善。因此,关键特征的数量设置为以下三个:乳酸脱氢酶(LDH),淋巴细胞和高敏性C反应蛋白(hs-CRP)。

表3 多树XGBoost性能

表3总结了多树XGBoost模型的性能。结果表明,该模型能够准确地识别患者的结果,而无论其最初在住院时的诊断是什么。值得注意的是,外部测试集的性能类似于训练和验证集的性能,这表明该模型捕获了患者死亡率的关键生物标志物。表3进一步强调了LDH作为患者死亡率至关重要的生物标志物的重要性。

3.3临床可操作决策树的开发

根据先前关于LDH,淋巴细胞和hs-CRP重要性的发现,作者旨在构建一种简化且可在临床上应用的决策模型。XGBoost算法基于从过去的残差中建立递归决策树,并且可以识别那些对预测模型的决策贡献最大的树。决策树是由分层组织的二元决策序列组成的简单分类器。因此,如果树的准确性保持较高,则将模型的复杂性降低到这种结构就有可能揭示出一种临床上可移植的决策算法。在下文中,作者将后者称为“可解释模型”或“单树XGBoost”。

图2 决策规则

此外,针对110名患者的最新血液样本的外部测试集评估了可解释模型的性能,这些样本不是单树XGBoost模型的训练或验证的一部分。相关的混淆矩阵显示了100%的存活率预测准确性和81%的死亡率预测准确性。总体而言,生存和死亡预测,准确性,宏观和加权平均数的得分始终在0.90以上。

3.4预测范围的估计

大多数患者在整个住院期间采集了多个血样。总的来说,用于训练和验证的所有485名患者共有909个血液样本完整测量了这三个特征,外部测试数据集中的110名患者共有251个血液样本完整测量了这三个特征。作者的模型的预测潜力在所有485名患者和110名外部测试数据集中的患者的所有血液测试上进行了评估。平均而言,作者算法的准确率为90%,进一步表明该模型可以应用于任何血液样本,包括那些远远早于主要临床结果日采集的样本。平均而言,该模型可以使用所有真阳性患者的所有血液样本提前约10天(外部测试集的患者为11天)预测结果(图3b,c)。该模型甚至可以提前18天预测,累计准确率超过90%(图3d,e)。靠近患者的结果时,预测的准确率会增加。这种预测范围分析表明,在患者病情恶化的情况下,临床路径能够提前几天给临床医生发出预警。

图3 决策规则预测范围估计

4

结论

本研究利用来自中国武汉地区485名感染患者的血液样本数据库,以确定疾病死亡率的关键预测生物标志物。为此,机器学习工具选择了三种生物标记物,它们可以提前10天以上以90%以上的准确率预测单个患者的死亡率:乳酸脱氢酶(LDH)、淋巴细胞和高敏C反应蛋白(hs-CRP)。特别地,LDH水平较高似乎在区分绝大多数需要立即就医的病例中起着至关重要的作用。这一发现符合目前的医学知识,即高LDH水平与各种疾病(包括肺部疾病,如肺炎)中发生的组织分解有关。总体而言,本文提出了一个简单且可操作的决策规则可以快速预测处于最高风险的患者,从而实现对COVID-19患者的检测、早期干预,并有可能降低死亡率。

代码

https://github.com/HAIRLAB/Pre_Surv_COVID_19

参考资料

Yan, L., Zhang, H., Goncalves, J. et al. An interpretable mortality prediction model for COVID-19 patients. Nat Mach Intell 2, 283–288 (2020).

https://doi.org/10.1038/s42256-020-0180-7

Nat. Mach. Intell. | 华科同济医学院剑桥联手推出新冠预测模型!相关推荐

  1. Nat. Mach. Intell. | 生物医学关系抽取的机器学习新框架

    今天给大家介绍的是清华大学曾坚阳教授课题组在Nature Machine Intelligence杂志上发表的一篇关于生物医学关系抽取的文章.在文中,作者提出了一种从大规模文献库中自动提取生物医学关系 ...

  2. Nat. Mach. Intell. | 探索稀疏化学空间的化学语言模型新策略

    今天给大家介绍来自不列颠哥伦比亚大学和阿尔伯塔大学联合发表的一篇文章.该文章系统地评估并优化了基于循环神经网络在低数据环境中的分子生成模型.发现该模型可以从更少的例子中学习到健壮的模型.同时,本文还确 ...

  3. Nat. Mach. Intell. | 深度神经网络中的捷径学习

    今天给大家介绍来自德国蒂宾根大学的Robert Geirhos和加拿大多伦多大学的Claudio Michaelis等人发表在Nature Machine Intelligence的文章"S ...

  4. Nat. Mach. Intell. | 基于神经网络的迁移学习用于单细胞RNA-seq分析中的聚类和细胞类型分类...

    今天给大家介绍由美国宾夕法尼亚大学佩雷尔曼医学院生物统计学,流行病学和信息学系Jian Hu等人在<Nature Machine Intelligence>上发表了一篇名为"It ...

  5. Nat. Mach. Intell. | 可解释性人工智能(xAI)遇上药物发现

    今天给大家介绍瑞士苏黎世联邦理工学院化学与应用生物科学系 Gisbert Schneider等人在Nature Machine Intelligence上发表的文章"Drug discove ...

  6. Nat.Mach.Intell.| DEcode:深度学习解读差异基因表达原理

    今天给大家介绍拉什大学的Shinya Tasaki 等人在Nature Machine Intelligence上发表的文章"Deep learning decodes the princi ...

  7. Nat. Mach. Intell. | 集成深度学习在生物信息学中的发展与展望

    本期给大家介绍悉尼大学Jean Yang教授课题组发表在Nature machine intelligence的文章"Ensemble deep learning in bioinforma ...

  8. Nat. Mach. Intell. | FFPred-GAN:“以假乱真“—基于GAN创建合成特征样本改进蛋白质功能预测...

    今天给大家介绍伦敦大学学院David T. Jones 教授课题组发表在Nature Machine Intelligence 的一篇文章.文章中指出,现存的蛋白质功能预测方法受限于训练样本量的瓶颈, ...

  9. Nat. Mach. Intell. | 基于深度学习预测DNA甲基化位点

    研究人员开发了一种预测DNA甲基化位点的机器学习算法可以帮助识别致病机制.该论文2020年8月3日发表在"Nature Machine Intelligence"上. 研究人员通过 ...

最新文章

  1. Intellij IDEA设置运行时Java参数
  2. requests发送http请求
  3. hibernate在saveOrUpdate时,update报错:a different object with the same identifier value was already assoc
  4. hdu 3016 Man Down
  5. 技术重塑未来工作方式
  6. Java基础学习总结(63)——Java集合总结
  7. 心大于物 ----论意识心灵与物理大脑的关系
  8. 怎样判断ajax请求,如何判断一个请求为ajax请求?
  9. oracle--索引的使用
  10. 夜间灯光数据arcgis处理_基于夜间灯光数据与Landsat数据
  11. 令牌环网概念_令牌环网工作原理_令牌环网为什么没人用
  12. UI设计作品中经常会用到的设计技巧?|优漫动游
  13. html 页面的分析与设计,HTML+CSS网页设计教程
  14. AutoRunner 功能自动化测试项目实训之AutoRunner的下载安装(十九)
  15. 什么是 Linux 发行版?为什么它被称为“发行版”
  16. 用户拉新是去哪儿现在的重要战略目标,结合近期大火的“百万答题”等热门活动,给去哪儿设计一个拉新活动,设计内容要包括:活动主题、活动所依附的产品基本形态,产品核心功能点。请你详
  17. 二分查找法及其四种变形(MATLAB)
  18. g华清远见基于linux和Qt,【华清远见】QT编程实例集
  19. SpringAOP所支持的AspectJ切点指示器
  20. python爬取图片(正则、bs4、Xpath三种方法)

热门文章

  1. 网吧母盘制作(精华)
  2. tomcat自启动问题 jsvc的 使用
  3. JVM:垃圾回收相关概念
  4. 如何优雅的关闭容器,看这一篇就够了
  5. 真的,千万不要给女朋友解释 什么是 “羊群效应”
  6. Spring 和 SpringBoot 最核心的 3 大区别,详解!
  7. 一个小需求,能够做到月活跃用户5000万,就是真牛逼!
  8. 程序员自购老板椅被HR搬去老板办公室:不能享受这么好的椅子
  9. 阿里都在用的绩效管理聚能环,一篇文章学会
  10. 精心推荐7款windows端实用软件,让人大开眼界!