麻省理工学院的一项新研究发现,“健康知识图表”显示症状和疾病之间的关系,旨在帮助临床诊断,但对于某些情况和患者群体来说可能会有所欠缺。结果还提出了提高他们表现的方法。

健康知识图表通常由专业临床医生手工编制,但这可能是一个费力的过程。最近,研究人员尝试从患者数据中自动生成这些知识图表。麻省理工学院团队一直在研究这些图表在不同疾病和患者群体中的支持程度。

在2020年太平洋生物计算研讨会上发表的一篇论文中,研究人员评估了基于真实数据集自动生成的健康知识图表,该数据集包括270,000多名患有近200种疾病和770多种症状的患者。

该小组分析了各种模型如何使用电子健康记录(EHR)数据,包括患者的医疗和治疗史,来自动“学习”疾病症状相关的模式。他们发现,对于老年或年轻患者比例高,或男性或女性患者比例高的疾病,模型表现尤其差——但是为正确的模型选择正确的数据,并进行其他修改,可以提高性能。

这个想法是在使用电子健康记录构建健康知识图表时,就数据集大小、模型规范和性能之间的关系为研究人员提供指导。这可能会带来更好的工具来帮助医生和患者做出医疗决策,或者寻找疾病和症状之间的新关系。

“在过去的10年里,EHR在医院的使用率飞速上升,所以我们希望挖掘出大量的数据来学习这些疾病症状关系的图表,”第一作者艾琳·陈说,她是EECS电气工程和计算机科学系的研究生。“我们必须仔细检查这些图表,以便将其用作诊断工具的第一步。”

麻省理工学院计算机科学和人工智能实验室(CSAIL)的研究生莫尼卡·阿格拉瓦尔也加入了陈的讨论;贝丝·伊斯雷尔女执事医疗中心(BIDMC)的史蒂文·霍恩;和EECS教授大卫·桑塔格,他是CSAIL和医学工程与科学研究所的成员,也是临床机器学习小组的组长。

病人和疾病

在健康知识图表中,有数百个节点,每个节点代表不同的疾病和症状。边缘(线条)将疾病节点(如“糖尿病”)与相关症状节点(如“过度口渴”)连接起来众所周知,谷歌在2015年推出了自己的版本,该版本由几名临床医生在数百小时内手工策划,被认为是黄金标准。当你现在搜索一种疾病时,系统会显示相关症状。

在2017年自然科学报告论文、桑塔格、霍恩和其他研究人员在他们当前的研究中利用了来自同样270,000名患者的数据——这些数据来自2008年至2013年间BIDMC的急诊科——来构建健康知识图表。他们使用三种模型结构来生成图表,称为逻辑回归、朴素贝叶斯和噪声或。利用谷歌提供的数据,研究人员将他们自动生成的健康知识图与谷歌健康知识图进行了比较。研究人员的图表表现非常好。

在他们的新工作中,研究人员进行了严格的误差分析,以确定模型对哪些特定病人和疾病表现不佳。此外,他们尝试从急诊室之外用更多的数据来扩充模型。

在一项测试中,他们将数据分解成疾病和症状的亚群。对于每一个模型,他们研究了疾病和所有可能症状之间的联系,并与GHKG进行了比较。在这篇论文中,他们将这些发现分为50种表现最差的疾病和50种表现最好的疾病。表现不佳的例子有多囊卵巢综合征(影响女性)、过敏性哮喘(非常罕见)和前列腺癌(主要影响老年男性)。高绩效者是更常见的疾病和病症,如心律不齐和足底筋膜炎,即足部组织肿胀。

他们发现,对于几乎所有的疾病和病人来说,噪声或模型是最强有力的总体误差模型。但是对于患有多种并存疾病和并存症状的患者,以及非常年轻或85岁以上的患者,所有模型的准确性都有所下降。任何性别比例很高或很低的患者群体的表现也会受到影响。

研究人员假设,本质上,不良表现是由具有异常预测能力的患者和疾病以及潜在的无法测量的混杂因素造成的。例如,老年患者比年轻患者更容易进入疾病和相关症状较多的医院。陈说,这意味着模型很难将特定疾病与特定症状联系起来。“同样,”她补充道,“年轻患者没有太多的疾病或症状,如果他们有罕见的疾病或症状,就不会以模型理解的正常方式出现。”

拆分数据

研究人员还收集了更多的患者数据,并创建了三个不同粒度的不同数据集,看看这是否能提高性能。对于原始分析中使用的270,000次访问,研究人员提取了140,804名独特患者的完整EHR病史,追溯到十年前,共有来自不同来源的大约740万份注释,例如医生笔记。

数据集创建过程中的选择也会影响模型性能。其中一个数据集将140,400个病历中的每一个汇总为一个数据点。另一个数据集将740万个注释中的每一个视为单独的数据点。最后一个为每个患者创建“发作”,定义为连续的一系列访问,不间断超过30天,总共产生大约140万次发作。

直观地说,将完整的患者历史汇总到一个数据点的数据集应该会带来更高的准确性,因为会考虑到整个患者历史。然而,与直觉相反,这也导致朴素贝叶斯模型在某些疾病中表现更差。“你假设机器学习模式下,患者体内的信息越多越好。但是这些模型取决于你提供给它们的数据的粒度,”陈说。“你使用的模型类型可能会被淹没.”

正如预期的那样,提供模型人口统计信息也是有效的。例如,模型可以使用这些信息排除所有男性患者,例如预测宫颈癌。老年患者更常见的某些疾病可以在年轻患者中消除。

但是,另一个令人惊讶的是,人口统计信息并没有提高最成功的模型的性能,所以收集这些数据可能是不必要的。陈说,这很重要,因为在数据上编译数据和训练模型既昂贵又耗时。然而,根据模型的不同,使用大量数据实际上可能不会提高性能。

接下来,研究人员希望利用他们的发现建立一个健壮的模型,用于临床应用。目前,健康知识图表学习疾病和症状之间的关系,但不能从症状中直接预测疾病。“我们希望任何预测模型和医学知识图表都将接受压力测试,这样临床医生和机器学习研究人员可以自信地说,‘我们相信这是一个有用的诊断工具。’”陈说。

计算机将症状与疾病联系起来的能力有多强?相关推荐

  1. loss下降auc下降_比较两个疾病模型的预测能力,AUC和NRI了解一下?

    在上一期内容中,我们介绍了当考察一个疾病预测模型好坏的时候,常常会关注到2个维度,一个是预测模型的区分度(Discrimination),它反映了该模型是否能够将患者和非患者区分开来的能力:另一个维度 ...

  2. 计算机平面设计专业年度工作计划,莆田职业学校计算机平面设计专业人才目标、规格、能力分析报告.doc...

    以德立身 以能立足 计算机平面设计专业 人才目标.规格.能力分析报告 目 录 TOC \o "1-2" \h \z \u 一.调研背景 1 二.调研目的及内容 1 三.调研对象及方 ...

  3. 计算机专业数学知识点,计算机专业数学教学过程中学习兴趣和能力的培养

    计算机专业数学教学过程中学习兴趣和能力的培养 计算机和数学是密切相关的.计算机有很多分支,程序设计.网络技术.信息技术.硬件技术.数据库设计.信息安全等.基本上以上的都需要有一定的数学功底.而程序设计 ...

  4. 复杂工程问题举例 用计算机解决,​“培养计算机类专业学生解决复杂工程问题能力”研究组启动会成功举行...

    4月23日,我校计算机科学与技术学院承办的全国高等学校"培养计算机类专业学生解决复杂工程问题能力"研究组启动会成功在我校举行.该研究组由国家级教学名师.教育部高等学校计算机类专业教 ...

  5. Python 基于朴素贝叶斯根据症状预测疾病,疾病预测模型

    一.贝叶斯概念 贝叶斯方法是以贝叶斯原理为基础,使用概率统计的知识对样本数据集进行分类.由于其有着坚实的数学基础,贝叶斯分类算法的误判率是很低的.贝叶斯方法的特点是结合先验概率和后验概率,即避免了只使 ...

  6. 具体某个计算机病毒中毒症状,十种计算机中毒症状

    如今,已经从原始磁盘引入了计算机感染病毒的方式,现在它同时受到多个渠道的攻击,几乎到了几乎无法阻止的地步.有些病毒是秘密的并且被深深地隐藏,而另一些则被暴露.使用者可以仔细观察,不难发现线索并及早预防 ...

  7. 计算机中毒症状简介,计算机中毒的特征简介

    从到目前为止发现的病毒来看,计算机中病毒的主要特征是什么!以下是学习编辑器对计算机中毒特征的详细介绍!希望对您有帮助! 计算机中毒的特征简介: (1)病毒程序隐藏了自身或操作系统的坏簇的一部分,导致磁 ...

  8. [附源码]SSM计算机毕业设计医学季节性疾病筛查系统JAVA

    项目运行 环境配置: Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX(Webstorm也行)+ Eclispe(IntelliJ IDEA,Eclispe,MyEclis ...

  9. jsp+ssm计算机毕业设计医学季节性疾病筛查系统【附源码】

    项目运行 环境配置: Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX(Webstorm也行)+ Eclispe(IntelliJ IDEA,Eclispe,MyEclis ...

最新文章

  1. Linux文件系统构成(第二版)
  2. 苹果又魔改安卓? iOS 15 正式发布、可跨设备移动文件,这届 WWDC21 带来了什么?...
  3. Eclipse中写jsp文件时,发现里面加载不了js文件和css文件(解决css文件在eclipse中显示不了)
  4. 踏平RecyclerView使用的各种坑,跟ListView和GridView说拜拜
  5. 9行代码AC_HDU-6374 Decimal(余数,因子)
  6. P1833 樱花——混合背包 二进制优化成01背包
  7. (pytorch-深度学习系列)使用重复元素的网络(VGG)
  8. Java中竟有18种队列?45张图!安排
  9. session登录状态保持html,Flask使用Session和上下文处理器保持登录状态
  10. Hibernate的双向N-N关联(六)
  11. 恰同学少年 - 片尾曲
  12. pythoncsv格式清洗与转换_Python中 CSV格式清洗与转换的实例代码
  13. 杰里之echo 衰减系数调节【篇】
  14. Day05——综合任务1、顺序表
  15. 学习OpenCV3:在空白图片上画虚线
  16. Arduino与Proteus仿真实例-继电器驱动仿真
  17. 云计算机渲染效果,为什么有的人要用云渲染?云渲染怎么用?
  18. 海思3559A sample的整体架构
  19. 【转详解步进电机工作原理】
  20. 思科设备静态路由配置

热门文章

  1. 小微企业——信贷政策分析
  2. 【每日早报】2019/10/21
  3. Learning Representations For Images With Hierarchical Labels(一、二)
  4. 小米域名拦截检测API接口
  5. Python 给员工发工资条
  6. 一个sql注入直接把我们服务搞挂了
  7. oracle 远程访问配置,C#教程之Oracle 远程访问配置
  8. 读《小强升职记》有感 时间管理
  9. Garrett Motion将在Auto Shanghai 2021上展示用于混合动力汽车和燃料电池汽车的下一代电动助力技术
  10. debian重启ssh服务_EUserv 德国永久免费VPS申请,仅有IPv6网络 另附IPv6服务器建站教程...