DRG 与 ICD10 编码相关论文阅读分享

相关概念

  • 关于DRG

疾病诊断相关分组(Diagnosis-Related Groups,DRG)诞生于上世纪60 年代末的美国。上世纪80 年代,美国率先将DRG 用于医疗保险定额支付,现今多数发达国家社会医疗保险都采用这一工具进行预算、资源配置管理或购买医疗服务。从本质上讲,DRG 既能用于支付管理,也能用于预算管理,同时还是促进医疗服务质量提升的有效工具。

疾病诊断相关分组(Diagnosis-Related Groups,DRG)诞生于上世纪60 年代末的美国。上世纪80 年代,美国率先将DRG 用于医疗保险定额支付,现今多数发达国家社会医疗保险都采用这一工具进行预算、资源配置管理或购买医疗服务。从本质上讲,DRG 既能用于支付管理,也能用于预算管理,同时还是促进医疗服务质量提升的有效工具。

  • 关于主要诊断

DRGs分组对于疾病主要诊断的选择要求很高,因为在DRGs分组中,主要诊断是分组的最基础数据。主要诊断选择的正确与否,直接影响到DRGs分组结果,继而对医院绩效评估造成很大影响。

  • 卫健委在《住院病案首页数据填写质量规范》关于主要诊断的定义:

主要诊断一般是患者住院的理由,原则上应选择 本次住院对患者健康危害最大、消耗医疗资源最多、住院时间最长的疾病诊断。

  • Australian Institute of Health Welfare 对主要诊断的定义:

The principal diagnosis is defined as the diagnosis established after study to be chiefly responsible for occasioning the patient’s episode of care in hospital.

  • 为什么选了这三篇paper

找论文的过程过程是这样的,现在知网找,发现没有相关工作。abstract里给主要诊断的翻译是“Main diagnosis”或者“primary diagnosis”。结果证明作者全是机翻的,谷歌学术里这个翻译啥也没找到。

后面在澳洲的网站发现里发现正确的翻译应该是“principal diagnosis”。(虽然模型代码也把主要诊断给命名成 primary_diagnosis 吧)

后面发现直接找“principal diagnosis”的论文多是医学相关,或者本质是在做 ICD 编码的工作,没有体现主要诊断的特殊要求。于是直接选择了两篇 ICD 编码相关的和 DRG 相关的 paper。

类型 描述 代表作 代表作思想
医学相关 用医学知识通过某种症状确定主要诊断 Extracting principal diagnosis, co-morbidity and smoking status for asthma research: evaluation of a natural language processing system 几乎是纯医学知识对某一个单病种的判断,略过
与“主要诊断”字眼相关的 存在主要诊断(principal diagnosis)相关内容,但实际内容是ICD编码 Implementation of a Medical Coding Support System by Combining Approaches: NLP and Machine Learning Computer-Assisted Diagnostic Coding: Effectiveness of an NLP-based approach using SNOMED CT to ICD-10 mappings 1.用提取的病历特征和传统机器学习预测编码 2.通过系统化临床医学术语集的相关性预测 (质量都比较一般)
ICD编码相关的 较为流行的方向,直接通过病历为患者编码的研究,都视作多标签分类问题 Automatic ICD-9 coding via deep transfer learning Modeling Diagnostic Label Correlation for Automatic ICD Coding 1.通过从MeSH的迁移学习得到预测结果 2.通过给ICD编码的预测得分分组计算相关性提高准确率
DRGs分组与NLP相关的 直接通过模型为相关病历确定DRG分组 Early prediction of diagnostic-related groups and estimation of hospital cost by processing clinical notes 通过先用NLP技术预测患者的DRG分组,再预测患者的开销情况(CMI)

论文介绍

1. Automatic ICD-9 coding via deep transfer learning

这篇paper的动机是 MIMIC 这个数据太小了,只有5万多份数据,平均每个编码只能有8个样本,难以训练。相对来讲 BioASQ3 是一个更大的数据集,平均每个 label 的数量也多一些。

这篇文章相对早一些,因此迁移学习的实现方式也并不复杂,通过直接固定 Multi-scale CNN 的参数,在MIMIC数据集上重新训练即可得到很好的结果:

通过与其它模型的对比,可以发现模型预测的能力准确率还是不错的(以当时的标准来看)。此外,与本身的模型但是没有迁移学习做比较,可以发现迁移的这个过程还是很有效的。

2. Modeling Diagnostic Label Correlation for Automatic ICD Coding

作者在这篇文章中提出了要使用预测的 label 之间的相关性来帮助提高预测的准确率。因此预测模型分为了两部分,第一部分用来直接计算 ICD 编码的可能概率,并将可能的组合分组(依据是概率乘积的大小);第二部分按照得到的分组,通过相关的模型计算 ICD 编码的相关性,对小组进行重排序。一个很有趣的是,这篇paper中用来直接计算 ICD 编码概率的模型都是来自于其他人的工作。(即下图中的predictor)

关于label之间的相关性,文中有这样一个例子:模型会同时给便秘和腹泻很高的预测概率,但我们知道这样的情况是不合逻辑的,这就是 lebel 间的相关性

作者通过MADE和Mask-SA两种模型来实现集合内的Reranking过程。需要注意的是,虽然两个模型都是用来衡量相关性的,但是最后小组的 score 仍然与每个 ICD 编码原来的分数有关。

两种模型的概率表达:

  • MADE:按随机顺序进行自回归分解来估计其联合概率

  • Mask-SA:mask一个ICD编码后计算概率,类似于Transformer(没有位置坐标)

通过这样的步骤,我们可以看到原有模型的效果提升非常明显:

3. Early prediction of diagnostic-related groups and estimation of hospital cost by processing clinical notes

动机是提前识别出可能会有较大开销的住院情况。(见下图)

即,病人的治疗还没有完成(更不必说编码、DRG分类和支付了),就大致估计一下病人的未来的开销情况。

预测分为两种DRG,Medicare Severity (MS) DRG or All Patient Refined (APR) DRG 。排除了与新生儿或后期护理相关的代码,MS-DRG的代码为738个,APR-DRG的代码为1136个。

模型分为两部分,第一部分通过病历预测DRG分类,第二部分通过分类和对应的权值预测住院开销。使用convolutional attention for multi-label classification (CAML)来完成DRGs的分类任务。得到DGR分组的权重,选择最高i的一个最为DRG分组。CAML模型是一个可以用来做 ICD 10 编码的模型,这里作者简单修改了输出,重新训练后直接用病历文本预测患者的DRG分组。CAML 的模型单元如下:

在得到DRG分组后,直接乘以DRG分组对应的权重即可得到预测的开销。在源代码中,有这样的一张权重表:

由于作者假定的预测节点在病人治疗结束前,因此模型并不会获得全部病历数据,而是获得一定的时间之前的病历数据。效果如下:

HPA 是患者进 ICU 后的小时数(有的病人会在进 ICU 前已经住院有病历文本记录,因此可以为负值)可以看到,随着时间推进,模型得到的病历文本也会越来越多。衡量估计准确率的 CMI Error也会逐渐降低。这是符合直觉的。

会后总结

分享论文后大家给了很多看法,讨论的非常愉快,这里说一下自己的收获~

第一篇 paper 用了迁移学习的方法取得了很好的效果。可能是由于是期刊上的文章发表周期较长,用现在直接固定模型的参数来完成迁移学习显得有些简单了。不过值得注意的是,国外在数据库资料这方面确实要走在了我们的前面。如果可以把一些办法把国外的数据集做训练后迁移回到我们的医院数据上来,或许也是一个不错的办法。(老实讲,我很赞同这个想法,因为国内医院的病历质量确实有待提高)

第二篇paper做出了很不错的成果,通过架构提高了原来模型的准确率(而且还是 naacl 这样的顶会)。提高了 ICD 编码准确率用的两个模型也很精妙。不过像“大哥”说的,其它人的模型有一些不完美的的地方是非常正常的,通过一个架构的优化提高一些准确率不足为奇。这篇 paper 难免有些用一些小 trick 之嫌。即便是 naacl 这样的顶会,有些工作是要靠作者来用一些很巧妙的手法来写(私以为就是吹牛),才会体现的很厉害的。

第三篇 paper 是我原本认为动机最“鸡肋”的一篇,毕竟人都进ICU了还预测开销有什么意义,难道医院预测出来开销很大还能赶人么()。不过考虑到一个患者住院时期可能会很长,高达数个月的情况,而医院需要每个月做一次预算,那么这时候做一个粗糙的预测也可能被医院需要。这样的工作还是有一定的意义的,也许可以帮上现在很多医院的忙。

毕竟人都进ICU了还预测开销有什么意义,难道医院预测出来开销很大还能赶人么()。不过考虑到一个患者住院时期可能会很长,高达数个月的情况,而医院需要每个月做一次预算,那么这时候做一个粗糙的预测也可能被医院需要。这样的工作还是有一定的意义的,也许可以帮上现在很多医院的忙。

此外就是,以后看论文时一定要好好总结清楚数据集的具体格式,以及模型用到了数据集哪些部分的数据训练得到的模型,这是和模型的结构一样重要的。

DRG 与 ICD10 编码相关论文阅读分享相关推荐

  1. 缺陷检测相关论文阅读总结(记录自己读过的论文主要内容/Ideas)

    缺陷检测相关论文阅读总结(记录自己读过的论文主要内容) Attention!!! 点击论文题目即可访问原文or下载原文PDF文件: 每篇文章的内容包含:内容总结.文章Ideas: 更多关于缺陷检测以及 ...

  2. 服装检索相关论文阅读

    服装检索相关论文阅读 ######## Where to Buy It: Matching Street Clothing Photos in Online Shops 论文链接:https://ie ...

  3. Zero-Shot相关论文阅读报告

    Zero-Shot相关论文阅读报告 Zero-Shot Learning with Semantic Output Codes 论文:Zero-Shot Learning with Semantic ...

  4. 强化学习相关论文阅读笔记之稀疏奖励解决方法

    注:该系列文章为强化学习相关论文的阅读笔记,欢迎指正! 论文题目:<深度强化学习中稀疏奖励问题研究综述> 文章目录 1. 论文介绍 2. 论文结构 3. 研究背景 3.1 解决稀疏奖励的必 ...

  5. 谣言检测相关论文阅读笔记:Towards Multi-Modal Sarcasm Detection via Hierarchical Congruity Modeling

    Towards Multi-Modal Sarcasm Detection via Hierarchical Congruity Modeling with Knowledge Enhancement ...

  6. Fuzzing相关论文阅读笔记(一)

    前言 ​ 之前从网上一个博主的博客里面看到有关论文阅读记录的博文,博主在看完每一篇论文后都会进行相关总结和思考记录.个人觉得这是个不错的习惯,遂学习了下,刚好对最近看的几篇论文进行简单的记录. 论文总 ...

  7. 异常检测(Out-of-distribution detection\ anomaly detection)相关论文阅读

    Learning Confidence for Out-of-Distribution detection in Neural Network 作者 Terrance DeVries .Graham ...

  8. # 切削加工形貌的相关论文阅读【1】-球头铣刀铣削球面的表面形貌建模与仿真研究

    切削加工形貌论文[1]-球头铣刀铣削球面的表面形貌建模与仿真研究 1. 论文[2]-球头铣刀加工表面形貌建模与仿真 1.1 切削加工形貌仿真-考虑的切削参数 1.2 其他试验条件 1.3 主要研究目的 ...

  9. 推荐系统相关论文阅读整理

    文章题目 基于协同过滤的微信点餐推荐系统的设计与实现 作者 张彭飞   吉林大学 期刊 论文在线阅读-中国知网 (cnki.net) 摘要 关键词 协同过滤;推荐系统;Docker;PXC;Redis ...

  10. 风格迁移相关论文阅读笔记

    <图像和视频油画风格化研究> 西安交通大学 2011年 论文网址: http://kns.cnki.net/KCMS/detail/detail.aspx?dbcode=CJFQ& ...

最新文章

  1. 统计每天某一时间段的SQL语句
  2. 三星note4 9100自动关机问题以及空间不够的问题研究。。。。
  3. 2016大数据发展7大趋势
  4. java基础基本数据类型对象包装
  5. imu相机标定_解放双手——相机与IMU外参的在线标定
  6. 移动Web开发 ----- Flex布局详解
  7. 用python解决约瑟夫环
  8. Spring Cloud:服务消费(Ribbon)【Dalston版】
  9. 安卓APK反编译详解(多图)
  10. AOP切面编程的理解
  11. android自定义进度条图片,Android零基础入门|自定义酷炫进度条
  12. ES6_1.块级作用域绑定_临时死区TDZ
  13. 怎么恢复qq空间删除的日志文件呢
  14. 王阳明心学主要讲了什么
  15. 深入理解设计模式-责任链模式(职责链模式)
  16. 伪漫迷用数据假装看了一遍《复联4》
  17. 手机号时间戳加密传到前端_如何在不到一个小时的时间内加密您的一生
  18. 炒期货赚钱吗?掌握技巧才有得赚
  19. 3.7 Feature Envy 依恋情结
  20. 蚂蚁矿池宣布赞助火箭队,吴忌寒这回要把 BCH 印在 NBA 球衣上吗?

热门文章

  1. 关于Mac OS的一些想法
  2. 浏览器不支持attachEvent事件解决方案
  3. 魔兽争霸的地图验证漏洞和作弊图原理,兼谈魔兽联机机制[转载]
  4. htc328d屏幕排线怎么换_详细的HTC T328D一键解锁教程(图文)
  5. php uploadify下载,JQuery上传插件Uploadify的下载与讲解
  6. 抽象代数之可解群的子群是可解群以S4为例
  7. Echarts官方文档!
  8. CISSP工资百万, 认证培训2899美元,是不是太高?
  9. 创新案例分享 | 一体化政务服务平台运维项目,全力提升平台服务效能
  10. 【阿里图标库的使用】