虽然上一个坑还没有填完,但是今天要开一个新坑哈哈。

ICD自动编码任务虽然是个小众任务,但国内外也一直有不少团队在做,而且这个任务与DRG分组、病历质检、医保理赔都有关系,可以说是智慧医疗的基础,所以今天就来总结一下和这个任务相关的比赛和数据集吧。

目录

  • (一)相关比赛
    • CLEF-2017
    • CLEF-2018
    • CLEF-2019
    • CLEF-2020
    • CLEF-2021
  • (二)数据集
    • 英文数据集
    • 中文数据集
    • 欧洲各国语言数据集

(一)相关比赛

CLEF eHealth (International Conference of the Cross-Language Evaluation Forum for European Languages) 在2017-2020期间举办的评测任务,Task-1均与ICD自动编码相关。

CLEF-2017

数据语言:French/English
文档类型:死亡证明

相关链接:https://link.springer.com/chapter/10.1007/978-3-319-65813-1_26

CLEF-2018

数据语言:French/Hungarian/Italian
文档类型:死亡证明。Free-text descriptions of causes of death as reported by physicians in the standardized causes of death forms. Each document was manually coded by experts with ICD10 per international WHO standards.
具体描述:

  • For the French subtask, a training set of 125, 384 death certificates and an independent test set of 11, 932 death certificates was annotated with respect to ICD10 codes and supporting text evidence by professional coders.
  • For the Hungarian subtask, a training set of 84, 703 death certificates and an independent test set of 21, 176 death certificates was assigned ICD10 codes by professional coders.
  • For the Italian subtask, a training set of 14, 502 death certificates and an independent test set of 3, 618 death certificates was assigned ICD10 codes by professional coders.

相关链接:https://link.springer.com/chapter/10.1007/978-3-319-98932-7_26

CLEF-2019

数据语言:German
文档类型:动物实验非技术总结(NTS) 用ICD-10德版标注
具体描述:
NTSs of animal experiments using codes from the German version of the ICD-10. The NTPs were short publicly-available summaries5 written as part of the approval procedure for animal experiments in Germany. The database currently contains more than 10, 000 NTPs (as of May/2019).

The task consisted of assigning codes with respect to chapters or groups of the 2016 German Modification of ICD-106. The training and development data set7 contained a total of 8, 386 NTSs of animal experiments recently carried out in Germany (as of September 2018). It was split into training and development sets with 7, 544 and 842 NTSs, respectively. For the test set, we released 407 NTSs8 for which participants should predict the ICD-10 codes.

相关链接:https://link.springer.com/chapter/10.1007/978-3-030-28577-7_26

CLEF-2020

数据语言:Spanish
文档类型:临床病理文档 clinical case documents
具体描述:
A collection of 1,000 carefully selected clinical cases resembling EHRs classified manually using the MyMiner File Labelling tool by a practicing physician with assistance of a clinical documentalist.

This corpus contains a total of 16,504 sentences and 396,988 tokens, with an average of 396.99 tokens per clinical case, thus these records are considerably longer than the data used by past CLEF clinical coding tasks employing death certificates and non-technical summaries of animal experimentation.

The CodiEsp corpus covers 3,427 unique ICD-10 codes corresponding to a total of 18,435 manual document-code annotations. The most common code is r52, corresponding to “unspecified pain”; which is repeated 361 times across the entire corpus. 1,830 codes appear more than once, among which 346 codes appear more than 10 times.

相关链接:https://link.springer.com/chapter/10.1007/978-3-030-58219-7_19

CLEF-2021

2021只有两个任务,任务一是Spanish的超声报告,但是做的命名实体识别,这一年没有ICD编码评测任务。
相关链接:https://link.springer.com/chapter/10.1007%2F978-3-030-85251-1_21#citeas

(二)数据集

英文数据集

1. MIMIC数据集(MIMIC-II & MIMIC-III)
公开数据集
数据集/论文发布地址:(Johnson et al.,2016): MIMIC-III, a freely accessible critical care database.
数据集描述:
做这个任务使用范围最广的数据集。

MIMIC-II数据集包含2001至2008年在以色利某医疗中心的ICU住院的30000多名患者的数据。

MIMIC-III-Full数据集收集了该医疗中心ICU从2001年至2012年期间的4万多名患者的数据。

MIMIC-III-50是MIMIC-III-Full的子集,其中包括至少出现了一次频率在前50的标签的数据。

The Massachusetts Institute of Technology (MIT) Laboratory for Computational Physiology maintains the database and de-identifies the data per Health Insurance Portability and Accountability Act Privacy Rules.

2. CCHMC数据集
公开数据集
数据集/论文发布地址:(Farkas et al.,2008):Automatic construction of rule-based ICD-9-CM coding systems
数据来自辛辛那提儿童医院医学中心放射科(Cincinnati Children s Hospital Medical Center’s Department of Radiology,CCHMC)。
CCHMC的机构审查委员会批准了数据的发布。
数据集统计信息:

  • CMC数据集总共有1954个放射透视报告,有45个不同的编号标签。
  • CMC数据集有75%的标签对应的样本在训练集中出现的次数少于50,
  • 50%的标签对应的样本在训练集中出现的次数少于10次。
  • CMC数据集报告的平均长度在21词。

3. CDC数据集
公开数据集 ;CLEF-2017比赛指定数据集。
数据集来源:https://link.springer.com/chapter/10.1007/978-3-319-65813-1_26
CDC 数据集由美国疾病控制中心 (CDC) 提供,由2015年在美国以电子方式收集的死亡证明文本组成。这些都是由于自然原因造成的记录,即不包括与伤害相关的死亡。

4. UKSmall & UKLarge 数据集
非公开数据集。 数据来自肯塔基大学 (UKY) 医学中心2011-2012年住院患者间的 71,463 个电子病历。UKSmall是UKLarge的子集。
数据集来源:(Kavuluru et al., 2015)

中文数据集

1. Xiangya数据集
非公开。 Xiangya数据集包含了中南大学三家附属医院近年来的电子健康病例数据。

数据集来源:Ying Yu, Min Li, Liangliang Liu, Zhihui Fei, Fang- Xiang Wu, and Jianxin Wang. 2019. Automatic ICD code assignment of Chinese clinical notes based on multilayer attention birnn. Journal of Biomedical Informatics, 91:103–114. 论文链接

2. CN-full&CN-50数据集
非公开数据集。 CN-Full数据集包含50678份中文临床笔记和6200个ICD-10编码。CN-50是CN-Full数据集的子集,其中包括至少出现了一次频率在前50的ICD-10编码的数据。

数据集来源: Pengfei Cao,Chenwei Yan,Xiangling Fu,Yubo Chen,Kang Liu,Jun Zhao,Shengping Liu, and Weifeng Chong. Clinical-coder: Assigning interpretable ICD-10 codes to Chinese clinical notes. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations,pages 294–301. ACL 2020. 论文链接

欧洲各国语言数据集

1. CepiDc-2017数据集
公开数据集;法语数据集 ;CLEF-2017比赛指定数据集。

数据集来源:论文 CLEF eHealth 2017 Multilingual InformationExtraction task
由法国健康与医学研究所 (INSERM) 提供,包含2006年至2014年期间从法国医生和医院收集的死亡证明文本数据。

2.CepiDc-2018数据集
法语。
也是死亡证明。CLEF-2018比赛指定数据集之一。

3. CLEF-Italian数据集
意大利语。
死亡证明。CLEF-2018比赛指定数据集之一。

4. CLEF-Hungarian数据集
匈牙利语。
死亡证明,CLEF-2018比赛指定数据集之一。

5. CLEF-German数据集
德语。
动物实验的非技术性总结。用德版的ICD-10标注的。CLEF-2019比赛指定数据集。

6. CLEF-Spanish数据集
西班牙语。
电子病历,CLEF-2020比赛指定数据集。

7. UZA数据集
荷兰语
UZA数据集中的数据来自安特卫普的临床数据仓库大学医院,由完全匿名的住院病人的历史数据的随机子集组成,涵盖2年的数据,共56641条数据。其中包含结构化和非结构化(文本)数据。
数据集来源:Elyne et al.: Data integration of structured and unstructured sources for assigning clinical codes to patient stays

大概就是这么多啦,下次更新可能会补个图吧,今天不想找截图了。

疾病自动编码任务的调研(二)——相关比赛及数据集相关推荐

  1. 【深度学习】面向医学图像的病灶分割调研(二)

    [深度学习]面向医学图像的病灶分割调研(二) 文章目录 3 论文分析3.1<nnU-Net for Brain Tumor Segmentation>3.2<An attempt a ...

  2. 国内常见与人工智能(深度学习、机器学习)相关比赛合集

    国内常见与人工智能(深度学习.机器学习)相关比赛合集 ​ 以下比赛一般最近一年一次,一届一届的办,不过在我们学校都不算ABC类,但在要继续走一下还是挺有用的,当然钱也比普通比赛奖励的多 一.[第五届中 ...

  3. 半身全身发型替换之一: 方法调研以及相关问题

    在前一篇博客"三秒换发型"中提到几种换发型的方法,去年和今年又有不少paper推出,其中效果最好的一篇是基于BarberShop的改进,发表于ECCV 2022的"Sty ...

  4. 【综述】各类人工智能大数据相关比赛

    随着近几年人工智能和大数据的快速发展和应用,使得相应的工智能&大数据相关比赛比赛近几年火热了起来,下面就我知道到的人工智能&大数据相关比赛,为大家简要说下,感兴趣的可以参加一些比赛,锻 ...

  5. 提高计算机网络可靠性开题报告,计算机网络类论文范文素材,与提高计算机网络可靠性的方法(二)相关研究生毕业论文开题报告范文...

    计算机网络类论文范文素材,与提高计算机网络可靠性的方法(二)相关研究生毕业论文开题报告范文 关于计算机网络及可靠性及计算机方面的免费优秀学术论文范文,计算机网络类论文下载,关于提高计算机网络可靠性的方 ...

  6. ICDAR 2019比赛及数据集下载-任务-ICDAR2019任意形状文本的鲁棒阅读挑战

    ICDAR 2019比赛及数据集下载 https://rrc.cvc.uab.es/?ch=14&com=tasks 任务-ICDAR2019任意形状文本的鲁棒阅读挑战 我们提议的比赛包括三个 ...

  7. python + opencv + 二值化处理图片数据集(三种方法)

    二值化处理图片数据集 首先导入相应的包 cv2即opencv-python包 if __name__ == "__main__": 上面这一句话的含义: 自己的 .py 可以作为自 ...

  8. 2020年最全 | 少样本学习(FSL)相关综述、数据集、模型/算法和应用资源整理分享...

    文章来源 | 深度学习与NLP Few Shot Learning(FSL)又称少样本学习,这是做AI研究经常遇到的一个问题.深度学习技术需要大量的数据来训练一个好的模型.例如典型的 MNIST 分类 ...

  9. ECCV2018论文,以及相关比赛地址

    原 ECCV 2018论文解读及资源集锦(10月17日更新,含全部论文下载链接) 2018年08月20日 17:41:38 extremevision 阅读数:8983 </div>< ...

  10. 口罩、安全帽识别比赛踩坑记(二) 比赛流程及 SSD / YOLO V3 两版本实现

    本篇文章主要对比赛流程中的各个环节进行展开说明,并对笔者践行过的代码及更改的地方进行记录.如哪里有侵权请联系笔者进行删除.另外在这里对比赛举办方表示感谢 ~ ~ 其中开源代码会在整理后放在github ...

最新文章

  1. 声明一个const数组
  2. linux c 域名转ip函数 gethostbyname 返回结构体 hostent 简介
  3. 阿尔法蛋机器人tf卡_如父母般陪着你长大,科大讯飞阿尔法蛋智能故事机Z1体验...
  4. mysql互为主从利弊_MySQL互为主从复制常见问题
  5. 13亿参数,无标注预训练实现SOTA:Facebook提出自监督CV新模型
  6. hive olap 数据仓库_数据仓库系统的实现和使用(含OLAP重点讲解)
  7. 适用于ActiveMQ 5.9的Apache Camel Broker组件
  8. Netty入门篇-从双向通信开始
  9. python的代码复用技术_Python__函数和代码复用
  10. 集合 数组 定义 转换 遍历 Arrays API MD
  11. Delphi 的绘图功能[5] - 获取 Canvas 对象
  12. Spring+SpringMVC+Mybatis 详细配置
  13. 易语言-数据类型及其长度
  14. SQLPROFILER计算机用户操作数据SQL记录跟踪
  15. 小米便签源码分析——tool包
  16. 【CodeVS3100】蜗牛
  17. Airbnb NYC2019分析实战
  18. python简单实现一个数字动态进度条
  19. 二叉树中序遍历(递归+非递归)Java
  20. ubuntu 网卡流量_详解Linux查看实时网卡流量的几种方式

热门文章

  1. 西威变频器使用说明书_西威变频器说明书 (1)
  2. RequestResponse
  3. npm 升级所有依赖包
  4. 手工焊锡通用工艺规程
  5. makefile中文手册_如何学习GCC英文手册
  6. ROS1 noetic + depthai_ros教程
  7. [和秋叶一起学ppt]四步做好段落排版(笔记)
  8. 微博这样的软件怎么测试,新浪微博都盘上了,这个测试玩嗨了!
  9. 时隔多年,我竟然翻出了当年的大学成绩单!
  10. CISSP怎么复习备考