MIMIC-III数据集

这是师姐对MIMIC-III数据库介绍的笔记。

数据库介绍


  • 一个患者对应一个subject_id,但是可能多次入院,有多个hadm_id,一次入院可能有多次进入ICU,即一个hadm_id可能对应多个icustay_id
  • 通常采用一个hadm_id对应的第一个icustay_id开展相关的研究
  • 字典表用于某个项的查询,举例如下:
    比如查询某个患者的白细胞的数据(在LABEVENTS表中),首先需要找到患者对应的三个ID,然后在实验室检查编码(d_labitems)中找到白细胞的item_id,然后再去LABEVENTS表中查找.

26张表的详细解释

  • 这张表用主要记录患者的入院情况,用的比较多的可能有患者的人口统计学信息
  • 入院时间对我们采集特定时间窗口的患者信息是比较重要的,大多数研究都会用到.
  • 死亡时间在对应看患者结局是会用到.
  • ICUSTAY表中入科出科的时间戳也很重要;住院时长即在ICU中待的时间的长度.
  • PATIENTS表中记录着患者的信息,可以与ADMISSONS综合起来使用.比如这里的死亡日期可以对前面的表做一个补充;通过入院时间和出生日期可以计算出患者的年龄.
  • SERVICES和TRANSFERS可能在做一些资源配置的研究中会用到,做生理指标方面的研究时用得较少.
  • CAREGIVERS用的相对较少
  • CHARTEVENTS是最重要的一张表,记录的大部分是患者生命体征的数据,如心率,血压,体温等等.该表是通过患者编号\病案号和ICU编号作为联合主键确定患者.项目标志符也就是item_id,比如心率这个项目所对应的项目标识符可以在d_labitems字典中查到.记录时间和存储时间是对应该项的存储时间.记录时间可以用于筛选特定的时间窗口(比如说进入ICU24小时内的数据).要用到前面的ICUSTAYS的入科时间以及当前测量的时间做差值,从而确定研究队列.
  • DATETIMEEVENTS表中主要是患者操作信息,使用相对较少.
  • 两张INPUTEVENTS应组合起来使用.提供比如说患者给药的速率(如葡萄糖输入的速率),给药途径,给药部位.基于这两个表可以做一些关于给药,药物干预方面的研究
  • NOTEEVENTS大部分是患者的医嘱,如患者的既往史和现病史等,再比如患者体温波动的情况等,都是通过文本形式给出的.
  • OUTPUTEVENTS主要记录了患者的出量信息,比如说患者的尿量等信息,可以作为患者生命情况的表示.
  • PROCEDUREEVENTS记录诸如手术开始时间,结束时间,手术操作等信息
  • DIAGNOSES_ICD表中记录了患者的ICD-9诊断编码,比如说想做一些疾病诊断或疾病预测的研究时会用到.一个患者可能会对应多个诊断,所以是一个序列格式的表.可能会认为第一个是患者的主病.
  • DRGCODES表中记录了患者的诊断类别和诊断编码
  • LABEVENTS表中是患者的化验项目,有比如像白细胞,红细胞这种指标值.LABEVENTS,CHARTEVENTS和OUTPUTSEVENTS表合起来基本上可以代表患者进入ICU后生理指标的大部分特征.
  • PRESCRIPTIONS中是患者的用药记录,和前面的INPUTEVENTS综合起来可以作为用药干预的研究
  • PROCEDURE_ICD表记录的是病人的手术记录.

    前面提到抽取患者的数据比如说生命体征,心率等,实验室指标(如白细胞红细胞等)等, 就需要在相应的字典中找到相应的item,即项目标识符,再对应查找某一个患者对应指标下的数据.心率,血压等指标在D_ITEMS中查找索引

数据表中的基本信息


MIMIC-III代码库

网址:https://github.com/MIT-LCP/mimic-code
https://github.com/MIT-LCP/mimic-iii-paper/

  • 比较常用到的有concepts文件夹中的,记录着大部分可以获得患者生命指标的SQL代码.durations是患者出入量的信息.firstday是封装好了的获取患者第一天(即前24h)的生理指标的数据.

其它临床数据集

研究主题

在此主要是对三届Datathon的研究题目进行总结

相关题目






研究基本流程梳理


师姐总结的分类任务的基本流程

在具体的研究工作中,通常花费最多时间的还是在数据收集和预处理的过程中,模型通常还是比较现成的.
首先是研究主题的确定,比如研究患者的死亡风险预测,那么需要选择患者结局(是否死亡,什么时间死亡等指标)等,可以通过看相关论文以及和相关医生作沟通来选择预测指标;指标确定之后,就是研究队列及指标纳入标准的确定,比如说针对脓毒症的患者,那么研究队列是脓毒症的患者;一般来说会选择不同入院(hadm_id)中的第一次进入ICU的数据;患者的某个指标的数据缺失率也应被考虑在纳入指标当中(通过设定一个缺失率阈值来判断是否使用某个指标);通常选用前24h的指标.
区间值转比如说白细胞有记录是less than 5,就可以转换成2.5或采用当作缺失值的方法.单位转换比如说INPUTEVENTS_CV和INPUT_MV中可能存在单位不一致的情况,需要按照临床上一些标准进行单位转换.

MIMIC-III数据集介绍相关推荐

  1. MIMIC III数据集详细介绍

    文章目录 1. 概述 2. 字典信息辅助表 D_CPT(目前使用医疗服务术语表) D_ICD_DIAGNOSES (ICD病情确诊词典表) D_ICD_PROCEDURES (ICD医疗过程词典表) ...

  2. K-近邻算法之案例:鸢尾花种类预测--数据集介绍

    K-近邻算法之案例:鸢尾花种类预测--数据集介绍 本实验介绍了使用Python进行机器学习的一些基本概念. 在本案例中,将使用K-Nearest Neighbor(KNN)算法对鸢尾花的种类进行分类, ...

  3. 深度学习常用数据集介绍

    数据集大全 数据集大全 介绍 目前接触到的数据集 1. [MNIST](http://yann.lecun.com/exdb/mnist/) 2. [CIFAR-10 / CIFAR-100](htt ...

  4. 【知识星球】数据集板块重磅发布,海量数据集介绍与下载

    有三AI知识星球的"数据集板块"正式上线,提供数据集介绍,论文下载,数据集下载3大功能,那些因为网速问题,因为需要签license的蛋疼问题,从此不再成为问题! 有三AI知识星球- ...

  5. OHSUMED数据集介绍

    1. OHSUMED数据集介绍 本实验中采用OHSUMED测试数据集合(其也被用于第9 届国际文本检索竞赛TREC9 的文档过滤子竞赛).OHSUMED 数据集合由William Hersh和他的同事 ...

  6. GCN(一)数据集介绍

    1.数据集介绍 1.1 数据集概述 Cora数据集由机器学习论文组成,是近年来图深度学习很喜欢使用的数据集.在数据集中,论文分为以下七类之一: 基于案例 遗传算法 神经网络 概率方法 强化学习 规则学 ...

  7. camvid数据集介绍_深度学习图像数据集介绍(MSCOCO)

    深度学习图像数据集介绍(MSCOCO) MSCOCO数据集是微软开发维护的大型图像数据集,次数聚集的任务包括识别(recognition),分割(segementation),及检测(detectio ...

  8. Imdb影评的数据集介绍与下载

    1. Imdb影评的数据集介绍 这是用于二分类情感分类的数据集,其包含的数据比以前的基准数据集要多得多. 我们提供了25,000电影评论用于训练,而25,000条电影评论用于测试. 也有其他未标记的数 ...

  9. 多目标跟踪数据集 :mot16、mot17数据集介绍

    文章目录 MOT16 数据集 MOT17数据集介绍 多目标跟踪数据集 MOT16 .MOT1数据集介绍: MOT16 数据集 数据集百度网分享: 点击此处 提取码: miao 文件格式: 解压MOT1 ...

最新文章

  1. 浅析网站SEO优化对长尾关键词保持好感度的四大技巧
  2. 网络编程中BIO和NIO的区别
  3. C++ Bayes‘ theorem贝叶斯定理的实现算法(附完整源码)
  4. android学汇资料总整理
  5. vmware中装的ubuntu上不了网
  6. VS Code 翻译插件
  7. 计算机结构化思维学计算机,基于结构化知识的学习/思考机器和学习/思考方法以及计算机系统和信息生成方法...
  8. 6. XML Schema
  9. 如何使用File APIs来读取文件
  10. Atitit 数据库视图与表的wrap与层级查询规范
  11. 用python延续科比的曼巴精神
  12. xbox win10测试软件,win10中自带的录屏工具xbox录屏软件怎使用?
  13. 通过gitbub桌面工具同步
  14. sidetone 、回声抑制
  15. python百度ai文字识别、不精确、进行处理,python利用百度AI实现文字识别功能
  16. labelmx条码打印软件如何批量制作服装吊牌
  17. CCID 设备通讯 (Windows 平台)
  18. 云和恩墨数据库MogDB荣获2021年度IT168最佳创新产品奖
  19. JavaScript定义注册页面
  20. Biopython+python 自动化分析蛋白质pdb文件,输出id,序列以及作用位点

热门文章

  1. 弘辽科技:优化宝贝标题的4大雷区不要踩!
  2. 错排问题(装错信封问题)
  3. MYSQL多表联合查询排序
  4. Flash鼠绘入门第十一课:可爱瓢虫的绘制-Flash鼠绘可爱瓢虫3
  5. 计算机截取当前页面,电脑截图怎么截
  6. 用计算机怎么算极限,2019计算机考研数学必考知识点:极限的计算
  7. 基于kali的一次无线渗透测试
  8. Python中的Nonetype类型怎么判断?
  9. linux gcc comand not,gcc: command not found
  10. 北漂生活-租房那些事