MIMIC-III数据集介绍
MIMIC-III数据集
这是师姐对MIMIC-III数据库介绍的笔记。
数据库介绍
- 一个患者对应一个subject_id,但是可能多次入院,有多个hadm_id,一次入院可能有多次进入ICU,即一个hadm_id可能对应多个icustay_id
- 通常采用一个hadm_id对应的第一个icustay_id开展相关的研究
- 字典表用于某个项的查询,举例如下:
比如查询某个患者的白细胞的数据(在LABEVENTS表中),首先需要找到患者对应的三个ID,然后在实验室检查编码(d_labitems)中找到白细胞的item_id,然后再去LABEVENTS表中查找.
26张表的详细解释
- 这张表用主要记录患者的入院情况,用的比较多的可能有患者的人口统计学信息
- 入院时间对我们采集特定时间窗口的患者信息是比较重要的,大多数研究都会用到.
- 死亡时间在对应看患者结局是会用到.
- ICUSTAY表中入科出科的时间戳也很重要;住院时长即在ICU中待的时间的长度.
- PATIENTS表中记录着患者的信息,可以与ADMISSONS综合起来使用.比如这里的死亡日期可以对前面的表做一个补充;通过入院时间和出生日期可以计算出患者的年龄.
- SERVICES和TRANSFERS可能在做一些资源配置的研究中会用到,做生理指标方面的研究时用得较少.
- CAREGIVERS用的相对较少
- CHARTEVENTS是最重要的一张表,记录的大部分是患者生命体征的数据,如心率,血压,体温等等.该表是通过患者编号\病案号和ICU编号作为联合主键确定患者.项目标志符也就是item_id,比如心率这个项目所对应的项目标识符可以在d_labitems字典中查到.记录时间和存储时间是对应该项的存储时间.记录时间可以用于筛选特定的时间窗口(比如说进入ICU24小时内的数据).要用到前面的ICUSTAYS的入科时间以及当前测量的时间做差值,从而确定研究队列.
- DATETIMEEVENTS表中主要是患者操作信息,使用相对较少.
- 两张INPUTEVENTS应组合起来使用.提供比如说患者给药的速率(如葡萄糖输入的速率),给药途径,给药部位.基于这两个表可以做一些关于给药,药物干预方面的研究
- NOTEEVENTS大部分是患者的医嘱,如患者的既往史和现病史等,再比如患者体温波动的情况等,都是通过文本形式给出的.
- OUTPUTEVENTS主要记录了患者的出量信息,比如说患者的尿量等信息,可以作为患者生命情况的表示.
- PROCEDUREEVENTS记录诸如手术开始时间,结束时间,手术操作等信息
- DIAGNOSES_ICD表中记录了患者的ICD-9诊断编码,比如说想做一些疾病诊断或疾病预测的研究时会用到.一个患者可能会对应多个诊断,所以是一个序列格式的表.可能会认为第一个是患者的主病.
- DRGCODES表中记录了患者的诊断类别和诊断编码
- LABEVENTS表中是患者的化验项目,有比如像白细胞,红细胞这种指标值.LABEVENTS,CHARTEVENTS和OUTPUTSEVENTS表合起来基本上可以代表患者进入ICU后生理指标的大部分特征.
- PRESCRIPTIONS中是患者的用药记录,和前面的INPUTEVENTS综合起来可以作为用药干预的研究
- PROCEDURE_ICD表记录的是病人的手术记录.
前面提到抽取患者的数据比如说生命体征,心率等,实验室指标(如白细胞红细胞等)等, 就需要在相应的字典中找到相应的item,即项目标识符,再对应查找某一个患者对应指标下的数据.心率,血压等指标在D_ITEMS中查找索引
数据表中的基本信息
MIMIC-III代码库
网址:https://github.com/MIT-LCP/mimic-code
https://github.com/MIT-LCP/mimic-iii-paper/
- 比较常用到的有concepts文件夹中的,记录着大部分可以获得患者生命指标的SQL代码.durations是患者出入量的信息.firstday是封装好了的获取患者第一天(即前24h)的生理指标的数据.
其它临床数据集
研究主题
在此主要是对三届Datathon的研究题目进行总结
相关题目
研究基本流程梳理
师姐总结的分类任务的基本流程
在具体的研究工作中,通常花费最多时间的还是在数据收集和预处理的过程中,模型通常还是比较现成的.
首先是研究主题的确定,比如研究患者的死亡风险预测,那么需要选择患者结局(是否死亡,什么时间死亡等指标)等,可以通过看相关论文以及和相关医生作沟通来选择预测指标;指标确定之后,就是研究队列及指标纳入标准的确定,比如说针对脓毒症的患者,那么研究队列是脓毒症的患者;一般来说会选择不同入院(hadm_id)中的第一次进入ICU的数据;患者的某个指标的数据缺失率也应被考虑在纳入指标当中(通过设定一个缺失率阈值来判断是否使用某个指标);通常选用前24h的指标.
区间值转比如说白细胞有记录是less than 5,就可以转换成2.5或采用当作缺失值的方法.单位转换比如说INPUTEVENTS_CV和INPUT_MV中可能存在单位不一致的情况,需要按照临床上一些标准进行单位转换.
MIMIC-III数据集介绍相关推荐
- MIMIC III数据集详细介绍
文章目录 1. 概述 2. 字典信息辅助表 D_CPT(目前使用医疗服务术语表) D_ICD_DIAGNOSES (ICD病情确诊词典表) D_ICD_PROCEDURES (ICD医疗过程词典表) ...
- K-近邻算法之案例:鸢尾花种类预测--数据集介绍
K-近邻算法之案例:鸢尾花种类预测--数据集介绍 本实验介绍了使用Python进行机器学习的一些基本概念. 在本案例中,将使用K-Nearest Neighbor(KNN)算法对鸢尾花的种类进行分类, ...
- 深度学习常用数据集介绍
数据集大全 数据集大全 介绍 目前接触到的数据集 1. [MNIST](http://yann.lecun.com/exdb/mnist/) 2. [CIFAR-10 / CIFAR-100](htt ...
- 【知识星球】数据集板块重磅发布,海量数据集介绍与下载
有三AI知识星球的"数据集板块"正式上线,提供数据集介绍,论文下载,数据集下载3大功能,那些因为网速问题,因为需要签license的蛋疼问题,从此不再成为问题! 有三AI知识星球- ...
- OHSUMED数据集介绍
1. OHSUMED数据集介绍 本实验中采用OHSUMED测试数据集合(其也被用于第9 届国际文本检索竞赛TREC9 的文档过滤子竞赛).OHSUMED 数据集合由William Hersh和他的同事 ...
- GCN(一)数据集介绍
1.数据集介绍 1.1 数据集概述 Cora数据集由机器学习论文组成,是近年来图深度学习很喜欢使用的数据集.在数据集中,论文分为以下七类之一: 基于案例 遗传算法 神经网络 概率方法 强化学习 规则学 ...
- camvid数据集介绍_深度学习图像数据集介绍(MSCOCO)
深度学习图像数据集介绍(MSCOCO) MSCOCO数据集是微软开发维护的大型图像数据集,次数聚集的任务包括识别(recognition),分割(segementation),及检测(detectio ...
- Imdb影评的数据集介绍与下载
1. Imdb影评的数据集介绍 这是用于二分类情感分类的数据集,其包含的数据比以前的基准数据集要多得多. 我们提供了25,000电影评论用于训练,而25,000条电影评论用于测试. 也有其他未标记的数 ...
- 多目标跟踪数据集 :mot16、mot17数据集介绍
文章目录 MOT16 数据集 MOT17数据集介绍 多目标跟踪数据集 MOT16 .MOT1数据集介绍: MOT16 数据集 数据集百度网分享: 点击此处 提取码: miao 文件格式: 解压MOT1 ...
最新文章
- 浅析网站SEO优化对长尾关键词保持好感度的四大技巧
- 网络编程中BIO和NIO的区别
- C++ Bayes‘ theorem贝叶斯定理的实现算法(附完整源码)
- android学汇资料总整理
- vmware中装的ubuntu上不了网
- VS Code 翻译插件
- 计算机结构化思维学计算机,基于结构化知识的学习/思考机器和学习/思考方法以及计算机系统和信息生成方法...
- 6. XML Schema
- 如何使用File APIs来读取文件
- Atitit 数据库视图与表的wrap与层级查询规范
- 用python延续科比的曼巴精神
- xbox win10测试软件,win10中自带的录屏工具xbox录屏软件怎使用?
- 通过gitbub桌面工具同步
- sidetone 、回声抑制
- python百度ai文字识别、不精确、进行处理,python利用百度AI实现文字识别功能
- labelmx条码打印软件如何批量制作服装吊牌
- CCID 设备通讯 (Windows 平台)
- 云和恩墨数据库MogDB荣获2021年度IT168最佳创新产品奖
- JavaScript定义注册页面
- Biopython+python 自动化分析蛋白质pdb文件,输出id,序列以及作用位点