在UCI机器学习库中,Heart Disease Data Set一共包含4个关于心脏病诊断的数据库。
其中数据分别来源自:

  1. Cleveland Clinic Foundation (cleveland.data)
  2. Hungarian Institute of Cardiology, Budapest (hungarian.data)
  3. V.A. Medical Center, Long Beach, CA (long-beach-va.data)
  4. University Hospital, Zurich, Switzerland (switzerland.data)

每个数据库都包含有76个属性,但是所有已发布的实验都只引用了其中14个属性的子集。特别是,克利夫兰数据库(cleveland.data)是迄今为止ML研究人员使用的唯一数据库。

在GitHub链接中有两个数据集。

其中,processed.cleveland.csv是从UCI Heart Disease Data Set 官网下载的数据集

数据属性说明:
1)age-年龄
2)sex-性别 (1 =男性; 0 =女性)
3)cp-胸痛类型(4个值,值1:典型的心绞痛,值2:非典型心绞痛,值3:非心绞痛,值4:无症状)
4)trestbps-患者入院时的静息血压(单位:mm Hg)
5)chol-血清胆固醇水平(单位:mg / dl)
6)fbs-空腹血糖(> 120 mg / dl ,1=真;0=假)
7)restecg-静息心电图结果(值0:正常,值1:有ST-T波异常(T波倒置和/或ST升高或降低> 0.05 mV),值2:根据Estes的标准显示可能或确定的左心室肥大)
8)thalach-达到的最大心率
9)exang-运动引起的心绞痛(1 =是; 0 =否)
10 )oldpeak-运动相对于休息引起的ST压低
11)slope-最高运动ST段的斜率,(值1:上坡,值2:平坦,值3 :下坡)
12)ca-萤光显色的主要血管数目(0-3)
13)thal-一种称为地中海贫血的血液疾病(3=正常;6=固定缺陷;7=可逆缺陷)
14)target- 患者是否患有心脏病。它是从0(不存在)到4的整数值。 Cleveland 数据库的实验集中在试图区分存在(值1、2、3、4)和不存在(值0)。

另一个UCI Heart Disease Dataset.csv是对官网数据集稍做处理后的数据集
1-12相同
13)thal-一种称为地中海贫血的血液疾病(0 =正常;1 =固定缺陷;2 =可逆缺陷)
14)target- 患者是否患有心脏病。存在(值1)和不存在(值0)。

处理内容:
官网原始数据集一共有303行, 14列,行索引从0-302
其中ca列有4个缺失值,行索引分别为166,192,287,302
其中thal列有2个缺失值,行索引分别为87,266
去除缺失值后,UCI Heart Disease Dataset数据集[297 rows x 14 columns]
thal指标用0,1,2进行替换
target指标换为存在(值1)和不存在(值0),方便做二分类。
最终数据类型:

UCI 心脏病数据集Heart Disease Data Set相关推荐

  1. 使用Python以UCI心脏病数据集为例,进行数据简单分析

    本文章包含以下内容: 以UCI心脏病数据集为例,进行数据简单分析: 求心脏病患者年龄的平均值.中位数和众数,从结果里分析年龄与心脏病的关系: 胆固醇正常值是0-200mg/dL,区分胆固醇不合格和不合 ...

  2. 大数据分析与实践 使用Python以UCI心脏病数据集为例,进行数据简单分析

    目录: 模型介绍 题目: 处理一下数据 1. 求心脏病患者年龄的平均值.中位数和众数,从结果里分析年龄与心脏病的关系 2. 胆固醇正常值是0-200mg/dL,区分胆固醇不合格和不合格人员,用百分位数 ...

  3. UCI——心脏病数据集分析报告

    文章目录 1 前期准备 1.1 安装数据分析+可视化第三方工具包 1.2 安装辅助工具包 1.3 安装机器学习第三方工具包 1.4 安装机器学习可解释性第三方工具包 2 对于数据集进行导入.查看及简单 ...

  4. R语言限制性立方样条(RCS, Restricted cubic spline)分析:基于logistic回归模型、南非心脏病数据集(South African Heart Disease)

    R语言限制性立方样条(RCS, Restricted cubic spline)分析:基于logistic回归模型.南非心脏病数据集(South African Heart Disease) 目录

  5. Dataset:heart disease心脏病数据集的简介、下载、使用方法之详细攻略

    Dataset:heart disease心脏病数据集的简介.下载.使用方法之详细攻略 目录 heart disease心脏病数据集的简介 1.数据集简介 heart disease心脏病数据集的下载 ...

  6. 玩转UCI心脏病二分类数据集 领学课笔记

    机器学习分类 UCI心脏病二分类这个题目主要是通过一系列数据的挖掘来判断病人有没有心脏病. 机器学习分为四个基本问题,分类.回归.聚类.降维 分类和回归是监督学习,需要用到标签,分类需要预测离散的类别 ...

  7. 基于Kaggle心脏病数据集的数据分析和分类预测-StatisticalLearning统计学习实验报告

    基于Kaggle心脏病数据集的数据分析和分类预测-StatisticalLearning统计学习实验报告 一.实验准备 本数据来源于kaggle,包含14个维度,303个样本,具体的变量说明如下表所示 ...

  8. matlab粗集系统评估wine,C4.5 决策树算法对UCI wine数据集分类的实现(MATLAB)

    一.功能实现与样本分析 在数据挖掘领域,能够利用相应的算法对数据集进行训练,即对样本的特征进行分析,从而概括出相同类别的样本之间存在的内在特征联系,进一步对未知类别的样本进行预测,判断出该样本所属的类 ...

  9. C4.5 决策树算法对UCI wine数据集分类的实现(MATLAB)

    1.功能实现与样本分析 在数据挖掘领域,可以利用相应的算法对数据集进行训练,即对样本的特征进行分析,从而归纳出相同类别的样本之间存在的内在特征联系,进一步对未知类别的样本进行预测,判断出该样本所属的类 ...

最新文章

  1. 网络编程学习笔记(tcp_listen函数)
  2. 做正确的事,正确的做事
  3. python3 urllib安装_对python3 urllib包与http包的使用详解
  4. 对象存储,为什么那么火?
  5. OSChina 周日乱弹 ——已经打码请放心观看
  6. Android GUI之Window、WindowManager
  7. 图像处理中的卷积与模板
  8. Centos5.11 使用yum源
  9. 识别产品外观的合格软件_瑞视特产品贴码字符识别检测系统介绍
  10. Arduino库文件LiquidCrystal的实用方法
  11. 2020-11-20
  12. maven 零散配置
  13. 如何用adobe audition剪切音频单独导出保存
  14. CSS-精灵图片的使用(从一张图片中截图指定位置图标)
  15. 2023届毕业生职场第一步:挡飞刀
  16. python制作飞船大战
  17. Leetcode-892. 三维形体的表面积
  18. 利用css绘制三条横线的菜单图标
  19. iOS进阶开发-iOS性能优化-关东升-专题视频课程
  20. macbook下载bing每日壁纸

热门文章

  1. gpa2.8申请美国计算机硕士,GPA2.8的她,跨专业申请到美国匹兹堡大学 | HGCP美国本科留学...
  2. eeprom的wp 引脚_24C04WP 数据手册 PDF - EEPROM - ST - DataSheet5.cn
  3. python3 mysql5.7_/如何连接python3.4 和MySQL5.7,请大牛们指教这个python入门新手
  4. docker images 命令详解
  5. Android Java代码中获取App渠道信息
  6. et游戏自动翻译工具_ET的异常翻译
  7. ThreadPoolExecutor 线程池的七个参数
  8. 不小心误删注册表exe,所有exe程序无法运行
  9. 给开源社读者的一份信
  10. Windows--UEFI引导安装Win10