Dataset:heart disease心脏病数据集的简介、下载、使用方法之详细攻略

目录

heart disease心脏病数据集的简介

1、数据集简介

heart disease心脏病数据集的下载

heart disease心脏病数据集的使用方法


heart disease心脏病数据集的简介

根据美国CDC(疾病预防控制中心)的说法,心脏病是美国大多数种族(非裔美国人、美国印第安人、阿拉斯加原住民和白人)死亡的主要原因之一。大约一半的美国人(47%)至少有三种主要的心脏病风险因素中的一种:高血压、高胆固醇和吸烟。其他关键指标包括糖尿病、肥胖(BMI高)、没有进行足够的体育活动或饮酒过量。检测和预防对心脏病影响最大的因素在医疗保健中非常重要。反过来,计算技术的发展使得机器学习方法的应用能够从数据中检测出“模式”,从而预测患者的病情,同时指出哪些变量对心脏病的可能性有显著影响。
        最初,数据集来自美国疾病控制与预防中心,是行为风险因素监测系统(BRFSS)的主要组成部分,该系统每年进行电话调查,以收集美国居民的健康状况数据。正如CDC所描述的那样:“BRFSS成立于1984年,有15个州,现在收集所有50 个州以及哥伦比亚特区和三个美国领土的数据。BRFSS每年完成超过40万次成人访谈,使其成为世界上最大的持续进行的健康调查系统。最近的数据集(截至2022年2月15日)包括2020年的数据。它包含401958行和279列。绝大多数专栏都是询问受访者健康状况的问题,比如“你走路或爬楼梯有严重困难吗?”或者“你一生中吸过至少100支烟吗?”【注:5包= 100支香烟】”。在这个数据集中,我注意到许多不同的因素(问题)直接或间接影响心脏病,所以我决定从它中选择最相关的变量,并进行一些清理,以便它可以用于机器学习项目。
        如上所述,原来将近300个变量的数据集被缩减到只有大约20个变量。除了经典的EDA之外,这个数据集还可以用于应用一系列机器学习方法,最显著的是分类器模型(逻辑回归、SVM、随机森林等)。应该将变量“心脏病”作为一个二元—受访者是否患有心脏病。但是请注意,类是不平衡的,所以经典的模型应用程序方法是不可取的。修正权重/欠采样应该会产生更好的结果。
        heart disease数据集是2020年CDC对40万成年人健康状况的年度调查数据。

相关地址:Personal Key Indicators of Heart Disease | Kaggle

1、数据集简介

英文

中文

备注

HeartDisease

是否为曾报告患有冠心病(CHD)或心肌梗死(MI)的受访者

yes/no

{'Yes':1,'No':0}

BMI

体重指数(BMI)

Smoking

你一生中吸过至少100支烟吗?【注:5包= 100支香烟】

yes/no

AlcoholDrinking

重度饮酒者(成年男性每周饮酒超过14杯,成年女性每周饮酒超过7杯

yes/no

Stroke

(曾经告诉过)有人告诉过你中风吗?

yes/no

PhysicalHealth

现在想想你的身体健康,包括身体疾病和受伤,在过去的30天里有多少天你的身体健康状况不好?(0~30天)

MentalHealth

想想你的心理健康,在过去的30天里,有多少天你的心理健康状况不好?(0~30天)

DiffWalking

你走路或爬楼梯有严重困难吗?

yes/no

Sex

你是男性还是女性?

Male/Female

{'Male':1,'Female':0}

AgeCategory

Fourteen-level年龄范畴

13个阶段,18~24,25~29,30~34 ,35~39,40~44,45~49,50~54,55~59,60~64,65~69,70~74,75~79,80 or older ;

{'18-24':1,'25-29':2,'30-34':3,'35-39':4,'40-44':5,'45-49':6,'50-54':7,'55-59':8,'60-64':9,'65-69':10,'70-74':11,'75-79':12,'80 or older':13}

Race

种族

6个类别,American Indi an/Alaskan Native,Asian,Black,White,Hispanic,other

{'American Indian/Alaskan Native':1,'Asian':2,'Black':3,'White':4,'Hispanic':5,'Other':6}

Diabetic

(曾经告诉过)有人告诉过你有糖尿病吗?

4个选项,No、"No,borderline diabetes"、Yes、"Yes (during pregnancy)"

{'No':1,'No, borderline diabetes':2,'Yes':3,'Yes (during pregnancy)':4}

PhysicalActivity

在过去30天内,报告在正常工作以外进行体育活动或锻炼的成年人

yes/no

GenHealth

总的来说你的健康状况是…

5个选项,Excellert、Fair、Good、Poor、very good

{'Poor':1,'Fair':2,'Good':3,'Very good':4,'Excellent':5}

SleepTime

平均来说,你在24小时内睡了多少个小时?

1~24

Asthma

(曾经告诉过)有人告诉过你有哮喘吗?

yes/no

KidneyDisease

不包括肾结石、膀胱感染或尿失禁,你曾被告知有肾脏疾病吗?

yes/no

SkinCancer

(曾经告诉过)有人告诉过你有皮肤癌吗?

yes/no

heart disease心脏病数据集的下载

数据集下载地址
https://www.kaggle.com/datasets/kamilpytlak/personal-key-indicators-of-heart-disease

heart disease心脏病数据集的使用方法

相关文章:DataScience&ML:基于heart disease心脏病分类预测数据集利用决策数算法基于graphviz/eli5/pdpbox/shap库实现模型可解释性(全局/部分/局部解释)之详细攻略

Dataset:heart disease心脏病数据集的简介、下载、使用方法之详细攻略相关推荐

  1. Python之 sklearn:sklearn中的train_test_split函数的简介及使用方法之详细攻略

    Python之 sklearn:sklearn中的train_test_split函数的简介及使用方法之详细攻略 目录 sklearn中的train_test_split函数的简介 train_tes ...

  2. Python之 sklearn:sklearn中的RobustScaler 函数的简介及使用方法之详细攻略

    Python之 sklearn:sklearn中的RobustScaler 函数的简介及使用方法之详细攻略 目录 sklearn中的RobustScaler 函数的简介及使用方法 sklearn中的R ...

  3. sklearn:sklearn.GridSearchCV函数的简介、使用方法之详细攻略

    sklearn:sklearn.GridSearchCVl函数的简介.使用方法之详细攻略 目录 sklearn.GridSearchCV函数的简介 1.参数说明 2.功能代码 sklearn.Grid ...

  4. sklearn:sklearn.preprocessing.StandardScaler函数的fit_transform、transform、inverse_transform简介、使用方法之详细攻略

    sklearn:sklearn.preprocessing.StandardScaler函数的fit_transform.transform.inverse_transform简介.使用方法之详细攻略 ...

  5. ML之sklearn:sklearn.linear_mode中的LogisticRegression函数的简介、使用方法之详细攻略

    ML之sklearn:sklearn.linear_mode中的LogisticRegression函数的简介.使用方法之详细攻略 目录 sklearn.linear_mode中的LogisticRe ...

  6. sklearn:sklearn.feature_selection的SelectFromModel函数的简介、使用方法之详细攻略

    sklearn:sklearn.feature_selection的SelectFromModel函数的简介.使用方法之详细攻略 目录 SelectFromModel函数的简介 1.使用SelectF ...

  7. Python编程语言学习:包导入和模块搜索路径简介、使用方法之详细攻略

    Python编程语言学习:包导入和模块搜索路径简介.使用方法之详细攻略 目录 包导入和模块搜索路径简介 1.Pyhon搜索模块路径的机制 2.自定义配置搜索路径

  8. Python之 sklearn:sklearn.preprocessing中的StandardScaler函数的简介及使用方法之详细攻略

    Python之 sklearn:sklearn.preprocessing中的StandardScaler函数的简介及使用方法之详细攻略 目录 sklearn.preprocessing中的Stand ...

  9. Py之matplotlib.pyplot:matplotlib.pyplot的plt.legend函数的简介、使用方法之详细攻略

    Py之matplotlib.pyplot:matplotlib.pyplot的plt.legend函数的简介.使用方法之详细攻略 目录 matplotlib.pyplot的plt.legend函数的简 ...

  10. BigData之Hive beeline:beeline的简介、使用方法之详细攻略

    BigData之Hive beeline:beeline的简介.使用方法之详细攻略 目录 beeline的简介 beeline的使用方法 1.命令行参数解释 2.beeline的输出格式 2.1.ta ...

最新文章

  1. 熬夜之作:一文带你了解Cat分布式监控
  2. 我在神策做研发丨做冲在前方的第一方队,造中国最好的开源 SDK
  3. range python 3.6 type class_Python 3.6 有什么新特性
  4. Spring注解方式实现定时器
  5. 简单的封装axios 不包含状态码和提示
  6. Qt文档阅读笔记-windowOpacity官方解析及实例(两种方法使得程序渐变出现)
  7. windows2008R2+IIS部署python Django的web环境
  8. h5难做吗_还在担心H5太难做?介绍一个H5制作工具给你!
  9. linux然后防止ip欺骗,linux – 如何在iptables中防止ip欺骗?
  10. spring4+struts2+hibernate5整合出现spring异常
  11. 微信工程师为你讲述春晚红包的系统设计和优化
  12. pip install transformers
  13. p系列服务器产品介绍,常用p系列服务器RS6000服务器产品号码对照表.doc
  14. OV7725摄像头软件实现简单的二值化处理
  15. java去掉字符串的逗号_java – 从字符串数组中删除逗号
  16. 使用百度地图API进行Android地图应用开发(Eclipse)
  17. 2012第35周国内Android应用下载动态
  18. 初识hellow world
  19. 软件开发工具【六】 之 软件开发工具的现状与发展
  20. 看这里→大数据工程技术人员系列课程—《大数据工程技术人员-大数据基础技术》正式上线!...

热门文章

  1. 已经在用的安卓手机能用鸿蒙吗,鸿蒙可以通过刷机在手机上使用吗?
  2. QML QtLocation地图应用学习-2:实现测距功能
  3. 设计模式入门(王者荣耀之设计英雄篇)
  4. java ldj_面试小记--python相关常识
  5. 余弦相似性:找出相似文章
  6. Java三个月速成学习路线图
  7. 堆排序(最小堆)C++
  8. 做了6年开发,工资涨不上去,怎么办?
  9. webpack : 无法加载文件 C:\Users\骚恒\AppData\Roaming\npm\webpack.ps1,因为在此系统上禁止运行脚本。
  10. 虚拟机无法访问主机mysql_主机无法连接虚拟机上的mysql