数据分享|PYTHON用决策树分类预测糖尿病和可视化实例
全文下载链接:http://tecdat.cn/?p=23848
在本文中,决策树是对例子进行分类的一种简单表示。它是一种有监督的机器学习技术,数据根据某个参数被连续分割。决策树分析可以帮助解决分类和回归问题(点击文末“阅读原文”获取完整代码数据)。
相关视频
决策树算法将数据集分解成更小的子集;同时,相关的决策树也在逐步发展。决策树由节点(测试某个属性的值)、边/分支(对应于测试的结果并连接到下一个节点或叶子)和叶子节点(预测结果的终端节点)组成,使其成为一个完整的结构。
”
扩展:GBDT (Gradient Boosting Decision Tree) 梯度提升决策树
GBDT (Gradient Boosting Decision Tree) 梯度提升决策树。DT-Decision Tree决策树,GB是Gradient Boosting,是一种学习策略,GBDT的含义就是用Gradient Boosting的策略训练出来的DT模型。
在这篇文章中,我们将学习Python中决策树的实现,使用scikit learn包。
对于我们的分析,我们选择了一个非常相关和独特的数据集,该数据集适用于医学科学领域,它将有助于预测病人是否患有糖尿病(查看文末了解数据免费获取方式),基于数据集中采集的变量。这些信息来自国家糖尿病、消化道和肾脏疾病研究所,包括预测变量,如病人的BMI、怀孕情况、胰岛素水平、年龄等。让我们直接用决策树算法来解决这个问题,进行分类。
用Python实现决策树
对于任何数据分析问题,我们首先要清理数据集,删除数据中的所有空值和缺失值。在这种情况下,我们不是在处理错误的数据,这使我们省去了这一步。
1. 为我们的决策树分析导入所需的库并拉入所需的数据
# 加载库
from sklearn.model\_selection import train\_test\_split #导入 train\_test_split 函数
from sklearn import metrics #导入scikit-learn模块以计算准确率# 载入数据集
data = pd.read\_csv("diabs.csv", header=None, names=col\_names)
让我们看看这个数据集的前几行是什么样子的
pima.head()
2. 在加载数据后,我们了解结构和变量,确定目标变量和特征变量(分别为因变量和自变量)。
#在特征和目标变量中拆分数据集
X = pima\[feature\] # 特征
y = pima.label # 目标变量
3. 我们把数据按70:30的比例分成训练集和测试集。
# 将数据集分成训练集和测试集
train\_test\_split(X, y, test\_size=0.3, random\_state=1) # 70%的训练和30%的测试
标准做法,你可以根据需要调整70:30至80:20。
点击标题查阅往期内容
R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测
左右滑动查看更多
01
02
03
04
4. 使用scikit learn进行决策树分析
# 创建决策树分类器对象
clf = DecisionTreeClassifier()
5. 估计分类器预测结果的准确程度。准确度是通过比较实际测试集值和预测值来计算的。
# 模型准确率,分类器正确的概率是多少?
print("准确率:",metrics.accuracy\_score(y\_test, y_pred))
我们的决策树算法有67.53%的准确性。这么高的数值通常被认为是好的模型。
6. 现在我们已经创建了一棵决策树,看看它在可视化的时候是什么样子的
决策树的可视化。
Image(graph.create_png())
Python输出
你会注意到,在这个决策树图中,每个内部节点都有一个分割数据的决策规则。
衡量通过决策树分析创建的节点的不纯度
Gini指的是Gini比,衡量决策树中节点的不纯度。人们可以认为,当一个节点的所有记录都属于同一类别时,该节点是纯的。这样的节点被称为叶子节点。
在我们上面的结果中,由于结果的复杂性,完整的决策树很难解释。修剪一棵树对于结果的理解和优化它是至关重要的。这种优化可以通过以下三种方式之一进行。
标准:默认="gini"
splitter:字符串,可选(默认="best")或分割策略。选择分割策略。可以选择 "best"来选择最佳分割,或者选择 "random"来选择最佳随机分割。
max_depth: int或None,可选(默认=None)或树的最大深度
这个参数决定了树的最大深度。这个变量的数值越高,就会导致过度拟合,数值越低,就会导致拟合不足。
在我们的案例中,我们将改变树的最大深度作为预修剪的控制变量。让我们试试max_depth=3。
# 创建决策树分类器对象
DecisionTree( max_depth=3)
在Pre-pruning上,决策树算法的准确率提高到77.05%,明显优于之前的模型。
决策树在Python中的实现
Image(graph.create_png())
结果:
Python输出
这个修剪过的模型的结果看起来很容易解释。有了这个,我们就能够对数据进行分类,并预测一个人是否患有糖尿病。但是,决策树并不是你可以用来提取这些信息的唯一技术,你还可以探索其他各种方法。
如果你想学习和实现这些算法,那么你应该探索通过辅助方法学习,并得到专业人士的1对1指导。拓端数据科学职业轨道计划保证了1:1的指导,项目驱动的方法,职业辅导,提供实习工作项目保证,来帮助你将职业生涯转变为数据驱动和决策的角色。请联系我们以了解更多信息!
数据获取
在下面公众号后台回复“糖尿病数据”,可免费获取完整数据。
本文摘选《PYTHON用决策树分类预测糖尿病和可视化实例》,点击“阅读原文”获取全文完代码和数据资料。
本文中的糖尿病数据分享到会员群,扫描下面二维码即可加群!
点击标题查阅往期内容
样条曲线、决策树、Adaboost、梯度提升(GBM)算法进行回归、分类和动态可视化
SAS分类决策树预测贷款申请评分剪枝和结果可视化
分类回归决策树交互式修剪和更美观地可视化分析细胞图像分割数据集
PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像
PYTHON集成机器学习:用ADABOOST、决策树、逻辑回归集成模型分类和回归和网格搜索超参数优化
Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析
PYTHON集成机器学习:用ADABOOST、决策树、逻辑回归集成模型分类和回归和网格搜索超参数优化
R语言集成模型:提升树boosting、随机森林、约束最小二乘法加权平均模型融合分析时间序列数据
Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析
R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化
R语言基于树的方法:决策树,随机森林,Bagging,增强树
R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测
spss modeler用决策树神经网络预测ST的股票
R语言中使用线性模型、回归决策树自动组合特征因子水平
R语言中自编基尼系数的CART回归决策树的实现
R语言用rle,svm和rpart决策树进行时间序列预测
python在Scikit-learn中用决策树和随机森林预测NBA获胜者
python中使用scikit-learn和pandas决策树进行iris鸢尾花数据分类建模和交叉验证
R语言里的非线性模型:多项式回归、局部样条、平滑样条、 广义相加模型GAM分析
R语言用标准最小二乘OLS,广义相加模型GAM ,样条函数进行逻辑回归LOGISTIC分类
R语言ISLR工资数据进行多项式回归和样条回归分析
R语言中的多项式回归、局部回归、核平滑和平滑样条回归模型
R语言用泊松Poisson回归、GAM样条曲线模型预测骑自行车者的数量
R语言分位数回归、GAM样条曲线、指数平滑和SARIMA对电力负荷时间序列预测
R语言样条曲线、决策树、Adaboost、梯度提升(GBM)算法进行回归、分类和动态可视化
如何用R语言在机器学习中建立集成模型?
R语言ARMA-EGARCH模型、集成预测算法对SPX实际波动率进行预测
在python 深度学习Keras中计算神经网络集成模型
R语言ARIMA集成模型预测时间序列分析
R语言基于Bagging分类的逻辑回归(Logistic Regression)、决策树、森林分析心脏病患者
R语言基于树的方法:决策树,随机森林,Bagging,增强树
R语言基于Bootstrap的线性回归预测置信区间估计方法
R语言使用bootstrap和增量法计算广义线性模型(GLM)预测置信区间
R语言样条曲线、决策树、Adaboost、梯度提升(GBM)算法进行回归、分类和动态可视化
Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析
R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析
R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化
Matlab建立SVM,KNN和朴素贝叶斯模型分类绘制ROC曲线
matlab使用分位数随机森林(QRF)回归树检测异常值
数据分享|PYTHON用决策树分类预测糖尿病和可视化实例相关推荐
- 机器学习算法(五):基于企鹅数据集的决策树分类预测
机器学习算法(五):基于企鹅数据集的决策树分类预测 1 逻决策树的介绍和应用 1.1 决策树的介绍 决策树是一种常见的分类模型,在金融风控.医疗辅助诊断等诸多行业具有较为广泛的应用.决策树的核心思想是 ...
- ML:基于自定义数据集利用Logistic、梯度下降算法GD、LoR逻辑回归、Perceptron感知器、SVM支持向量机、LDA线性判别分析算法进行二分类预测(决策边界可视化)
ML:基于自定义数据集利用Logistic.梯度下降算法GD.LoR逻辑回归.Perceptron感知器.支持向量机(SVM_Linear.SVM_Rbf).LDA线性判别分析算法进行二分类预测(决策 ...
- 数据分享|Python决策树、随机森林、朴素贝叶斯、KNN(K-最近邻居)分类分析银行拉新活动挖掘潜在贷款客户...
原文链接:http://tecdat.cn/?p=23518 项目背景:银行的主要盈利业务靠的是贷款,这些客户中的大多数是存款大小不等的责任客户(存款人).银行拥有不断增长的客户(点击文末" ...
- 数据分享|WEKA用决策树、随机森林、支持向量机SVM、朴素贝叶斯、逻辑回归信贷违约预测报告
作者:Nuo Liu 数据变得越来越重要,其核心应用"预测"也成为互联网行业以及产业变革的重要力量.近年来网络 P2P借贷发展形势迅猛,一方面普通用户可以更加灵活.便快捷地获得中小 ...
- python实现决策树建模预测并验证评估
实现功能: python实现数据读取.数据清洗.数据编码.数据降维分析.数据集划分.(具体参见前几篇文章),决策树建模预测并验证评估. 实现代码: # 导入需要的库 import pandas as ...
- python实现决策树分类模型(小白入门超简单实战)
注:由于我不喜欢研究机器学习的原理而更关注于实战,所以本文只讲解python实现决策树模型的代码. 数据集:Iris(鸢尾花卉数据集),是一类多重变量分析的数据集.数据集包含150个数据样本,分为3类 ...
- python决策树分类预测_数据分类预测之python决策树
决策树是一种树状结构,它的每一个叶节点对应着一个分类,非叶节点对应着在某个属性上的划分,根据样本在该属性上的不同取值将其划分成若干个子集.对于非纯的叶节点,多数类的标号给出到达这个节点的样本所属的类. ...
- python机器学习之分类预测
目录 逻辑回归 水位判断案例引入逻辑回归计算原理 逻辑回归 单次项逻辑回归代码示例 二阶项及以上项式的边界函数计算和绘制 二阶多项式逻辑回归案例 尝试用一阶函数画出边界 二阶项逻辑回归 K近邻分类模型 ...
- python实现决策树分类 mnist数据集
文章目录 1.原理介绍 2.实验过程 2.1导入库 2.2加载数据集 2.3可视化目标分布情况 2.4对训练变量和目标变量的数据进行分解 2.5划分训练集和验证集 2.6训练模型和结果 2.7进行测试 ...
最新文章
- UDP和TCP中的伪首部
- [Flex]关于国内Flex开发者/从业者的调查问卷
- Java核心(三)并发中的线程同步与锁
- linux配置Httpd授权
- http 二进制_浅谈HTTP协议
- android寻找手机,寻找那些“干净”的Android手机
- 26 CO配置-控制-产品成本控制-成本对象控制-期末结算-定义结果分析版本
- 数据结构与算法笔记(一) 程序性能分析
- mybatis的一级缓存和二级缓存的理解,详细易懂
- 台达触摸屏编程软件_一拖二口罩机图纸PLC触摸屏控制程序全套带信捷编程软件...
- oracle中索引的类型,oracle索引类型normal
- 软考网络工程师下午题知识点汇总
- 激光导航技术是如何实现的?
- 逻辑地址、物理地址、线性地址、虚拟地址、段基地址偏移地址的联系和区别
- xay loves or
- python import random 报错_导致python中import错误的原因是什么
- SQL中case的使用方法
- 三天流量有效期具体怎么算_飞猪流量有效期多久?怎么提取?
- 如何把Java代码写的简洁
- FreeMarker数值数据处理问题
热门文章
- errorcode 微信分享_微信公众号网页授权code问题
- win7安装python3.8失败_Python3 | Win7系统下无法安装问题解决
- convs在MATLAB中,matlab2_MATELAB课程设计_ppt_大学课件预览_高等教育资讯网
- JS中onchange事件:域内容被改变的事件
- DS1602液晶显示学习笔记
- Android7.0(mtk)开放root权限,adb root和app root
- 裸金属服务器是什么?关于裸金属服务器架构原理详解
- Android自定义ImageView圆角
- R语言ggplot2可视化:使用ggpubr包的ggdensity函数可视化密度图、使用scale_x_continuous函数中的limits参数指定X轴数值范围
- Altium Designer之PCB库部分名称区分