文章目录

  • 一、决策树工作原理
    • 1.1 定义
    • 1.2 决策树结构
    • 1.3 核心问题
  • 二、sklearn库中的决策树
    • 2.1 模块sklearn.tree
    • 2.2 sklearn建模基本流程
    • 2.3 决策树建模流程
  • 三、分类树
    • 3.1构造函数
    • 3.2 建立分类树(测试Criterion)
    • 3.3确定最优剪枝参数:
    • 3.4 查看决策树属性接口
    • 3.5 代码示例
  • 四、回归树
    • 4.1构造函数
    • 4.2交叉验证
    • 4.3 实例:一维回归图像绘制

一、决策树工作原理

1.1 定义

决策时(Decislon Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则。并用树状图的结构来呈现这些规则,**以解决分类和回归问题。**决策树算法的本质是一种图结构, 我们只需要问一系列问题就可以对数据进行分类。

举例:动物类别分类
已知物种以及所属类别的数据,目标获得哺乳类和非哺乳类。

决策树算法:

如果,我们发现了一种新生物Python,它是冷血动物,体表带鳞片,并且不是太升,我们可以通过决策树判断类别。

1.2 决策树结构

  • 根节点:最初的问题所在的地方叫做根节点。
  • 中间节点:在得到结论前的每一个问题都是中间节点。
  • 叶子节点:得到的每一个结论都叫做叶子节点。

1.3 核心问题

1、如何从数据表中找到最佳节点和最佳分枝?
2、如何让决策树停止生长,防止过拟合?

二、sklearn库中的决策树

2.1 模块sklearn.tree

sklearn中决策树的类都在tree这个模块中,总共包括五个类:

类名 含义
tree.DecisionTreeClassifier 分类树
tree.DecisionTreeRegressor 回归树
tree.export_graphviz 将生成的决策树导出为DOT格式,画图专用
tree.ExtraTreeClassifier 高随机版本的分类树
tree.ExtraTreeRegressor 高随机版本的回归树

2.2 sklearn建模基本流程

  1. 实例化,建立评估模型对象。实例化时,需要用到的参数。
  2. 通过模型接口训练模型
  3. 通过模型接口提取需要信息
    举例分类树对应代码:
from sklearn import tree#导入模块clf=tree.DecisionTreeClassifier()#实例化clf=clf.fit(x_train,y_train)#用训练集数据训练模型result=clf.score(x_text,y_text)#导入测试集,从接口中调用需要的信息

2.3 决策树建模流程

  1. 计算全部特征的不纯度指标
  2. 选取不纯度指标最优的特征来分支
  3. 在第一个特征的分支下,计算全部特征的不纯度指标
  4. 选取不纯度指标最优的特征继续分支
    直到没有更多特征可用或整体不纯度指标已经最优,则停止生长。

三、分类树

3.1构造函数

1、格式:

class sklearn.tree.DecisionTreeClassifier (criterion=gini', splitter='best, max_depth=None,
min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None,
random_state=None, max_leaf_nodes=None, min_impurity_decrease =0.0, min_impurity_split=None,
class_weight=None, presort=False)

2、参数说明
(1)、Criterion:决策树需要找到最佳节点和最佳分支,对分类树来说,衡量这个“最佳”的指标叫做“不纯度”。不纯度越低,决策树对训练集的拟合越好。
Criterion这个参数用来决定不纯度的计算方法的。sklearn提供了两种选择:

  • 输入entropy。使用信息熵
  • 输入gini,使用基尼系数


其中,t表示节点,i表示标签任意分类,p(i|t)表示标签分类i在节点t上所占比例。sklearn实际计算中hi基于信息增益,即父节点与子节点信息熵之差。

两者区别:

  • 信息熵计算更慢一些,同事决策树生长更加精细,对不纯度更加敏感。
  • 基尼系数对于高位数据或噪音很多的数据,基尼系数往往效果更好。

(2)random_state:用来设置分枝中的随机模式的参数,默认None,在高维度时随机性会表现更明显,低维度的数据(比如鸢尾花数据集),随机性几乎不会显现。输入任意整数,会一直长出同一棵树,让模型稳定下来。

(3)splitter:用来控制决策树中的随机选项的,有两种输入值,输入”best",决策树在分枝时虽然随机,但是还是会优先选择更重要的特征进行分枝(重要性可以通过属性feature_importances_查看),输入“random",决策树在分枝时会更加随机,树会因为含有更多的不必要信息而更深更大,并因这些不必要信息而降低对训练集的拟合。这也是防止过拟合的一种方式。当你预测到你的模型会过拟合,用这两个参数来帮助你降低树建成之后过拟合的可能性。当然,树一旦建成,我们依然是使用剪枝参数来防止过拟合。

过拟合判断:当训练集和测试集的准确率相差很大时(例如:训练集1.0,测试集0.8),可以认为模型过拟合。

剪枝参数:
在不加限制的情况下,一棵决策树会生长到衡量不纯度的指标最优,或者没有更多的特征可用为止。这样的决策树往往会过拟合,这就是说,它会在训练集上表现很好,在测试集上却表现糟糕。我们收集的样本数据不可能和整体
的状况完全一致,因此当一棵决策树对训练数据有了过于优秀的解释性,它找出的规则必然包含了训练样本中的噪声,并使它对未知数据的拟合程度不足。

(4)max_depth:限制树的最大深度,超过设定深度的树枝全部剪掉。
在高维度低样本量时非常有效。决策树多生长一层,对样本量的需求会增加一倍,所以限制树深度能够有效地限制过拟合。在集成算法中也非常实用。实际使用时,建议从=3开始尝试,看看拟合的效果再决定是否增加设定深度。

(5)min_samples_leaf:限定一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练样本,否则分枝就不会发生,或者,分枝会朝着满足每个子节点都包含min_samples_leaf个样本的方向去发生。

  • 一般搭配max_depth使用,在回归树中有神奇的效果,可以让模型变得更加平滑。
  • 这个参数的数量设置得太小会引起过拟合,设置得太大就会阻止模型学习数据。一般来说,建议从=5开始使用。
  • 如果叶节点中含有的样本量变化很大,建议输入浮点数作为样本量的百分比来使用。
  • 对于类别不多的分类问题,=1通常就是最佳选择。

(6)min_samples_split:一个节点必须要包含至少min_samples_split个训练样本,这个节点才允许被分枝,否则分枝就不会发生。

(7)max_features:max_features限制分枝时考虑的特征个数,超过限制个数的特征都会被舍弃。max_features是用来限制高维度数据的过拟合的剪枝参数,但其方法比较暴力,是直接限制可以使用的特征数量而强行使决策树停下的参数,在不知道决策树中的各个特征的重要性的情况下,强行设定这个参数可能会导致模型学习不足。如果希望通过降维的方式防止过拟合,建议使用PCA,ICA或者特征选择模块中的降维算法。

(8)min_impurity_decrease限制信息增益的大小,信息增益小于设定数值的分枝不会发生。这是在0.19版本中更新的功能,在0.19版本之前时使用min_impurity_split。

目标权重参数:
(9)class_weight:使用class_weight参数对样本标签进行一定的均衡,给少量的标签更多的权重,让模型更偏向少数类,向捕获少数类的方向建模。该参数默认None,此模式表示自动给与数据集中的所有标签相同的权重。

(10)min_weight_fraction_leaf:搭配class_weight使用。另请注意,基于权重的剪枝参数(例如min_weight_fraction_leaf)将比不知道样本权重的标准(比如min_samples_leaf)更少偏向主导类。如果样本是加权的,则使用基于权重的预修剪标准来更容易优化树结构,这确保叶节点至少包含样本权重的总和的一小部分。

3.2 建立分类树(测试Criterion)

1、数据集描述:
(1)载入数据模块

#载入模块
from sklearn import tree
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split

(2)数据展示:

wine=load_wine()#描述wine数据集数据
wine

输出结果部分截图

wine.data.shape#描述数据集大小

输出结果:(178, 13),表明数据集178行13列

wine.data#查看特征矩阵
wine.target#查看标签矩阵

通过数据表展示数据集:

import pandas as pd
pd.concat([pd.DataFrame(wine.data),pd.DataFrame(wine.target)],axis=1)

输出结果:

查看数据集特征名字:

wine.feature_names


查看标签名字:

wine.target_names

输出结果:

(3)将数据集分为训练集和测试集

Xtrain,Xtest,Ytrain,Ytest=train_test_split(wine.data,wine.target,test_size=0.3)

其中test_size=0.3表明30%数据为测试集
Xtrain表示训练集特征数据
Xtest表示测试集特征数据
Ytrain表示训练集标签数据
Ytest表示训练集标签数据
(4)模型构建

clf=tree.DecisionTreeClassifier(criterion="entropy")
clf=clf.fit(Xtrain,Ytrain)
score=clf.score(Xtest,Ytest)#返回精确度
score

输出结果:

0.9629629629629629#每个人输出可能会不一样

(5)绘制决策树

import graphviz
feature_name = ['酒精','苹果酸','灰','灰的碱性','镁','总酚','类黄酮','非黄烷类酚类','花青素','颜色强度','色调','od280/od315稀释葡萄酒','脯氨酸']
dot_data=tree.export_graphviz(clf,feature_names=feature_name,class_names=["琴酒","雪莉","贝尔摩德"],filled=True,#填充颜色,颜色越深,不纯度越低rounded=True#框的形状)
graph=graphviz.Source(dot_data)
graph

输出结果:

(6)获取特征的权重

clf.feature_importances_

输出结果:

array([0.02000566, 0.        , 0.        , 0.        , 0.        ,0.        , 0.20534415, 0.        , 0.        , 0.30194123,0.        , 0.        , 0.47270896])

将名称与权重对应:

[*zip(feature_name,clf.feature_importances_)]

输出结果:

3.3确定最优剪枝参数:

我们以max_depth为例,通过循环语句,来确定最大深度何时最优:

test=[]
Xtrain,Xtest,Ytrain,Ytest=train_test_split(wine.data,wine.target,test_size=0.3)
for i in range(10):clf=tree.DecisionTreeClassifier(criterion="entropy",random_state=30,splitter='random',max_depth=i+1# ,min_samples_leaf=10#,min_samples_split=10)clf=clf.fit(Xtrain,Ytrain)score=clf.score(Xtest,Ytest)test.append(score)
plt.plot(range(1,11),test,color="red",label="max_depth")
plt.legend()
plt.show()

输出结果:

因此在max_depth=3时,测试集准确率达到最高。

3.4 查看决策树属性接口

1、apply:apply中输入测试集返回每个测试样本所在的叶子节点的索引,
2、predict:输入测试集返回每个测试样本的标签。

#返回测试样本所在叶子节点的索引
print(clf.apply(Xtest))
#返回测试样本的分类/回归结果
print(clf.predict(Xtest))

3.5 代码示例

from sklearn import tree
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
import pandas as pd
import graphviz
import matplotlib.pyplot as plt#建立决策树模型,并绘制超参数曲线,确定最优剪枝参数
wine=load_wine()
test=[]
Xtrain,Xtest,Ytrain,Ytest=train_test_split(wine.data,wine.target,test_size=0.3)
for i in range(10):clf=tree.DecisionTreeClassifier(criterion="entropy",random_state=30,splitter='random',max_depth=i+1#,min_samples_leaf=i+1#,min_samples_split=10)clf=clf.fit(Xtrain,Ytrain)score=clf.score(Xtest,Ytest)test.append(score)plt.plot(range(1,11),test,color="red",label="max_depth")
plt.legend()
plt.show()
print(score)#获取得分,准确率#画一棵决策树
feature_name = ['酒精','苹果酸','灰','灰的碱性','镁','总酚','类黄酮','非黄烷类酚类','花青素','颜色强度','色调','od280/od315稀释葡萄酒','脯氨酸']
dot_data=tree.export_graphviz(clf,feature_names=feature_name,class_names=["琴酒","雪莉","贝尔摩德"],filled=True,rounded=True)
graph=graphviz.Source(dot_data)#查看特征的权重
clf.feature_importances_
#将名称与权重对应
[*zip(feature_name,clf.feature_importances_)]#返回测试样本所在叶子节点的索引
print(clf.apply(Xtest))
#返回测试样本的分类/回归结果
print(clf.predict(Xtest))

四、回归树

4.1构造函数

1、格式:

class sklearn.tree.DecisionTreeRegressor (criterion=’mse’, splitter=’best’, max_depth=None,
min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None,
random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, presort=False)

2、参数、
criterion:
回归树衡量分枝质量的指标,支持的标准有三种:

  • 输入"mse"使用均方误差mean squarederror(MSE),父节点和叶子节点之间的均方误差的差额将被用来作为特征选择的标准,这种方法通过使用叶子节点的均值来最小化L2损失
  • 输入“friedman_mse”使用费尔德曼均方误差,这种指标使用弗里德曼针对潜在分枝中的问题改进后的均方误差
  • 输入"mae"使用绝对平均误差MAE(mean absolute error),这种指标使用叶节点的中值来最小化L1损失
    当我们在使用交叉验证,或者其他方式获取回归树的结果时,我们往往选择均方误差作
    为我们的评估(在分类树中这个指标是score代表的预测准确率)。在回归中,我们追求的是,MSE越小越好。

4.2交叉验证

定义:交叉验证是用来观察模型的稳定性的一种方法,我们将数据划分为n份,依次使用其中一份作为测试集,其他n-1份作为训练集,多次计算模型的精确性来评估模型的平均准确程度。
方法:训练集和测试集的划分会干扰模型的结果,因此用交叉验证n次的结果求出的平均值,是对模型效果的一个更好的度量。

代码示例:

均方误差(越接近0越好):

4.3 实例:一维回归图像绘制

创建一组随机的,分布在0~5上的横坐标轴的取值(x),然后将这一组值放到sin函
数中去生成纵坐标的值(y),接着再到y上去添加噪声。

import numpy as np
from sklearn.tree import DecisionTreeRegressor
import matplotlib.pyplot as pltrng = np.random.RandomState(1)#随机数种子
X = np.sort(5 * rng.rand(80,1), axis=0)#生成0-5之间随机的x取值
y = np.sin(X).ravel()#生成正弦曲线
"""
#原始图像
plt.figure()
plt.scatter(X, y, s=20, edgecolor="black",c="darkorange", label="data")
plt.show()
"""
y[::5] += 3 * (0.5 - rng.rand(16))#添加噪声
"""
#噪声图像
plt.scatter(X, y, s=20, edgecolor="black",c="blue", label="data")
plt.show()
"""#训练模型
regr_1 = DecisionTreeRegressor(max_depth=2)
regr_2 = DecisionTreeRegressor(max_depth=5)
regr_1.fit(X, y)
regr_2.fit(X, y)#测试
X_test = np.arange(0.0, 5.0, 0.01)[:, np.newaxis]#np.newaxis增维
y_1 = regr_1.predict(X_test)
y_2 = regr_2.predict(X_test)#绘制图像
plt.figure()
plt.scatter(X, y, s=20, edgecolor="black",c="darkorange", label="data")
plt.plot(X_test, y_1, color="cornflowerblue",label="max_depth=2", linewidth=2)
plt.plot(X_test, y_2, color="yellowgreen", label="max_depth=5", linewidth=2)
plt.xlabel("data")
plt.ylabel("target")
plt.title("Decision Tree Regression")
plt.legend()
plt.show()

输出结果:

如果树的最大深度(由max_depth参数控制)设置得太高,则决策树学习得太精细,它从训练数据中学了很多细节,包括噪声得呈现,从而使模型偏离真实的正弦曲线,形成过拟合

python机器学习:决策树详解相关推荐

  1. 决策树详解python基于Kaggle的Titanic数据实现决策树分类

    决策树详解&&python基于Kaggle的Titanic数据实现决策树分类 一 决策树算法详解 1.前期准备 实验目的准备 2.决策树概述 2.1 决策树 2.2 ID3算法原理 2 ...

  2. 使用pickle保存机器学习模型详解及实战(pickle、joblib)

    使用pickle保存机器学习模型详解及实战 pickle模块实现了用于序列化和反序列化Python对象结构的二进制协议. "Pickling"是将Python对象层次结构转换为字节 ...

  3. python数值转换机_用于ETL的Python数据转换工具详解

    ETL的考虑 做 数据仓库系统,ETL是关键的一环.说大了,ETL是数据整合解决方案,说小了,就是倒数据的工具.回忆一下工作这么些年来,处理数据迁移.转换的工作倒 还真的不少.但是那些工作基本上是一次 ...

  4. 【吃瓜教程】《机器学习公式详解》西瓜书与南瓜书公式推导

    [吃瓜教程]<机器学习公式详解>西瓜书与南瓜书公式推导 2021年7月11日 第0章-导学 深度学习:狭义地来说,就是具有较多层的神经网络. 整个学习过程; 先看西瓜书,在看 Datawh ...

  5. TPOT自动机器学习参数详解

    TPOT自动机器学习参数详解 分类: 代码 class tpot.TPOTClassifier(generations=100, population_size=100,offspring_size= ...

  6. python20191031_20191031:Python取反运算详解

    20191031:Python取反运算详解 取反运算:~3 == 4 1.对于数字 3 =======>转换为二进制表示为011 2.对011取反为100 3.为什么表示-4 a.计算机用补码表 ...

  7. Python字符编码详解

    Python字符编码详解 转自http://www.cnblogs.com/huxi/archive/2010/12/05/1897271.html Python字符编码详解 本文简单介绍了各种常用的 ...

  8. python的执行过程_在交互式环境中执行Python程序过程详解

    前言 相信接触过Python的伙伴们都知道运行Python脚本程序的方式有多种,目前主要的方式有:交互式环境运行.命令行窗口运行.开发工具上运行等,其中在不同的操作平台上还互不相同.今天,小编讲些Py ...

  9. windows上安装Anaconda和python的教程详解

    一提到数字图像处理编程,可能大多数人就会想到matlab,但matlab也有自身的缺点: 1.不开源,价格贵 2.软件容量大.一般3G以上,高版本甚至达5G以上. 3.只能做研究,不易转化成软件. 因 ...

  10. python变量类型-Python 变量类型详解

    变量存储在内存中的值.这就意味着在创建变量时会在内存中开辟一个空间. 基于变量的数据类型,解释器会分配指定内存,并决定什么数据可以被存储在内存中. 因此,变量可以指定不同的数据类型,这些变量可以存储整 ...

最新文章

  1. C++二维数组名与数组指针的思考
  2. UI自动化测试工具White简介以及使用经验总结(一)
  3. Python--day28--set去重
  4. 速攻蓝牙NRF52832系列教程之方法篇(三)
  5. plt python 画直线_Matplotlib:先搞明白plt. /ax./ fig再画
  6. java教务管理系统数据库设计_新手可以学习的教务管理系统详细设计(一)
  7. Python合并多幅静图为GIF动图
  8. “赤膊贪凉”要不得 多喝蜜水防“秋燥”
  9. Java调用R与Python
  10. golang中的异常如何捕获?
  11. python毕业设计作品基于django框架外卖点餐系统毕设成品(7)中期检查报告
  12. monk_notebook (交际德语教程 第二版 学生用书)
  13. 创建计划行确认数量为0的销售订单
  14. 设置gvim中横竖光标_VIM的配置:高亮光标所在的行列
  15. 人人商城二次开发 各个装修模块diypage的自定义样式
  16. 【我的Android进阶之旅】 高效的设计稿标注及测量工具Markman介绍
  17. CentOS下查看电脑硬件设备属性命令
  18. 【FAQ】应用集成HMS Core部分服务出现“ 6003报错”情况的解决方法来啦
  19. 基本触发器和钟控触发器
  20. 华硕主板橙色灯亮无法开机

热门文章

  1. 教你如何用shell脚本输出菱形
  2. 基于JAVA的SM4文件加密解密,可以直接使用
  3. 分享137个ASP源码,总有一款适合您
  4. 用C++写一个简单小病毒(零基础奶妈级教学,不可能学完还不懂)
  5. linux双系统重启卡光标,Ubuntu 16.04安装完重启后黑屏,光标一直闪
  6. 如何成为一名架构师?
  7. 线上宠物销售系统的设计与实现
  8. 雷电3接口能干嘛_把雷电3插到TypeC接口了?不认识电脑接口的小伙伴看过来
  9. scrapy-selenium-谷歌浏览器爬取带有时效性cookies的网站
  10. 软件设计中的“自上而下”和“自下而上”