1. 帮助理解的前置case

1.1 case1:相亲

参考CSDN其他blog

决策树,顾名思义,是一种树,一种依托于策略抉择而建立起来的树。
套用俗语,决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话:

这个女孩的决策过程就是典型的分类树决策。
相当于通过年龄、长相、收入和是否公务员对将男人分为两个类别:见和不见。假设这个女孩对男人的要求是:30岁以下、长相中等以上并且是高收入者或中等以上收入的公务员,那么这个可以用下图表示女孩的决策逻辑:

1.2 case2:招聘面试

也就是说,决策树的简单策略就是,好比公司招聘面试过程中筛选一个人的简历,如果你的条件相当好比如说某985/211重点大学博士毕业,那么二话不说,直接叫过来面试,如果非重点大学毕业,但实际项目经验丰富,那么也要考虑叫过来面试一下,即所谓具体情况具体分析、决策。

1.3 case3:高尔夫球

参考Wikipedia https://zh.wikipedia.org/wiki/决策树

小王是一家著名高尔夫俱乐部的经理。但是他被雇员数量问题搞得心情十分不好。某些天好像所有人都来玩高尔夫,以至于所有员工都忙的团团转还是应付不过来,而有些天不知道什么原因却一个人也不来,俱乐部为雇员数量浪费了不少资金。

小王的目的是通过下周天气预报寻找什么时候人们会打高尔夫,以适时调整雇员数量。因此首先他必须了解人们决定是否打球的原因。

在2周时间内我们得到以下记录:

天气状况有晴,云和雨;气温用华氏温度表示;相对湿度用百分比;还有有无风。当然还有顾客是不是在这些日子光顾俱乐部。最终他得到了14行5列的数据表格。

决策树模型就被建起来用于解决问题。

决策树是一个有向无环图。根结点代表所有数据。分类树算法可以通过变量outlook,找出最好地解释非独立变量play(打高尔夫的人)的方法。变量outlook的范畴被划分为以下三个组:

晴天,多云天和雨天。

我们得出第一个结论:如果天气是多云,人们总是选择玩高尔夫,而只有少数很着迷的甚至在雨天也会玩。

接下来我们把晴天组的分为两部分,我们发现顾客不喜欢湿度高于70%的天气。最终我们还发现,如果雨天还有风的话,就不会有人打了。

这就通过分类树给出了一个解决方案。小王(老板)在晴天,潮湿的天气或者刮风的雨天解雇了大部分员工,因为这种天气不会有人打高尔夫。而其他的天气会有很多人打高尔夫,因此可以雇用一些临时员工来工作。

2. 决策树必备概念:从比特化到信息熵

2.1 比特化

假设存在离散随机变量X,取值与概率如下:

取值 概率
A 1/4
B 1/4
C 1/4
D 1/4

现在有一组由X变量组成的序列:BACADDCBAC……,如果现在希望将这个序列进行网络传输,我们可以将每种取值使用两个位进行编码:

取值 编码
A 00
B 01
C 10
D 11

编码后,我们可以得到这样的序列:01001000111110010010……,而字符的平均编码长度为。
E=2∗14+2∗14+2∗14+2∗14=2E = 2 * \frac{1}{4} + 2 * \frac{1}{4}+ 2 * \frac{1}{4}+ 2 * \frac{1}{4} = 2E=2∗41​+2∗41​+2∗41​+2∗41​=2
不过,如果当变量X的取值概率不同时,不同的编码方式可能会带来不同的编码长度。

取值 概率
A 1/2
B 1/4
C 1/8
D 1/8

当然,我们依然可以采用之前的编码方式,这样,一个字符使用两个位进行编码。这样,平均编码长度为:
E=2∗12+2∗14+2∗18+2∗18=2E = 2 * \frac{1}{2} + 2 * \frac{1}{4}+ 2 * \frac{1}{8}+ 2 * \frac{1}{8} = 2E=2∗21​+2∗41​+2∗81​+2∗81​=2
然而,考虑到X取值的不均衡性,我们可以更换编码方式,进而减少编码长度,降低网络传输量。

取值 编码
A 0
B 10
C 110
D 111

因为A出现的概率最高,因此,我们将出现概率最高的,使用最短的位进行编码,而将出现概率低的C,D使用较长的位编码,这样就可以降低编码长度。我们使用不等长的编码方式时需要注意,任何一个短编码都不可以作为长编码的前缀,否则就会造成混淆。
调整之后,每个字符编码的平均位数(编码长度)为
E=1∗12+2∗14+3∗18+3∗18=1.75E = 1 * \frac{1}{2} + 2 * \frac{1}{4}+ 3 * \frac{1}{8}+ 3 * \frac{1}{8} = 1.75E=1∗21​+2∗41​+3∗81​+3∗81​=1.75
我们可以表示为如下的形式:
E=−log212∗12−log214∗14−log218∗18−log218∗18=1.75E = -log_2\frac{1}{2} * \frac{1}{2} - log_2\frac{1}{4} * \frac{1}{4} - log_2\frac{1}{8} * \frac{1}{8} - log_2\frac{1}{8} * \frac{1}{8} = 1.75E=−log2​21​∗21​−log2​41​∗41​−log2​81​∗81​−log2​81​∗81​=1.75

2.2 信息熵(with codes)

观察上式,有什么规律吗?
假设现在随机变量X具有m个值,分别为: V1,V2,....,VmV_1,V_2,....,V_mV1​,V2​,....,Vm​。并且各个值出现的概率如下:

对于一组序列信息来讲,可以使用这些变量的期望来表示每个变量需要多少个比特位来描述信息:
E(X)=−p1∗log2p1−p2∗log2p2−p3∗log2p3−……−pm∗log2pmE(X) = -p_1 * log_2p_1 - p_2 * log_2p_2 - p_3 * log_2p_3 - …… - p_m * log_2p_mE(X)=−p1​∗log2​p1​−p2​∗log2​p2​−p3​∗log2​p3​−……−pm​∗log2​pm​
以上的表示就是变量X的信息熵,表示为:
H(X)=−∑i=1mpilog2piH(X) = -\sum_{i=1}^{m}p_ilog_2p_iH(X)=−∑i=1m​pi​log2​pi​

2.2.1 信息熵概念

信息熵就是用来描述系统信息量的不确定度。不确定性越大,则信息熵越大,反之,信息熵越小。

例如,4只猎豹参与赛跑,每只猎豹的能力都是旗鼓相当,平分秋色。我们很难确定哪只猎豹会获得胜利,因此,这种情况下,不确定性很大,信息熵就大。但是,假设让1只猎豹与3只蜗牛进行赛跑,则猎豹取胜便是毋容置疑的,因此,这种情况下,不确定性很小,信息熵就小。
因此,对于随机变量X,其分布越均衡,则不确定性越多,信息熵越大。其分布越不均衡,则不确定性越少,信息熵越少。

2.2.2 信息熵程序python解释

import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as pltmpl.rcParams["font.family"] = "SimHei"
mpl.rcParams["axes.unicode_minus"] = False# 计算概率值,概率值由0到1逐渐增大。
p = np.linspace(0.01, 0.99, 100)
# 计算概率逐渐改变的时候,信息熵的变化情况。
h = -p * np.log2(p) - (1 - p) * np.log2(1 - p)
plt.plot(p, h)
plt.xlabel("概率1取值")
plt.ylabel("信息熵")
plt.title("两个随机随机变量不同取值-信息熵对比")
plt.show()

当概率为0.5的时候,信息熵最大,不纯度最大,不确定性也越大。

3. 决策树概念

  • 决策树一种非参数监督学习方法,用于分类与回归。
  • 目标是创建一个模型,从数据特征中进行学习,进而推断出的简单决策规则,用来预测目标变量的值。
  • 决策树是一种树形结构,通过做出一系列决策(选择)来对数据进行划分,这类似于针对一系列问题进行选择。
  • 决策树的决策过程就是从根节点开始,测试待分类项中对应的特征属性,并按照其值选择输出分支,直到叶子节点,将叶子节点的存放的类别作为决策结果。

根据某些条件,判断是否能偿还债务?

例如,我们有如下的数据集:

例如,我们可以按照如下的方式进行划分选择:

4. 构建决策树

决策树可以看做由若干个节点构成,其中,每个节点存放一定数量的样本(根节点存放所有样本数据)

4.1 构建决策树的过程

决策树的构建过程就是根据属性(特征)条件来分割节点(样本数据),直到满足以下条件:

  • 树达到指定的最大深度(max_depth),每次分割视为一层。
  • 所有叶子节点中的样本属于同一个类别(足够纯)。…信息熵最小。
  • 所有叶子节点包含的样本数量小于指定的最小分类样本(min_samples_split数量。

  • 最大纯度,就是信息熵为0,失衡的情况。
    如果达到最大深度,就容易产生过拟合的现象。
  • 深度怎么算?就是回答问题的数量:回答一个问题,就是一个深度,回答两个问题,就是两个深度。
    比如,只分到如下图,那就是一个深度,只回答了一个问题。
  • 最小分类样本(min_samples_split)类似leaf_size,最小包含多少个样本,最多包含多少个样本。scikitlearn中有这个参数。

4.2 引出两个关键问题

  • 从刚才的决策树看,我们是否可以先根据“拥有房产”或“婚姻情况”属性先进行划分?
  • 年收入为什么选择以97.5来进行划分,而不是其他值?

构建决策树的关键步骤就是分裂属性,分裂属性是指在某个节点按照某一类特征属性的不同划分构建不同的分支,其目标就是让各个分裂子集(一个分裂子类中待分类的项)尽可能的属于同一个类别。


  • why尽可能的属于同一个类别?
    要不然会很麻烦,两个子节点都需要分下去。

  • 关键是如何确立分割点?
    观察,离散值(是否单身):二分之一;连续值(收入),多分之一。

  • 问题引出:哪一个特征信息增益越大,我们就按照哪一个特征进行划分。

无参数模型,训练的是树,跟决策相关,不同的条件,不同的选择
有些资料说是分裂属性,但这里主张分割样本
过程也就是属性取不同的值,然后不断把样本集缩小
从树根开始不断的做出决断

4.3 构建决策树的规则

构建决策树的规则如下:

  • 将数据集中的每一个特征看成是一种划分可能。(对于划分方式,可以分为离散型与连续性属性。)

    1. 对于离散型属性,每一个类别可以划分为一个节点(多叉树),或者属于类别A与不属于类别A(二叉树)。
    2. 对于连续性属性,可以划分为大于等于A与小于A。
  • 从根节点开始,选择可获的最大信息增益(IG-Information gain)的特征进行节点划分。
  • 划分的目的就是,可以在每次划分时,实现对信息增益的最大化。

最大信息增益定义如下:
IG(Dp,f)=I(Dp)−∑j=1nNjNpI(Dj)IG(D_p, f) = I(D_p) - \sum_{j=1}^{n}\frac{N_j}{N_p}I(D_j)IG(Dp​,f)=I(Dp​)−∑j=1n​Np​Nj​​I(Dj​)

  • fff 划分的特征
  • DpD_pDp​ 父节点
  • DjD_jDj​ 第j个子节点
  • NpN_pNp​ 父节点中样本的数量
  • NjN_jNj​ 第j个子节点样本的数量
  • III 不纯度度量标准

实际上,信息增益就是父节点的不纯度减去所有子节点不纯度
出于简化与缩小组合搜索空间的考虑,很多库**(scikit-learn)实现的都是二叉决策树**,每个父节点分为两个子节点(左节点与右节点):
IG(Dp,f)=I(Dp)−NleftNpI(Dleft)−NrightNpI(Dright)IG(D_p, f) = I(D_p) - \frac{N_{left}}{N_p}I(D_{left}) - \frac{N_{right}}{N_p}I(D_{right})IG(Dp​,f)=I(Dp​)−Np​Nleft​​I(Dleft​)−Np​Nright​​I(Dright​)
从上可以看出,子节点的不纯度越低,信息增益就越大。因而,我们分裂属性的方式,就是应该使得子节点的不纯度越低越好。


比如按照年收入划分,不纯度信息肯定是固定的了。
比如十叉树,空间搜索特别庞大。不利于实现和操作

5. 不纯度度量标准

不纯度信息可以采用如下方式度量:

  • 信息熵(Entropy)
  • 基尼系数(Gini Index)
  • 错误率(classification error)

  • 习惯说,不纯度越高,信息熵越高。btw,正比好理解。
  • 所以,我们衡量的依据:通过哪一个特征能够让我们哪个节点的不纯度最低,就是信息熵最低,(纯度最高),就更好衡量。
  • 失衡度越高,我们预测出来的信心指数会越高。
  • 一个子节点所有样本都属于同一个类别,那我们预测出来的概率就是100%,就是一个非常高的信心指数。
  • 决策树划分目的:就是让不纯度达到最低,信息熵达到最小

5.1 信息熵

IH(t)=−∑i=1cp(i∣t)log2p(i∣t)I_H(t) = -\sum_{i=1}^{c}p(i|t)log_2p(i|t)IH​(t)=−∑i=1c​p(i∣t)log2​p(i∣t)

  • p(i|t) 节点t中,属于类别c的样本占特定节点t中样本总数的比例(概率)。

如果样本以相同的比例分布于不同的类别时,熵的值最大。如果所有的样本都属于同一个类别,则熵为0,此时,不纯度最低。

5.2 基尼系数

IG(t)=1−∑i=1cp(i∣t)2I_G(t) = 1 - \sum_{i=1}^{c}p(i|t)^2IG​(t)=1−∑i=1c​p(i∣t)2
同样,与熵类似,当样本以相同的比例分布于不同的类别时,基尼系数的值最大。当所有的样本都属于同一个类别,则基尼系数为0,此时,不纯度最低。

参阅:Wikipedia中关于基尼系数的描述
https://zh.wikipedia.org/wiki/基尼系数

经济学中:基尼系数的实际数值只能介于这两种极端情况,即0~1之间。基尼系数越小,年收入分配越平均;基尼系数越大,年收入分配越不平均。

5.3 错误率

IE(t)=1−max{p(i∣t)}I_E(t) = 1 - max\{p(i|t)\}IE​(t)=1−max{p(i∣t)}

通常不建议使用错误率在决策树的构建过程中使用,因为其对节点中类别样本数量的变动不敏感。
例如,在父节点p中,存在两个类别,各40个样本,父节点进行划分,分为两个子节点,如下:

BTW: 很明显看出B的不纯度最低,信息熵最低,最好…

然而,在A,B两种划分情况下,使用错误率得到的信息增益都是相同的(信息增益都是0.25)。

如果使用基尼系数,A划分的方式,信息增益为0.125,B划分的方式,信息增益为0.16,因此,B划分的方式,子节点处类别的不纯度更低,信息增益更大,所以,B划分的方式更好。

使用信息熵评估时,A划分的方式,信息增益为0.19,B划分的方式,信息增益为0.31,同样是B划分的方式更好。

5.4 程序解释(with codes)

import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as pltmpl.rcParams["font.family"] = "SimHei"
mpl.rcParams["axes.unicode_minus"] = False# 生成概率的范围
p = np.linspace(0.01, 0.99, 100)# 计算基尼系数值。
def gini(p):return 1 - p ** 2 - (1 - p) ** 2# 计算信息熵。
def entropy(p):return - p * np.log2(p) - (1 - p) * np.log2(1 - p)# 计算错误率
def error(p):return 1 - np.max([p, 1 - p], axis=0)x = np.linspace(0.01, 0.99, 200)
# 计算信息熵
en = entropy(x)
# 将信息熵进行缩放。因为信息熵的取值范围为[0, 1],而基尼系数与错误率的取值范围为[0, 0.5],为了能够统一区间,
# 所以进行缩放,以便于可视化观察效果。
en2 = en * 0.5
# 计算错误率。
err = error(x)
# 计算基尼系数
g = gini(x)
fig = plt.figure()
for i, lab, ls, c, in zip([en, en2, g, err], ["信息熵", "信息熵(缩放)", "基尼系数", "错误率"], ["-", ":", "--", "-."], ["r", "g", "b", "y"]):# 分别绘制信息熵,基尼系数与错误率的曲线,随着概率的变化而发生改变。plt.plot(x, i, label=lab, linestyle=ls, lw=2, color=c)plt.legend(loc="upper center", bbox_to_anchor=(0.5, 1.15),ncol=4, fancybox=True, shadow=False)plt.axhline(y=0.5, linewidth=1, color='k', linestyle="--")plt.axhline(y=1.0, linewidth=1, color='k', linestyle="--")plt.ylim([0, 1.1])plt.xlabel("p(i=1)")plt.ylabel("纯度系数")
plt.show()

决策树算法笔记整理1 - 如何划分?(信息熵,不纯度及信息增益)相关推荐

  1. 【机器学习入门】(4) 决策树算法理论:算法原理、信息熵、信息增益、预剪枝、后剪枝、算法选择

    各位同学好,今天我向大家介绍一下python机器学习中的决策树算法的基本原理.内容主要有: (1) 概念理解:(2) 信息熵:(3) 信息增益:(4) 算法选择:(5) 预剪枝和后剪枝. python ...

  2. 【机器学习入门】(5) 决策树算法实战:sklearn实现决策树,实例应用(沉船幸存者预测)附python完整代码及数据集

    各位同学好,今天和大家分享一下python机器学习中的决策树算法,在上一节中我介绍了决策树算法的基本原理,这一节,我将通过实例应用带大家进一步认识这个算法.文末有完整代码和数据集,需要的自取.那我们开 ...

  3. 决策树算法(一)——一些重要的数学概念

    写在前面的话 趁着现在我还是高中数理化老师,偶尔兼职英语老师的时候赶紧抓紧时间写点有关计算机科学技术的东西.一来是表示我对计算机的热爱,二来,当然是最重要的咯,满足一下我强大的虚荣心.哈哈哈哈!想想高 ...

  4. 机器学习 day3 决策树算法

    决策树算法 1. 目的 2. 优缺点 3. 信息熵 entropy 计算方法: 导库: 导数据集: 首先计算原本的信息熵: 计算色泽特征下的信息熵: 取数据集D1 D1为色泽=青绿的数据子集 取子集D ...

  5. 【机器学习】西瓜书_周志华,python实现基于信息熵进行划分选择的决策树算法

    python:实现基于信息熵进行划分选择的决策树算法 本文主要介绍本人用python基于信息熵进行划分选择的决策树代码实现,参考教材为西瓜书第四章--决策树.ps.本文只涉及决策树连续和离散两种情况, ...

  6. 周志华《机器学习》习题4.4——python实现基于信息熵进行划分选择的决策树算法

    1.题目 试编程实现基于信息熵进行话饭选择的决策树算法,并为表4.3中数据生成一棵决策树. 表4.3如下: 另外再附个txt版的,下次可以复制粘贴: 青绿,蜷缩,浊响,清晰,凹陷,硬滑,0.697,0 ...

  7. 《机器学习》西瓜书课后习题4.3——python实现基于信息熵划分的决策树算法(简单、全面)

    <机器学习>西瓜书课后习题4.3--python实现基于信息熵划分的决策树算法 <机器学习>西瓜书P93 4.3 试编程实现基于信息熵进行划分选择的决策树算法,并为表4.3中数 ...

  8. 机器学习入门学习笔记:(3.1)决策树算法

    前言   决策树是一类常见的机器学习方法,属于监督学习算法.决策树本身不是一种很复杂的算法,只需要简单的数学基础的就可以理解其内容.一些比较典型的决策树算法有:ID3.C4.5.CART等等决策树算法 ...

  9. python决策树 value_机器学习 | 算法笔记(四)- 决策树算法以及代码实现

    概述 上一篇讲述了<机器学习 | 算法笔记(三)- 支持向量机算法以及代码实现>,本篇讲述机器学习算法决策树,内容包括模型介绍及代码实现. 决策树 决策树(Decision Tree)在机 ...

最新文章

  1. 读取EXCEL文件内容
  2. Android 优化电池使用时间——确定和监控基座对接状态和类型
  3. 如何使用SkyDrive的25 GB作为映射驱动器以方便访问
  4. 1147 Heaps
  5. 固定 顶部_纹络型温室大棚顶部通风样式及效率对比
  6. invokedynamic指令
  7. 天坑-安装salt-api安装的正确姿势
  8. [2019牛客]第一场
  9. cxf 服务器响应超时时间,CXF日志响应时间
  10. Fall 2020 Berkeley cs61a hw03答案
  11. IT大学生成长周报 | 第 1 期
  12. 【养生】观舌头知健康
  13. 麻雀虽小五脏俱全----ZC评价系统
  14. php阿里支付回调逻辑,php 银联支付回调
  15. 技术分享 | 关于Prometheus自主无人机开发你需要懂得一些“小事”(上)
  16. Gitblit创建版本库并提交项目到版本库
  17. 计算机检查更新检查不出来怎么办,Win10检测不到更新无法升级更高版本如何解决...
  18. 基于STM32单片机的篮球计时记分器仿真设计
  19. CSMA/CD与CSMA/CA区别
  20. TIME_WAIT状态存在的意义

热门文章

  1. font:综合设置字体样式 (重点)
  2. C++ 实现Variant类
  3. js限制文本框只能输入数字
  4. 播种:人生第一篇博客
  5. swoole等多进程下的 mysql has gone away 解决方案
  6. getRealPath
  7. MySQL的常用聚合函数
  8. QT+VS2005安装配置
  9. Flutter集成腾讯优量汇广告
  10. 马云对话80、90后:永远保持乐观