一、理论知识点
- 1.1 原理
- 1.2 ID3、C4.5、CART
- 1.3 信息增益 vs 信息增益比
- 1.4 Gini指数 vs 熵
- 1.5 剪枝
- 1.6 总结
- 问:决策树中连续值和缺失值特征是如何处理的?
二、代码
- 01 What is Decision-Tree
- - 核心代码
  - 完整代码
- 02 Entropy
- 03 Entropy Split Simulation
- 04 Gini Index
- 05 CART 超参数

一、理论知识点

1.1 原理

顾名思义，决策树就是用一棵树来表示我们的整个决策过程。这棵树可以是二叉树(比如CART只能是二叉树)，也可以是多叉树(比如ID3、C4.5可以是多叉树或二叉树)。
根节点包含整个样本集，每个叶节点都对应一个决策结果(注意，不同的叶节点可能对应同一个决策结果)，每一个内部节点都对应一次决策过程或者说是一次属性测试。从根节点到每个叶节点的路径对应一个判定测试序列。
举个例子:

就像上面这个例子，训练集由三个特征:outlook(天气)，humidity(湿度)，windy(是否有风)。那么我们该如何选择特征对训练集进行划分那?连续型特征(比如湿度)划分的阈值又是如何确定的那?
决策树的生成就是不断的选择最优的特征对训练集进行划分，是一个递归的过程。递归返回的条件有三种:
(1)当前节点包含的样本属于同一类别，无需划分
(2)当前属性集为空，或所有样本在属性集上取值相同，无法划分
(3)当前节点包含样本集合为空，无法划分

1.2 ID3、C4.5、CART

熵表示的是数据中包含的信息量大小。熵越小，数据的纯度越高，也就是说数据越趋于一致，这是我们希望的划分之
后每个子节点的样子。
信息增益 = 划分前熵 - 划分后熵。信息增益越大，则意味着使用属性a来进行划分所获得的“纯度提升”越大。也就是说，用属性a来划分训练集，得到的结果中纯度比较高。
ID3仅仅能够处理离散属性。

C4.5克服了ID3仅仅能够处理离散属性的问题，以及信息增益偏向选择取值较多特征的问题，使用信息增益比来选择特征。
信息增益比 = 信息增益 /划分前熵, 选择信息增益比最大的作为最优特征。
C4.5处理连续特征是先将特征取值排序，以连续两个值中间值作为划分标准。尝试每一种划分，并计算修正后的信息增益，选择信息增益最大的分裂点作为该属性的分裂点。

CART CART与ID3，C4.5不同之处在于CART生成的树必须是二叉树。也就是说，无论是回归还是分类问题，无论特征是离散的还是连续的，无论属性取值有多个还是两个，内部节点只能根据属性值进行二分。

CART的全称是分类与回归树。从这个名字中就应该知道，CART既可以用于分类问题，也可以用于回归问题。

回归树中，使用平方误差最小化准则来选择特征并进行划分。每一个叶子节点给出的预测值，是划分到该叶子节点的所有样本目标值的均值，这样只是在给定划分的情况下最小化了平方误差。要确定最优化分，还需要遍历所有属性，以及其所有的取值来分别尝试划分并计算在此种划分情况下的最小平方误差，选取最小的作为此次划分的依据。由于回归树生成使用平方误差最小化准则，所以又叫做最小二乘回归树。

分类树种，使用Gini指数最小化准则来选择特征并进行划分; Gini指数表示集合的不确定性，或者是不纯度。基尼指数越大，集合不确定性越高,不纯度也越大。这一点和熵类似。另一种理解基尼指数的思路是，基尼指数是为了最小化误分类的概率。

我们通过百面书上的例子来说明一下Gini系数的计算过程:

1.3 信息增益 vs 信息增益比

之所以引入了信息增益比，是由于信息增益的一个缺点。那就是:信息增益总是偏向于选择取值较多的属性。信息增益比在此基础上增加了一个罚项，解决了这个问题。

1.4 Gini指数 vs 熵

既然这两个都可以表示数据的不确定性，不纯度。那么这两个有什么区别那?

Gini指数的计算不需要对数运算，更加高效
Gini指数更偏向于连续属性，熵更偏向于离散属性

1.5 剪枝

决策树算法很容易过拟合(overfitting)，剪枝算法就是用来防止决策树过拟合，提高泛华性能的方法。剪枝分为预剪枝与后剪枝。
预剪枝是指在决策树的生成过程中，对每个节点在划分前先进行评估，若当前的划分不能带来泛化性能的提升，则停止划分，并将当前节点标记为叶节点。

后剪枝是指先从训练集生成一颗完整的决策树，然后自底向上对非叶节点进行考察，若将该节点对应的子树替换为叶节点，能带来泛化性能的提升，则将该子树替换为叶节点。

那么怎么来判断是否带来泛化性能的提升那?最简单的就是留出法，即预留一部分数据作为验证集来进行性能评估。

我们讲述一下百面书上的代价复杂剪枝: 女孩需要对80个人进行见或不见的分类。假设根据某种规则，已经得到了一棵CART决策树

1.6 总结

决策树算法主要包括三个部分:特征选择、树的生成、树的剪枝。常用算法有ID3、C4.5、CART。

特征选择。特征选择的目的是选取能够对训练集分类的特征。特征选择的关键是准则:信息增益、信息增益比、Gini指数。
决策树的生成。通常是利用信息增益最大、信息增益比最大、Gini指数最小作为特征选择的准则。从根节点开始，递归的生成决策树。相当于是不断选取局部最优特征，或将训练集分割为基本能够正确分类的子集。
决策树的剪枝。决策树的剪枝是为了防止树的过拟合，增强其泛化能力。包括预剪枝和后剪枝。

问:决策树中连续值和缺失值特征是如何处理的?

答:决策树中，对于连续属性，假设有n个样本，那么首先按照取值从小到大进行排序。取每两个值的中值作为候选的划分点进行划分。n个样本，对应有n-1个区间，也就是n-1个候选划分点。尝试所有划分点之后，分别计算信息增益，选取信息增益最大的划分点即可。对于属性有缺失值的情况，划分过程中计算属性信息增益的时候，只使用属性没有缺失值的样本进行信息增益的计算。确定好分类之后，对于在该属性值有缺失的样本，将被归入所有的分支节点。

二、代码

01 What is Decision-Tree

核心代码

from sklearn.tree import DecisionTreeClassifier
dt_clf = DecisionTreeClassifier(max_depth=2, criterion="entropy", random_state=42)
dt_clf.fit(X, y)

完整代码

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets# 鸢尾花数据集：load_iris()
iris = datasets.load_iris()
x = iris.data[:, 2:]
y = iris.targetplt.scatter(x[y == 0, 0], x[y == 0, 1])
plt.scatter(x[y == 1, 0], x[y == 1, 1])
plt.scatter(x[y == 2, 0], x[y == 2, 1])
plt.show()from sklearn.tree import DecisionTreeClassifierdt_clf = DecisionTreeClassifier(max_depth=2, criterion="entropy", random_state=42)
dt_clf.fit(x, y)def plot_decision_boundary(model, axis):x0, x1 = np.meshgrid(np.linspace(axis[0], axis[1], int((axis[1] - axis[0]) * 100)).reshape(-1, 1),np.linspace(axis[2], axis[3], int((axis[3] - axis[2]) * 100)).reshape(-1, 1))x_new = np.c_[x0.ravel(), x1.ravel()]y_predict = model.predict(x_new)zz = y_predict.reshape(x0.shape)from matplotlib.colors import ListedColormapcustom_cmap = ListedColormap(['#EF9A9A', '#FFF59D', '#90CAF9'])plt.contourf(x0, x1, zz, cmap=custom_cmap)plot_decision_boundary(dt_clf, axis=[0.5, 7.5, 0, 3])
plt.scatter(x[y == 0, 0], x[y == 0, 1])
plt.scatter(x[y == 1, 0], x[y == 1, 1])
plt.scatter(x[y == 2, 0], x[y == 2, 1])
plt.show()

02 Entropy

决策树又称为判定树，是运用于分类的一种树结构，其中的每个内部节点代表对某一属性的一次测试，每条边代表一个测试结果，叶节点代表某个类或类的分布。
那么如何确定每个节点在哪个特征上做划分?每个特征在哪个值上做划分?
我们引入信息论中的熵的概念。
熵在信息学中代表随机变量不确定度的度量。熵越大，数据的不确定性越高。
所以我们可以通过划分前后熵的变化来确定每个节点的特征和每个特征的值的选择。

import numpy as np
import matplotlib.pyplot as pltdef entropy(p):return -p * np.log(p) - (1 - p) * np.log(1 - p)x = np.linspace(0.01, 0.99, 200)plt.plot(x, entropy(x))
plt.show()

03 Entropy Split Simulation

from collections import Counter
from math import log
import numpy as np
from sklearn import datasets
from sklearn.tree import DecisionTreeClassifieriris = datasets.load_iris()
X = iris.data[:, 2:]
y = iris.targetdt_clf = DecisionTreeClassifier(max_depth=2, criterion="entropy", random_state=42)
dt_clf.fit(X, y)def split(X, y, d, value):index_a = (X[:, d] <= value)index_b = (X[:, d] > value)return X[index_a], X[index_b], y[index_a], y[index_b]# 信息熵计算
def entropy(y):counter = Counter(y)res = 0.0for num in counter.values():p = num / len(y)res += -p * log(p)return res# 找到最大的信息熵差值，最优的划分特征和最优的划分边界
def try_split(X, y):best_entropy = float('inf')best_d, best_v = -1, -1for d in range(X.shape[1]):sorted_index = np.argsort(X[:, d])for i in range(1, len(X)):if X[sorted_index[i], d] != X[sorted_index[i - 1], d]:v = (X[sorted_index[i], d] + X[sorted_index[i - 1], d]) / 2X_l, X_r, y_l, y_r = split(X, y, d, v)e = entropy(y_l) + entropy(y_r)if e < best_entropy:best_entropy, best_d, best_v = e, d, vreturn best_entropy, best_d, best_vbest_entropy, best_d, best_v = try_split(X, y)
print("best_entropy =", best_entropy)
print("best_d =", best_d)
print("best_v =", best_v)

04 Gini Index

基尼系数代表了模型的纯度，基尼系数越小，则纯度越高，特征越好。

信息熵vs基尼系数

信息熵计算较慢(涉及大量对数运算)
scikit-learn中默认为基尼系数
大多数时候二者没有特别的效果优劣

from collections import Counter
from math import log
import numpy as np
from sklearn import datasets
from sklearn.tree import DecisionTreeClassifieriris = datasets.load_iris()
X = iris.data[:, 2:]
y = iris.targetdt_clf = DecisionTreeClassifier(max_depth=2, criterion="entropy", random_state=42)
dt_clf.fit(X, y)def split(X, y, d, value):index_a = (X[:, d] <= value)index_b = (X[:, d] > value)return X[index_a], X[index_b], y[index_a], y[index_b]def gini(y):counter = Counter(y)res = 1.0for num in counter.values():p = num / len(y)res -= p ** 2return resdef try_split(X, y):best_g = float('inf')best_d, best_v = -1, -1for d in range(X.shape[1]):sorted_index = np.argsort(X[:, d])for i in range(1, len(X)):if X[sorted_index[i], d] != X[sorted_index[i - 1], d]:v = (X[sorted_index[i], d] + X[sorted_index[i - 1], d]) / 2X_l, X_r, y_l, y_r = split(X, y, d, v)g = gini(y_l) + gini(y_r)if g < best_g:best_g, best_d, best_v = g, d, vreturn best_g, best_d, best_vbest_entropy, best_d, best_v = try_split(X, y)
print("best_entropy =", best_entropy)
print("best_d =", best_d)
print("best_v =", best_v)

05 CART 超参数

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.tree import DecisionTreeClassifierX, y = datasets.make_moons(noise=0.25, random_state=666)
plt.scatter(X[y == 0, 0], X[y == 0, 1])
plt.scatter(X[y == 1, 0], X[y == 1, 1])
plt.scatter(X[y == 2, 0], X[y == 2, 1])
plt.show()def plot_decision_boundary(model, axis):x0, x1 = np.meshgrid(np.linspace(axis[0], axis[1], int((axis[1] - axis[0]) * 100)).reshape(-1, 1),np.linspace(axis[2], axis[3], int((axis[3] - axis[2]) * 100)).reshape(-1, 1))x_new = np.c_[x0.ravel(), x1.ravel()]y_predict = model.predict(x_new)zz = y_predict.reshape(x0.shape)from matplotlib.colors import ListedColormapcustom_cmap = ListedColormap(['#EF9A9A', '#FFF59D', '#90CAF9'])plt.contourf(x0, x1, zz, cmap=custom_cmap)# 不传超参数时的决策边界:可以看到过拟合的情况发生。
dt_clf = DecisionTreeClassifier()
dt_clf.fit(X, y)
plot_decision_boundary(dt_clf, axis=[-1.5, 2.5, -1.0, 1.5])
plt.scatter(X[y == 0, 0], X[y == 0, 1])
plt.scatter(X[y == 1, 0], X[y == 1, 1])plt.show()

不传超参数时的决策边界:可以看到过拟合的情况发生。

# 当我们加了超参数max_depth=2时，我们可以看到效果好了很多:
dt_clf2 = DecisionTreeClassifier(max_depth=2)
dt_clf2.fit(X, y)plot_decision_boundary(dt_clf2, axis=[-1.5, 2.5, -1.0, 1.5])
plt.scatter(X[y == 0, 0], X[y == 0, 1])
plt.scatter(X[y == 1, 0], X[y == 1, 1])
plt.show()

当我们加了超参数max_depth=2时，我们可以看到效果好了很多:

# min_samples_split=10，内部节点再划分所需最小样本数。默认值为2。显而易见，节点再划分所需的样本数提高， 可以增加泛化能力，对应的划分结果(与第一张不传超参数的对比):
dt_clf3 = DecisionTreeClassifier(min_samples_split=10)
dt_clf3.fit(X, y)plot_decision_boundary(dt_clf3, axis=[-1.5, 2.5, -1.0, 1.5])
plt.scatter(X[y == 0, 0], X[y == 0, 1])
plt.scatter(X[y == 1, 0], X[y == 1, 1])
plt.show()

min_samples_split=10，内部节点再划分所需最小样本数。默认值为2。显而易见，节点再划分所需的样本数提高，可以增加泛化能力，对应的划分结果(与第一张不传超参数的对比)

# max_leaf_nodes=4，通过限制最大叶子节点数，可以防止过拟合，默认是"None”，即不限制最大的叶子节点数。如 果加了限制，算法会建立在最大叶子节点数内最优的决策树。如果特征不多，可以不考虑这个值，但是如果特征分成 多的话，可以加以限制，具体的值可以通过交叉验证得到。
dt_clf5 = DecisionTreeClassifier(max_leaf_nodes=4)
dt_clf5.fit(X, y)plot_decision_boundary(dt_clf5, axis=[-1.5, 2.5, -1.0, 1.5])
plt.scatter(X[y == 0, 0], X[y == 0, 1])
plt.scatter(X[y == 1, 0], X[y == 1, 1])
plt.show()

max_leaf_nodes=4，通过限制最大叶子节点数，可以防止过拟合，默认是"None”，即不限制最大的叶子节点数。如果加了限制，算法会建立在最大叶子节点数内最优的决策树。如果特征不多，可以不考虑这个值，但是如果特征分成多的话，可以加以限制，具体的值可以通过交叉验证得到。

【深度之眼】【百面机器学习】决策树相关推荐

第一章-机器学习简介深度之眼_吴恩达机器学习作业训练营
目录专栏简介: 一,机器学习简介 1.1 机器学习定义 1.1 机器学习的重要性 1.2 应用领域二.监督学习三.无监督学习四.总结专栏简介: 本栏主要内容为吴恩达机器学习公开课的学习笔记, ...
备战秋招 |《百面机器学习》算法+leetcode开班报名！
算法面试刷题班推荐: 以<百面机器学习>为教材结合leetcode筛选刷题秋招已经开始了!时间紧迫,也许别人已经得到offer了,你却还在不知所措?(文末重金招聘讲师) 六月份基本都是 ...
仅剩3天 | 带学《百面机器学习》葫芦书，算法+leetcode一应俱全
或许你只要比别人准备多一点,你就可以在群体中脱颖而出. 年后基本都是春招和社招的高峰期,但好岗位招聘人数和应聘人数简直堪比春运抢票. 你总在抱怨"为什么别人机会那么好,能抢到你想要的名额?& ...
深度学习算法和机器学习算法_啊哈！ 4种流行的机器学习算法的片刻
深度学习算法和机器学习算法 Most people are either in two camps: 大多数人都在两个营地中: I don't understand these machine lea ...
百面机器学习03-经典算法
01 支持向量机支持向量机 (Support Vector Machine, SVM)是众多监督学习万法中十分出色的一种,几乎所有讲述经典机器学习万洼的教材都会介绍 . 关于 SVM,流传着一个关于 ...
百面机器学习02-模型评估
评估指标的局限性场景描述: 在模型评估过程中,分类问题.排序问题.回归问题往往需要使用不同的指标进行评估 .在诸多的评估指标中,大部分指标只能片面地反映模型的一部分性能 . 如果不能合理地运用评估指 ...
百面机器学习01-特征工程
1:特征归一化场景描述: 为了消除数据特征之间的量纲影响,我们需要对特征进行归一化处理,使得不同指标之间具有可比性.例如,分析一个人的身高和体重对健康的影响,如果使用米(m )和千克(kg)作为单位 ...
个人面试问答题知识库（一）百面机器学习篇
第二篇(基础模型篇)已更新! 在前段时间的校招应聘经历中,我发现有时候即使面试官问的问题基本都回答上来了,最后还是没有通过面试,这固然跟自己是非科班.没有论文和相关实习经历有关,但自己的 ...
《百面机器学习》---AI算法工程师求职必备“面经”
[导读]今天给大家推荐一本人工智能算法工程师求职必备"面经" --百面机器学习(文末附pdf下载方式,限时领取哟!) 自2018年面世以来,该书现已成为机器学习算法工程师求职面试必 ...
干货丨深度学习和经典机器学习的全方位对比
本文将对比深度学习和经典机器学习,分别介绍这两种技术的优缺点以及它们在哪些问题如何得到最佳使用. 深度学习已成为大多数AI问题的首选技术,使得经典机器学习相形见绌.但是,尽管深度学习有很好的性能,经 ...

【深度之眼】【百面机器学习】决策树

目录