sklearn 决策树例子_决策树DecisionTree（附代码实现）

开局一张图（网图，随便找的）。

对这种类型的图很熟悉的小伙伴应该马上就看出来了，这是一颗决策树，没错今天我们的主题就是理解和实现决策树。

决策树和我们以前学过的算法稍微有点不一样，它是个树形结构。决策树的决策流程就是从所有输入特征中选择一个特征做为决策的依据，找出一个阈值来决定将其划分到哪一类。

也就是说，创建一个决策树的主要问题在于：

1.决策树中每个节点在哪个维度的特征上面进行划分？

2.被选中的维度的特征具体在哪个值上进行划分？

为了解决这两个问题我们引入信息熵的概念。

信息熵的概念本身是信息论中的一个重要概念，因为我们的重点是决策树，所以就不多涉及信息论的知识，我们只需要知道信息熵是什么。

信息熵简单的来说就是表示随机变量不确定度的度量。

熵越大，数据的不确定性就越大。

熵越小，数据的不确定性就越小，也就是越确定。

信息熵的计算公式

其中

是指，数据中一共有n类信息，

就是指第i类数据所占的比例。

举个例子，假设我们的数据中一共有三类。每一类所占比例为

，那么信息熵就是

假设我们数据一共有三类，每类所占比例是0，0，1，那么信息熵就是

（注：实际上log（0）是不能计算的，定义上不允许，真实场景会做其他处理解决这个问题）

很显然第二组数据比第一组数据信息熵小，也就是不确定性要少，换句话讲就是更为确定。

根据这两个例子，应该就能理解信息熵是随机变量不确定度的度量了。

如果我们的数据偏向于某一个类别，随机变量的不确定性就降低了，会变的更为确定。

现在来回答关于决策树的两个问题：

1.决策树中每个节点在哪个维度的特征上面进行划分？

2.被选中的维度的特征具体在哪个值上进行划分？

我们希望决策树每次划分数据都能让信息熵降低，当划分到最后一个叶子节点里面只有一类数据的时候，信息熵就自然的降为了0，所属的类别就完全确定了。

那么问题来了，我们怎样找到一个这样的划分使得划分后的信息熵会降低？答案是对着所有维度的特征来一次搜索就行了。

我们来模拟一下这个过程。

导入数据和包

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
import numpy as np
import matplotlib.pyplot as plt
from collections import Counter
from math import logiris = load_iris()
x = iris.data
y = iris.target
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=666666)

计算熵

def entropy(y_label):counter = Counter(y_label)ent = 0.0for num in counter.values():p = num / len(y_label)ent += -p * log(p)return ent

划分数据集

def split(x_data, y_label, dimension, value):"""x_data:输入特征y_label:输入标签类别dimension:选取输入特征的维度索引value：划分特征的数值return 左子树特征，右子树特征，左子树标签，右子树标签"""index_left = (x_data[:,dimension] <= value)index_right = (x_data[:,dimension] > value)return x_data[index_left], x_data[index_right], y_label[index_left], y_label[index_right]

划分一次数据集

遍历所有维度的特征，不断寻找一个合适的划分数值，找到能把熵降到最低的那个特征和数值

def one_split(x_data, y_label):best_entropy = float('inf')best_dimension = -1best_value = -1for d in range(x_data.shape[1]):sorted_index = np.argsort(x_data[:, d])for i in range(1,len(x_data)):if x_data[sorted_index[i], d] != x_data[sorted_index[i - 1], d]:value = (x_data[sorted_index[i], d] + x_data[sorted_index[i-1], d]) / 2x_left, x_right, y_left, y_right = split(x_data, y_label, d, value)p_left = len(x_left) / len(x_data)p_right = len(x_right) / len(x_data)ent = p_left * entropy(y_left) + p_right * entropy(y_right)if ent < best_entropy:best_entropy = entbest_dimension = dbest_value = valuereturn best_entropy, best_dimension, best_value

第一次模拟划分

找出最好的划分维度和对应的数值

best_entropy, best_dimension, best_value = one_split(x_train, y_train)
print(best_entropy)
print(best_dimension) #第二个维度的特征
print(best_value) #划分的数值

获取左子树特征，右子树特征，左子树标签，右子树标签

x_left, x_right, y_left, y_right = split(x_train, y_train, best_dimension, best_value)

再来一轮划分

左子树的熵已经是0了，没必要划分了

best_entropy, best_dimension, best_value = one_split(x_left, y_left)
print(best_entropy)
print(best_dimension) #第0个维度的特征
print(best_value) #划分的数值

我们继续划分右子树

best_entropy, best_dimension, best_value = one_split(x_right, y_right)
print(best_entropy)
print(best_dimension)
print(best_value)

x_left2, x_right2, y_left2, y_right2 = split(x_right,y_right,best_dimension,best_value)

经过了两轮划分，基本上决策树已经划分的差不多了，根据对应维度的特征和阈值决策就行了。如果你熟悉数据结构中的二叉树结构的话自己就能将决策树给建起来。

下面给出封装好的代码，可以像调用sklearn的决策树一样调用它。

class Node:def __init__(self,x_data, y_label, dimension, value):self.x_data = x_dataself.y_label = y_labelself.dimension = dimensionself.value = valueself.left = Noneself.right = Noneclass DTree:def __init__(self):self.root = Nonedef fit(self,x_train, y_train):def entropy(y_label):counter = Counter(y_label)ent = 0.0for num in counter.values():p = num / len(y_label)ent += -p * log(p)return entdef one_split(x_data, y_label):best_entropy = float('inf')best_dimension = -1best_value = -1for d in range(x_data.shape[1]):sorted_index = np.argsort(x_data[:, d])for i in range(1,len(x_data)):if x_data[sorted_index[i], d] != x_data[sorted_index[i - 1], d]:value = (x_data[sorted_index[i], d] + x_data[sorted_index[i-1], d]) / 2x_left, x_right, y_left, y_right = split(x_data, y_label, d, value)p_left = len(x_left) / len(x_data)p_right = len(x_right) / len(x_data)ent = p_left * entropy(y_left) + p_right * entropy(y_right)if ent < best_entropy:best_entropy = entbest_dimension = dbest_value = valuereturn best_entropy, best_dimension, best_valuedef split(x_data, y_label, dimension, value):"""x_data:输入特征y_label:输入标签类别dimension:选取输入特征的维度索引value：划分特征的数值return 左子树特征，右子树特征，左子树标签，右子树标签"""index_left = (x_data[:,dimension] <= value)index_right = (x_data[:,dimension] > value)return x_data[index_left], x_data[index_right], y_label[index_left], y_label[index_right]def create_tree(x_data, y_label):ent, dim, value = one_split(x_data, y_label)x_left, x_right, y_left, y_right = split(x_data, y_label, dim, value)node = Node(x_data, y_label, dim, value)if ent < 0.000000001:return nodenode.left = create_tree(x_left, y_left)node.right = create_tree(x_right, y_right)return nodeself.root = create_tree(x_train, y_train)return selfdef predict(self,x_predict):def travel(x_data, node):p = nodeif x_data[p.dimension] <= p.value and p.left:pred = travel(x_data, p.left)elif x_data[p.dimension] > p.value and p.right:pred = travel(x_data, p.right)else:counter = Counter(p.y_label)pred = counter.most_common(1)[0][0]return predy_predict = []for data in x_predict:y_pred = travel(data, self.root)y_predict.append(y_pred)return np.array(y_predict)def score(self,x_test,y_test):y_predict = self.predict(x_test)return np.sum(y_predict == y_test) / len(y_predict)def __repr__(self):return "DTree(criterion='entropy')"

测试一下我们的决策树

dt = DTree()
dt.fit(x_train, y_train)
dt.score(x_test,y_test)

sklearn的决策树

dt_clf = DecisionTreeClassifier()
dt_clf.fit(x_train, y_train)
dt_clf.score(x_test, y_test)

结果一模一样，完美！