【机器学习－西瓜书】四、决策树：信息熵；信息增益；增益率；ID3；C4.5

推荐阅读：纯度；信息熵；信息增益

关键词：纯度；信息熵；信息增益；增益率；ID3；C4.5；基尼指数；预剪枝；后剪枝

4.1基本流程

关键词：决策树（decision tree）
决策树是一种分类方法，其优点：计算量小，可解释性强，比较适合处理有缺失属性值的样本以及类别不均衡的数据集。缺点：容易过拟合，数值必须是离散型。
一棵决策树包括：根结点，内部结点和叶结点。整个训练过程就是从根结点出发，经过若干个内部结点，最终达到若干个叶结点的过程。即：根结点—-内部结点—–叶结点。叶结点就是分类的类别，根结点中包含的是整个训练样本，而内部结点就是一个个划分属性（判别）。具体如图所示：

4.2 划分选择

关键词：纯度；信息熵；信息增益；增益率；ID3；C4.5；基尼指数。
对于决策树来说首要问题是寻找决定性属性（特征），即当前数据集上哪个属性（特征）在划分数据分类时起决定性作用。如何称之为起决定性作用呢? 也就是说通过该属性，可以把样本划分得更“纯”， “纯”是啥意思呢？“纯度”（purity）指的是在中间结点（分支结点）所包含的样本尽可能属于同一类别。我们在众多属性中优先找一个起决定性的属性来划分样本，划分得越纯越好。那么纯怎么度量呢？就要用到信息熵（information entropy），信息熵可以理解为信息的不确定性，信息熵越大，表明越不确定的东西。我们要“纯”，就是要信息很确定，即要信息熵小。信息熵衡量的是一个结点当中的纯度，而我们要的是当一个属性把样本划分到分支结点时，要让这个“纯度”更纯，如何衡量这个“纯度”的变化呢？这里就要用到信息增益（information gain），也就是说，信息增益是衡量一个属性把当前样本集进行划分之后，这个纯度的变化量，我们希望的时越纯越好，所以要信息增益越大越好。
有点绕，理一下，信息熵是针对单一结点而言，一个结点有它的信息熵，而信息增益是针对某一属性而言，指的是通过这个属性划分之后的那些结点的“纯度”相对于原结点的“纯度”的变化量，注意是变化量喔！看一下公式就好理解了：
信息熵： Ent(D)=−∑Kk=1pklog2pkEnt(D)=-\sum_{k=1}^{K}p_{k}log_{2}p_{k}，在结点中的样本集为D，样本集D总共有K个类别，表示第k个类别占样本集D中的比例。

信息增益： Gain(D,a)=Ent(D)−∑Vv=1|Dv||D|Ent(Dv)Gain(D,a)=Ent(D)-\sum_{v=1}^{V} \frac{\left | D^{v} \right |}{\left |D \right |}Ent(D^{v})，其中a是属性，a的属性有V个取值，∑后的第一项(|Dv||D|\frac{\left | D^{v} \right |}{\left |D \right |})是第v个属性的权重，所以这是计算样本集D，经过属性a的划分之后的那V个子结点的“纯度”的变化量

所以决策树的训练过程就是，基于当前结点的样本，要找一个起到决定性的属性来对当前样本进行划分，而怎么比较各个属性的决定性大小呢？
著名的ID3（Iterative Dichotomiser ，迭代二分类器）决策树学习算法中，就采用信息增益来衡量的。

而在著名C4.5算法则采用增益率来衡量。为什么采用增益率呢？我们回头看看信息增益的公式，发现属性的可能取值种类有V种，这个V的数量会严重影响决策树的性能。具体来说就是，信息增益准则对可取数值（例如V种取值）较多的属性（属性a）有所偏好，当属性a的取值可能有20种，而别的属性仅2，3种可能的时候，那么这棵树就偏好属性a，显然这是不合理的，因此，C4.5（Quinlan，1993）采用增益率来衡量各个属性之间的决定性作用大小

增益率公式就不写了，翻书吧，但是增益率准则对可取值数目较少的属性有偏好，这点与信息增益准则有所不同。
基尼指数（Gini index）：CART（classification and Regression Tree）决策树，采用基尼指数来选择划分属性。基尼指数Gini（D）反映了从数据集D中随机抽取两个样本，其类别标记不一致的概率，因此，Gini（D）越小，则数据集D的纯度越高。

4.3 剪枝处理（pruning）

关键词：预剪枝；后剪枝。
剪枝（pruning）是决策树算法对付“过拟合”的主要手段。基本策略分为“预剪枝”（prepruning），“后剪枝”（post-pruning）。预剪枝是指在决策树生成过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分，将当前结点标记为叶结点。后剪枝是先训练生成一棵树，然后自底向上对非叶结点进行考察，若将该结点对应的子树替换为叶结点能提升决策树泛化性能，则将该子树替换为叶结点。