机器学习中树模型算法总结之决策树（下）

写在前面

首先回顾一下上一篇的相关内容，主要是理论的介绍了决策树的模型及几种常见的特征选择准则，具体可参见机器学习中树模型算法总结之决策树（上）。今天主要接着学习，包括决策树的生成（依赖于第一篇的三种特征选择准则）以及生成之后避免过拟合的剪枝操作。

学习笔记相关资料：

《统计学习方法》——李航

《机器学习》西瓜书——周志华

《Machine Learning Tech》课程——台大林轩田

3.决策树的生成

3.1 基于信息增益准则的ID3算法

ID3算法的具体实现：

（1）从根结点开始，对当前结点计算所有特征的信息增益；

（2）选择信息增益最大的特征作为当前结点特征，然后根据该特征的不同取值构建子结点；

（3）接着对新生成的子结点递归执行以上步骤，直到所有特征的信息增益都很小或者没有特征可选(分类完毕)为止。

ID3相当于用极大似然法进行概率模型的选择。

这里再贴上对上述步骤的详细描述：

ID3算法虽然简单，但是其缺点也不少：

ID3算法采用信息增益来选择最优划分特征，但是这种方法倾向于取值较多的特征，往往容易导致结果误差；

没有考虑连续值，对于连续值的特征无法进行拟合

无法处理有缺失值的数据

没有考虑过拟合的问题

3.2 基于信息增益率的C4.5算法

C4.5算法与ID3算法类似，可以看成其改进版，只是将特征选择中的信息增益准则换为信息增益率。

具体算法步骤如下：

4.决策树的剪枝（pruning）

由以上决策树的算法可以看出，生成过程递归地进行直至不能继续为止，这样的结果往往导致训练集合准确率很高，但是在测试集上表现很差，即所谓的过拟合（overfitting）。机器学习中有许多降低过拟合问题的解决方法，在决策树中使用的是剪枝。剪枝的基本策略有“预剪枝”和“后剪枝”。

4.1 预剪枝（pre-pruning）

预剪枝是指在决策树的生成过程中，对每个结点在划分前进行估计，若当前结点的划分不能带来决策树性能的提升，则停止划分并将当前结点标记为叶结点。

使用预剪枝操作，一方面减低了过拟合的风险并且显著降低了算法的训练及预测时间开销，但是另一方面，由于预剪枝的“贪心”本质禁止某些分支的展开，可以导致其泛化性能不升反降，带来了欠拟合的风险。所以在实际应用中较少使用预剪枝。

4.2 后剪枝（post-pruning）

总体思路：由完全树T0开始，剪枝部分结点得到T1，再次剪枝部分结点得到T2...直到剩下树根的树Tk；在验证数据集上对这k个树分别评价，选择损失函数最小的树Ta。

设|T|为树T叶结点个数，t是树T的叶结点，该叶结点有Nt个样本点，其中k类的样本点有Ntk个，则决策树的损失函数可以定义为：

$C_{\alpha}(T)=\sum_{t=1}^{|T|} N_{t} H_{t}(T)+\alpha|T|$

其中H（T）为经验熵：

$H_{t}(T)=-\sum_{k} \frac{N_{t k}}{N_{t}} \log \frac{N_{t k}}{N_{t}}$

将损失函数第一项简化记为C（T）：

$C(T)=\sum_{t=1}^{|T|} N_{t} H_{t}(T)=-\sum_{t=1}^{|T|} \sum_{k=1}^{K} N_{k k} \log \frac{N_{t k}}{N_{t}}$

最终形式的损失函数：

$C_{\alpha}(T)=C(T)+\alpha|T|$

在上式中，C（T）表示模型对训练数据的预测误差，|T|为模型的复杂度，alpha为平衡两者的参数（大于等于0）。较大的alpha偏向选择较简单的树，较小的alpha偏向选择预测误差更小的树模型。

下面贴上剪枝算法的具体步骤：

关于后剪枝的其他几种算法：

1、REP-错误率降低剪枝

2、PEP-悲观剪枝

3、CCP-代价复杂度剪枝

4、MEP-最小错误剪枝

具体可参见知乎专栏决策树之决策树剪枝

5.CART算法

CART——Classification and Regression Tree，分类与回归树，是广泛应用的决策树学习方法。与前类似，CART算法也包括特征选择、树的生成和剪枝几个部分。

5.1 CART生成

CART树包括两种，回归树和分类树。对于回归树用平方误差最小化准则，对分类树用基尼指数最小化准则，进行特征选择。

5.1.1 回归树

因为是回归树，所以我们现在的训练集中y值为连续变量：

$D=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right),\left(x_{3}, y_{3}\right), \ldots\left(x_{n}, y_{n}\right)\right\}$

首先是回归树节点的划分，这里采用的是启发式的算法：选择第j个变量和它的取值s（注意主要离散化），作为切分变量和切分点。然后遍历切分变量j和切分点s，找到最优的（j，s）对使得下面式子最小：

$\min _{j, s}\left[\min _{c_{1}} \sum_{x_{i} \in R_{i}(j, s)}\left(y_{i}-c_{1}\right)^{2}+\min _{c_{2}} \sum_{x_{i} \in R_{i}(j, s)}\left(y_{i}-c_{1}\right)^{2}\right]$

然后用选定的最优（j，s）对，划分区域并确定相应地输出值：

$R_{1}(j, s)=\left\{x | x^{(j)} \leq s\right\}, R_{2}(j, s)=\left\{x | x^{(j)}>s\right\}$

$\hat{c}_{m}=\frac{1}{N_{m}} \sum_{x_{i} \in R_{m}(j, s)} y_{i}$

继续递归的对划分出来的两个区域调用上述步骤，将输入空间划分为M个区域，生成决策树。

CART回归树的整体生成算法如下所示

举个栗子

假设我们的输入训练集为：

$x_{i}$	1	2	3	4	5	6	7	8	9	10
$y_{i}$	5.56	5.70	5.91	6.40	6.80	7.05	8.90	8.70	9.00	9.05

首先将连续属性离散化，得到切分点s=1.5, 2.5, 3.5, 4.5, 5.5, 6.5, 7.5, 8.5, 9.5，然后遍历切分点，比如当切分点为1.5时，划分为两个区域R1 = {1}， R2={2,3,4,5,6,7,8,9},计算c1，c2，min

$c_{1}=\frac{1}{N_{m}} \sum_{x_{i} \in R_{m}(j, s)} y_{i}=\frac{1}{1} \sum_{x_{i} \in R_{1}(1,1,5)} 5.56=5.56$

$c_{2}=\frac{1}{N_{m}} \sum_{x_{i} \in R_{n}(j, s)} y_{i}=\frac{1}{9} \sum_{x_{i} \in R_{2}(1,5)}(5.70+5.91+\ldots+9.05)=7.50$

$min=\min _{j, s}\left[\min _{c_{1}} \sum_{x_{i} \in R_{i}(j, s)}\left(y_{i}-c_{1}\right)^{2}+\min _{\alpha_{2}} \sum_{x_{i} \in R_{i}(j, s)}\left(y_{i}-c_{1}\right)^{2}\right]=15.72$

对所有的切分点可以计算出：

$x_{i}$	1.5	2.5	3.5	4.5	5.5	6.5	7.5	8.5	9.5
min	15.72	12.07	8.36	5.78	3.91	1.93	8.01	11.73	15.74

可以发现当s=6.5时最小，此时R1={1,2,3,4,5,6}, R2={7,8,9,10}, c1=6.24,c2=8.9,

此时回归树为：

$T_{1}(x)=\left\{\begin{array}{l}{6.24, x<6.5} \\ {8.91, x \geq 6.5}\end{array}\right.$

然后用当前生成的回归树去拟合训练数据的残差，

$x_{i}$	1	2	3	4	5	6	7	8	9	10
$y_{i}$	-0.68	-0.54	-0.33	0.16	0.56	0.81	-0.01	-0.21	0.09	0.14

得到此时的训练误差：

$L\left(y, f_{1}(x)\right)=\sum_{i=1}^{10}\left(y_{i}-f_{1}\left(x_{i}\right)\right)^{2}=1.93$

接下去继续递归上述步骤求T2，唯一不同的是原来的y变为了残差

5.1.2 分类树

5.2 CART 剪枝

CART剪枝算法从“完全生长”的决策树的地段剪去一些子树，使决策树变小，从而能够对未知数据有更准确的预测。CART剪枝算法步骤：

（1）首先从生成算法产生的决策树T0底端不断剪枝，直到T0的根结点，形成一个子序列{T0，T1，…Tn} ；
（2）通过交叉验证在独立的验证数据集上对子树序列进行测试，从中选择最优子树。

具体步骤：

平方误差或者基尼指数最小的决策树被认为是最优的决策树。

同样为了加深CART的印象，贴一个例子(P71)

小结

至此决策树的基本学习就差不多啦，但是这些仅仅是理论的算法，至于代码实现还是要更进一步地去练习。

如果理论掌握的差不多的小伙伴可以转到周志华老师《机器学习》Chapter 4的课后习题，也是我最近在看的，一起交流哈~

新人学机器学习算法，有错误或者不完备的地方请指正~

以上~

2018.04.18