浅读西瓜书（第四章）

4.1基本流程

决策树，顾名思义，肯定与做决策有关。实际上决策树既可以做决策也可以做回归。在我们生活中其实也经常用到决策树的模型。比如猜数字的游戏。给出一个数字，猜想者猜测一个数字，裁判则回答猜大了，猜小了或者猜中。猜中则停止，没猜中则继续。把游戏内容拓展一下，可以是猜一个物品，或者事情等等。当拓展到事物的时候，判断的标准也随之拓展。从单一的数字大小拓展到特征选择。比如西瓜书中对好瓜和坏瓜的判断，可以有色泽，根蒂，条纹等特征来判断。

小节一下，决策树就是根据一定量的特征对数据进行判断其为正例，还是反例。判断的结果就是分类结果，判断过程中产生的模型，则可以用来做回归预测。

4.2划分选择

划分数据集的大原则是：将无序的数据变得更加有序。

我们可以使用多种方法划分数据集，但是每种方法都有各自的优缺点。组织杂乱无章数据的一种方法就是使用信息论度量信息，信息论是量化处理信息的分支科学。我们可以在划分数据之前或之后使用信息论量化度量信息的内容。在划分数据集之前之后信息发生的变化称为信息增益，知道如何计算信息增益，我们就可以计算每个特征值划分数据集获得的信息增益，获得信息增益最高的特征就是最好的选择。

4.2.1信息增益

那么，什么是信息增益呢？简单的说，就是分类后的专一性，希望分类后的结果是同类在一起。分类后同类占比越高，信息增益就越大，也就说明分类越成功。

4.2.2增益率

在我们做特征选择时，有时特征可能会很多。当特征很多时，划分必然更加精确，但这只是针对测试时的数据。特征选择太多的模型泛化能力未必好。

试想一下，如果一个决策树的分支结点足够多，那么到最后的叶子结点的时候，每个叶子结点上分的数据可能只有一个。（也就是同学们开玩笑说的：面向结果编程（doge））显然，这样的决策树不能用于新样本的有效预测。

而我们的增益率就是用来选出信息增益好的属性。

4.2.3基尼指数

（未完待续）

4.3剪枝处理

剪枝(pruning)是决策树学习算法对付“过拟合”的主要手段.在决策树学习中，为了尽可能正确分类训练样本，结点划分过程将不断重复，有时会造成决策树分支过多，这时就可能因训练样本学得“太好”了，以致于把训练集自身的一些特点当作所有数据都具有的一般性质而导致过拟合.因此，可通过主动去掉一些分支来降低过拟合的风险。

4.3.1预剪枝

在决策树生成的过程中，每个决策节点原本是按照信息增益、信息增益率或者基尼指数等纯度指标，按照值越大，优先级越高来排布节点。

4.3.2后剪枝

已经通过训练集生成一颗决策树，然后自底向上地对决策节点(非叶子结点)用测试集进行考察，若将该节点对应的子树替换为叶子节点能提升验证集的精确度（这个的算法与预剪枝类似），则将该子树替换成叶子节点，该决策树泛化能力提升。

4.3.3对比

后剪枝决策树通常比预剪枝决策树保留了更多的分支。一般情形下，后剪枝决策树的欠拟合风险很小，泛化性能往往优于预剪枝决策树。但后剪枝过程是在生成完全决策树之后进行的，并且要自底向上地对树中的所有非叶结点进行逐一考察，因此其训练时间开销比未剪枝决策树预剪枝决策树都要大得多。

4.4连续与缺失值

（未完待续）

4…4.1连续值处理

（未完待续）

4.4.2缺失值处理

（未完待续）

4.5多变量决策树

（未完待续）