参考资料

决策树

决策树是一种运用概率与图论中的树对决策中的不同方案进行比较,从而获得最优方案的风险型决策方法。

决策树学习三步骤:

特征选择

决策树的生成

决策树的剪枝

常用的决策树算法有ID3,C4.5和CART。用信息论中的熵来度量决策树的决策选择过程,这几个算法选择属性划分的方法各不相同。

决策树算法

划分选择

连续值处理

缺失值处理

剪枝

ID3

信息增益

不支持

不支持

不支持

C4.5

信息增益率/增益比

支持

支持

支持

CART-分类

基尼值

支持

支持

支持

CART-回归

最小二乘

支持

支持

支持

划分选择

在了解划分选择前,需要先了解一个概念,信息熵。

信息熵

设\(X\)是一个取有限个值的离散随机变量,其概率分布为:

\[P(X=x_i)=p(x_i)\\i=1,2,...n

\]

信息熵是在结果出来之前对可能产生的信息量的期望:

\[Ent(D)=H(X)=-\sum_{i=1}^{n} p(x_i)log_2(p(x_i))\\以2为底,是因为信息熵的单位为比特bit

\]

熵越大,说明系统越混乱,得出结论的信息的信息量就越大。

例子:

太阳从东边升起,发生概率为1,信息熵为0bit,

如果有人跟你说“太阳从东边升起”,那么他给你的信息量就为0bit.

\[-1\cdot log_21=0

\]

一个未出生的小孩,性别{男,女},对应的概率{\(\frac{1}{2}​\),\(\frac{1}{2}​\)},其信息熵为1bit,

如果医生告诉你孩子的性别,那边这条信息的信息量就为1bit.

\[-(\frac{1}{2}\cdot log_2\frac{1}{2} + \frac{1}{2}\cdot log_2\frac{1}{2}) = -(\frac{1}{2}\cdot-1 + \frac{1}{2}\cdot-1) = 1

\]

信息增益

逻辑理解:

​信息增益 = entroy(前) - entroy(后)

公式理解:

​熟悉了一个变量X的熵,很容易推广到多个变量的联合熵,这里给出两个变量\(X\)和\(Y\)的联合熵表达式:

\[H(X,Y) = -\sum_{i=1}^{n}p(x_i,y_i)\log_2p(x_i,y_i)

\]

​有了联合熵,又可以得到条件熵的表达式\(H(X|Y)\),条件熵类似于条件概率,它度量了我们的\(X\)在知道\(Y\)以后剩下的不确定性。表达式如下:

\[H(X|Y) = -\sum_{i=1}^{n}p(x_i,y_i)\log_2p(x_i|y_i) = \sum_{j=1}^{n}p(y_j)H(X|Y=y_j)

\]

​\(H(X)​\)度量了\(X​\)的不确定性

​条件熵\(H(X|Y)\)度量了我们在知道\(Y\)以后\(X\)剩下的不确定性

​问题来了:那么\(H(X)-H(X|Y)​\)呢?

​答案就是互信息【互信息=熵-条件熵】:它度量了\(X\)在知道\(Y\)以后不确定性减少程度!同时我们也可以把它记为\(I(X,Y)​\),称为信息增益。

信息增益率

逻辑理解:

​信息增益比 = 惩罚参数 * 信息增益

公式理解:

​它是信息增益和特征熵的比值

\[I_R(D,A) = \frac{I(A,D)}{H_A(D)}

\]

​其中\(D​\)为样本特征输出的集合,\(A​\)为样本特征,对于特征熵\(H_A(D)​\), 表达式如下:

\[H_A(D) = -\sum\limits_{i=1}^{n}\frac{|D_i|}{|D|}log_2\frac{|D_i|}{|D|}

\]

​其中\(n\)为特征\(A\)的类别数, \(D_i\)为特征\(A\)的第\(i\)个取值对应的样本个数。\(D\)为样本个数。特征数越多的特征对应的特征熵越大,它作为分母,可以校正信息增益容易偏向于取值较多的特征的问题。

基尼值

​在ID3算法中我们使用了信息增益来选择特征,信息增益大的优先选择。在C4.5算法中,采用了信息增益比来选择特征,以减少信息增益容易选择特征值多的特征的问题。但是无论是ID3还是C4.5,都是基于信息论的熵模型的,这里面会涉及大量的对数运算。能不能简化模型同时也不至于完全丢失熵模型的优点呢?有!CART分类树算法使用基尼系数来代替信息增益比,基尼系数代表了模型的不纯度,基尼系数越小,则不纯度越低,特征越好。

逻辑理解:

​基尼指数(基尼不纯度)= 样本被选中的概率 * 样本被分错的概率

公式理解:

​具体的,在分类问题中,假设有\(K\)个类别,第\(k\)个类别的概率为\(p_k\), 则基尼系数的表达式为:

\[Gini(p) = \sum\limits_{k=1}^{K}p_k(1-p_k) = 1- \sum\limits_{k=1}^{K}p_k^2\\

二分类的情况:Gini(p) = 2p(1-p)

\]

​对于个给定的样本\(D\),假设有\(K\)个类别, 第\(k\)个类别的数量为\(C_k\),则样本\(D\)的基尼系数表达式为:

\[Gini(D) = 1-\sum\limits_{k=1}^{K}(\frac{|C_k|}{|D|})^2

\]

​特别的,对于样本\(D\),如果根据特征\(A\)的某个值\(a\),把\(D\)分成\(D_1\)和\(D_2\)两部分,则在特征\(A\)的条件下,\(D\)的基尼系数表达式为:

\[Gini(D,A) = \frac{|D_1|}{|D|}Gini(D_1) + \frac{|D_2|}{|D|}Gini(D_2)

\]

CART分类树算法每次仅仅对某个特征的值进行二分,而不是多分,这样CART分类树算法建立起来的是二叉树,而不是多叉树。这样一可以进一步简化基尼系数的计算\(Gini(p) = 2p(1-p)\),二可以建立一个更加优雅的二叉树模型。目标是选择出一个\(A_g\),使得\(Gini(D,A_g)\)最小。

ID3

算法

ID3算法就是用信息增益大小来判断当前节点应该用什么特征来构建决策树,用计算出的信息增益最大的特征来建立决策树的当前节点。

输入的是\(m\)个样本,样本输出集合为\(D\),每个样本有\(n\)个离散特征,特征集合即为\(A\),输出为决策树\(T\).

算法的过程为:

初始化信息增益的阈值\(ϵ​\)

判断样本是否为同一类输出\(D_i\),如果是则返回单节点树\(T\)。标记类别为\(D_i\)

判断特征是否为空,如果是则返回单节点树\(T\),标记类别为样本中输出类别D实例数最多的类别。

计算\(A\)中的各个特征(一共\(n\)个)对输出\(D\)的信息增益,选择信息增益最大的特征\(A_g\)

如果\(A_g​\)的信息增益小于阈值\(ϵ​\),则返回单节点树\(T​\),标记类别为样本中输出类别\(D​\)实例数最多的类别。

否则,按特征\(A_g​\)的不同取值\(A_(gi)​\)将对应的样本输出D分成不同的类别\(D_i​\),每个类别产生一个子节点。对应特征值为\(A_(gi)​\).返回增加了节点的数\(T​\)。

对于所有的子节点,令\(D=D_i\),\(A=A−{A_g}\)递归调用2-6步,得到子树\(T_i\)并返回。

ID3的不足

ID3没有考虑连续特征,比如长度,密度都是连续值,无法在ID3运用。这大大限制了ID3的用途。

ID3偏好选择取值多的特征做分支,ID3采用信息增益大的特征优先建立决策树的节点。很快就被人发现,在相同条件下,取值比较多的特征比取值少的特征信息增益大。比如一个变量有2个值,各为1/2,另一个变量为3个值,各为1/3,其实他们都是完全不确定的变量,但是取3个值的比取2个值的信息增益大。

直白解释:取值比较多的特征,就可以分叉出更多的分支,分支更多,每个分支的纯度必然更高!

ID3算法对于缺失值的情况没有做考虑

没有考虑过拟合的问题,即没有剪枝处理

C4.5

算法

C4.5与ID3算法为同一作者,C4.5是ID3的改进,其思路基本一致,主要是改进是ID3的四点不足之处。

对与 ID3没有考虑连续特征

​C4.5的思路是将连续的特征离散化。比如\(m\)个样本的连续特征\(A\)有\(m\)个,从小到大排列为\(a_1,a_2,...,a_m\),则C4.5取相邻两样本值的中位数,一共取得\(m-1\)个划分点,其中第\(i\)个划分点\(T_i\)表示为:\(T_i = \frac{a_i+a_{i+1}}{2}\)。对于这\(m-1\)个点,分别计算以该点作为二元分类点时的信息增益。选择信息增益最大的点作为该连续特征的二元离散分类点。比如取到的增益最大的点\(a_t\),则小于\(a_t\)的值为类别1,大于\(a_t​\)的值为类别2,这样我们就做到了连续特征的离散化。要注意的是,与离散属性不同的是,如果当前节点为连续属性,则该属性后面还可以参与子节点的产生选择过程。

对与 ID3偏好选择取值多的特征做分支

​改用信息增益率作为分支指标,因为特征数越多的特征对应的特征熵越大,它作为分母,可以校正信息增益容易偏向于取值较多的特征的问题。

对与ID3算法对于缺失值的情况没有做考虑

​主要需要解决的是两个问题,一是在样本某些特征缺失的情况下选择划分的属性,二是选定了划分属性,对于在该属性上缺失特征的样本的处理。

​对于第一个子问题,对于某一个有缺失特征值的特征A。C4.5的思路是将数据分成两部分,对每个样本设置一个权重(初始可以都为1),然后划分数据,一部分是有特征值A的数据D1,另一部分是没有特征A的数据D2. 然后对于没有缺失特征A的数据集D1来和对应的A特征的各个特征值一起计算加权重后的信息增益比,最后乘上一个系数,这个系数是无特征A缺失的样本加权后所占加权总样本的比例。

​对于第二个子问题,可以将缺失特征的样本同时划分入所有的子节点,不过将该样本的权重按各个子节点样本的数量比例来分配。比如缺失特征A的样本a之前权重为1,特征A有3个特征值A1,A2,A3。 3个特征值对应的无缺失A特征的样本个数为2,3,4.则a同时划分入A1,A2,A3。对应权重调节为2/9,3/9, 4/9。

对与没有考虑过拟合的问题

​C4.5引入了正则化系数进行初步的剪枝。

C4.5的不足

由于决策树算法非常容易过拟合,因此对于生成的决策树必须要进行剪枝。剪枝的算法有非常多,C4.5的剪枝方法有优化的空间。思路主要是两种,一种是预剪枝,即在生成决策树的时候就决定是否剪枝。另一个是后剪枝,即先生成决策树,再通过交叉验证来剪枝。

C4.5生成的是多叉树,即一个父节点可以有多个节点,效率低(二叉数效率才高)。

C4.5只能用于分类。

C4.5由于使用了熵模型,里面有大量的耗时的对数运算,如果是连续值还有大量的排序运算。

CART

分类与回归树(Classification And Regression Tree, 简称CART)模型在Tree家族中是应用最广泛的学习方法之一。它既可以用于分类也可以用于回归。

二叉树结构

分类树:基尼值

回归数:平方误差最小二乘

CART最大的特点就是只做二分,大大的减少了计算量,而且效果相当好,在实现了分类功能上,很轻松的转换到回归功能。

分类树只做二分的思路

相比ID3 和 C4.5的多叉树,CART只对特征做二分,需要对应的思路:

对离散值的二分处理

采用的思路是不停的二分离散特征。

举个例子,CART分类树会考虑把特征\(A\)分成\({A_1}和(A_2,A_3)\), \({A_2}和(A_1,A_3)\), \({A_3}和(A_1,A_2)\) 三种情况,找到基尼系数最小的组合,比如\({A2}和(A_1,A3)\)然后建立二叉树节点,一个节点是\(A2\)对应的样本,另一个节点是\((A1,A3)\)对应的节点。从描述可以看出,如果离散特征\(A\)有\(n\)个取值,则可能的组合有\(n(n-1)/2\)种。同时,由于这次没有把特征A的取值完全分开,后面我们还有机会在子节点继续选择到特征\(A\)来划分\(A1\)和\(A3\).

对连续特征的二分处理

思路同C4.5相近,划分\(m-1​\)个点,之后采用不停的二分离散特征的做法,找到基尼值最小的点进行切分。

回归树

CART回归树和CART分类树的建立方式是一样的,只不过改动了下面两点

连续值的处理方法不同

对于连续值的处理,我们知道CART分类树采用的是用基尼系数的大小来度量特征的各个划分点的优劣情况。这比较适合分类模型,但是对于回归模型,我们使用了常见的均方差的度量方式,CART回归树的度量目标是,对于任意划分特征\(A\),对应的任意划分点\(s\)两边划分成的数据集\(D_1\)和\(D_2\),求出使\(D_1\)和\(D_2\)各自集合的均方差最小,同时\(D_1\)和\(D_2​\)的均方差之和最小所对应的特征和特征值划分点。表达式为:

\[ \underbrace{min}_{A,s}\Bigg[\underbrace{min}_{c_1}\sum\limits_{x_i \in D_1(A,s)}(y_i - c_1)^2 + \underbrace{min}_{c_2}\sum\limits_{x_i \in D_2(A,s)}(y_i - c_2)^2\Bigg]

\]

决策树建立后做预测的方式不同。

对于决策树建立后做预测的方式,上面讲到了CART分类树采用叶子节点里概率最大的类别作为当前节点的预测类别。而回归树输出不是类别,它采用的是用最终叶子的均值或者中位数来预测输出结果。

CART的不足

无论是ID3, C4.5还是CART,在做特征选择的时候都是选择最优的一个特征来做分类决策,但是大多数,分类决策不应该是由某一个特征决定的,而是应该由一组特征决定的。这样决策得到的决策树更加准确。这个决策树叫做多变量决策树(multi-variate decision tree)。在选择最优特征的时候,多变量决策树不是选择某一个最优特征,而是选择最优的一个特征线性组合来做决策。这个算法的代表是OC1,这里不多介绍。

如果样本发生一点点的改动,就会导致树结构的剧烈改变。这个可以通过集成学习里面的随机森林之类的方法解决。

剪枝

因为决策树算法在学习的过程中为了尽可能的正确的分类训练样本,不停地对结点进行划分,因此这会导致整棵树的分支过多,也就导致了过拟合。决策树的剪枝策略最基本的有两种:预剪枝和后剪枝:

预剪枝(pre-pruning):预剪枝就是在构造决策树的过程中,先对每个结点在划分前进行估计,若果当前结点的划分不能带来决策树模型泛华性能的提升,则不对当前结点进行划分并且将当前结点标记为叶结点。

后剪枝(post-pruning):后剪枝就是先把整颗决策树构造完毕,然后自底向上的对非叶结点进行考察,若将该结点对应的子树换为叶结点能够带来泛华性能的提升,则把该子树替换为叶结点。

mysql可以做决策树吗_决策树 - stream886 - 博客园相关推荐

  1. mysql 进阶_mysql进阶 - 随笔分类 - 云潇洒 - 博客园

    随笔分类 - mysql进阶 1 摘要:防御SQL注入的方法总结 这篇文章主要讲解了防御SQL注入的方法,介绍了什么是注入,注入的原因是什么,以及如何防御,需要的朋友可以参考下. SQL注入是一类危害 ...

  2. 详细分析MySQL的日志(一)本文原创地址:博客园骏马金龙https://www.cnblogs.com/f-ck-need-u/p/9001061.html

    本文原创地址:博客园骏马金龙https://www.cnblogs.com/f-ck-need-u/p/9001061.html 官方手册:https://dev.mysql.com/doc/refm ...

  3. java单纯形法_单纯形法 - fjzzq2002 - 博客园

    看了集训队答辩,感觉要学习的有杜教筛高级版.线性规划.FFT.仙人掌.高级版线段树 不出意外的话一个月内博客内都不会有别的东西了QAQ 首先是喜闻乐见的单纯形法解线性规划. 今年(2016年)和线性规 ...

  4. mysql迭代器_迭代器 - 御姐玫瑰 - 博客园

    一.协程 1.协程是Python语言独有的一种多任务方式. 2.使用gevent模块实现协程. 3.协程的实现过程(步骤) 迭代器 生成器 yield greenlet gevent 二.迭代器 1. ...

  5. python编写存储过程_存储过程 - msjaxuexi - 博客园

    什么是存储过程 存储过程是一组任意的sql语句集合,存储在mysql中,调用存储过程时将会执行其包含的所有sql语句;与python中函数类似; 为什么使用存储过程 回顾触发器与视图都是为了简化应用程 ...

  6. java 独木桥_独木桥 - pandaB - 博客园

    题目背景 战争已经进入到紧要时间.你是运输小队长,正在率领运输部队向前线运送物资.运输任务像做题一样的无聊.你希望找些刺激,于是命令你的士兵们到前方的一座独木桥上欣赏风景,而你留在桥下欣赏士兵们.士兵 ...

  7. 线性八叉树_八叉树 - chunlinge - 博客园

    (一)基本原理 用八叉树来表示三维形体,并研究在这种表示下的各种操作及应用是在进入80年代后才比较全面地开展起来的.这种方法,既可以看成是四叉树方法在三维空间的推广,也可以认为是用三维体素阵列表示形体 ...

  8. java bean 单例模式_单例模式 - Beans_bag - 博客园

    1.单例模式的简介 定义 保证每个类仅有一个实例,并给外部提供一个访问它的全局访问点. 思路 如果一个类能够被创建多个实例,那么,这个类的构造方法肯定是公开的,外部通过此类的构造方法可以创建多个类的实 ...

  9. java传感器_传感器 - javawebsoa - 博客园

    传感器(英文名称:transducer/sensor)是一种检测装置,能感受到被测量的信息,并能将检测感受到的信息,按一定规律变换成为电信号或其他所需形式的信息输出,以满足信息的传输.处理.存储.显示 ...

最新文章

  1. select chosen-jquery.js下拉列表的层被覆盖
  2. Spark Troubleshooting - Task not serializable问题分析
  3. cad文本改宋体字型lisp_CAD绘图员必须掌握的15个高能技巧,别人3天工作量你半天搞定!...
  4. pixhawk/px4如何获取及使用传感器数据
  5. 转发一份GoldenGate 配置文档,里面有参数说明,值得看
  6. 综合应用WPF/WCF/WF/LINQ之八:后台开发人员的Solution
  7. c#中在工作线程创建窗体并操作
  8. GPU Gems2 - 2 使用基于GPU几何体裁剪图的地形渲染(Terrain Rendering Using GPU-Based Geometry Clipmaps)
  9. 互联网日报 | 3月6日 星期六 | 知乎在美递交IPO申请;钉钉“开工节”发放8千万红包;特斯拉中国大陆超充桩数量创新高...
  10. Java —— 正则表达式
  11. linux测试硬盘读写速度
  12. 适合 C++ 新手学习的开源项目——在 GitHub 学编程
  13. 20亿人欢庆开斋节,出口企业该如何把握Q2爆单潮
  14. java 加密与解密算法,简单地加密和解密算法(java实现)
  15. Linux Socket接口使用方法
  16. 什么人不可以喝普洱熟茶?
  17. EVE-NG Lab通过Cloud连接外网
  18. 再见 Xshell,这个开源的终端工具更酷炫。
  19. 自抗扰控制入门之ESO篇(纯小白入门向和ESO数学表达式的推导)
  20. 英飞凌TLE9854QX使用hall元器件对电机运行进行采样计数

热门文章

  1. 网络信息安全对抗(北京邮电大学版)考点总结
  2. 学生个人网页模板 学生个人网页设计作品 简单个人主页成品 个人网页制作 HTML学生个人网站作业设计代做
  3. Linux halt --停止系统运行,但不关闭电源
  4. mybatis二级缓存
  5. 测试成本--半导体测试最大的障碍
  6. 2022最新企业发卡网源码+直接搭建可用
  7. 适合游戏办公的计算机组装,2800元i3-7100配GTX1050办公游戏两不误电脑配置推荐
  8. 暗黑下品中文图文全集,mo下载。没听说过的就别进了,不是爱好者打不开
  9. 浅谈智慧城市管廊综合管理平台的建设
  10. 关于Github登录 token 失效(重新设置)