一、决策树理论

1、一句话总结决策树

-- 决策树是一种自上而下,对样本数据进行树形分类的过程
-- 由结点和有向边组成

2、决策树结点

-- 决策树结点分为:内部结点、叶子节点
-- 每个内部结点表示一个特征或者属性
-- 叶节点表示类别

3、决策树分类过程描述

-- 从顶部根结点开始,所有样本聚在一起。
-- 经过根结点的划分,样本被分到不同的子结点中。
-- 再根据子结点的特征进一步划分
-- 直至所有样本都被 归到某一个类别(即叶结点)中。

4、决策树应用

-- 决策树为什么再市场营销和生物医药等领域尤其受欢迎
-- 主要因为树形结构与销售、诊断 等场景下的决策过程十分相似        
    
二、生成决策树的三个过程

【特征选择】
【树的构造】
【剪枝】

1、特征选择

-- ID3:根据每个特征在分类前后的最大信息增益来选择特征先后顺序
   -- 某特征信息增益 = 分类前信息熵 - 分类后各个结点条件信息熵之和

-- C4.5:根据每个特征在分类前后的最大信息增益比来选择特征的先后顺序
   -- 某特征信息增益比 = 某特征信息增益 / 数据集D关于特征A的取值熵
      -- 其中Di为特征A取第i个值的样本子集大小
   -- ID3和C4.5都是分类树,这是因为他们的损失函数不适用于回归

-- CART:根据特征的最小基尼指数来选择特征先后顺序
   -- CART是回归树:因为CART损失函数是均方差损失,而且回归树一般可以用来做分类
   -- 基尼指数中|Ck|表示样本集合D中属于第K类的样本子集个数,这个K是叶子节点的类别数,而不是特征的取值
   -- CART树是一棵二叉树,假设有一个内部结点A1,值为:1,2,3,则是,单就这个节点而言,每次样本划分的方法是:
      -- {A1 > 1.5 ,A1<1.5} , {A1>2.5 , A1<2.5} ,{A1>3.5 ,A1<3.5} ,切分值为排序后相邻取值的平均值
      -- 然后分别算基尼指数,选择基尼指数最小的切分方法
         这里的Di和其他两种树的Di不太一样,这里的Di不是特征A的具体取值,而是特征A的切分点:
        
-- 为什么强调CART决策树是二叉树,这和ID3,C4.5的区别具体在哪里    
   -- ID3和C4.5都是基于内部节点的每一个取值来计算信息增益或者信息增益比
   -- 所以计算出的是g(D,年龄)这样的结果(此处以年龄为例)
   -- 而CART是二叉树,所以每次都要二分,二分依据是内部节点的某一个切分点
   -- 还是以年龄为例
   -- 所以计算出的就是这样的结果:
   -- Gini(D|年龄=老)=0.4, Gini(D|年龄=年轻)=0.4
        
2、比较三个构造准则异同

1)、C4.5实际上是对ID3的优化
-- 举一个例子就可以:DNA
-- 每个人的DNA完全不同,但如果按照ID3的逻辑,每次按照DNA进行分类,虽然条件信息熵一定为0,但泛化能力特别差
   -- 因为下次碰不到类似的DNA了,这个模型就无法进行分类
-- C4.5使用信息增益比,引入取值熵的概念,所谓取值熵其实就是对选择取值较多的特征时,加入一个惩罚,增强模型泛化能力

2)、样本类型区别
-- ID3只能处理离散型变量
-- C4.5可以处理连续变量:通过 连续变量 - 找到类别分割线 -根据分割线将连续属性转换为布尔型(比如1,3,4,7,8,可以切分为5以下,5以上) - 布尔型数据即是离散性
-- CART本来就是二叉树,二叉树处理连续变量天然优势

3)、分类与回归
-- ID3和C4.5只能用于分类任务
-- CART既可以分类,又可以回归(使用损失函数为:最小平方误差,最终回归出的值就是叶子节点中所有样本标签的均值)

4)、缺失值问题
-- ID3比较敏感,另外两个不敏感

5)、特征在层级之间复用问题
-- ID3,C4.5每个特征在层级之间不会复用,CART会复用

6)、ID3、C4.5依赖剪枝来权衡树的准确性和泛化能力
-- CART会直接利用全部数据发现所有可能树的结构进行对比(还是二叉树的特性)"

3、树的剪枝

决策树的剪枝通常有两种办法:

1)、预剪枝:在树中结点进行扩展之前,先计算当前的划分是否能带 来模型泛化能力的提升,如果不能,则不再继续生长子树
-- 此时可能存在不同类 别的样本同时存于结点中,按照多数投票的原则判断该结点所属类别
-- 常用预剪枝方法:
   -- 树的深度、当前节点样本数量阈值、每次分裂对测试集准确度阈值
-- 风险:依赖经验、容易欠拟合、当前准确率低不一定之后准确率低

2)、后剪枝:是让算法生成一棵完全生长的决策树,然后从最底层向上 计算是否剪枝。剪枝过程将子树删除,用一个叶子结点替代,该结点的类别同样 按照多数投票的原则进行判断
-- 同样地,后剪枝也可以通过在测试集上的准确率 进行判断,如果剪枝过后准确率有所提升,则进行剪枝
-- 缺点:开销大
-- 常见后剪枝方法:错误率降低剪枝(Reduced Error Pruning,REP)、悲 观剪枝(Pessimistic Error Pruning,PEP)、代价复杂度剪枝(Cost Complexity Pruning,CCP)、最小误差剪枝(Minimum Error Pruning,MEP)、CVP(Critical Value Pruning)、OPP(Optimal Pruning)等方法
        
3)、CCP:代价复杂剪枝    "核心思想还是循环每一个内部节点(子树序列)
-- 剪枝之后那个子树用一个叶子节点替代
-- 计算剪枝之后叶子节点t的训练数据集合误差R(t)和剪枝之前那个子树Tt的误差R(Tt)
-- 考虑树的复杂性:即是子树Tt的叶子节点个数
-- 计算误差增加率α:

-- 然后每步选择最小的α进行剪枝(α小即是,减掉同样误差情况下复杂度大的)

4、剪枝算法在决策树中的地位

剪枝比树的生成过程更为关键

对于不同划分标准生成的过拟合决策树,在经过剪枝之 后都能保留最重要的属性划分,因此最终的性能差距并不大。
-- 理解剪枝方法的理论,在实际应用中根据不同的数据类型、规模,决定使用何种决策树以及对应的 剪枝策略,灵活变通,找到最优选择,是本节想要传达给读者的思想。

三、简单既有效

奥卡姆剃刀定律(Occam’s Razor,Ockham’s Razor)    这个原理最简单的描述是“如 无必要,勿增实体”,即“简单有效原理”。    ID3,Dropout算法都参照了这个理论来降低模型复杂度

从奥卡姆剃刀定律再看决策树相关推荐

  1. 墨菲定律、二八法则、马太效应、手表定理、“不值得”定律、彼得原理、零和游戏、华盛顿合作规律、酒与污水定律、水桶定律、蘑菇管理原理、钱的问题、奥卡姆剃刀等13条是左右人生的金科玉律。

    一.墨菲定律 1949年,一位名叫墨菲的空军上尉工程师,认为他的某位同事是个倒霉蛋,不经意间开了句玩笑:"如果一件事情有可能被弄糟,让他去做就一定会弄糟." 这句话迅速流传,并 ...

  2. 墨菲定律、二八法则、马太效应、手表定理、“不值得”定律、彼得原理、零和游戏、华盛顿合作规律、酒与污水定律、水桶定律、蘑菇管理原理、钱的问题、奥卡姆剃刀等13条是左右人生的金科玉律

    转载地址:http://blog.csdn.net/byxdaz/article/details/3981125 墨菲定律.二八法则.马太效应.手表定理."不值得"定律.彼得原理. ...

  3. (转载)墨菲定律、二八法则、马太效应、手表定理、“不值得”定律、彼得原理、零和游戏、华盛顿合作规律、酒与污水定律、水桶定律、蘑菇管理原理、钱的问题、奥卡姆剃刀等13条是左右人生的金科玉律

    墨菲定律.二八法则.马太效应.手表定理."不值得"定律.彼得原理.零和游戏.华盛顿合作规律.酒与污水定律.水桶定律.蘑菇管理原理.钱的问题.奥卡姆剃刀等13条是左右人生的金科玉律  ...

  4. 墨菲定律、二八法则、马太效应、手表定理、“不值得”定律、彼得原理、零和游戏、华盛顿合作规律、酒与污水定律、水桶定律、蘑菇管理原理、钱的问题、奥卡姆剃刀等13条是左右人生的金科玉律...

    墨菲定律.二八法则.马太效应.手表定理."不值得"定律.彼得原理.零和游戏.华盛顿合作规律.酒与污水定律.水桶定律.蘑菇管理原理.钱的问题.奥卡姆剃刀等13条是左右人生的金科玉律 ...

  5. 墨菲定律、二八法则、马修、手表定理、“不肖”法、彼得原理、零和游戏、华盛顿合作规律、酒与污水定律、水桶定律、蘑菇管理原则、钱的问题、奥卡姆剃刀等。13文章是关于生活的金科玉律...

    墨菲定律.二八法则.马太效应.手表定理."不值得"定律.彼得原理.零和游戏.华盛顿合作规律.酒与污水定律.水桶定律.蘑菇管理原理.钱的问题.奥卡姆剃刀等13条是左右人生的金科玉律 ...

  6. 100种思维模型之奥卡姆剃刀思维模型-87

            Everything should be made as simple as possible, but not simpler (凡事都应当尽可能地简单,而不是较为简单)--爱因斯坦 ...

  7. 史上最全交互设计原则(三)之奥卡姆剃刀原理

    1.定义 奥卡姆剃刀定律又称"奥康的剃刀",它是由英格兰的逻辑学家奥卡姆的威廉在14世纪提出.这个原理称为"如无必要,勿增实体",即"简单有效原理&q ...

  8. 极简主义的思想内核-奥卡姆剃刀原则

    在去年的跨年演讲里,罗胖曾讲过一个"奥卡姆剃刀"原则,当时只觉得新奇,倒没有去仔细研究,直到昨天在一篇文章里又看到这个名词,说的神乎其神,比如下面这段描述: "这把剃刀出 ...

  9. 奥卡姆剃刀、PDCA、OKR,这些都是啥啊?别再让人忽悠了!

    契机 周六加班的时候,部门小组长给我发了这样一张图片,是部门中架构师总结出来的作为研发理应学习的技能知识,并敲打我及时进行学习,免得被市场淘汰. 至于其中具体专业技能,不能一朝一夕获得成果.但其中有相 ...

  10. 罗素的理发师和奥卡姆剃刀

    点击上方"数据与智能","星标或置顶公众号" 第一时间获取好内容 正文 科学界有两位"剃头师傅"声名远播: 一位是著名的罗素爵士虚构出来的理 ...

最新文章

  1. jsp mysql在线考试系统源码_课内资源 - 基于JSP和MYSQL数据库实现的在线考试系统...
  2. jQuery的后代遍历
  3. 好文推荐 | 缓存与数据库一致性问题深度剖析 (修订)
  4. JavaWeb基础学习笔记
  5. 数据库:Redis相关知识梳理
  6. Excel实用函数大全(名称、功能、说明、用法、举例)
  7. 如何在Maven中运行Ant目标?
  8. css标准流/非标准流 盒子模型
  9. Django表中的字段
  10. codeforce 985C Liebig's Barrels
  11. Stata资源:一些不错的Stata-Blogs
  12. 分享一个响应式电商网站前端模板
  13. Ubuntu10.04使用HP LaserJetPro P1606dn
  14. 上网行为管理软件-怎么查看电脑近期使用记录...
  15. Java之图片添加文字
  16. 《西游记》的读后感4000字
  17. 关键字生成参考文案查找相似款,特卖淘宝达人有福了,自媒体时代的懒人助手
  18. 如何彻底卸载2345全家桶?
  19. react(子传父、父传子)
  20. php开发框架_适用于开发人员的10个PHP框架-最佳

热门文章

  1. 俄罗斯方块游戏(Python实现)
  2. 地下城与勇士(DNF)异次元裂缝副本(哥布林王国、蠕动之城、兰蒂卢斯的鹰犬、黑色大地、虚无之境 、巴卡尔之城)(童年的回忆)
  3. 【毕业设计】基于大数据的电影数据爬取分析可视化系统
  4. 平平淡淡的真,安安静静的情
  5. HDU 6441 Find Integer 费马大定理
  6. android pdf修改字体大小,如何编辑pdf文字(安卓上最好的pdf笔记app)
  7. win8服务器备份在哪个文件夹,iPhone备份文件在哪里?Win8系统路径介绍
  8. 工作,究竟意味着什么
  9. 剖析《口袋妖怪复刻版》技术架构
  10. 基于Java+SpringBoot+Thymeleaf+Mysql在线外卖点餐系统设计与实现