决策树学习与总结 (ID3, C4.5, C5.0, CART)

  • 1. 什么是决策树
  • 2. 决策树介绍
  • 3. ID3 算法
    • 信息熵
    • 信息增益
    • 缺点
  • 4. C4.5算法
  • 5. C5.0算法
  • 6. CART算法
    • 基尼指数 Gini指标
  • 7. 连续属性离散化
  • 8. 过拟合的解决方案
  • 9. 例子1 - 脊椎动物分类
  • 10. 例子2
    • 1. 准备数据及读取
    • 2. 决策树的特征向量化
    • 3. 决策树训练
    • 4. 决策树可视化
    • 5 预测结果
    • 6. Module persistence
      • 1) 用Python有的pickle对我们训练好的模型保存
      • 2) 用joblib’s保持如果你的模型里有大量的 numpy arrays的话
    • 7. 自己算验证熵的结果
    • 8. 如果你用基尼指数, 也就是CART算法
    • 9. 自己算验证基尼指数的结果
    • 10. 把数据集全部改成数字不用DictVectorizer做向量化
  • 11. 例子 -基于Iris数据集的训练
  • 12. 特征的重要性计算
  • 可能遇到问题

1. 什么是决策树

决策树是什么,我们来“决策树”这个词进行分词,那么就会是决策/树。大家不妨思考一下,重点是决策还是树呢?其实啊,决策树的关键点在上。

我们平时写代码的那一串一串的If Else其实就是决策树的思想了。看下面的图是不是觉得很熟悉呢?

2. 决策树介绍

决策树之所以叫决策树,就是因为它的结构是树形状的,如果你之前没了解过树这种数据结构,那么你至少要知道以下几个名词是什么意思。

  • 根节点:最顶部的那个节点
  • 叶子节点:每条路径最末尾的那个节点,也就是最外层的节点
  • 非叶子节点:一些条件的节点,下面会有更多分支,也叫做分支节点
  • 分支:也就是分叉

3. ID3 算法

  • ID3算法是在每个结点处选取能获得最高信息增益的分支属性进行分裂
  • 在每个决策结点处划分分支、选取分支属性的目的是将整个决策树的样本
    纯度提升
  • 衡量样本集合纯度的指标则是

信息熵

不理解信息熵的可以看这篇博客[机器学习-概念篇]彻底搞懂信息量,熵、相对熵、交叉熵

举例来说,如果有一个大小为10的布尔值样本集S

[机器学习-Sklearn]决策树学习与总结 (ID3, C4.5, C5.0, CART)相关推荐

  1. ID3 C4.5 C5.0

    ID3算法是决策树的一个经典的构造算法,在一段时期内曾是同类研究工作的比较对象,但通过近些年国内外学者的研究,ID3算法也暴露出一些问题,具体如下:    (1)信息增益的计算依赖于特征数目较多的特征 ...

  2. 利用计算机语言实现ID3算法,机器学习之决策树学习-id3算法-原理分析及c语言代码实现.pdf...

    机器学习之决策树学习-id3算法-原理分析及c语言代码实现.pdf 还剩 23页未读, 继续阅读 下载文档到电脑,马上远离加班熬夜! 亲,很抱歉,此页已超出免费预览范围啦! 如果喜欢就下载吧,价低环保 ...

  3. 机器学习之决策树学习笔记

    决策树 1.决策树的概念 决策树是什么? 决策树(decision tree)是一种基本的分类与回归方法,通俗的讲也就是一颗用于决策的树. 决策树长什么样呢? 举个通俗易懂的例子,如下图所示的流程图就 ...

  4. 决策树 基于python实现ID3,C4.5,CART算法

    实验目录 实验环境 简介 决策树(decision tree) 信息熵 信息增益(应用于ID3算法) 信息增益率(在C4.5算法中使用) 基尼指数(被用于CART算法) 实验准备 数据集 算法大体流程 ...

  5. 决策树数学原理(ID3,c4.5,cart算法)

    上面这个图就是一棵典型的决策树.我们在做决策树的时候,会经历两个阶段:构造和剪枝. 构造 简单来说,构造的过程就是选择什么属性作为节点的过程,那么在构造过程中,会存在三种节点: 根节点:就是树的最顶端 ...

  6. c4.5决策树算法 c语言,决策树(三):C4.5算法和CART算法

    ID3选择属性的依据是信息增益: ![Information Gain][equtation] [equtation]: http://latex.codecogs.com/svg.latex?g_r ...

  7. cart算法_【统计学】决策树模型大比拼!ID3/C4.5/CART算法哪个更好用?

    - 点击上方"中国统计网"订阅我吧!- 决策树模型在监督学习中非常常见,可用于分类(二分类.多分类)和回归.虽然将多棵弱决策树的Bagging.Random Forest.Boos ...

  8. 视觉机器学习之--决策树学习 方差意义 Cnm的意思

    1.决策树知识 3.2.决策树引导 通俗来说,决策树分类的思想类似于找对象.现想象一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话:  女儿:多大年纪了?      母亲:26.      女 ...

  9. python分类算法报告_Python机器学习(1)——决策树分类算法

    1.决策树算法 决策树用树形结构对样本的属性进行分类,是最直观的分类算法,而且也可以用于回归.不过对于一些特殊的逻辑分类会有困难.典型的如异或(XOR)逻辑,决策树并不擅长解决此类问题. 决策树的构建 ...

最新文章

  1. Tomcat学习总结(3)——Tomcat优化详细教程
  2. jQuery 表格插件
  3. 用Saltstack的modules和grains实现实时监控平台
  4. 36个引人注目JQuery导航菜单
  5. ecshop api.php,ecshop2.72 api.php 文件鸡肋注入
  6. 零售创新决胜新消费暨2021中国网络零售TOP100榜单
  7. 人少钱少需求多的新项目该怎么带?看到这篇我心里有底了!
  8. 埃里克贝里奇_9大热门技术的安全隐患
  9. 目标检测——使用loss发现噪声数据
  10. 九度OJ题目1000: A + B(数学)
  11. 接口测试用例生成工具介绍及应用
  12. ubuntu安装vbox虚拟机
  13. 抖音如何接入在线客服系统?
  14. 7.awd不死马权限维持及变种
  15. 云和恩墨大讲堂 | 基于PCIE 闪存卡的 Oracle 数据库使用
  16. Java高级程序员必备:高性能计数器及Striped64和LongAdder
  17. 带轮轮毂长度l和带轮宽b表_A型V带轮的轮缘宽B,轮毂孔径D和轮毂长L.doc
  18. 直播美颜sdk是什么?它是怎么让用户”变美“的?
  19. 年终奖均值7826,你拖后腿了吗?
  20. PowerManager屏幕休眠断网与距离感应器P-Sensor

热门文章

  1. hdu 5017 Ellipsoid(西安网络赛 1011)
  2. QTP:General Error while saving the test 的解决方法
  3. TyepScript入门教程 之 async await
  4. 编程同写作,写代码只是在码字
  5. impdp时报错ORA-39082的原因
  6. Spring-Cloud的版本是如何定义的
  7. Homebrew命令详解
  8. CCNA初认识——OSPF(开放式最短路径优先协议)配置命令
  9. 【db】mongodb的故事
  10. 性能测试工具Gatling