决策树分类算法
决策树分类算法通常分为两个步骤:决策树生成和决策树修剪。
决策树生成算法的输入参数是一组带有类别标记的样本,输出是构造一颗决策树,该树可以是一棵二叉树或多叉树。二叉树的内部结点(非叶子结点)一般表示为一个逻辑判断,构造决策树的方法是采用自上而下的递归方法。
首先要先知道熵和信息增益怎么求。

考虑第一种因素:outlook
(当outlook都是overcast时,4个都是yes)

(当outlook为rainy时,5个中有3个yes,2个no)

(当outlook为sunny时,5个中有3个no,2个yes)

第一种因素outlook对应的信息增益为:


第二、三、四种因素对应的信息增益为:



样本的概率分布越均衡,它的信息量(熵)就越大,样本集的混杂程度也越高。
信息增益越大,说明属性对分类提供的信息越多。

ID3算法
案例:




第一种因素的熵


第三种因素的熵:


第四种因素的熵:

最后选择信息增益最大的作为根节点:outlook
接着对outlook下的三种因素计算重复以上的运算:
Entropy(outlook),Entropy(outlook,overcast),Entropy(outlook,rainy),Entropy(outlook,sunny)
接着求信息增益:
发现在overcast时,humidity的信息增益最大,所以选择humidity作为叶节点。
发现在rain时,windy的信息增益最大,选择windy作为叶节点。
最后得到下面的结果。


下面的这个案例更加清楚:

求得age的信息增益最大,然后作为根节点,得到下图:

然后对age分类下的三种情况,分别求对应的信息增益:
因为在30-40之间只有yes,所以不需要计算
在<30情况下,计算信息增益,发现student的信息增益最大,则将student设为节点;
在>40情况下,发现credit rating的信息增益最大,则设它为节点。

**数据挖掘--决策树ID3算法(例题)相关推荐

  1. 数据挖掘--决策树ID3算法(例题)

    决策树分类算法 决策树分类算法通常分为两个步骤:决策树生成和决策树修剪. 决策树生成算法的输入参数是一组带有类别标记的样本,输出是构造一颗决策树,该树可以是一棵二叉树或多叉树.二叉树的内部结点(非叶子 ...

  2. 数据挖掘-决策树ID3分类算法的C++实现

    数据挖掘课上面老师介绍了下决策树ID3算法,我抽空余时间把这个算法用C++实现了一遍. 决策树算法是非常常用的分类算法,是逼近离散目标函数的方法,学习得到的函数以决策树的形式表示.其基本思路是不断选取 ...

  3. 决策树---ID3算法

    决策树---ID3算法   决策树: 以天气数据库的训练数据为例. Outlook Temperature Humidity Windy PlayGolf? sunny 85 85 FALSE no ...

  4. 决策树ID3算法[分类算法]

    ID3分类算法的编码实现 1 <?php 2 /* 3 *决策树ID3算法(分类算法的实现) 4 */ 5 6 7 8 /* 9 10 *求信息增益Grain(S1,S2) 11 12 */ 1 ...

  5. 机器学习算法—决策树(ID3)算法

    机器学习--决策树(ID3)算法 1.决策树(ID3)算法 1.1 算法引入 我们首先以一个分类问题开始,假设我们有这样一份样本数据: 我们的目标是想通过色泽.根蒂.敲声.纹理.脐部.触感来判断这是不 ...

  6. 数据挖掘之ID3算法

    数据挖掘ID3算法,在网上的指导下写的,仅供参考. 数据集如下: Outlook Temperature Humidity Windy Play sunny hot high FALSE no sun ...

  7. 【Machine Learning in Action --3】决策树ID3算法

    1.简单概念描述 决策树的类型有很多,有CART.ID3和C4.5等,其中CART是基于基尼不纯度(Gini)的,这里不做详解,而ID3和C4.5都是基于信息熵的,它们两个得到的结果都是一样的,本次定 ...

  8. id3决策树_信息熵、信息增益和决策树(ID3算法)

    决策树算法: 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关的特征数据. 缺点:可能会产生过度匹配问题. 适用数据类型:数值型和标称型. 算法原理: 决策树是一个简单的为 ...

  9. python决策树id3算法_python实现决策树ID3算法

    一.决策树概论 决策树是根据训练数据集,按属性跟类型,构建一棵树形结构.可以按照这棵树的结构,对测试数据进行分类.同时决策树也可以用来处理预测问题(回归). 二.决策树ID3的原理 有多种类型的决策树 ...

  10. 【机器学习】决策树-ID3算法

    1.ID3算法 ID3算法利用信息增益进行特征的选择进行树的构建.信息熵的取值范围为0~1,值越大,越不纯,相反值越小,代表集合纯度越高.信息增益反映的是给定条件后不确定性减少的程度.每一次对决策树进 ...

最新文章

  1. BootStrap 模态框禁用空白处点击关闭
  2. 我用 YOLOv5 做情感识别!
  3. hdu 1016 Prime Ring Problem(DFS)
  4. redis的flushall命令
  5. 面试官问我怎么设计100层大楼的电梯按键,我......
  6. html通过php获取mysql数据_怎样借助PHP从HTML网页中获取phpmyadmin数据库里数据表的内容...
  7. OpenCV导出模板参数文件
  8. Git笔记(9) 打标签
  9. 豪掷197亿美元!微软收购Siri背后的语音技术研发公司
  10. 远程桌面发生身份验证错误,要求的函数不受支持
  11. Mac比较知名的数据库开发工具Navicat Premium 15.0.30
  12. 2.支付平台架构:业务、规划、设计与实现 --- 收银台系统
  13. SCCM2007系列教程之一SCCM2007的安装
  14. Python中虚拟环境与网络IP地址、端口、socket套接字【详细】
  15. usnews 计算机专业排名,2020USNEWS计算机科学专业排名
  16. CF1313C2 Skyscrapers (hard version) -单调栈优化dp
  17. 如何获取美团饿了么的推广链接赚钱
  18. mc 手游无限挑战服务器,盘点mc中可无限获得的东西(无BUG无mod)[多图]
  19. 浏览器网页视频怎么快速下载到本地?
  20. 什么是元宇宙(3):元宇宙实现需要的8个必需元素-1

热门文章

  1. Wireflow - 免费开源的用户流程图绘制工具,专为互联网产品打造
  2. 华为交换机配置时区_华为交换机设置时间问题
  3. 中兴捧月算法比赛2021 比特派 C:排队 (单调栈+二分查找)
  4. 5.3 恶意代码功能演示示例(上兴远程控制2014版)
  5. mysql front 连接类型_mysql-front 怎么连接数据库
  6. 如何写出优雅的React代码Clean Code vs. Dirty Code
  7. gg修改器偏移量修改_gg修改器无root权限版
  8. php奖学金系统,java/php/net/pythont奖助学金管理系统设计
  9. ae渲染出现错误是什么问题_AE渲染输出总是损坏怎么办-解决AE渲染输出被损坏的方法 - 河东软件园...
  10. 中国手机号的正则表达式匹配规则