【自由探索】决策树归纳
决策树归纳:
概念: 每个节点表示一个测试, 是则拐至右子节点,否则拐至左子结点,继续进行子节点测试。。。
1)ID3:
outlook=sunny时,2/5的概率打球,3/5的概率不打球。(p1=2/5 p2=3/5 即为 -2/5log(2/5) -3/5log(3/5) ) entropy=0.971
同理: outlook=overcast,entropy=0 outlook=rainy, entropy=0.971
2)计算outlook的信息熵(当前不稳定因素是outlook的)
outlook=sunny 5/14 overcast 4/14 rainy 5/14,
此时的信息熵为 5/14 × 0.971 + 4/14 × 0 + 5/14 × 0.971 = 0.693
3)计算变化量(信息增溢 gain)
gain(outlook) = 原来的信息熵 - 当前的信息熵 = 0.940 - 0.693 = 0.247
同理算出 gain(temperature) = 0.029, gain(humidity)=0.152, gain(windy)=0.048. 即outlook变化最大,即在当前情况下,outlook属性对决策(yes/no)的影响最大, 故当前测试应该是对于outlook的取值分支判断:(同时在属性列表中删除outlook属性)
同理在sunny情况下不同属性(temperature、humidity、windy)在不同取值下的Yes/no情况,计算最终的信息熵,跟当前的信息熵(0.693)进行比较
在overcast情况下。。。。rainy。。。。。
最后的结果为:
注:
1)关于entropy计算可以用Matlab实现:
>>f = inline('-x*log(x)/log(2) - y*log(y)/log(2)', 'x', 'y');
>> f(9/14, 5/14)
2)关于删掉的选中属性A,在A所处的节点的所有子树都不可能出现这个属性(决策已经是在A属性下分析了), 但是对于与该节点的兄弟节点由于还没考虑到A,所以在A的“侄子”节点可能会出现A。
3)关于结束条件: 首先,当此时的所有元组的结果都一致,即信息熵为0(处理时,用|x|<e-7等等),此时的节点即为叶子节点(overcast)。 其次, 如果当前没有剩余的属性,此节点亦为叶节点,决策采取的方式是 多数表决,少数服从多数。
以上主要参考: http://blog.csdn.net/zhangchaoyangsun/article/details/8470195,详细代码在此网址,就不赘余了
总结:
决策树的思想是 当前状态下,最能影响决策的因素为当前决策的判定条件,再进一步细分,所选取的因素永远是当前条件下最能影响决策的属性(贪心算法)
同时由于结束条件(1),也可以在剩余属性不为空的时候结束决策(属性之间有可能出现冗余, 属性A的值与属性B的值可能有线性关系等等,比如所有户籍是广州A的广东人B,广东这个属性就冗余了,对决策无影响(在数学上表现为信息熵为0 或小到忽略不计),如果此时的属性集只剩余B属性, 这个时候就可以结束这一子树的继续搜索),一定意义上剪枝(树剪枝中的先剪枝)?
重复, 复制的困扰:
【自由探索】决策树归纳相关推荐
- golang游戏开发学习笔记-创建一个能自由探索的3D世界
此文写在golang游戏开发学习笔记-用golang画一个随时间变化颜色的正方形之后,感兴趣可以先去那篇文章了解一些基础知识,在这篇文章里,我们将创建一个非常简单(只有三个方块)但能自由探索的的3D世 ...
- 数据挖掘之决策树归纳算法
决策树归纳算法 作者:这次国际周老师讲的课非常的硬核,赶紧整理一下笔记压压惊. 1.Motivation Basic idea: recursively partitioning the input ...
- python实现决策树归纳_决策树【python实现】
决策树思维导图.jpg 0.周董歌词中的决策树 为什麼 别人在那看漫画 我却在学画画 对著钢琴说话 别人在玩游戏 我却靠在墙壁背我的ABC 拿王牌谈个恋爱 而我不想被你教坏 还是听妈妈的话吧 晚点再恋 ...
- 论文浅尝 | 探索用于归纳型知识图谱补全的关系语义
笔记整理:徐雅静,浙江大学在读硕士,研究方向为知识图谱的表示学习,零样本学习. KGC指的是在不完整的KG中推理出缺失的实体.以前的多数工作仅仅考虑到直推式场景(实体都存在KG中),不能有效地解决归纳 ...
- 数据挖掘与数据分析项目链家租房数据(三)进一步探索与归纳
当时认为起初的分析逻辑混乱,模型单一,从这两个角度进行改进继续分析. 未进行再次加工,代码见资源中的exploration2 问题背景及重述 想法最初产生于如下背景:目前的租房市场中租房一方往往处于弱 ...
- 车辆路径问题的(资源)探索与归纳
目前,我所知道的关于车辆路径规划问题的有几个种类,以及对应的求解器.在这里将资料分类整理. 以便学习和归纳. VRP(vehicle routing problem,车辆路径规划问题) PDP(Pic ...
- 人工智能到底是什么?人工智能如何改变社会?中国的人工智能应该做怎样的探索?
目录 1. 人工智能:是否具备强大学习能力 2. 人工智能:处于改变社会的初级阶段 3. 人工智能:健康发展的正确路径 人工智能模拟.延伸和扩展人类智力.自1956年达特茅斯研讨会上,科学家们设想研发 ...
- 800多名各国院士热忱参与 第三届“科学探索奖”名单公布
9月13日,第三届"科学探索奖"获奖名单正式揭晓,50位青年科学家"榜上有名",其中包括8位女性科学家.他们每人将在未来5年内获得腾讯基金会总计300万元奖金, ...
- 决策树系列之一决策树的入门教程
决策树 (Decisiontree) 一.决策树的概念 决策树(decision tree)又称为分类树(classification tree),决策树是最为广泛的归纳推理算法之一,处理类别型或连续 ...
最新文章
- 硬中断、软中断和信号
- Wayland 源码解析之代码结构
- 能用10块大洋去解决的事,千万不要用时间
- mybatis-generator插件使用 批量插入、更新
- java list move_Java中List最重要的特性
- no plugin found for prefix ‘tomcat 7‘ in the current project and in the plugin groups的解决方法
- PyTorch 深度学习:35分钟快速入门——变分自动编码器
- iOS中使用URL Scheme进行App跳转
- minecraft服务器搭建教程_[学生福利]使用WINDOWS SERVER2012R2服务器搭建网站教程
- hilbert谱 matlab,转 matlab 信号处理——Hilbert变换及谱分析
- Android面试必问之Handler机制
- 基于质谱的蛋白质鉴定,第3节:基于MALDI-MS肽指纹图谱的蛋白质质谱鉴定
- windows 10远程桌面连接报错解决办法
- 读取U盘 PID,VID,SN等信息
- IP地址字符串转换成16进制例程
- 分享一个图片管理程序,图片批量上传,图片管理(有图片)
- 股票和期权的区别是什么?
- 网站流量统计系统 phpMyVisites
- Ubuntu 14.04 安装 fcitx(小企鹅) 输入法
- php30m限制,住建部:严格控制高度超过 30 米或宽度超过 45 米的大型雕塑
热门文章
- Android 常用工具类,终局之战
- 【python】pythonPTA编程练习2
- Blender(二)bpy模块
- FFmpeg音视频倍速控制
- mysql 批量替换 某个字段的值 replace 方法
- LINK : fatal error LNK1104: 无法打开文件“mfc71.lib”的原因一例
- C++ 设计模式 适配器模式(中英翻译, Win-Linux翻译)
- 华硕发布全球首款8G内存手机ZenFone VR
- java雀圣麻将游戏_《梦幻麻将馆9雀圣争霸》全攻略
- 08.GPIO基础知识和工作原理