【机器学习算法】决策树-6 PRISM
目录
PRISM决策规则算法
如何使用分类树来进行分类预测:
分类树与分类规则间的关系
PRISM决策规则的产生方式
我的主页:晴天qt01的博客_CSDN博客-数据分析师领域博主
目前进度:第四部分【机器学习算法】
PRISM决策规则算法
如何使用分类树来进行分类预测:
如果我们建立好决策树,那我们要怎么进行分类规则的预测呢。一般有两种方法。
第一章直接法:
测试字段的值,未知的样本数据
根节点要进行字段验证,根节点一直跑到叶节点。到叶节点就会有它的标签。得到结果。
在树上找到一条路径。
第二种,间接法。把分类树转化为分类规则。就去分类规则中去找到可以预测的字段。
案例:
第一种就是按树去逐一运行。
第二种就是有5个叶子,就产生5个条件,满足那条规则,就用那条规则预测。
分类树与分类规则间的关系
你可能会纳闷分类树和分类规则不是同一个东西吗。
其实两种方法有蛮大的差异的。树的限制是比较多。规则是比较自由的,一会我们细说。
另一个案例:
这是一个是否喝饮料的决策树,第一个字段是是否看比赛,第二个字段是主场是否胜利,第三个字段是有没有和朋友出门。有就啤酒,
然后我们就可以产生分类树:
我们发现第一和第三种规则都是喝啤酒。这个时候我们就去观察,字段是哪里有不一致,肯定有不一致,如果一致的话,就是一个规则了。
我们发现主场比赛是否胜利。只要看比赛和朋友出去都会喝啤酒,所以这个条件是假条件。
分类树产生的分类规则是有假的。所以我们要把假条件拿掉。这个对我们判断喝不喝啤酒问题不大,如果是在医疗,凭空给他多一个治疗条件,那就问题大了
所以我们要进行规则合并成一条更精准的规则,变成真正的分类规则。
你可能会纳闷,为什么分类树会产生这种假条件的规则。你会发现如果去掉这个规则。后面的另外两个规则就不能产生。所以分类规则是比较自由的。分类树是很受限制的。
有些人就考虑,能不能直接产生分类规则,而不是先产生分类树再产生分类规则。不用有noise在里面。
虽然它没有收到很大的重视,但是其实很重要的。
PRISM决策规则的产生方式。
PRISM就是一个很出名的直接建立分类规则的方法。会先建立短的分类规则,再建立长的分类规则。它其实是一个简单的覆盖方法。把训练数据覆盖为分类规则的方法
案例:
就现针对C1进行寻找,有哪些字段是属于C1的,第一个字段,身高是短的记录(128)就是只有一个记录1是属于C1
所以它就认为当身高是短的时候,它只有1/3的可能性属于C1
身高是tall,有百分之40的概率属于C1
到目前为止有点像bayes分类法。不过后面就不一样了。
其中有一个当发色是red的时候,C1的概率是百分之百,那么我就放入我的第一个规则,只要头发颜色是red那么就会分入C1
概率的计算方式:比如眼睛颜色是blue的时候,那么它出现C1的次数除以它自身出现的总次数,就是概率。
其实这个就是覆盖全部训练数据的方法,就比如我们red覆盖了第3行记录1,那么这行记录就没了,我们就开始考虑剩下的记录的规则是什么。
直到全部记录都被覆盖,那么就结束。
接下来我们要找其他规则。 把三去掉,和之前一样。我们在求条件下的C1概率
然后我们寻找,预测C1里面概率最大的是,Hair=Blond。再继续往下建立一个新的数据集,也就是左上角的数据集。
里面我们再去统计字段和C1的关系。我们发现当hair=blond的情况下eyes=blue(比height案例多,有2个)得到{1,6}
得到第2个规则,hair=Blond eyes=blue,则归类到C1
然后我们在把1,6排除掉。再去寻找C2
最后PRISM会得到4个规则
如果我们用ID3来进行分类树,我们会发现第3个规则是假规则。
所以PRISM就不需要多产生条件。可以产生比较少的条件,比较简化的规则。
分类树容易产生不相关的假条件,这里我们是针对算法的可解读性,不是准确率这些的问题来说明PRISM的优点,因为很多时候得到的条件很难解读的话,企业不能使用,而PRISM就可以吧假条件去除。容易找到业务关系。
如果你产生了一个比较好的分类规则,那你就规避掉了解读的问题。避免了很多假条件。
决策树到目前为止,我们就全部讲完了。
下面就到神经网络与深度学习的内容。
【机器学习算法】决策树-6 PRISM相关推荐
- 人人都在用的机器学习算法-决策树
决策树(DecisionTree) 这里说几个决策树有关的概念: 贪心算法:是指在对问题求解时,总是做出在当前看来是最好的选择.不考虑总体的最优解,以每一步的局部最优解来模拟全局最优解.决策树是典型的 ...
- 机器学习算法(决策树)-Lect03
参考资料: 周志华.<机器学习> 李航.<统计学习方法> Google搜索 1. 信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度) 2.决策树的不同分类算法(ID3算法. ...
- 机器学习算法-决策树理论
用较少的东西,同样可以做好的事情.越是小的决策树,越优于大的决策树. 引文 数据分类是一个两阶段过程,包括学习阶段(构建分类模型)和分类阶段(使用模型预测给定数据的类标号).决策树分类算法是监督学习的 ...
- [机器学习算法]决策树和CART树
决策树综述 决策树的工作原理 决策树(decision tree)分类法是一种简单但广泛使用的分类技术.以是否贷款违约的二分类问题为例,当我们希望根据给定的训练集习得一个模型对新出现的贷款人进行分类时 ...
- 机器学习算法—决策树(ID3)算法
机器学习--决策树(ID3)算法 1.决策树(ID3)算法 1.1 算法引入 我们首先以一个分类问题开始,假设我们有这样一份样本数据: 我们的目标是想通过色泽.根蒂.敲声.纹理.脐部.触感来判断这是不 ...
- 请和我一起学习机器学习算法(决策树)
在概念上,顾名思义,就是用来实现决策的树,本质上是分类. 决策树简介 分类树和回归树 有些地方会吧决策树分为分类树和回归树.那么什么是分类树,什么是回归树呢? 分类树 分类树就是最后的结果是类别,通过 ...
- 机器学习算法——决策树4(剪枝处理)
ID3算法优缺点: ① 不能对连续数据进行处理,只能通过连续数据离散化进行处理: ② 采用信息增益容易偏向取值较多的特征,准确率不如信息增益率: ③ 缺失值不好处理. ④ 没有采用剪枝,决策树的结构可 ...
- 简单易学的机器学习算法——决策树之ID3算法
一.决策树分类算法概述 决策树算法是从数据的属性(或者特征)出发,以属性作为基础,划分不同的类.例如对于如下数据集 (数据集) 其中,第一列和第二列为属性(特征),最后一列为类别标签,1表示是 ...
- 金融风控机器学习第三十一天---拜师课堂 机器学习算法--决策树 随机森林
ID3 c4.5的核心是熵 ID3 c4.5 cart 过拟合解决一般 用 剪枝 或者 随机森林 随机森林代码: #!/usr/bin/python # -*- coding:utf-8 -*-imp ...
- python决策树 value_机器学习 | 算法笔记(四)- 决策树算法以及代码实现
概述 上一篇讲述了<机器学习 | 算法笔记(三)- 支持向量机算法以及代码实现>,本篇讲述机器学习算法决策树,内容包括模型介绍及代码实现. 决策树 决策树(Decision Tree)在机 ...
最新文章
- 现实迷途 第七章 特殊客户
- asp.net传递参数
- 智能车大赛信标组_第十五届全国大学生智能汽车竞赛在南京信息工程大学圆满闭幕...
- Python提取数字图片特征向量
- xfce不小心禁用了鼠标
- leetcode剑指 Offer 29. 顺时针打印矩阵
- Dx11DemoBase 基类(三) 实例应用 【已实现】【附带源码】
- mysql mybatis 工具类_我肝了一个星期,为你们整理出了mybatis程序配置教程
- 计算机控制系统视频关守平,国家级精品课《计算机控制系统》课程建设研讨会顺利召开...
- Flink JDBC Connector:Flink 与数据库集成最佳实践
- Linux性能监控工具
- HEVC测试序列网址和账号
- python123第四章第五题_Python123
- VC++窗口创建过程,图形绘制,时钟程序
- 第二讲 JavaScript基本数据结构
- linux 查看运行任务管理器,Linux 的任务管理器
- daily reading
- 【训练日记】20161028
- 超入门级-基于中值滤波处理ECG信号的基线漂移-Python-MIT-BIH数据集
- 乳牛悲惨的一生 -----奶牛为什么会产奶?