机器学习算法(3:决策树算法)
一、决策树简介
二、决策树的引导
总结:在决策树的每一个非叶子结点划分之前,先计算每一个属性所带来的信息增益,选择最大信息增益的属性来划分,因为信息增益越大,区分样本的能力就越强,越具有代表性,很显然这是一种自顶向下的贪心策略,以上 就是ID3算法的核心思想。
- 在给定的数据中,我们先选出信息增益最大的那个属性来作为根节点;
- 若样本都在同一类,则为叶子点;
- 将以作为节点的数据删除,再次寻找信息增益最大的那个属性进行分裂,不断递归;
- 递归结束标记为如下:
- 所有属性都用完,若所用属性都用完后还未分类完,则依照少数服从多数来看;
- 某一属性的分类结果都一致;
from math import log
import operator
dataSet = [[1,1,0,'fight'],[1,0,1,'fight'],[1,0,1,'fight'],[1,0,1,'fight'],[0,0,1,'run'],[0,1,0,'fight'],[0,1,1,'run']] #需处理的数据
labels = ['weapon','bullet','blood'] #对应的标签
def calcShannonEnt(dataSet):numEntries = len(dataSet)lableCounts = {}for featVec in dataSet:currentLable = featVec[-1] #取数据中各元素的最后一项:类别if currentLable not in lableCounts.keys():lableCounts[currentLable] = 0lableCounts[currentLable] += 1 #给类别计数shannonEnt = 0for key in lableCounts:prob = float(lableCounts[key])/numEntriesshannonEnt -= prob * log(prob,2) #计算熵的值return shannonEnt #返回熵的值
def splitDataSet(dataSet,axis,value):retDataSet = [] #创建新列表retDataSet for featVec in dataSet:if featVec[axis] == value:reducedFeatVec = featVec[:axis]reducedFeatVec.extend(featVec[axis+1:])retDataSet.append(reducedFeatVec)return retDataSet
def chooseBestFeatureToSplit(dataSet):numFeatures = len(dataSet[0]) - 1 #减去最后一项(类别)baseEntropy = calcShannonEnt(dataSet)bestInfoGain = 0.0bestFeature = -1for i in range(numFeatures):featList = [example[i] for example in dataSet]uniqueVals = set(featList)newEntropy = 0.0for value in uniqueVals:subDataSet = splitDataSet(dataSet, i, value) #调用splitDataSet函数prob = len(subDataSet) / float(len(dataSet))newEntropy += prob * calcShannonEnt(subDataSet) #计算条件熵的值infoGain = baseEntropy -newEntropy #计算信息增益的值if infoGain > bestInfoGain:bestInfoGain = infoGainbestFeature = i #比较信息增益return bestFeature #返回信息增益最大的位置
'''因为我们递归构建决策树是根据属性的消耗进行计算的,所以可能会存在最后属性用完了,
但是分类还是没有算完,这时候就会采用多数表决的方式计算节点分类'''
def majorityCnt(classList):classCount = {}for vote in classList:if vote not in classCount.keys():classCount[vote] = 0classCount[vote] += 1return max(classCount) #返回多数表决后的结果
def createTree(dataSet, labels):classList = [example[-1] for example in dataSet]if classList.count(classList[0]) ==len(classList):return classList[0] #所有类别都相同则停止划分,直接返回该类别if len(dataSet[0]) == 1: #所有特征已经用完return majorityCnt(classList) #返回多数表决后的结果bestFeat = chooseBestFeatureToSplit(dataSet) #调用chooseBestFeatureToSplit函数bestFeatLabel = labels[bestFeat]myTree = {bestFeatLabel:{}}del(labels[bestFeat]) #删除信息增益最大的位置对应的标签featValues = [example[bestFeat] for example in dataSet]uniqueVals = set(featValues)for value in uniqueVals:subLabels = labels[:] #为了不改变原始列表的内容复制了一下myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value),subLabels)return myTree
myTree = createTree(dataSet,labels)
print myTree
结果为:
{'weapon': {0: {'blood': {0: 'fight', 1: 'run'}}, 1: 'fight'}}
七、ID3算法的缺点
- ID3算法往往偏向于选择取值较多的属性,而在很多情况下取值较多的属性并不总是最重要的属性;
- ID3算法不能处理具有连续值的属性,也不能处理具有缺失数据的属性;
- ID3算法虽然理论清晰,但计算比较复杂,在学习和训练数据集的过程中机器内存占用率比较大,耗费资源;
- 在建造决策树时,每个结点仅含一个属性,是一种单变元的算法,致使生成的决策树结点之间的相关性不够强,虽然在一棵树上连在一起,但联系还是松散的;
转载于:https://www.cnblogs.com/longwhite/p/10397792.html
机器学习算法(3:决策树算法)相关推荐
- 机器学习算法之决策树算法
决策树 综述 决策树(Decision Tree)算法是一种基本的分类与回归方法,根据数据的属性采用树状结构建立决策模型.决策树模型常常用来解决分类和回归问题.常见的算法包括CART(Classifi ...
- 机器学习-有监督学习-分类算法:决策树算法【CART树:分类树(基于信息熵;分类依据:信息增益、信息增益率、基尼系数)、回归树(基于均方误差)】【损失函数:叶节点信息熵和】【对特征具有很好的分析能力】
一.决策树概述 注:生产实践中,不使用决策树,太简单,而是使用决策树的升级版:集成学习算法. 集成学习算法有: Random Forest(随机森林) Extremely Randomized For ...
- 【机器学习常见算法】决策树算法(含示例代码)
决策树(Decision Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规 则,并用树状图的结构来呈现这些规则,以解决分类和回归问题.决策树算法容易理解,适用各种 ...
- ML之监督学习算法之分类算法一 ——— 决策树算法
一.概述 决策树(decision tree)的一个重要任务是为了数据中所蕴含的知识信息,因此决策树可以使用不熟悉的数据集合,并从中提取出一系列规则,在这些机器根据数据创建规则时,就是机器学习的过程. ...
- 数据挖掘算法之决策树算法总结
机器学习中,决策树是一个预测模型:它代表的是对象属性值与对象值之间的一种映射关系.树中每个节点表示某个对象,每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应具有上述属性值的子对象.决策树仅有单 ...
- 从零开始学习机器学习五:决策树算法特征工程
决策树&特征工程 目标 1 简介 1.1 认识决策树 2 分类原理 2.1 熵 2.2 决策树的划分依据一-信息增益 2.3 决策树的划分依据二-信息增益率 2.4 决策树的划分依据三-基尼值 ...
- 机器学习故事汇-决策树算法
机器学习故事汇-决策树 [咱们的目标]系列算法讲解旨在用最简单易懂的故事情节帮助大家掌握晦涩无趣的机器学习,适合对数学很头疼的同学们,小板凳走起! 决策树模型是机器学习中最经典的算法之一啦,用途之广泛 ...
- bootstrap算法_决策树算法之随机森林
在 CART 分类回归树的基础之上,我们可以很容易的掌握随机森林算法,它们之间的区别在于,CART 决策树较容易过拟合,而随机森林可以在一定程度上解决该问题. 随机森林的主要思想是:使用随机性产生出一 ...
- r语言 C4.5 剪枝是用什么算法_决策树算法
决策树算法,从名字中也可以理解到该算法是以树形结构建立模型的,该算法主要根据分层和分割的方式将预测变量空间划分为一系列简单区域.对某个给定的待预测的观测值,用它所属区域中训练的平均值或众数进行预测.决 ...
- 二叉树剪枝_数据挖掘算法:决策树算法如何学习及分裂剪枝
1.决策树模型与学习 决策树(decision tree)算法基于特征属性进行分类,其主要的优点:模型具有可读性,计算量小,分类速度快.决策树算法包括了由Quinlan提出的ID3与C4.5,Brei ...
最新文章
- Python3爬虫之爬取某一路径的所有html文件
- python自带intertool模块找不到_介绍Python中内置的itertools模块
- anaconda powershell prompt 启动vscode_记一个VS Code终端显示问题的较完美解决
- 高可用高性能分布式文件系统FastDFS实践Java程序
- cmd 调用webservice接口_c# 三种方法调用WebService接口
- opentrace在mysql中使用_采用OpenReplicator解析MySQL binlog
- 监听微信、支付宝等移动app及浏览器的返回、后退、上一页按钮的事件方法
- Java CLH队列
- 自制题库答题考试软件小程序开发,把题库导入小程序里,javascript小程序
- 关于固态硬盘开卡转接卡的研究,用SM2258XT测试智微、祥硕、威盛
- 关于区块链的一点经济学思考
- select_io(LVDS) 参数设置与物理层的对应关系
- python求三角形面积步骤_Python3计算三角形的面积代码
- C++ Primer 读书笔记04
- 【布局优化】基于人工蜂群算法的无线传感器网(WSN)覆盖优化matlab源码
- Palindromic Tree——回文树【处理一类回文串问题的强力工具】
- 基于微信小程序的面包店在线服务系统
- C语言while循环语句 do while语句 for循环语句
- 城市防疫黑科技,联诚发5G多功能智慧杆显身手
- BCryptPasswordEncoder加密和匹配的原理 和 springsecurity 的 rememberme原理
热门文章
- arm linux 启动之一:汇编启动到start_kernel
- 金融时报:谷歌撤离中国有99.9%的可能性
- AR + ROS +UBUNTU16.04+ORB-SLAM2
- 你真的掌握了并发编程volatile synchronized么?
- Linux环境编程--编辑器基本操作
- WMI技术介绍和应用——查询系统服务
- 【Qt】Qt样式表总结(一):选择器
- 【驱动】GNSS驱动基础
- python 三分钟入门_Cython 三分钟入门教程
- 4104 oracle 数据文件名,Oracle 11g 常遇到ora-01034错误,这是为什么?