一、决策树简介

决策树是附加概率结果的一个树状的决策图,是直观的运用统计概率分析的图法。机器学习中决策树是一个预测模型,它表示对象属性和对象值之间的一种映射,一颗决策树是一棵有向无环树,它由若干个节点、分支、分裂谓词以及类别组成。树中的每一个节点表示对象属性的判断条件,其分支表示符合节点条件的对象。树的叶子节点表示对象所属的预测结果。  

二、决策树的引导

下面是一段记者采访银行经理的对话(对话内容纯属虚构)
记者:向你们银行可以直接申请贷款要什么条件吗?
经理:只要年龄在30~50都可一申请到一定额度的贷款。
记者:那如果年龄超过50岁呢?
经理:那也没关系,只要办理我们银行的vip,也是可以申请贷款的。
记者:那如果年龄少于30岁的人该怎么办?
经理:那就看他是否有固定的收入。
记者:感谢与您的对话。
  
通过简单的对话我们构造了一个简单的决策树,如图所示,没有父亲节点的节点称为根节点,如图节点1。没有子节点的节点称为叶子节点,如图的3、5、6、7、8。一个节点按照某个属性分裂时,这个属性被称为分裂属性,如图中的年龄,有无固定收入和vip。同理每个分支都会被标记一个分裂谓词,这些分裂谓词就是分裂分节点的具体依据,例如图中的年龄就有对应三个分裂谓词“<30,[30,50],>50"每一个叶子节点都会被确定一个类标号,这里是”是“和”否“。
根节点:决策树的起源,进行分类的第一个特征属性,只有出边没有入边;
内部节点:进行分类的特征属性,有一条入边,至少有一条出边;
叶节点:分类结束的特征属性,有入边,没有出边;
三、决策树的构造
构造决策树的关键步骤是分裂属性。所谓分裂属性就是在某个节点处按照某一特征属性的不同划分构造不同的分支,其目标是让各个分裂子集尽可能地“纯”。尽可能“纯”就是尽量让一个分裂子集中待分类项属于同一类别。这里就要介绍一种判别属性优先分裂的方法---ID3算法
在ID3算法中,特征属性的选择是由目标函数决定的,目标函数代表的是特征属性的混乱程度(也就是特征属性越混乱越不好分类,该特征属性的分类顺序越靠后),这个目标函数就是信息增益,信息增益是由熵计算出来的,在信息论中,期望信息越小,那么信息增益就越大,从而纯度就越高。具体细节看下面的介绍;
四、信息论基础

(1):它度量了事物的不确定性,其值越大就越不确定,假如一个随机变量的取值为,每一种取到的概率分别是,那么 的熵定义为
       意思是一个变量的变化情况可能越多,那么它携带的信息量就越大。
(2)条件熵:条件熵的表达式H(X|Y),它度量了我们的X在知道Y以后剩下的不确定性,其表达式如下
(3)信息增益:信息增益是特征选择中的一个重要指标,它定义为一个特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要,其值为H(X) - H(X|Y)。

总结:在决策树的每一个非叶子结点划分之前,先计算每一个属性所带来的信息增益,选择最大信息增益的属性来划分,因为信息增益越大,区分样本的能力就越强,越具有代表性,很显然这是一种自顶向下的贪心策略,以上 就是ID3算法的核心思想。


五、python代码实现说明

  • 在给定的数据中,我们先选出信息增益最大的那个属性来作为根节点;
  • 若样本都在同一类,则为叶子点;
  • 将以作为节点的数据删除,再次寻找信息增益最大的那个属性进行分裂,不断递归;
  • 递归结束标记为如下:
  1. 所有属性都用完,若所用属性都用完后还未分类完,则依照少数服从多数来看;
  2. 某一属性的分类结果都一致;

六、python代码实现
from math import log
import operator
dataSet = [[1,1,0,'fight'],[1,0,1,'fight'],[1,0,1,'fight'],[1,0,1,'fight'],[0,0,1,'run'],[0,1,0,'fight'],[0,1,1,'run']]                         #需处理的数据
labels = ['weapon','bullet','blood']          #对应的标签
def calcShannonEnt(dataSet):numEntries = len(dataSet)lableCounts = {}for featVec in dataSet:currentLable = featVec[-1]         #取数据中各元素的最后一项:类别if currentLable not in lableCounts.keys():lableCounts[currentLable] = 0lableCounts[currentLable] += 1      #给类别计数shannonEnt = 0for key in lableCounts:prob = float(lableCounts[key])/numEntriesshannonEnt -= prob * log(prob,2)          #计算熵的值return shannonEnt                            #返回熵的值
def splitDataSet(dataSet,axis,value):retDataSet = []                                    #创建新列表retDataSet for featVec in dataSet:if featVec[axis] == value:reducedFeatVec = featVec[:axis]reducedFeatVec.extend(featVec[axis+1:])retDataSet.append(reducedFeatVec)return retDataSet
def chooseBestFeatureToSplit(dataSet):numFeatures = len(dataSet[0]) - 1         #减去最后一项(类别)baseEntropy = calcShannonEnt(dataSet)bestInfoGain = 0.0bestFeature = -1for i in range(numFeatures):featList = [example[i] for example in dataSet]uniqueVals = set(featList)newEntropy = 0.0for value in uniqueVals:subDataSet = splitDataSet(dataSet, i, value)              #调用splitDataSet函数prob = len(subDataSet) / float(len(dataSet))newEntropy += prob * calcShannonEnt(subDataSet)         #计算条件熵的值infoGain = baseEntropy -newEntropy            #计算信息增益的值if infoGain > bestInfoGain:bestInfoGain = infoGainbestFeature = i                  #比较信息增益return bestFeature                  #返回信息增益最大的位置
'''因为我们递归构建决策树是根据属性的消耗进行计算的,所以可能会存在最后属性用完了,
但是分类还是没有算完,这时候就会采用多数表决的方式计算节点分类'''
def majorityCnt(classList):classCount = {}for vote in classList:if vote not in classCount.keys():classCount[vote] = 0classCount[vote] += 1return max(classCount)                   #返回多数表决后的结果
def createTree(dataSet, labels):classList = [example[-1] for example in dataSet]if classList.count(classList[0]) ==len(classList):return classList[0]                         #所有类别都相同则停止划分,直接返回该类别if len(dataSet[0]) == 1:                    #所有特征已经用完return majorityCnt(classList)          #返回多数表决后的结果bestFeat = chooseBestFeatureToSplit(dataSet)              #调用chooseBestFeatureToSplit函数bestFeatLabel = labels[bestFeat]myTree = {bestFeatLabel:{}}del(labels[bestFeat])                             #删除信息增益最大的位置对应的标签featValues = [example[bestFeat] for example in dataSet]uniqueVals = set(featValues)for value in uniqueVals:subLabels = labels[:]             #为了不改变原始列表的内容复制了一下myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value),subLabels)return myTree
myTree = createTree(dataSet,labels)
print myTree

结果为:

{'weapon': {0: {'blood': {0: 'fight', 1: 'run'}}, 1: 'fight'}}

七、ID3算法的缺点

  1. ID3算法往往偏向于选择取值较多的属性,而在很多情况下取值较多的属性并不总是最重要的属性;
  2. ID3算法不能处理具有连续值的属性,也不能处理具有缺失数据的属性;
  3. ID3算法虽然理论清晰,但计算比较复杂,在学习和训练数据集的过程中机器内存占用率比较大,耗费资源;
  4. 在建造决策树时,每个结点仅含一个属性,是一种单变元的算法,致使生成的决策树结点之间的相关性不够强,虽然在一棵树上连在一起,但联系还是松散的;

转载于:https://www.cnblogs.com/longwhite/p/10397792.html

机器学习算法(3:决策树算法)相关推荐

  1. 机器学习算法之决策树算法

    决策树 综述 决策树(Decision Tree)算法是一种基本的分类与回归方法,根据数据的属性采用树状结构建立决策模型.决策树模型常常用来解决分类和回归问题.常见的算法包括CART(Classifi ...

  2. 机器学习-有监督学习-分类算法:决策树算法【CART树:分类树(基于信息熵;分类依据:信息增益、信息增益率、基尼系数)、回归树(基于均方误差)】【损失函数:叶节点信息熵和】【对特征具有很好的分析能力】

    一.决策树概述 注:生产实践中,不使用决策树,太简单,而是使用决策树的升级版:集成学习算法. 集成学习算法有: Random Forest(随机森林) Extremely Randomized For ...

  3. 【机器学习常见算法】决策树算法(含示例代码)

    决策树(Decision Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规 则,并用树状图的结构来呈现这些规则,以解决分类和回归问题.决策树算法容易理解,适用各种 ...

  4. ML之监督学习算法之分类算法一 ——— 决策树算法

    一.概述 决策树(decision tree)的一个重要任务是为了数据中所蕴含的知识信息,因此决策树可以使用不熟悉的数据集合,并从中提取出一系列规则,在这些机器根据数据创建规则时,就是机器学习的过程. ...

  5. 数据挖掘算法之决策树算法总结

    机器学习中,决策树是一个预测模型:它代表的是对象属性值与对象值之间的一种映射关系.树中每个节点表示某个对象,每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应具有上述属性值的子对象.决策树仅有单 ...

  6. 从零开始学习机器学习五:决策树算法特征工程

    决策树&特征工程 目标 1 简介 1.1 认识决策树 2 分类原理 2.1 熵 2.2 决策树的划分依据一-信息增益 2.3 决策树的划分依据二-信息增益率 2.4 决策树的划分依据三-基尼值 ...

  7. 机器学习故事汇-决策树算法

    机器学习故事汇-决策树 [咱们的目标]系列算法讲解旨在用最简单易懂的故事情节帮助大家掌握晦涩无趣的机器学习,适合对数学很头疼的同学们,小板凳走起! 决策树模型是机器学习中最经典的算法之一啦,用途之广泛 ...

  8. bootstrap算法_决策树算法之随机森林

    在 CART 分类回归树的基础之上,我们可以很容易的掌握随机森林算法,它们之间的区别在于,CART 决策树较容易过拟合,而随机森林可以在一定程度上解决该问题. 随机森林的主要思想是:使用随机性产生出一 ...

  9. r语言 C4.5 剪枝是用什么算法_决策树算法

    决策树算法,从名字中也可以理解到该算法是以树形结构建立模型的,该算法主要根据分层和分割的方式将预测变量空间划分为一系列简单区域.对某个给定的待预测的观测值,用它所属区域中训练的平均值或众数进行预测.决 ...

  10. 二叉树剪枝_数据挖掘算法:决策树算法如何学习及分裂剪枝

    1.决策树模型与学习 决策树(decision tree)算法基于特征属性进行分类,其主要的优点:模型具有可读性,计算量小,分类速度快.决策树算法包括了由Quinlan提出的ID3与C4.5,Brei ...

最新文章

  1. Python3爬虫之爬取某一路径的所有html文件
  2. python自带intertool模块找不到_介绍Python中内置的itertools模块
  3. anaconda powershell prompt 启动vscode_记一个VS Code终端显示问题的较完美解决
  4. 高可用高性能分布式文件系统FastDFS实践Java程序
  5. cmd 调用webservice接口_c# 三种方法调用WebService接口
  6. opentrace在mysql中使用_采用OpenReplicator解析MySQL binlog
  7. 监听微信、支付宝等移动app及浏览器的返回、后退、上一页按钮的事件方法
  8. Java CLH队列
  9. 自制题库答题考试软件小程序开发,把题库导入小程序里,javascript小程序
  10. 关于固态硬盘开卡转接卡的研究,用SM2258XT测试智微、祥硕、威盛
  11. 关于区块链的一点经济学思考
  12. select_io(LVDS) 参数设置与物理层的对应关系
  13. python求三角形面积步骤_Python3计算三角形的面积代码
  14. C++ Primer 读书笔记04
  15. 【布局优化】基于人工蜂群算法的无线传感器网(WSN)覆盖优化matlab源码
  16. Palindromic Tree——回文树【处理一类回文串问题的强力工具】
  17. 基于微信小程序的面包店在线服务系统
  18. C语言while循环语句 do while语句 for循环语句
  19. 城市防疫黑科技,联诚发5G多功能智慧杆显身手
  20. BCryptPasswordEncoder加密和匹配的原理 和 springsecurity 的 rememberme原理

热门文章

  1. arm linux 启动之一:汇编启动到start_kernel
  2. 金融时报:谷歌撤离中国有99.9%的可能性
  3. AR + ROS +UBUNTU16.04+ORB-SLAM2
  4. 你真的掌握了并发编程volatile synchronized么?
  5. Linux环境编程--编辑器基本操作
  6. WMI技术介绍和应用——查询系统服务
  7. 【Qt】Qt样式表总结(一):选择器
  8. 【驱动】GNSS驱动基础
  9. python 三分钟入门_Cython 三分钟入门教程
  10. 4104 oracle 数据文件名,Oracle 11g 常遇到ora-01034错误,这是为什么?