郑捷《机器学习算法原理与编程实践》学习笔记（第三章决策树的发展）（二）

（上接第三章）

　　3.3.1 信息增益率

　　信息增益率的定义如下：

　　GainRatio(S,A) = Gain(S,A)/SplitInfo(S,A)

　　其中Gain（S,A）就是ID3算法中的信息增益，而划分信息SplitInfo（S,A）代表了按照特征A划分样本集S的广度和均匀性。

　　其中S_i到S_c是特征A的C个不同值构成的样本子集

　　3.3.2 C4.5的实现

#coding:utf-8from numpy import *
import math
import copy
import cPickle as pickle# 定义一个ID3DTree的类来封装算法：
class ID3DTree(object):def __init__(self):        #构造方法self.tree    = {}      #生成的树self.dataSet = []      #数据集self.label   = []      #标签集#数据导入函数def loadDataSet(self,path,labels):recordlist   = []fp           = open(path,"rb")content      = fp.read()fp.close()rowlist      = content.splitlines() #按行转换为一维表recordlist   = [row.split(" ") for row in rowlist if row.strip()]self.dataSet = recordlistself.labels  = labels#执行决策树函数def train(self):labels    = copy.deepcopy(self.labels)self.tree = self.buildTree(self.dataSet,labels)# 3.2.3 决策树主方法# （1）构建决策树：创建决策树主程序def buildTree(self,dataSet,labels):cateList = [data[-1] for data in dataSet]  #抽取源数据集的决策标签列#程序的终止条件1：如果classList只有一种决策标签，停止划分，返回这个决策标签if cateList.count(cateList[0]) == len(cateList):return cateList[0]#程序的终止条件2：如果数据集的第一个决策标签只有一个，则返回这个决策标签if len(dataSet[0]) == 1:return self.maxCate(cateList)#算法核心：bestFeat,featValueList = self.getBestFeat(dataSet)  #返回数据集的最优特征轴bestFeatLabel = labels[bestFeat]tree          = {bestFeatLabel:{}}del(labels[bestFeat])#抽取最优特征轴的列向量# uniqueVals = set([data[bestFeat] for data in dataSet]) #去重for value in featValueLis:  #决策树递归生长subLabels = labels[:]  #将删除后的特征类别接建立子类别集#按最优特征列和值分割数据集splitDataset = self.splitDataSet(dataSet,bestFeat,value)subTree      = self.buildTree(splitDataset,subLabels)tree[bestFeatLabel][value] = subTreereturn tree#计算出现次数最多的类别标签def maxCate(self,catelist):items = dict([(catelist.count(i),i) for i in catelist])return items([max(items.keys())])#计算最优特征def getBestFeat(self,dataSet):#计算特征向量维，其中最后一列用于类别标签，因此要减去# numFeatures  = len(dataSet[0])-1             #特征向量维数=行向量维数-1Num_Feats    = len(dataSet[0][:-1])totality     = len(dataSet)BaseEntropy  = self.computeEntropy(dataSet)  #基础熵：源数据香农熵ConditionEntropy = []                        #初始化条件熵slpitInfo    = []                            #for C4.5,calculate gain ratooallFeatVList = []for f in xrange(Num_Feats):featList = [example[f] for example in dataSet][splitI,featureValueList] = self.computeSplitInfo(featList)allFeatVList.append(featureValueList)slpitInfo.append(splitI)resultGain = 0.0for value in featureValueList:subSet     = self.splitDataSet(dataSet,f,value)appearNum  = float(len(subSet))subEntropy = self.computeEntropy(subSet)resultGain += (appearNum/totality)*subEntropyConditionEntropy.append(resultGain)     #总条件熵infoGainArray    = BaseEntropy*ones(Num_Feats)-array(ConditionEntropy)infoGainRatio    = infoGainArray/array(slpitInfo) #c4.5 信息增益的计算bastFeatureIndex = argsort(-infoGainArray)[0]return bastFeatureIndex ,allFeatVList[bastFeatureIndex]#计算信息熵def computeEntropy(self,dataSet):              #计算香农熵datalen  = float(len(dataSet))cateList = [data[-1] for data in dataSet]  #从数据集中得到类别标签#得到类别为key，出现次数value的字典items    = dict([(i,cateList.count(i)) for i in cateList])infoEntropy = 0.0for key in items: #香农熵：=-p*log2(p) --infoEntropy = -prob*log(prob,2)prob = float(items[key])/dataleninfoEntropy -= prob*math.log(prob,2)return infoEntropy#（5）划分数据集：分割数据集；删除特征轴所在的数据列，返回剩余的数据集def splitDataSet(self,dataSet,axis,value):rtnList = []for featVec in dataSet:if featVec[axis] == value:rFeatVec     = featVec[:axis]    #list操作：提取0~（axis-1）的元素rFeatVec.extend(featVec[axis+1:])#lsit操作：将特征轴（列）之后的元素加回
                rtnList.append(rFeatVec)return rtnList                          #剔除已选择的一列#计算划分信息def computeSplitInfo(self,featureVList):numEntries = len(featureVList)featureValueSetList = list(set(featureVList))valueCount = [featureVList.count(featVec) for featVec in featureValueSetList]#caclulate shannonEntpList = [float(item)/numEntries from item in valueCount]lList [item*math.log(item,2) for item in pList]splitInfo = -sum(lList)return splitInfo,featureValueSetList

转载于:https://www.cnblogs.com/wuchuanying/p/6245115.html

郑捷《机器学习算法原理与编程实践》学习笔记（第三章决策树的发展）（二）_C4.5...相关推荐

郑捷《机器学习算法原理与编程实践》学习笔记（第七章预测技术与哲学）7.1 线性系统的预测...
7.1.1 回归与现代预测 7.1.2 最小二乘法 7.1.3 代码实现 (1)导入数据 def loadDataSet(self,filename): #加载数据集X = [];Y = []fr = ...
郑捷《机器学习算法原理与编程实践》学习笔记（第四章推荐系统原理）（三）SVD...
4.5.1 SVD算法回顾 A = U∑VT 其中:A是N*M的矩阵,U是M*M的方阵(里面向量正交,称为左奇异向量),∑是一个M*N的矩阵,VT是一个N*N的矩阵(里面向量正交,右奇异向量) 那么奇 ...
【机器学习】《统计学习方法》学习笔记第三章 k近邻法
第三章 k k k 近邻法(KNN) 多分类模型,思路是将最近的 N N N 个邻居的分类值中的多数作为自己的分类值.没有显式的学习过程. 三个基本要素:距离度量. k k k 值选择和分类决策规则. ...
《机器学习：算法原理与编程实践》的读书笔记：SMO部分最难，大部分代码基于Scikit-Learn，决策树其实用处不大
机器学习:算法原理与编程实践目录 [隐藏] 1 机器学习的基础 2 中文文本分类 3 决策树的发展 4 推荐系统原理 5 梯度寻优 6 神经网络初步 7 预测的技术与哲学 8 万能分类器:SVM 9 ...
OpenCV4机器学习算法原理与编程实战（附部分模型下载地址）
一直想找本书,能在机器学习复杂的算法原理和高效的编程实战之间达到合适的平衡:让感兴趣的同学拿到就有能用的代码,还有基本原理的介绍,因为了解原理才知道什么时候用什么算法最合适,以及如何调整参数. 一直没 ...
Python快速编程入门#学习笔记01# |第一章：Python基础知识（Python发展历程、常见的开发工具、import模块导入）
全文目录 ==先导知识== 1 认识Python 1.1.1 Python的发展历程 1.1.2 Python语言的特点 2. Python解释器的安装与Python程序运行 1.2.1 安装Pyth ...
Java编程思想学习笔记-第11章
<?xml version="1.0" encoding="utf-8"?> Java编程思想学习笔记-第11章 Java编程思想学习笔记-第11章 ...
Python快速编程入门#学习笔记03# |第二章：Python基础（代码格式、标识符关键字、变量和数据类型、数字类型以及运算符）
全文目录 ==先导知识== 学习目标: 2.1 代码格式 2.1.1 注释 2.1.2 缩进 2.1.3 语句换行 2.2 标识符和关键字 2.2.1 标识符 2.2.2 关键字 2.3 变量和数据类 ...
python画一片树叶的故事_《Python数据分析与机器学习实战-唐宇迪》读书笔记第7章--决策树...
第7章决策树决策树算法是机器学习中最经典的算法之一.大家可能听过一些高深的算法,例如在竞赛中大杀四方的Xgboost.各种集成策略等,其实它们都是基于树模型来建立的,掌握基本的树模型后,再去理解集成 ...
Opencv3编程入门学习笔记（三）之访问图像像素的三种方法
访问图像像素的三种方法:指针访问,迭代器访问,动态地址访问.访问最快的为指针访问,以下算法在几毫秒,但指针访问容易造成内存泄漏:其次为迭代器访问:最后为动态地址访问. 以下程序是根据<OpenC ...

郑捷《机器学习算法原理与编程实践》学习笔记（第三章决策树的发展）（二）_C4.5...

郑捷《机器学习算法原理与编程实践》学习笔记（第三章决策树的发展）（二）_C4.5...相关推荐

最新文章

热门文章

郑捷《机器学习算法原理与编程实践》学习笔记（第三章 决策树的发展）（二）_C4.5...

郑捷《机器学习算法原理与编程实践》学习笔记（第三章 决策树的发展）（二）_C4.5...相关推荐

最新文章

热门文章

郑捷《机器学习算法原理与编程实践》学习笔记（第三章决策树的发展）（二）_C4.5...

郑捷《机器学习算法原理与编程实践》学习笔记（第三章决策树的发展）（二）_C4.5...相关推荐