数据挖掘习题之决策树算法

根据processed.cleveland.data数据进行数据挖掘操作
UCI公开数据集-heartdisease，属性信息如下：
1.#3(age)
2.#4(sex)
3.#9(cp)
4.#10(trestbps)
5.#12(chol)
6.#16(fbs)
7.#19(restecg)
8.#32(thalach)
9.#38(exang)
10.#40(oldpeak)
11.#41(slope)
12.#44(ca)
13.#51(thal)
14.#58(num)(thepredictedattribute)
数据集参考网址：https://archive.ics.uci.edu/ml/datasets/Heart+Disease

import math
import operatordef calcShannonEnt(dataset):numEntries = len(dataset)labelCounts = {}for featVec in dataset:currentLabel = featVec[-1]if currentLabel not in labelCounts.keys():labelCounts[currentLabel] = 0labelCounts[currentLabel] +=1shannonEnt = 0.0for key in labelCounts:prob = float(labelCounts[key])/numEntriesshannonEnt -= prob*math.log(prob, 2)return shannonEntdef CreateDataSet():#字符串转化浮点数def safe_float(number):try:return float(number)except:return None#读取数据dataset=[]with open('processed.cleveland.data') as read_file:for line in read_file:line=line.replace('\n','').split(',')line=list(map(safe_float,line))dataset.append(line)labels = ['age','sex','cp','trestbps','chol','fbs','restecg','thalach','thalach','exang','oldpeak','slope','ca','thal','num']return dataset, labelsdef splitDataSet(dataSet, axis, value):retDataSet = []for featVec in dataSet:if featVec[axis] == value:reducedFeatVec = featVec[:axis]reducedFeatVec.extend(featVec[axis+1:])retDataSet.append(reducedFeatVec)return retDataSet
def majorityCnt(classList):classCount ={}for vote in classList:if vote not in classCount.keys():classCount[vote]=0classCount[vote]=1sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True) return sortedClassCount[0][0]def chooseBestFeatureToSplit(dataSet):numberFeatures = len(dataSet[0])-1baseEntropy = calcShannonEnt(dataSet)bestInfoGain = 0.0;bestFeature = -1;for i in range(numberFeatures):featList = [example[i] for example in dataSet]uniqueVals = set(featList)newEntropy =0.0for value in uniqueVals:subDataSet = splitDataSet(dataSet, i, value)prob = len(subDataSet)/float(len(dataSet))newEntropy += prob * calcShannonEnt(subDataSet)infoGain = baseEntropy - newEntropyif(infoGain > bestInfoGain):bestInfoGain = infoGainbestFeature = ireturn bestFeaturedef createTree(dataSet, labels):classList = [example[-1] for example in dataSet]if classList.count(classList[0])==len(classList):return classList[0]if len(dataSet[0])==1:return majorityCnt(classList)bestFeat = chooseBestFeatureToSplit(dataSet)bestFeatLabel = labels[bestFeat]myTree = {bestFeatLabel:{}}del(labels[bestFeat])featValues = [example[bestFeat] for example in dataSet]uniqueVals = set(featValues)for value in uniqueVals:subLabels = labels[:]myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value), subLabels)return myTreeMyData,label = CreateDataSet()#决策树ID3
createTree(MyData,label)

运行结果：

数据挖掘习题之决策树算法相关推荐

数据挖掘算法之决策树算法总结
机器学习中,决策树是一个预测模型:它代表的是对象属性值与对象值之间的一种映射关系.树中每个节点表示某个对象,每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应具有上述属性值的子对象.决策树仅有单 ...
二叉树剪枝_数据挖掘算法：决策树算法如何学习及分裂剪枝
1.决策树模型与学习决策树(decision tree)算法基于特征属性进行分类,其主要的优点:模型具有可读性,计算量小,分类速度快.决策树算法包括了由Quinlan提出的ID3与C4.5,Brei ...
【数据挖掘】决策树算法简介 ( 决策树模型 | 模型示例 | 决策树算法性能要求 | 递归创建决策树 | 树根属性选择 )
文章目录 I . 决策树模型 II . 决策树模型示例 III . 决策树算法列举 IV . 决策树算法示例 V . 决策树算法性能要求 VI . 决策树模型创建 ( 递归创建决策树 ) VII ...
ID3和C4.5分类决策树算法 - 数据挖掘算法（7）
(2017-05-18 银河统计) 决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来判断其可行性的决策分析方法,是直观运用概率分析的一种图解法.由于这种决策分支画 ...
决策树C4.5算法 c语言实现,数据挖掘十大经典算法(1) C4.5_决策树算法
数据挖掘十大经典算法(1) C4.5_决策树算法机器学习中,决策树是一个预测模型:他代表的是对象属性与对象值之间的一种映射关系.树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每 ...
机器学习（周志华）西瓜书课后习题4.3 信息熵决策树算法——python实现（包括树的可视化）
机器学习(周志华)西瓜书课后习题4.3 信息熵决策树算法--python实现(包括树的可视化) 算法原理 1.信息熵 2.信息增益我们所以要做的就是不断地从当前剩余的属性当中选取最佳属性对样本集进 ...
《机器学习》西瓜书课后习题4.3——python实现基于信息熵划分的决策树算法（简单、全面）
<机器学习>西瓜书课后习题4.3--python实现基于信息熵划分的决策树算法 <机器学习>西瓜书P93 4.3 试编程实现基于信息熵进行划分选择的决策树算法,并为表4.3中数 ...
【数据挖掘】-决策树算法+代码实现（七）
目录从例子出发算法原理算法的优缺点关于剪枝代码实现随机森林.GBDT.XGBOOST 总结决策树(decision tree):是一种基本的分类与回归方法,此处主要讨论分类的决策树. 在 ...
周志华《机器学习》习题4.4——python实现基于信息熵进行划分选择的决策树算法
1.题目试编程实现基于信息熵进行话饭选择的决策树算法,并为表4.3中数据生成一棵决策树. 表4.3如下: 另外再附个txt版的,下次可以复制粘贴: 青绿,蜷缩,浊响,清晰,凹陷,硬滑,0.697,0 ...

数据挖掘习题之决策树算法

数据挖掘习题之决策树算法相关推荐

最新文章

热门文章