自编程实现决策树（使用ID3算法）

不使用sklearn中的决策树方法，根据以下数据集自己编写决策树构建程序（建议用python语言）。

Tid	Refund	Marital Status	Taxable Income	Cheat
1	yes	single	125k	no
2	no	married	100k	no
3	no	single	70k	no
4	yes	married	120k	no
5	no	divorced	95k	yes
6	no	married	60k	no
7	yes	divorced	220k	no
8	no	single	85k	yes
9	no	married	75k	no
10	no	single	90k	yes

过程记录

一开始不知道要从哪里开始下手，自己开始逐步摸索，首先将老师给的数据存到了Excel表格中，之后通过pandas的read_excel()函数读入，并拿到了各属性列的数据，但是之后就没大有思路了（怪自己没有将本次实验内容与老师上课所讲内容好好结合），于是在百度上搜索自编程实现决策树，发现可以用ID3算法实现，于是就去仔细看了下ID3算法是什么，发现就是老师上课讲的内容根据信息熵计算信息增益，然后选取信息增益最大的进行分类，重复此过程！ID3算法数值分析过程这篇博客讲的过程十分清晰,之后开始着手写信息熵和信息增益的计算

import pandas as pd
import numpy as npdef get_entropy(data, name):# 找出该属性列的唯一值data_items =  data[name].unique().tolist()entropy_items = 0for item in data_items:# 对每个不同item属性值求信息熵data_item = data[data[name] == item]sums_item_no = data_item[data_item['Cheat'] == 'no'].shape[0]sums_item_yes = data_item[data_item['Cheat'] == 'yes'].shape[0]sums_item_no_p = sums_item_no / (sums_item_no + sums_item_yes)sums_item_yes_p = sums_item_yes / (sums_item_no + sums_item_yes)# 计算不同item属性值的信息熵if sums_item_no_p == 0 or sums_item_yes_p == 0:  # 这里要处理子数据集为空的情况；这里暂未处理entropy_item = 0else:entropy_item = -np.log2(sums_item_no_p) * sums_item_no_p - np.log2(sums_item_yes_p) * sums_item_yes_p# 计算改item属性值所占概率item_p = data_item.shape[0] / sums# 计算信息增益entropy_items += item_p * entropy_itemreturn entropy_itemsif __name__ == '__main__':inputfile = 'D:\shujuwajue\data.xls'data = pd.read_excel(inputfile, index_col=u'Tid')# 找出各属性列的唯一属性值refunds = data['Refund'].unique().tolist()print(refunds)marital_status = data['Marital Status'].unique().tolist()print(marital_status)taxable_income = data['Taxable Income'].unique().tolist()print(taxable_income)cheat = data['Cheat'].unique().tolist()print(cheat)# 总记录数sums = data.shape[0]print(sums)# 结果Cheat为no、yes的记录数sums_no = data[data['Cheat'] == 'no'].shape[0]sums_yes = data[data['Cheat'] == 'yes'].shape[0]# 结果Cheat为no、yes的概率sums_no_p = sums_no / sumssums_yes_p = 1 - sums_no_p# 一开始未划分时信息熵entropy = -np.log2(sums_no_p) * sums_no_p - np.log2(sums_yes_p) * sums_yes_pprint(entropy)# 调用编写的get_entropy函数获取据该属性划分信息熵、信息增益entropy_Refund = get_entropy(data, 'Refund')gain_entropy_refund = entropy - entropy_Refundprint(gain_entropy_refund)entropy_Marital_Status = get_entropy(data, 'Marital Status')gain_entropy_Marital_Status = entropy - entropy_Marital_Statusprint(gain_entropy_Marital_Status)entropy_income = get_entropy(data, 'Taxable Income')gain_entropy_income = entropy - entropy_incomeprint(gain_entropy_income)

根据输出结果发现由于Taxable Income的值是间断的，每个值都唯一，所以不能用data[‘Taxable Income’].unique().tolist()取出唯一值据此划分，观察了下数据以85k为分界点,将data[‘Taxable Income’]分为>=85k和<85k，由于对字符串大小进行比较时是从字符串的第一个字母开始的，所以对字符串长度不等的数据先用0进行了填充。

def set_income(data):data_income = data['Taxable Income'].drop_duplicates().tolist()for index in range(len(data_income)):f = '85k'l1 = len(data_income[index])l2 = len(f)if l1&gt;l2:for i in range(l1-l2):f = '0'+ felse:for i in range(l2-l1):data_income[index] = '0'+data_income[index]if data_income[index] >=f:data_income[index] = '>=85k'else:data_income[index] = '<85k'return data_income

为了方便以后的操作，将对Taxable Income列数据的划分结果存储到了Excel表的income列

data['income'] = None
# 根据Taxable Income中的值进行分类写入income属性列
data['income'] = set_income(data)
DataFrame(data).to_excel('D:/shujuwajue/data.xlsx', sheet_name='Sheet1', index=True, header=True)

注意：在向Excel表格中写入数据时，写入文件不能处于打开状态，不然的话会写入失败报错如下图：

写完未划分的信息熵和信息增益的计算之后，对下一步如何做没有了思路，怎样进一步划分，划分好了之后应该怎么做，怎样把划分结果存储下来，对于这些都没有明确的思路，于是再次在网上查找，找了很多博客，一开始觉得代码太长不想看，但是找了几个发现大概都这么长，恰巧又找到了一个文章排版比较好的博客决策树之ID3算法，于是耐下性子来看，因为有了上面求信息熵和信息增益的思路，所以理解起来不是太难，主要是要沉下心，对我自己来说比较难的是建树那一块，因为对字典不大了解，又去看了字典的相关操作，然后对自己不理解的语句打印输出一下，看一下这些语句是什么作用。最后有了清晰地理解，然后根据老师的要求对代码进行修改，同时添加修改了一些注释，对老师所给数据进行构建决策树，并使用了一条测试数据进行测试，成功！

最终代码

import pandas as pd
import numpy as np
from pandas import DataFrame# 设置income列
def set_income(data):data_income = data['Taxable Income'].drop_duplicates().tolist()for index in range(len(data_income)):f = '85k'l1 = len(data_income[index])l2 = len(f)if l1>l2:for i in range(l1-l2):f = '0'+ felse:for i in range(l2-l1):data_income[index] = '0'+data_income[index]if data_income[index] >=f:data_income[index] = '>=85k'else:data_income[index] = '<85k'return data_incomedef split_dataSet(dataSet, column, level):"""根据给定的column(列名属性名)和其level(属性值)来获取子数据集"""subdata = dataSet[dataSet[column] == level]del subdata[column]  # 删除这个划分字段列return subdata.reset_index(drop=True)  # 重建索引def entropy_init(data):"""计算给定数据集的熵"""labels = list(data.columns)level_count = data['Cheat'].value_counts().to_dict()  # 统计分类标签不同水平的值，一开始为：{'no': 7, 'yes': 3}entropy_i = 0.0for key, value in level_count.items():prob = float(value) / data.shape[0]entropy_i += -prob * np.log2(prob)return entropy_idef get_best_level(data, gain, count,index):"""计算每个分类标签的信息增益"""best_info_gain = 0.0  # 最大信息增益best_label = None  # 最大信息增益对应的标签(字段)labels = list(data.columns)[: index]  # 第一次为：['Refund', 'Marital Status', 'income']init_entropy = entropy_init(data)  # 先求靶标签的熵# 遍历用于分类的属性labelsfor i, label in enumerate(labels):# 根据该label(也即column字段)的唯一值(levels)来切割成不同子数据集，并求它们的香农熵levels = data[label].unique().tolist()  # 获取该分类标签的不同levellabel_entropy = 0.0  # 用于累加各水平的信息熵；分类标签的信息熵等于该分类标签的各水平信息熵与其概率积的和。for level in levels:  # 循环计算不同水平的信息熵level_data = data[data[label] == level]  # 获取该水平的数据集prob = level_data.shape[0] / data.shape[0]  # 计算该水平的数据集在总数据集的占比# 计算香农熵，并更新到label_entropy中label_entropy += prob * entropy_init(level_data)  # _entropy用于计算该水平数据集的熵# 计算信息增益info_gain = init_entropy - label_entropy  # 代码至此，已经能够循环计算每个分类标签的信息增益# 用best_info_gain来取info_gain的最大值，并获取对应的分类标签if info_gain > best_info_gain:best_info_gain = info_gainbest_label = label# 这里保存一下每一次计算的信息增益，便于查看和检查错误gain.setdefault(count, {})  # 建立本次函数调用时各属性增益，设其值value为字典，count代表第几次gain[count][label] = info_gain  # 把本次函数调用时计算的各个标签数据存到字典里count += 1return best_label,countdef top_amount_level(target_list):class_count = target_list.value_counts().to_dict()  # 计算靶标签的不同水平的样本量，并转化为字典# 字典的items方法可以将键值对转成[(), (), ...]，可以使用列表方法sorted_class_count = sorted(class_count.items(), key=lambda x: x[1], reverse=True)return sorted_class_count[0][0]def mktree(data,gain,count,index):"""创建决策树"""target_list = data['Cheat']  # target_list 靶标签的那一列数据# 程序终止条件一: 靶标签(数据集的最后一列因变量)在该数据集上只有一个水平，返回该水平if target_list.unique().shape[0] <= 1:return target_list[0]  # ！！！# 程序终止条件二: 数据集只剩下把标签这一列数据；返回数量最多的水平if data.shape[1] == 1:return top_amount_level(target_list)# 不满足终止条件时，做如下递归处理# 1.选择最佳分类标签best_label, count = get_best_level(data,gain,count,index)# 2.递归计算最佳分类标签的不同水平的子数据集的信息增益#   各个子数据集的最佳分类标签的不同水平...#   ...#   直至递归结束best_label_levels = data[best_label].unique().tolist()tree = {best_label: {}}  # 生成字典，用于保存树状分类信息；这里不能用self.tree = {}存储for level in best_label_levels:level_subdata = split_dataSet(data, best_label, level)  # 获取该水平的子数据集tree[best_label][level] = mktree(level_subdata,gain,count,index-1)  # 返回结果return treedef predict(tree, labels, test_sample):"""对单个样本进行分类tree: 训练的字典labels: 除去最后一列的其它字段test_sample: 需要分类的一行记录数据"""firstStr = list(tree.keys())[0]  # tree字典里找到第一个用于分类键值对secondDict = tree[firstStr]featIndex = labels.index(firstStr)  # 找到第一个建(label)在给定label的索引for key in secondDict.keys():if test_sample[featIndex] == key:  # 找到test_sample在当前label下的值# 判断secondDict[key]类型是否为字典，若为字典递归if secondDict[key].__class__.__name__ == "dict":classLabel = predict(secondDict[key], labels, test_sample)# secondDict[key]类型不是字典，则走到了树的叶子结点，即为结果else:classLabel = secondDict[key]return classLabelif __name__ == '__main__':# 文件目录inputfile = 'D:\shujuwajue\data.xlsx'data = pd.read_excel(inputfile, index_col=u'Tid')data['income'] = None# 根据Taxable Income中的值进行分类写入income属性列data['income'] = set_income(data)DataFrame(data).to_excel('D:/shujuwajue/data.xlsx', sheet_name='Sheet1', index=True, header=True)count =1# 存储每次建树前计算的信息增益gain={}# 建树(字典类型)tree = mktree(data,gain,count,3)print("tree:")print(tree)# 测试数据labels = ["Refund", "Marital Status", "income"]test_sample = ["no", "single", "100k"]  # [0, 1, 0, 0, "no"]# 划分income所属值的范围test_income = test_sample[2]f = '85k'l1 = len(test_income)l2 = len(f)if l1 > l2:for i in range(l1 - l2):f = '0' + felse:for i in range(l2 - l1):test_income = '0' + test_incomeif test_income >= f:test_income = '>=85k'else:test_income = '<85k'test_sample[2] = test_income# 预测值result = predict(tree,labels,test_sample)print("预测结果为:")print(result)print(gain)