决策树算法

决策树算法类型:

决策树是一系列算法,而不是一个算法。
决策树包含了 ID3分类算法,C4.5分类算法,Cart分类树算法,Cart回归树算法。
决策树既可以做分类算法,也可以做回归算法。因此决策树既可以解决分类问题,也可以解决回归问题。

决策树的构成

决策树的基本组成部分包括:根节点,分节点,和叶子节点。


一般来讲,在决策树中,根节点和分节点使用方块表示,而叶子节点使用椭圆表示。
决策树的关键点在于如何取建立出一个树,如何建立出一个在可以达成目标的前提下深度最浅的树。

决策树中不同算法的介绍

CLS、ID3、C4.5、CART四种,其中ID3、C4.5、CART都采用贪心方法,其中决策树以自顶向下递归的分治方法构造,并且大多数决策树算法都采用这种自顶向下的方法。所谓贪心方法,通俗的讲就是在选取根节点时把所有的都计算一遍,使用穷举的方法找到最优

CLS算法简介

CLS是最早期的决策树算法,它并没有给出怎样确定根节点,只是给出了创建决策树的具体方法,其他三种算法是对CLS的优化和延伸。
CLS的基本流程:

  • 生成一棵空的决策树和一个训练集样本属性集。
  • 若训练集中所有样本都属于同一类,则生成一个叶子节点,终止算法。
  • 根据某种策略从训练集样本的属性中选择属性作为分裂属性,生成测试节点。
  • 根据测试节点的取值不同分为不同的的分支。
  • 从训练样本的属性中删除已经分裂过的属性。
  • 辗转至步骤 2 重复操作,直到分裂出所有的数据都属于同一类停止。

通俗点讲:
CLS就是从数据集中随机选择一列(等意于一个特征或一个属性),如果他所有的取值都属于同一类别,就终止,否则删除该列,再根据删除的列的取值分支进行分裂,直至所有的分裂都属于同一类别。

ID3分类算法简介

ID3主要针对于属性选择问题,使用信息增益度来选择分裂属性。

特点:

1.只能实现分类算法。
2.使用信息增益作为分裂属性的评判标准。
3.特征必须是离散数据。
4.树可以多分支(多叉树),即一个特征属性可以有多个取值,每个取值就是一个分支。
5.多分类算法(标签的取值可以大于2)

缺点

优先选择属性取值多的特征进行分裂

什么是信息增益熵?

信息量的计算公式:

信息出现的概率越大,表示它信息量就越少,即出现概率越小,信息量越大。比如当概率等于1时,信息量就等于 -log(1)

在信息论中,通常指数是以2为底,因此只需考虑图中的红色线即可。

对于熵的理解可以简化为 加权平均信息量。特征S的取值有N种,而每种可能出现的概率乘以他的信息量并相加就是加权平均信息量。

条件熵

相当于条件概率
1.先计算结果的熵值。
2.在计算已知某特征条件下的结果结果的熵值。

举例:
假设某 特征存在三个取值,标签有两个取值。
1.先计算出该特征三个取值的概率:p1,p2,p3.
2.计算每一个取值下结果的熵值。
3.条件熵=三个取值结果下的三个熵值的加权平均。

信息增益

信息增益的作用就是确定作为根节点的特征,用结果的熵值减去已知特征的情况下结果的条件熵计算公式:

Gain(特征) = H(结果) - H( 结果 | 特征 )
结论:选择信息增益最大的作为根节点

ID3建树流程

总结:
1.假设存在一个包含若干特征,一个标签的数据集。
2.对标签计算出结果熵值。
3.对所有特征中的取值计算出对应结果的条件熵。
4.计算每个特征的信息增益,选出最大值作为根节点。
5.将分裂完成的特征列删除,如果结果为同一类,结束算法。
6.如果不是同一类,则继续计算剩下的特征的信息增益,选取最大的作为下一次分裂的特征。
7.重复计算信息增益,选择特征进行分裂,直到所有叶子节点为同一类结束。





C4.5分类算法简介

在ID3的基础上做了一些优化,通过使用信息增益率选择分裂属性,克服了ID3算法中通过信息增益无法处理很多属性值的数据的缺陷,信息增益率能够处理离散数据和连续数据,还能处理有确实属性的训练数据。

信息增益率

信息增益率能够有效避免倾向于选择拥有多个属性值的样本
信息增益率公式:
Gainraio(特征) = Gain(特征) / H(特征)
选择增益率最大的特征作为根节点,使用流程和使用信息增益的流程一样

连续值处理

对于连续型数据的处理,不再使用信息增益率处理,而使用下面的这种方式:

1.假设某一特征中存在N个连续型数据。
2.将这一列数据去重后升序排序。
3.求出相邻两个值的均值,这样可以得到N-1个数据。
4.先使用第一个数据,计算小于第一个数据的值的条件熵和大于第一个数据的条件熵,在计算出该数据的信息增益。
5.以此计算剩下N-2个数据的信息增益。
6.当比较信息增益,选择最大的信息增益对应的属性值作为分裂点(比如有一列为密度的特征,当密度=0.318时信息增益是最大的,选择这个点为分裂点,这是它的取值就变成了小于0.318的和大于等于0.318的两类,再进行分裂)

总结

信息增益率可以处理属性值特别多的特征;离散数据在经过分裂后会被删除,但是经过连续值处理后的数据分裂后不会被删除,后续还能作为属性划分。

缺点

通过上述处理,只能将连续特征进行二分处理,依然是只能实现分类算法,下面的算法又进行了改进,可以实现处理分类算法和回归算法。

CART算法

CART可以实现分类和回归算法,sklearn中分别为Classification 和Regression Tree

CART算法特点
  • 分类算法中使用基尼系数,作为分裂属性的评断标准。
  • 回归算法中使用平法误差,作为分裂属性的评断标准。
  • 树是二叉树。
  • 是多分类算法
  • 基尼与熵的关系:基尼与熵的趋势一致,基尼也成为熵之半,因此基尼的运算更加简单。
基尼系数

基尼系数公式:

基尼值代表了模型的不纯度,基尼值越小,则不纯度越低,特征越好。基尼值=样本被选中的概率-样本被分错的概率,用公式表示为

基尼系数针对的是二分类,只会分为是或否。对于某一个特征,特征里面的所有取值都要计算一下对应结果的基尼值,然后计算基尼系数,选取最小的作为分裂节点

基尼系数只能在分类算法中使用

平方误差

使用平方误差计算的是二分类回归算法,对连续性的标签进行处理,具体步骤为:

1.先选取某一个特征的若干个取值进行计算,类似于条件熵,在已知取值的情况下结果的平均误差。
2.选取平均误差小的作为分裂节点。
3.在判断左节点如果小于等于三条,则终止左子树的分裂,如果大于3,就继续判断该节点的变换系数,如果小于0.1就停止左子树分裂,否则继续分裂,右子树同理。
4.删除分裂过的特征,继续判断剩下的特征哪个取值平均误差最小。
5.直到变换系数小于0.1或行数小于3时停止,如果停止时标签仍然有两个以上的值,那么就取其均值作为结果。

平方误差计算流程
因为是二分类,所以只分为是和否,分类为是的计算出平均误差加上分类为否的平均误差就是该节点平均误差。平均误差的公式为:( X - X均值 )**2,也可称为N次方差。
变换系数:也称为离散系数或者变化系数,离散系数等于标准差除以均值,但是在平均误差中使用的时平均误差除以均值。

缺失值处理

在缺失值处理中使用最多的就是权重,下面以信息增益为例:
1.比如某一特征有缺失值,在计算该列的信息增益时要先把有缺失值的行去掉,计算剩下的行信息增益

2.其余特征有缺失值也是这样计算

3.通过对比计算出的信息增益,选择最大的作为根节点,但是这只是选择根节点的方法

4.选择出根节点后,根据取值进行分裂

5.比如根节点列有两个缺失值,分了三个分支,每个分支上的数据数目分别为7,5,3;这个时候要把缺失值加回来,因为缺失值对应的行还有结果信息,后续选择还需要使用,每个分支都要加上两个缺失值,三个分支上的数据就变成了9,7,5;

6.数据每一行的权重都是1,但是有缺失值就不一样了,由于每个分支上的无缺失数据有7,5,3;两个缺失值的权重就变成了:分支数据个数/(7+5+3+2),也就是7/15,5/15,3/15,无缺值的权重还是1


7.在根据权重分别计算剩余特征的信息增益,去除要计算特征的缺失值,首先计算结果的熵,H(结果) = -p1log(p1) - p2log(p2),公式中的概率p需要根据权重来计算,p = 非缺失值权重 / 总权重 ,p1 = (4 + 7/15) / (5 + 2 * 7/15),条件熵的计算同理,再选择信息增益最大的进行分裂,重复加权计算的过程

缺失值的处理还是比较麻烦的,在数据量足够多的情况下,还是建议直接删除有缺失的行

决策树基于sklearn实现

决策树特点

  • 使用垂直于特征值进行分裂
  • 可以产生树结构,可视化效果好【0基础人可以理解算法预测过程】
  • 不需要标准化
  • 可以自动忽略掉对目标没有贡献的属性

决策树-分类树基于sklearn实现

import pandas as pd
from sklearn.model_selection import train_test_split
#分类树
from sklearn.tree import DecisionTreeClassifier#数据集的读取
work_data=pd.read_csv('./HR_comma_sep.csv')
work_data['department1']=work_data['department'].astype('category').cat.codes
work_data['salary1']=work_data['salary'].astype('category').cat.codes
x=work_data[['satisfaction_level', 'last_evaluation', 'number_project','average_montly_hours', 'time_spend_company', 'Work_accident','promotion_last_5years', 'department1','salary1']]
y=work_data['left']#数据拆分
X_train, X_test, y_train, y_test = train_test_split(x,  # 特征y,  # 标签test_size=0.2,  # 给测试集分配多少数据random_state=1,stratify=y,  # 分层  保证拆分前后各类别的比例一致
)#决策树
start_time=time.time()
dt = DecisionTreeClassifier()
dt.fit(X_train,y_train)
print("决策树预测准确率", dt.score(X_test, y_test))
end_time=time.time()
print("决策树用时", end_time-start_time)

决策树-回归树基于sklearn实现

import pandas as pd
from sklearn.model_selection import train_test_split
#回归树
from sklearn.tree import DecisionTreeRegressor
#数据的获取
selery_data=pd.read_excel('./job.xlsx',sheet_name=1)
name = selery_data['语言'].astype("category").cat.categories
selery_data['语言1']=selery_data['语言'].astype("category").cat.codes
selery_data['学历1']=selery_data['学历'].astype("category").cat.codes
x1=selery_data[['语言1','工作经验(年)','学历1']].values
y1=selery_data['最高薪资(元)'].values
#数据的拆分
X_train1, X_test1, y_train1, y_test1 = train_test_split(x1,  # 特征y1,  # 标签test_size=0.2,  # 给测试集分配多少数据random_state=1,# stratify=y1,  # 分层  保证拆分前后各类别的比例一致
)
#回归树
dt=DecisionTreeRegressor()
alg.fit(X_train1, y_train1)
print("回归树准确率", alg.score(X_test1, y_test1))

决策树最优参数的寻找

import pandas as pd
from sklearn.model_selection import train_test_split
#分类树
from sklearn.tree import DecisionTreeClassifier
#网格搜索
from sklearn.model_selection import GridSearchCV#数据集的读取
work_data=pd.read_csv('./HR_comma_sep.csv')
work_data['department1']=work_data['department'].astype('category').cat.codes
work_data['salary1']=work_data['salary'].astype('category').cat.codes
x=work_data[['satisfaction_level', 'last_evaluation', 'number_project','average_montly_hours', 'time_spend_company', 'Work_accident','promotion_last_5years', 'department1','salary1']]
y=work_data['left']#数据拆分
X_train, X_test, y_train, y_test = train_test_split(x,  # 特征y,  # 标签test_size=0.2,  # 给测试集分配多少数据random_state=1,stratify=y,  # 分层  保证拆分前后各类别的比例一致
)
#网格搜索最优参数探索
dt = DecisionTreeClassifier()
param_grid = {"criterion": ["gini", "entropy"], "max_depth": [3, 5, 6, 7, 9]}
gird = GridSearchCV(dt, param_grid)
gird.fit(X_train, y_train)
print("最好的参数", gird.best_params_)#交叉验证探索最优参数
from sklearn.model_selection import cross_val_score
for max_depth in [3, 5, 6, 7, 9]:for criterion in ["gini", "entropy"]:dt = DecisionTreeClassifier(max_depth=max_depth, criterion=criterion)score = cross_val_score(dt, X_train, y_train, cv=5).mean()# print(score)print("深度是{} 准则{} 得分是{}".format(max_depth, criterion, score))#分类树
start_time=time.time()
dt = DecisionTreeClassifier()
dt.fit(X_train,y_train)
print("决策树预测准确率", dt.score(X_test, y_test))
end_time=time.time()
print("决策树用时", end_time-start_time))

决策树输出树

# 将算法模型dt 导出到 dot文件中
from sklearn.tree import export_graphviz
export_graphviz(dt, 'titanic.dot',feature_names=["pclass", "age", "sex"],feature_names=["舱位", "年龄", "性别"],max_depth=5,  # 树的深度class_names=['死亡', '生存']  # 类别名称
)#使用以下命令将生成的 titanic.dot转为图片格式
# dot -Tpng tree.dot -o tree.png

Python机器学习--算法--决策树算法相关推荐

  1. 机器学习算法——决策树算法详细介绍,并使用sklearn实现案例预测,可视化决策树

    目录 一.决策树算法简介 二.决策树分类原理 1.熵 1.1 概念 1.2 案例 2.决策树的划分依据一:信息增益 2.1 概念 2.2 案例: 3.决策树的划分依据二:信息增益率 3.1 概念 3. ...

  2. 机器学习算法:决策树算法

    1.基本定义   决策树(Decision Tree)是一种基本的分类和回归算法.该算法模型呈树形结构,主要由结点和有向边组成.结点又分为两种类型:内部结点和叶子结点.内部结点表示在一个属性或特征上的 ...

  3. python决策树实例_Python机器学习之决策树算法实例详解

    本文实例讲述了Python机器学习之决策树算法.分享给大家供大家参考,具体如下: 决策树学习是应用最广泛的归纳推理算法之一,是一种逼近离散值目标函数的方法,在这种方法中学习到的函数被表示为一棵决策树. ...

  4. 机器学习:决策树算法(ID3算法)的理解与实现

    机器学习:决策树算法(ID3算法)的理解与实现 文章目录 机器学习:决策树算法(ID3算法)的理解与实现 1.对决策树算法的理解 1.概述 2.算法难点 选择最优划分属性 1.信息熵 2.信息增益 2 ...

  5. Python中应用决策树算法预测客户等级

    ​机器学习越来越多地在企业应用,本文跟大家分享一个采用python,应用决策树算法对跨国食品超市顾客等级进行预测的具体案例.如果想先行了解决策树算法原理,可以阅读文章决策树-ID3算法和C4.5算法. ...

  6. How To Implement The Decision Tree Algorithm From Scratch In Python (从零开始在Python中实现决策树算法)

    How To Implement The Decision Tree Algorithm From Scratch In Python 原文作者:Jason Brownlee 原文地址:https:/ ...

  7. 计算机书籍-Python机器学习算法大全

    书名:Python机器学习算法 作者:赵志勇 出版社: 电子工业出版社 ISBN:9787121313196 去当当网了解

  8. 回归素材(part8)--python机器学习算法

    学习笔记,仅供参考,有错必纠 文章目录 python机器学习算法 基本线性回归 线性回归的模型 线性回归模型的损失函数 线性回归的最小二乘法 线性回归的最小二程解法 牛顿法 基本牛顿法原理 基本牛顿法 ...

  9. 机器算法有哪几种 python_8种顶级Python机器学习算法-你必须学习

    今天,我们将更深入地学习和实现8个顶级Python机器学习算法. 让我们开始Python编程中的机器学习算法之旅. 8 Python机器学习算法 - 你必须学习 以下是Python机器学习的算法: 1 ...

最新文章

  1. tomcat mysql数据源_Tomcat mysql 配置数据源
  2. MATLAB 中搭建MatConvNet运行环境(调用GPU运行)以及遇到的错误
  3. 菜鸟也要懂点设计模式|用Python设计一个请假模式
  4. 3. PDOStatement 对象
  5. linux shell 常用命令总结
  6. 微宝球型机器人功能_《宇宙机器人 无线控制器使用指南》评测:与次世代的美好初恋...
  7. MASM8.0 下载安装方法
  8. ArcGIS教程:按单个值进行重分类
  9. 高效的六面体变换算法实现(一) —— 等圆柱映射 与 六面体映射
  10. RabbitMQ 快速入门指南
  11. 【Web】CSS(No.21)Css经典案例(三)《爱宠知识》
  12. 惠新宸php教程_【转载】惠新宸:PHP在百度的应用现状及展望
  13. FCOS搭建环境bug
  14. sqlserver实现只查询一条数据
  15. ps制作浮雕和投影效果
  16. 联通数科一面+二面+面谈 经验分享 base济南
  17. 2022-04-07 西安 javaSE(04) 方法可变参数、重载、递归,数组、冒泡排序、二分查找、动态操作,二维数组、jvm内存区域划分
  18. OUC离散数学II实验二(Python+Cpp)
  19. 转行IT行业怎么学习比较好
  20. Terraria及tModloader开服教程

热门文章

  1. Python对下周几本周几等进行中文日期解析
  2. 七条融资中的孙子兵法
  3. c语言中函数isalpha,isalpha C语言中isalnum()函数和isalpha()函数的对比
  4. pdf.js详细解析
  5. Qt之标准对话框(QMessageBox、QFileDialog)
  6. FPT:又是借鉴Transformer!这次多方向融合特征金字塔 | ECCV 2020
  7. 把HTML5静态网页部署到阿里云服务器
  8. Android 数据储存的方式之本地数据库储存
  9. android root权限注册,安卓root权限获取的方法【图文教程】
  10. html td中加label,label标签注意