基尼指数和信息熵都是用来描述系统混乱度的量  数学形式不一样,干的事是一样的

不纯度(impurity)--GINI系数:(不纯度就是混乱度)

公式

例子(与信息熵干的是一件事)

决策树模型理解

二、决策树的学习(训练)过程
一棵决策树的生成过程主要分为以下3个部分:

特征选择:特征选择是指从训练数据中众多的特征中选择一个特征作为当前节点的分裂标准,如何选择特征有着很多不同量化评估标准标准,从而衍生出不同的决策树算法。

决策树生成: 根据选择的特征评估标准,从上至下递归地生成子节点,直到数据集不可分则停止决策树停止生长。 树结构来说,递归结构是最容易理解的方式。

剪枝:决策树容易过拟合,一般来需要剪枝,缩小树结构规模、缓解过拟合。剪枝技术有预剪枝和后剪枝两种。

第一步:如何切分特征(选择节点)--特征选择

问题:根节点的选择该用哪个特征呢?接下来呢?如何切分呢?

目标:通过一种衡量标准,来计算通过不同特征进行分支选择后的分类情况,找出来最好的那个当成根节点,以此类推。

衡量标准-熵、GINI系数(不纯度)

熵:熵是表示随机变量不确定性的度量
   解释:说白了就是事物内部的混乱程度。

如何决策一个节点的选择呢?(如何确定一个分裂是最好的)

所以需要通过   特征挑选方法(信息增益法+增益率)

选择具有最高信息增益的特征作为测试特征,利用该特征对节点样本进行划分子集,会使得各子集中不同类别样本的混合程度最低,在各子集中对样本划分所需的信息(熵)最少(通过这样生成最优决策树)

 

(注意,信息增益既可以用熵也可以用GINI系数来计算)

决策树之基尼指数理解相关推荐

  1. 【机器学习】采用信息增益、信息增益率、基尼指数来建造决策树。

    目录 一.创建数据集 二.构造决策树(诊断是否复发乳腺癌) 1.信息增益生成决策树 (ID3算法) 信息熵 信息增益(ID3算法) 2.信息增益率决策树(C4.5) 3.基尼指数(CART算法 - 分 ...

  2. 决策树(信息熵、增益率、基尼指数)

    目录 前言 一.决策树是什么? 二.实验过程 1.选择数据集中各个决策属性的优先级 1.1信息熵 1.2增益率 1.3基尼指数 2.决策树的构造 2.1创建决策树: 2.2准备数据: 2.3.读取和保 ...

  3. 决策树信息增益|信息增益比率|基尼指数实例

    今天以周志华老师的西瓜为例,复盘一下三种决策树算法. 文章目录 信息增益(ID3算法) 信息增益比率(C4.5算法) 基尼指数(CART算法) 数据: 信息增益(ID3算法) 信息熵表示信息的混乱程度 ...

  4. 基尼指数——基尼系数是指国际上通用的、用以衡量一个国家或地区居民收入差距的常用指标。基尼系数介于0-1之间,基尼系数越大,表示不平等程度越高。...

    基尼系数是指国际上通用的.用以衡量一个国家或地区居民收入差距的常用指标.基尼系数介于0-1之间,基尼系数越大,表示不平等程度越高. 收入基尼系数 其具体含义是指,在全部居民收入中,用于进行不平均分配的 ...

  5. AI基础:信息熵、信息增益、信息增益率、基尼指数

    给实习生聊到决策树.GBDT,有几个概念这里再用易懂的方式解释下 文章目录 信息熵 条件熵 信息增益 信息增益率 基尼指数 信息熵是决策树的基础 信息增益-ID3算法构建决策树 信息增益率-C4.5算 ...

  6. 机器学习——基尼指数

    定义:基尼指数(基尼不纯度):表示在样本集合中一个随机选中的样本被分错的概率. 注意: Gini指数越小表示集合中被选中的样本被分错的概率越小,也就是说集合的纯度越高,反之,集合越不纯. 即 基尼指数 ...

  7. 机器学习与scikit-learn-13]:算法 - 分类的本质与样本分布的离散程度的指标:纯度、信息熵、 基尼指数.

    作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客 本文网址: 目录 第1章 分类问题的本质 1.1 多特征样本的本质 1.2 分类的本质 第2章  纯度(pu ...

  8. 熵(Entropy)、信息熵增益、信息熵增率和基尼(Gini)指数

    文章中的这些概念为衡量特征(属性)选择的方法,特征选择在于选取对训练数据具有分类能力的特征,提高决策树学习的效率,特征选择是决定用哪个特征来划分特征空间. 文章目录 信息熵(information e ...

  9. 机器学习:信息熵,基尼系数,条件熵,条件基尼系数,信息增益,信息增益比,基尼增益,决策树代码实现(一)

    文章目录 初始化,涉及到使用的变量: 信息熵 定义公式,经验公式 代码: 基尼系数 定义公式,经验公式 代码: 条件熵,条件基尼系数 条件熵定义公式,经验公式 条件基尼系数定义公式,经验公式 代码: ...

最新文章

  1. Xamarin ios 教程 Xamarin跨平台开发 C#苹果应用开发
  2. 性能监控工具 NewRelic 简介
  3. Sql Server 日志清理 (数据库压缩方法)
  4. javascript中定义事件的三种方式
  5. 海上瓶子下有东西吗_小小的瓶盖竟有如此大的作用, 闻名不如眼见, 你知道吗?...
  6. SpringMVC 实例应用 -- 不同方式控制器实现与参数传递
  7. 如何用VMware搭建HA和DRS环境(第一篇;序)
  8. citrix+netscaler配置第一次培训
  9. Python+OpenCV:仿射变换和透射变换
  10. 参数化测试 junit_JUnit参数化测试
  11. 算数计算机在线应用,数学计算器
  12. iOS开发之UILabel的使用
  13. 注入漏洞之sql注入漏洞
  14. 求oracle学习资料(最好是视频)
  15. js正则表达式验证省份证信息
  16. FlashFXP 5.4.0注册码
  17. Ramnit 蠕虫分析
  18. docker swarm的常用操作
  19. select属性标签
  20. 什么是程序员的核心竞争力?

热门文章

  1. c++win32项目 如何显示后再删除一个绘图_【AC学习】当乐高遇上BIM(7):绘图中的数据展示...
  2. 苹果承认部分新款iPad Pro轻微弯曲 但不影响性能
  3. mvc html. 计算,MVC原理之计算器
  4. 在python中函数不可以嵌套调用_在Python中调用嵌套函数
  5. 一种奇特的DEDE隐藏后门办法
  6. @我的前任是个极品 微博分析
  7. 判断按钮的点击和抬起
  8. Android面试题基础集锦《一》
  9. linux - 搭建部署ftp服务器
  10. 打造人气餐厅必读:餐饮空间设计三大特性-餐饮全案设计分享