给实习生聊到决策树、GBDT,有几个概念这里再用易懂的方式解释下

文章目录

  • 信息熵
  • 条件熵
  • 信息增益
  • 信息增益率
  • 基尼指数
  • 信息熵是决策树的基础

  • 信息增益-ID3算法构建决策树

  • 信息增益率-C4.5算法构建决策树

  • 基尼指数-Cart算法构建决策树

信息熵

  • 用另外一个词来说就是纯度,一个盒子里只有白球,说明这个盒子很纯,纯度很高。一个集合里只有一类样本,比如表示男女的样本集合U={男,男,…}都是男的,那么就说这个集合纯度很高。

  • 纯度相对于信息熵呢?首先熵,是热力学的概念,表示体系混乱度的度量,这个可以去百度哈,体系越混乱,熵越大。学过物理的一定听说过熵增熵减!

  • 信息熵:就是说信息的混乱程度,信息混乱程度越大,信息熵越大!对于纯度,就是信息熵越大,纯度越低!

  • 在信息论中,随机离散事件出现的概率存在着不确定性。为了衡量这种信息的不确定性,信息学之父香农引入了信息熵的概念。不确定性越大,信息熵越大

还是那个例子,一个盒子里只有白球,说明信息熵很低,纯度很高。那么此时,随着你一个一个往盒子里增加黑球,盒子里纯度就会越来越低,随之信息熵越来越高,啥时候达到最大呢,就是当黑球和白球数量相等的时候。

香农总结出一个信息熵量化的公式
H(X)=Entropy(x)=−ΣxxϵXp(x)log⁡p(x)H\left(X\right)=Entropy\left(x\right)=-\underset{x\epsilon X}{\overset{x}{\varSigma}}p\left(x\right)\log p\left(x\right) H(X)=Entropy(x)=−xϵXΣx​p(x)logp(x)

  • H表示信息熵的符号
  • 性质:单调性。概率越高的事件,其不确定性越低,携带的信息量越低,信息熵越低
  • 性质:非负性。信息熵可以看作为一种广度量,无需多言,总不能有负数信息熵吧
  • 性质:累加性,即多随机事件同时发生存在的总不确定性的量度是可以表示为各事件不确定性的量度的和,这也是广度量的一种体现

条件熵

熵按上文解释,表示随机变量的不确定性

条件熵,顾名思义,在一个条件下,随机变量的不确定

条件熵是在特定条件下的信息量的期望

信息增益

决策树中ID3算法就是用信息增益来选取树节点

信息增益 = 熵 - 条件熵。在一个条件下,信息不确定性减少的程度
Gain(Y,X)=H(Y)−H(Y∣X)Gain\left( Y,X \right) =H\left( Y \right) -H\left( Y|X \right) Gain(Y,X)=H(Y)−H(Y∣X)

其中H(Y|X)是条件熵
H(Y∣X)=ΣxϵXp(x)H(Y∣X=x)=−ΣxϵXp(x)ΣyϵYp(y∣x)log⁡p(y∣x)=−ΣxϵXΣyϵYp(y,x)log⁡p(y∣x)H\left( Y|X \right) =\underset{x\epsilon X}{\varSigma}p\left( x \right) H\left( Y|X=x \right) \\ \\ =-\underset{x\epsilon X}{\varSigma}p\left( x \right) \underset{y\epsilon Y}{\varSigma}p\left( y|x \right) \log p\left( y|x \right) \\ =-\underset{x\epsilon X}{\varSigma}\underset{y\epsilon Y}{\varSigma}p\left( y,x \right) \log p\left( y|x \right) H(Y∣X)=xϵXΣ​p(x)H(Y∣X=x)=−xϵXΣ​p(x)yϵYΣ​p(y∣x)logp(y∣x)=−xϵXΣ​yϵYΣ​p(y,x)logp(y∣x)

在决策树中信息增益通常有这样一个公式:
Gain(D,a)=Ent(D)−Σvv=1∣Dv∣∣D∣Ent(Dv)Gain\left( D,a \right) =Ent\left( D \right) -\underset{v=1}{\overset{v}{\varSigma}}\frac{|D^v|}{|D|}Ent\left( D^v \right) Gain(D,a)=Ent(D)−v=1Σv​∣D∣∣Dv∣​Ent(Dv)

  • 其中D是数据集,a是选择的属性,a中共有v个取值。

  • 信息增益在决策树里概念上的一个公式:信息增益=划分前信息熵 - 划分后信息熵。划分前信息熵就是H(D)对吧,这里也写做Ent(D),划分后的信息熵就是说根据某个属性进行划分后的信息熵,也就是所谓的条件熵H(D|a)

  • 决策树里ID3算法为啥选信息增益最大的作为划分点呢?划分前-划分后的值越大,不就说明你用这个方式划分减少的信息熵越大,不就说明划分后信息熵减少了,数据集纯度更纯了。所以就选信息增益最大的。

  • 再用个生活中的例子,暂且不考虑费用问题且陆路只有深圳有直达香港的列车,你从北京陆路前往香港,要转车的次数最少,那就希望每一趟车都行驶最大的距离对吧,这里就有个贪心的思想。ID3根据信息增益最大选取划分点就是这个思路

信息增益率

有些文献又叫信息增益比

上公式
信息增益率GainRatio(D,a)=Gain(D,a)IV(a)其中IV(a)=−ΣVv=1p(Dv)log⁡p(Dv)=−ΣVv=1∣Dv∣∣D∣log⁡∣Dv∣∣D∣,就等于H(a),只是含义不一样\text{信息增益率} \\ GainRatio\left( D,a \right) =\frac{Gain\left( D,a \right)}{IV\left( a \right)} \\ \text{其中}IV\left( a \right) =-\underset{v=1}{\overset{V}{\varSigma}}p\left( D^v \right) \log p\left( D^v \right) =-\underset{v=1}{\overset{V}{\varSigma}}\frac{|D^v|}{|D|}\log \frac{|D^v|}{|D|}\text{,就等于}H\left( a \right) \text{,只是含义不一样} 信息增益率GainRatio(D,a)=IV(a)Gain(D,a)​其中IV(a)=−v=1ΣV​p(Dv)logp(Dv)=−v=1ΣV​∣D∣∣Dv∣​log∣D∣∣Dv∣​,就等于H(a),只是含义不一样

就是给信息增益一个惩罚值,这里就是除以IV(a)IV(a)计算公式和H(a)一样,也就是求a的信息熵。那么如果a的信息熵越大,也就是特征a的混乱度很大,那它的信息增益率GainRatio(D,a)就会相对来说惩罚的越大。公式能看懂这些关系吧

  • ID3算法在数据集不充足,某些特征取值非常多的时候会有偏向性,就偏向特征取值非常多的那类特征

  • C4.5算法使用信息增益率。原理就是通过惩罚项来惩罚特征取值较多的属性值

  • 首先得说一个定理:大数定理,就是数据量或者样本量足够大的情况下,频率才可以近似概率。就比如我抛5次硬币,1次正,4此反,那你就能说接下来我抛硬币正的概率是1/5?不行的,实际上硬币正反的概率都是1/2,只有你抛百万次千万次,你计算你的正面概率才会更接近1/2

基尼指数

有些文章又叫基尼系数。。。有没有听过国家统计局的基尼系数?去百度下

决策树里的所谓基尼系数实际上是基尼指数,最好专业点别叫错

基尼指数实际上也是个表示数据集纯度的指标:基尼指数越小,数据集纯度越高

表示在样本集合中一个随机选中的样本被分错的概率。

举例来说,现在一个袋子里有2种颜色的球若干个,伸手进去掏出2个球,颜色不一样的概率,这下明白了吧。随机两个球对应公式里的就是kk'

  • 决策树中CART算法就是使用Gini来进行选举切分点
  • 关于决策树的CART算法这里不展开

AI基础:信息熵、信息增益、信息增益率、基尼指数相关推荐

  1. 【机器学习】采用信息增益、信息增益率、基尼指数来建造决策树。

    目录 一.创建数据集 二.构造决策树(诊断是否复发乳腺癌) 1.信息增益生成决策树 (ID3算法) 信息熵 信息增益(ID3算法) 2.信息增益率决策树(C4.5) 3.基尼指数(CART算法 - 分 ...

  2. 机器学习:信息熵,基尼系数,条件熵,条件基尼系数,信息增益,信息增益比,基尼增益,决策树代码实现(一)

    文章目录 初始化,涉及到使用的变量: 信息熵 定义公式,经验公式 代码: 基尼系数 定义公式,经验公式 代码: 条件熵,条件基尼系数 条件熵定义公式,经验公式 条件基尼系数定义公式,经验公式 代码: ...

  3. 决策树(信息熵、增益率、基尼指数)

    目录 前言 一.决策树是什么? 二.实验过程 1.选择数据集中各个决策属性的优先级 1.1信息熵 1.2增益率 1.3基尼指数 2.决策树的构造 2.1创建决策树: 2.2准备数据: 2.3.读取和保 ...

  4. 决策树信息增益|信息增益比率|基尼指数实例

    今天以周志华老师的西瓜为例,复盘一下三种决策树算法. 文章目录 信息增益(ID3算法) 信息增益比率(C4.5算法) 基尼指数(CART算法) 数据: 信息增益(ID3算法) 信息熵表示信息的混乱程度 ...

  5. 机器学习与scikit-learn-13]:算法 - 分类的本质与样本分布的离散程度的指标:纯度、信息熵、 基尼指数.

    作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客 本文网址: 目录 第1章 分类问题的本质 1.1 多特征样本的本质 1.2 分类的本质 第2章  纯度(pu ...

  6. 机器学习——基尼指数

    定义:基尼指数(基尼不纯度):表示在样本集合中一个随机选中的样本被分错的概率. 注意: Gini指数越小表示集合中被选中的样本被分错的概率越小,也就是说集合的纯度越高,反之,集合越不纯. 即 基尼指数 ...

  7. 基尼指数——基尼系数是指国际上通用的、用以衡量一个国家或地区居民收入差距的常用指标。基尼系数介于0-1之间,基尼系数越大,表示不平等程度越高。...

    基尼系数是指国际上通用的.用以衡量一个国家或地区居民收入差距的常用指标.基尼系数介于0-1之间,基尼系数越大,表示不平等程度越高. 收入基尼系数 其具体含义是指,在全部居民收入中,用于进行不平均分配的 ...

  8. 决策树之基尼指数理解

    基尼指数和信息熵都是用来描述系统混乱度的量  数学形式不一样,干的事是一样的 不纯度(impurity)--GINI系数:(不纯度就是混乱度) 公式 例子(与信息熵干的是一件事) 决策树模型理解 二. ...

  9. 熵(Entropy)、信息熵增益、信息熵增率和基尼(Gini)指数

    文章中的这些概念为衡量特征(属性)选择的方法,特征选择在于选取对训练数据具有分类能力的特征,提高决策树学习的效率,特征选择是决定用哪个特征来划分特征空间. 文章目录 信息熵(information e ...

最新文章

  1. Openwrt 刷机后配置WAN口,安装luci和设置中文、安装挂载USB存储。
  2. 工业机器人电柜布线_协作并联,重新注解并联机器人
  3. 吴恩达《神经网络与深度学习》精炼笔记(4)-- 浅层神经网络
  4. Dev-C++安装教程附免费安装包资源
  5. java 面向对象的特性 抽象_java面向对象的四个特性
  6. 如何在ASP.NET Core中建立有效的分页
  7. 导入工程时出现错误:Invalid project description http://berdy.iteye.com/blog/1115279...
  8. 学了python做什么自由职业者_我又有一位程序员朋友成了自由职业者
  9. 离散数学常见面试问题总结,含答案
  10. 如何创建计算机的桌面快捷方式,怎样创建桌面快捷方式 创建桌面快捷方式N种方法...
  11. 微信 java抓取_【java】微信文章抓取
  12. ESP8266-Arduino编程实例-TTP223 电容式触摸传感器驱动
  13. 计算机网络丢包排查,ping命令图文教程,电脑测试网络丢包延迟,检测网络故障通不通...
  14. 多可文档管理软件权限说明(4)——权限累加规则
  15. 公式法求递归算法的时间复杂度
  16. FIP: A fast overlapping community-based influence maximization algorithm using probability coefficie
  17. opencv学习笔记三十六:AKAZE特征点检测与匹配
  18. (休息几天)读曼昆之微观经济学——供求关系
  19. tplogin服务器未响应,TP-Link路由器的管理页面打不开怎么办?
  20. 探秘:微软的免费杀毒软件Morro到底有何本领?

热门文章

  1. redis实用操作小结
  2. pythonocc_pythonOCC例子搬运:4.经典瓶子造型
  3. 养殖场智能监控系统方案
  4. 天天爱消除倒计时功能的实现思路
  5. 人工智能会统治人类吗?
  6. fastboot 源码分析1
  7. Nor flash 驱动和移植
  8. 达梦数数据库入门之安装、卸载、常见故障问题
  9. python讲师金角大王_python 金角大王博客园学习地址
  10. HTML中display常用值inline,block与inline-block的区别