一、信息

在开始解释信息熵和信息增益之前,我们先来解释一下什么是信息:能消除不确定性的内容才能叫信息,而告诉你一个想都不用想的事实,那不叫信息。

比如数据分析师的工作经常是要用数据中发现信息,有一天上班你告诉老大从数据中发现我们的用户性别有男有女。。。(这不废话吗?)这不叫信息,但是如果你告诉老大女性用户的登录频次、加购率,浏览商品数量远高于男性,且年龄段在25岁~30岁的女性用户消费金额最多,15-20岁最少,那么我相信你老大会眼前一亮的!!!

1.1 信息的传递

首先来我们来弄明白信息是如何传递的。信息传递是由一个信源、信道、信宿三部分组成的信息传递系统实现的。其中,信源是信息的发送端,信宿是信息的接收端。

信息传递存在于一个随机干扰的环境中,因此传递系统对信息的传递是存在随机误差的。如果将发送的信息记为U,接收的信息记为V,那么信道可记为信道模型,记为P(U|V)。

信道模型是一个条件概率矩阵P(U|V),成为信道传输概率矩阵,记为:

表示信宿收到信息而信源发出信息的概率。

在实际通信之前,信宿不可能确切了解信源究竟会发出什么样的确切信息,也不可能判断信源处于什么状态,这种情形称为信宿都信源具有不确定性。因为这种不确定性是通信之前的,所以称为先验不确定性;实际通信以后,信宿收到信源发来的信息,先验不确定性才能被消除或减少。如果干扰很小,不会对传递的信息产生任何可察觉的影响,信源发出的信息被信宿全部收到,信宿的不确定性就被完全消除。但在一般情况下,干扰总会对信源发出的信息造成某种破坏,使信宿收到的信息不完全,因此,先验不确定新不能被完全消除,只能部分被消除。即通信结束后,信宿仍然具有一定程度的不确定性,称为后验不确定性

如果后验不确定性等于先验不确定性,表示信宿完全没有接收到信息,如果后验不确定性等于0,表示接收到了全部的信息。可见,信息是用来消除不确定性的。

1.2 信息的定义

如何衡量信息量?1948年有一位科学家香农从引入热力学中的熵概念,得到了信息量的数据公式:

代表信息发生的可能性,发生的可能性越大,概率越大,则信息越少,通常将这种可能性叫为不确定性,越有可能则越能确定则信息越少;比如中国与西班牙踢足球,中国获胜的信息量要远大于西班牙胜利(因为这可能性实在太低~~)。

以下是的关系图,横坐标为,纵坐标为,可以看到概率越大,信息越少。

二、信息熵

信息熵是信息量的数学期望,是信源发出信息前的先验不确定性,也成先验熵,信息熵的数学定义为:

可见,如果信息熵等于0,表示只存在唯一的信息发送可能,即,没有发送的不确定性;如果信源的k个信号有相同的发送概率,即所有的,即信息熵达到最大,不确定性最大。所以差别越小,信息熵越大,平均不确定性最大。差别越大,信息熵就越小,平均不确定性越小。

假设有两个信源,则有,以下是的关系图,是横坐标,是纵坐标:

三、信息增益

当已知信号U的概率分布P(U)且收到信号,发出信号的概率变为,于是信源的不确定性变为:

称为后验熵,表示信宿收到后对发出信号U的度量值。由于收到信号是个随机变量,后验熵的期望为:

称为条件熵,表示信宿收到所有V后,对发出信号U任然存在的不确定性(后验不确定性),这是由随机干扰引起的。

通常,于是就称为信息增益,反映的是信息消除随机不确定性的程度。

四、信息熵和信息增益的例子

信息熵和信息增益用的最多的就是决策树了,在决策树中,我们会找到信息增益最大的输入变量作为最佳分组变量,例如我们有两个输入变量性别和年龄段,输出变量是客户是否购买。

性别(F1) 1 1 0 1 0 0 0 0 1 0 1 1 0 0
年龄段(F2) B A A C B B C C C A B A A C
是否购买 1 1 1 0 1 1 1 1 0 0 1 0 0 1

决策树会把输出变量当做信源U,输入变量看做信宿接受到的一系列信息V。在实际通信之前,也就是决策树建立之前,输出变量对信宿来说是完全随机的,其平均不确定性为:

而在实际通信中,也就是决策树建立过程中,随着信宿接收到信息,也就是考察了输入变量(例如F2年龄段),则条件熵为:

于是,信息增益为:

同理,还可以计算F1性别的信息增益为:

容易理解,此时应选择信息增益最大的输入变量F2年龄段作为最佳分组变量,因为它消除信宿对信源的平均不确定性的能力最强。或者说,由此进行的样本分组,输出变量在两个组内部取值的趋同程度最高,即各组内部的差别大,这当然是人们所期望的结果。

五、信息增益率

从上面的例子应该看到,这个选择标准以信息增益值的大小为标准。事实上,这种方式存在一定的问题,主要表现为类别之多的输入变量比类别值少的输入变量有更多的机会称为当前最佳分组变量。

如F2年龄段比F1性别具有作为最佳分组变量的“先天”优势。为了有助理解,将上面的例子F2年龄段的取值进行调整,将A拆成A1和A2,相当于增加了一个分类:

性别(F1) 1 1 0 1 0 0 0 0 1 0 1 1 0 0
年龄段(F2) B A1 A2 C B B C C C A1 B A1 A2 C
是否购买 1 1 1 0 1 1 1 1 0 0 1 0 0 1

由此得到的信息增益:

可见这个结果比数据调整前增大了。

为了解决这个问题,不仅考虑信息增益的大小程度,还兼顾考虑为获得信息增益所付出的“代价”:信息增益率的数据定义为:

可见,如果输入变量V有较多的分类值,则它的信息熵会偏大,而信息增益率会因此降低,进而消除了类别数目所带来的影响。

例如,第四章表中F2的信息增益率为:,而在本章F2年龄段的信息增益率为:,信息增益率没有增大。

而F1性别的信息增益率为,F1性别的信息增益率仍然小于F2年龄段,还应选择F2年龄段作为当前最佳分组变量。

六、基尼系数

与信息熵和信息增益类似,先验基尼系数为:

后验基尼系数为:

后验基尼系数的期望,也就是条件基尼系数为:

基尼增益为:

总结

基尼系数和信息熵没有谁优谁劣的说法,在实际模型中效果基本不相上下,但是由于基尼系数的计算公式比较简单,不需要log,所以计算速度会更快。

超详细的信息熵、信息增益、信息增益比、基尼系数相关推荐

  1. 机器学习-有监督学习-分类算法:决策树算法【CART树:分类树(基于信息熵;分类依据:信息增益、信息增益率、基尼系数)、回归树(基于均方误差)】【损失函数:叶节点信息熵和】【对特征具有很好的分析能力】

    一.决策树概述 注:生产实践中,不使用决策树,太简单,而是使用决策树的升级版:集成学习算法. 集成学习算法有: Random Forest(随机森林) Extremely Randomized For ...

  2. 决策树 信息熵 条件熵 基尼系数 信息增益 信息增益率 CART 随机森林

    决策树: 决策树是一种树形结构,树内部每个节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶子节点代表一个分类类别.通过训练数据构建决策树,可以对未知数据进行分类, 上面的决策树深度depth ...

  3. 信息熵、信息增益以及决策树

    什么是信息熵? 信息熵是信息论的范畴,利用概率论和统计的方法,因此信息熵也被称为基于概率分布的信息熵.在介绍信息熵概念之前,先介绍一个基本的概念:区分能力.所谓区分能力是指把对象划分到具体分组的能力, ...

  4. AI基础:信息熵、信息增益、信息增益率、基尼指数

    给实习生聊到决策树.GBDT,有几个概念这里再用易懂的方式解释下 文章目录 信息熵 条件熵 信息增益 信息增益率 基尼指数 信息熵是决策树的基础 信息增益-ID3算法构建决策树 信息增益率-C4.5算 ...

  5. 决策树(Decision Tree)、决策树的构建、决策树流程、树的生长、熵、信息增益比、基尼系数

    决策树(Decision Tree).决策树的构建.决策树流程.树的生长.熵.信息增益比.基尼系数 目录

  6. id3决策树_信息熵、信息增益和决策树(ID3算法)

    决策树算法: 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关的特征数据. 缺点:可能会产生过度匹配问题. 适用数据类型:数值型和标称型. 算法原理: 决策树是一个简单的为 ...

  7. 【机器学习-西瓜书】四、决策树:信息熵;信息增益;增益率;ID3;C4.5

    推荐阅读:纯度:信息熵:信息增益 关键词: 纯度:信息熵:信息增益:增益率:ID3:C4.5:基尼指数:预剪枝:后剪枝 4.1基本流程 关键词:决策树(decision tree) 决策树是一种分类方 ...

  8. 信息熵、信息增益与信息增益率

    信息熵.信息增益与信息增益率 信息熵.信息增益与信息增益率 信息熵(Information Entropy) 信息增益(Information Gain) 信息增益率(Information Gain ...

  9. 决策树——信息熵与信息增益

    参考:[https://www.cnblogs.com/YouXiangLiThon/p/7214393.html] 1.信息熵.条件熵.信息增益 信息熵(Entropy):度量随机变量Y={c1,c ...

最新文章

  1. 植树节,程序员要爬哪些“树”?
  2. RepVGG:极简架构,SOTA性能,让VGG式模型再次伟大 | CVPR-2021
  3. torch.bmm()函数的使用
  4. Cortex-M3-栏目-文章来源
  5. .NET6之MiniAPI(十):基于策略的身份验证和授权
  6. dos系统重启计算机名,dos系统重启的命令是是
  7. 不能忽视 php warning
  8. PHP open_basedir配置未包含upload_tmp_dir 导致服务器不能上传文件
  9. Storm【实践系列-如何写一个爬虫-】6 URLInjector
  10. 计算机显示网络无权限访问权限,小编教你电脑显示无internet访问权限怎么办
  11. 2023年安徽省中职网络安全跨站脚本攻击
  12. 真正的程序员的工作与生活应该是这样的
  13. 【Noip模拟 20161004】局域网
  14. linux中md5sum命令使用
  15. Property description must be an object
  16. 使用Python来分离或者直接抓取pcap抓包文件中的HTTP流
  17. SVN与TortoiseSVN修改日志和强制写日志实现详解
  18. 咸鱼菌玩3D—样条曲线和贝塞尔曲线
  19. 2022电大国家开放大学网上形考任务-古代诗歌散文专题非免费(非答案)
  20. 激光显示行业深度报告——技术篇

热门文章

  1. java HmacSHA1 计算
  2. Android可以使用的直播流播放器Vitamio5.2.3
  3. 推荐算法!基于隐语义模型的协同过滤推荐之用户商品推荐列表
  4. Arnold材质节点篇-凹凸 法线贴图 圆角/置换曲面细分
  5. 51单片机开发板模拟实现IIC通信
  6. POJ Sudoku 数独填数(深搜)
  7. 自动驾驶 Apollo 源码分析系列,感知篇(八):感知融合代码的基本流程
  8. 写一个函数,求一个字符串的长度,在main 函数中输入字符串,并输出其长度。
  9. 深圳建筑建材信息价和深圳工程造价信息介绍及深圳信息价分享
  10. 客户端到服务器端的通信过程及原理(很清晰,保证看后顿悟)