信息熵与信息增益(IE, Information Entropy; IG, Information Gain)

信息增益是机器学习中特征选择的关键指标,而学习信息增益前,需要先了解信息熵和条件熵这两个重要概念。

信息熵(信息量)

信息熵的意思就是一个变量i(就是这里的类别)可能的变化越多(只和值的种类多少以及发生概率有关,反而跟变量具体的取值没有任何关系),它携带的信息量就越大(因为是相加累计),这里就是类别变量i的信息熵越大。

系统越是有序,信息熵就越低;反之,一个系统越乱,信息熵就越高。所以,信息熵也可以说是系统有序化程度的一个衡量。

二分类问题中,当X的概率P(X)为0.5时,也就是表示变量的不确定性最大,此时的熵也达到最大值1。

条件熵

条件熵的直观理解:单独计算明天下雨的信息熵H(Y)是2,而条件熵H(Y|X)是0.01(即今天阴天这个条件下,明天下雨的概率很大,确定性很大,信息量就很少),这样相减后为1.99,在获得阴天这个信息后,下雨信息不确定性减少了1.99!是很多的!所以信息增益大!所以是否阴天这个特征信息X对明天下雨这个随机变量Y的来说是很重要的!

因为条件熵中X也是一个变量,意思是在一个变量X的条件下(变量X的每个值都会取),另一个变量Y熵对X的期望,这里的期望就是指所有情况各自概率的∑总和。

在文本分类中,特征词t的取值只有t(代表t出现)和(代表t不出现)。那么系统熵等于两种条件熵按比例求和:

示例说明条件熵

设样品房数据集样本12份,变量Y为房屋价格,根据价格计算该数据集的香农熵(即信息熵),其中价格高的4个占1/3,价格中等的6个占1/2,价格低的2个占1/6,其香农熵为:

如图,在房屋的面积X这个条件下计算价格Y的条件熵,根据面积X,面积大的4个(价格3高1中)设为a,面积中的3个(价格3中)设为b,面积小的5个(价格1高2中2低)设为c,先分别计算a,b,c条件下的信息熵为:

再计算a,b,c信息熵的按比例求和,便得到在条件X条件下,Y的条件熵为:

信息增益

评价一个系统的特征t对系统的影响程度就要用到条件熵,即是特征t存在和不存在的条件下,系统的类别变量i的信息熵。特征t条件下的信息熵与原始信息熵的差值就是这个特征给系统带来的信息增益。

信息增益最大的问题还在于它只能考察特征对整个系统的贡献,而不能具体到某个类别上,这就使得它只适合用来做所谓“全局”的特征选择(指所有的类都使用相同的特征集合),而无法做“本地”的特征选择(每个类别有自己的特征集合,因为有的词,对这个类别很有区分度,对另一个类别则无足轻重)。

附:特征提取步骤

1. 卡方检验

1.1  统计样本集中文档总数(N)。

1.2  统计每个词的正文档出现频率(A)、负文档出现频率(B)、正文档不出现频率(C)、负文档不出现频率(D)。

1.3 计算每个词的卡方值,公式如下:

1.4  将每个词按卡方值从大到小排序,选取前k个词作为特征,k即特征维数。

2. 信息增益

2.1  统计正负分类的文档数:N1、N2。

2.2  统计每个词的正文档出现频率(A)、负文档出现频率(B)、正文档不出现频率)、负文档不出现频率。

2.3  计算信息熵

2.4  计算每个词的信息增益

2.5  将每个词按信息增益值从大到小排序,选取前k个词作为特征,k即特征维数。

转载于:https://www.cnblogs.com/whiterock/p/8220997.html

通俗易懂的信息熵与信息增益(IE, Information Entropy; IG, Information Gain)相关推荐

  1. python get score gain_什么是“熵和信息增益”?(What is “entropy and information gain”?)...

    什么是"熵和信息增益"?(What is "entropy and information gain"?) 我正在读这本书( NLTK ),令人困惑. 熵被定义 ...

  2. 【机器学习-西瓜书】四、决策树:信息熵;信息增益;增益率;ID3;C4.5

    推荐阅读:纯度:信息熵:信息增益 关键词: 纯度:信息熵:信息增益:增益率:ID3:C4.5:基尼指数:预剪枝:后剪枝 4.1基本流程 关键词:决策树(decision tree) 决策树是一种分类方 ...

  3. 机器学习基础(三)——信息、信息熵与信息增益

    信息:information,信息熵:information entropy,信息增益:information gain(IG) 划分数据集的大原则是:将无序的数据变得更加有序.组织杂乱无章数据的一种 ...

  4. 信息熵、信息增益与信息增益率

    信息熵.信息增益与信息增益率 信息熵.信息增益与信息增益率 信息熵(Information Entropy) 信息增益(Information Gain) 信息增益率(Information Gain ...

  5. 信息熵、信息增益以及决策树

    什么是信息熵? 信息熵是信息论的范畴,利用概率论和统计的方法,因此信息熵也被称为基于概率分布的信息熵.在介绍信息熵概念之前,先介绍一个基本的概念:区分能力.所谓区分能力是指把对象划分到具体分组的能力, ...

  6. 决策树——信息熵与信息增益

    参考:[https://www.cnblogs.com/YouXiangLiThon/p/7214393.html] 1.信息熵.条件熵.信息增益 信息熵(Entropy):度量随机变量Y={c1,c ...

  7. AI基础:信息熵、信息增益、信息增益率、基尼指数

    给实习生聊到决策树.GBDT,有几个概念这里再用易懂的方式解释下 文章目录 信息熵 条件熵 信息增益 信息增益率 基尼指数 信息熵是决策树的基础 信息增益-ID3算法构建决策树 信息增益率-C4.5算 ...

  8. ZOJ 3827 Information Entropy(数学题 牡丹江现场赛)

    题目链接:http://acm.zju.edu.cn/onlinejudge/showProblem.do? problemId=5381 Information Theory is one of t ...

  9. id3决策树_信息熵、信息增益和决策树(ID3算法)

    决策树算法: 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关的特征数据. 缺点:可能会产生过度匹配问题. 适用数据类型:数值型和标称型. 算法原理: 决策树是一个简单的为 ...

  10. 超详细的信息熵、信息增益、信息增益比、基尼系数

    一.信息 在开始解释信息熵和信息增益之前,我们先来解释一下什么是信息:能消除不确定性的内容才能叫信息,而告诉你一个想都不用想的事实,那不叫信息. 比如数据分析师的工作经常是要用数据中发现信息,有一天上 ...

最新文章

  1. 云网融合 — 电信网络云
  2. ubuntu 13.04 gnome terminal打开默认最大化方法
  3. Java Web学习(四)http协议
  4. 基于SPI协议的Flash全擦除
  5. mysql之锁与事务
  6. (85)Verilog HDL:板间信号同步
  7. Sql UNION 合并多个结果集并排序
  8. C++ 对比 C语言
  9. qTip Style
  10. 3.2-点云配准原理概述
  11. python分组求和法_awk分组求和分组统计次数
  12. Linux/Unix桌面趣事:让桌面下雪
  13. KMPlayer怎么加速播放 KMPlayer加速播放方法
  14. 为大家介绍两款私藏宝藏可视化大屏制作软件
  15. android html footer 固定,footer保持在页面底部的两种方法
  16. JMeter(二十一):使用BeanShell解析Json格式的报文
  17. 2017南开秋奥鹏作业计算机,南开17秋学期《DirectX程序设计》在线作业(资料)...
  18. 阿里云-个人建网站从0到精通(一)
  19. 《Laravel-汉字转拼音》
  20. 算法竞赛进阶指南---0x05(排序)七夕祭

热门文章

  1. 沪江、外研社、新东方联合组建海外出版公司,AI 背景下的出版业将去何处?...
  2. JavaScript的API设计原则
  3. Centos系统调优
  4. 简单实用的Android ORM框架TigerDB
  5. 高性能tornado框架简单实现restful接口及运维开发实例
  6. Ubuntu创建快捷方式
  7. 学用MVC4做网站五:5.2我的文章
  8. Centos6.5 邮件服务
  9. 如何不显示index.php,tp如何隐藏index.php
  10. 富士相机设置传原图_富士XT4 多位摄影师试用体验报告