信息:

信息这个概念的理解更应该把他认为是一用名称,就比如‘鸡‘(加引号意思是说这个是名称)是用来修饰鸡(没加引号是说存在的动物即鸡),‘狗’是用来修饰狗的,但是假如在鸡还未被命名为'鸡'的时候,鸡被命名为‘狗’,狗未被命名为‘狗’的时候,狗被命名为'鸡',那么现在我们看到狗就会称其为‘鸡’,见到鸡的话会称其为‘鸡’,同理,信息应该是对一个抽象事物的命名,无论用不用‘信息’来命名这种抽象事物,或者用其他名称来命名这种抽象事物,这种抽象事物是客观存在的。引用香农的话,信息是用来消除随机不确定性的东西。在机器学习信息的定义是,如果待分类的事物可能划分在多个分类之中,则这个类(Xi)的信息定义如下:(也可以看成在数学里信息就是这个公式)

                    

I(x)用来表示随机变量的信息,p(xi)指是当xi发生时的概率,这里说一下随机变量的概念,随机变量时概率论中的概念,是从样本空间到实数集的一个映射,样本空间是指所有随机事件发生的结果的并集,比如当你抛硬币的时候,会发生两个结果,正面或反面,而随机事件在这里可以是,硬币是正面;硬币是反面;两个随机事件,而{正面,反面}这个集合便是样本空间,但是在数学中不会说用‘正面’、‘反面’这样的词语来作为数学运算的介质,而是用0表示反面,用1表示正面,而“正面->1”,"反面->0"这样的映射便为随机变量,即类似一个数学函数。

在上面这个例子中正面和反面,即(Xi)在机器学习中可以看做为分类,(Xi)的发生的概率就是(Xi)这个类别在样本集中出现的次数除以样本总量,而(Xi)这个类的信息就是上面的公式。

信息熵:

    信息熵的大小指的是了解一件事情所需要付出的信息量是多少,这件事的不确定性越大,要搞清它所需要的信息量也就越大,也就是它的信息熵越大。在机器学习中,熵值的计算如下公式:

                

从公式上看,信息熵就是一件事每个类别的信息I(Xi)乘以它的发生的概率p(Xi)的和。

信息增益:

信息增益在决策树算法中是用来选择特征的指标,信息增益越大,则这个特征的选择性越好,在概率中定义为:待分类的集合的熵和选定某个特征的条件熵之差(这里只的是经验熵或经验条件熵,由于真正的熵并不知道,是根据样本计算出来的),公式如下:

                

注意:这里不要理解偏差,因为上边说了熵是类别的,但是在这里又说是集合的熵,没区别,因为在计算熵的时候是根据各个类别对应的值求期望来得到熵。

转载于:https://www.cnblogs.com/tuokid/p/10098916.html

机器学习--信息 信息熵 信息增益相关推荐

  1. 【机器学习】采用信息增益、信息增益率、基尼指数来建造决策树。

    目录 一.创建数据集 二.构造决策树(诊断是否复发乳腺癌) 1.信息增益生成决策树 (ID3算法) 信息熵 信息增益(ID3算法) 2.信息增益率决策树(C4.5) 3.基尼指数(CART算法 - 分 ...

  2. [机器学习]信息熵信息增益

    关于对信息.熵.信息增益是信息论里的概念,是对数据处理的量化,这几个概念主要是在决策树里用到的概念,因为在利用特征来分类的时候会对特征选取顺序的选择,这几个概念比较抽象,我也花了好长时间去理解(自己认 ...

  3. 机器学习:信息熵,基尼系数,条件熵,条件基尼系数,信息增益,信息增益比,基尼增益,决策树代码实现(一)

    文章目录 初始化,涉及到使用的变量: 信息熵 定义公式,经验公式 代码: 基尼系数 定义公式,经验公式 代码: 条件熵,条件基尼系数 条件熵定义公式,经验公式 条件基尼系数定义公式,经验公式 代码: ...

  4. 机器学习-利用信息熵来学习如果分辨好西瓜

    决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法.在机 ...

  5. 【机器学习 - 决策树】信息增益

    文章目录 一.理解信息增益 二.信息增益在决策树算法中的应用 参考链接 一.理解信息增益 几个概念: 熵:表示随机变量的不确定性. 条件熵:在一个条件下,随机变量的不确定性. 信息增益:熵 - 条件熵 ...

  6. 决策树①——信息熵信息增益基尼系数

    本文主要是通过大白话,解释何为 信息,信息熵,信息增益,信息增益率,基尼系数 一.信息(information) 能消除不确定性的内容才能叫信息,而告诉你一个想都不用想的事实,那不叫信息. 比如数据分 ...

  7. 信息增益以及增益率划分属性

    信息熵 信息熵 (information entropy)是度量样本集合纯度最常用的一种指标.假定当前样本集合 中的第 类样本所占的比例为 (k = 1,2...), 则 D 的信息熵为 Ent(D) ...

  8. [机器学习数据挖掘]机器学习实战决策树plotTree函数完全解析

    [机器学习&数据挖掘]机器学习实战决策树plotTree函数完全解析 http://www.cnblogs.com/fantasy01/p/4595902.html点击打开链接 import ...

  9. 决策树,信息熵,信息增益计算----机器学习

    决策树(decision tree) 决策树简单介绍 信息量 信息熵 信息增益 决策树简单介绍 决策树是一种基于树状结构来做决策的.是一种常见的机器学习方法.主要做分类,也可以做回归.一棵决策树含有一 ...

最新文章

  1. 独家 | 一文读懂PySpark数据框(附实例)
  2. 关于P2P流量的识别方式
  3. N点虚拟主机管理系统安装图解
  4. 用 Golang 写一个搜索引擎(0x07)--- 正排索引
  5. 若依可以商用吗_商用自动炒菜机Qamp;A,你想知道的都在这里!
  6. STC学习:可同步显示歌词的ABC英文歌
  7. 多线程编程之优先级翻转问题
  8. linux下bluetooth编程(一)基础概念
  9. 电视直播(CCTV5)
  10. 头哥教学平台-泰坦尼克号生还预测
  11. Win11怎么分区硬盘?Win11硬盘分区详细教程
  12. numpy matplotlib 进行图像读取和显示
  13. PyTorch Python API详解大全(持续更新ing...)
  14. 【突变检验方法一】MATLAB实现Pettitt突变检验
  15. python修改zip文件内容_python操作zip文件
  16. 计算机系学天体物理,中科院南京天文光学技术研究所专业介绍:天体物理
  17. 怎样给自己取个英文名?
  18. Redisson 锁
  19. 关联规则--Apriori算法
  20. gprof输出内容解释

热门文章

  1. 功能整合(二):轮播图(可控)、事件流
  2. Tensorflow MNIST浅层神经网络的解释和答复
  3. vc++修改软件程序菜单实例
  4. 库函数strlen源码重现及注意问题
  5. parted命令分区
  6. 基片集成波导原理_ETH研究人员开发微型红外光谱仪 可以集成到芯片当中
  7. Linux Kernel TCP/IP Stack — L3 Layer — 邻居发现子系统
  8. Linux Kernel TCP/IP Stack — L3 Layer — 路由器子系统
  9. PostgreSQL — 外键关联操作
  10. QCOW2 — Overview