1. 信息熵

熵是一个信息论中的概念，表示随机变量不确定的度量，是对所有可能发生的事件产生的信息量的期望。信息熵公式如下：
H(p)=−∑i=1np(xi)logp(xi)H(p)=-\sum_{i=1}^{n}{p(x_i)logp(x_i)}H(p)=−i=1∑np(xi)logp(xi)
关于熵的详细解释可参考最大熵阈值分割法

2. 相对熵

相对熵又称KL散度，用于衡量对于同一个随机变量x的两个分布p(x)p(x)p(x)和q(x)q(x)q(x)之间的差异。p(x)p(x)p(x)表示样本真实分布，q(x)q(x)q(x)表示模型预测分布，模型训练就是不断让q(x)q(x)q(x)分布拟合分布p(x)p(x)p(x)。KL散度的值越小表示两个分布越接近。KL散度公式如下：
DKL(p∣∣q)=∑i=1np(xi)logp(xi)q(xi)D_{KL}(p||q)=\sum_{i=1}^{n}{p(x_i)log\frac{p(x_i)}{q(x_i)}}DKL(p∣∣q)=i=1∑np(xi)logq(xi)p(xi)

3. 交叉熵

将KL散度变形得到如下表达式：
DKL(p∣∣q)=∑i=1np(xi)logp(xi)−∑i=1np(xi)logq(xi)=−H(p(x))+[−∑i=1np(xi)logq(xi)]\begin{aligned} D_{KL}(p||q)&=\sum_{i=1}^{n}{p(x_i)logp(x_i)}-\sum_{i=1}^{n}{p(x_i)logq(x_i)} \\ &=-H(p(x))+[-\sum_{i=1}^{n}{p(x_i)logq(x_i)}] \end{aligned} DKL(p∣∣q)=i=1∑np(xi)logp(xi)−i=1∑np(xi)logq(xi)=−H(p(x))+[−i=1∑np(xi)logq(xi)]
第一项就是p(x)p(x)p(x)的信息熵，第二项就是交叉熵cross entropy。我们常用KL散度来评估真实标签和预测标签的差别，由于KL散度第一项是个常量，所以直接将第二项的交叉熵作为损失函数也是一样的。

4. 交叉熵与softmax

分类问题中常用交叉熵作为模型的损失函数。样本标签 y 的值为1或者0可以看做是概率，而模型的输出是一个实数值，如何将这个实数值转换成概率呢？这就要用到 softmax 函数了（所以面试官会经常问为什么交叉熵要和 softmax 一起用）。假设模型输出为y1,y2,...,yny_1,y_2,...,y_ny1,y2,...,yn，经过 softmax 后的输出为：
softmax(yi)=eyi∑j=1neyisoftmax(y_i)=\frac{e^{y_i}}{\sum_{j=1}^{n}{e^{y_i}}}softmax(yi)=∑j=1neyieyi
这样就把模型的输出也变成了一个概率分布，从而可以用交叉熵来计算预测值和真实值之间的距离了。

信息熵、相对熵与交叉熵相关推荐

信息熵，条件熵，相对熵，交叉熵
转自详解机器学习中的熵.条件熵.相对熵和交叉熵信息是一个很抽象的概念,百度百科中的定义: 信息是指音讯.消息.通讯系统传输和处理的对象,泛指人类社会传播的一切内容那信息可以被量化么?可以的!香农提 ...
从信息熵、相对熵到交叉熵损失函数
信息熵.相对熵和交叉熵是机器学习中非常重要的概念,它们都是用来衡量不同概率分布之间的差异.在这篇博客中,我们将分别介绍这些概念,并用通俗易懂的语言以及实例的方式来阐述它们的含义. 信息熵信息熵(En ...
信息熵、相对熵、交叉熵公式及tensorflow代码
最近在学习卷积神经网络,其中遇到了信息熵和交叉熵,对此理解的一知半解,现记录一下信息熵.相对熵.交叉熵公式及tensorflow代码,供以后参考. 假设概率分布中,真实分布: 假设分布: 信息量公式 ...
联合熵、条件熵、互信息、相对熵、交叉熵的详解
本篇博客,我们将介绍联合熵.条件熵.互信息.相对熵.交叉熵,如果对熵的概念还有不清楚的朋友,可以看一下这一篇博客,信息熵是什么呢? https://blog.csdn.net/ding_program ...
Lesson 4.2 逻辑回归参数估计：极大似然估计、相对熵与交叉熵损失函数
文章目录一.逻辑回归参数估计基本思路 1. 构建损失函数 2. 损失函数求解二.利用极大似然估计进行参数估计三.熵.相对熵与交叉熵 1. 熵(entropy)的基本概念与计算公式 2. 熵的基本 ...
熵、相对熵、交叉熵等理解
** 信息量 ** 假设我们听到了两件事,分别如下: 事件A:巴西队进入了2018世界杯决赛圈. 事件B:中国队进入了2018世界杯决赛圈. 仅凭直觉来说,显而易见事件B的信息量比事件A的信息量要大. ...
熵、联合熵、相对熵、交叉熵、JS散度、互信息、条件熵
封面镇楼目录一.熵二.联合熵三.相对熵(KL散度) 四.交叉熵五.JS散度六.互信息七.条件熵八.总结一.熵对于离散型随机变量,当它服从均匀分布时,熵有极大值.取某一个值的概率为1 ...
数学期望、信息量、信息熵、相对熵、交叉熵
1.数学期望数学期望就是总体的均值,或者各项的加权平均. 先看离散的情况,假设X为离散型随机变量,x1,x2,x3,--,xk为随机变量的所有可能取值,p1,p2,p3,--,pk为随机变量相应取值 ...
信息熵、相对熵和交叉熵
此文章为了解交叉熵的小记,具体详细讲解可移至文末处参考文章信息熵信息的本质:信息是用来消除随机不确定性的东西: 信息量的大小与信息发生的概率成反比.概率越大,信息量越小.概率越小,信息量越大. 某 ...
信息熵、条件熵、信息增益、相对熵、交叉熵解析
原文地址:https://www.cnblogs.com/kyrieng/p/8694705.html 1.信息熵 (information entropy) 熵 (entropy) 这一词最初来源于 ...

信息熵、相对熵与交叉熵

目录

1. 信息熵

2. 相对熵

3. 交叉熵

4. 交叉熵与softmax

信息熵、相对熵与交叉熵相关推荐

最新文章

热门文章