经验分布

经验分布函数是与样本经验测度相关的分布函数。该分布函数是在n个数据点中的每一个上都跳跃1 / n的阶梯函数。其在测量变量的任何指定值处的值是小于或等于指定值的测量变量的观测值的数。
经验分布函数是对样本中生成点的累积分布函数的估计。根据Glivenko-Cantelli定理，它以概率1收敛到该基础分布。同时也存在一些结果来量化经验分布函数与潜在的累积分布函数的收敛速度。

我的理解

经验分布是对样本的统计，单一样本的概率分布为 1 / N 1/N 1/N。
画图表示，可看到分布函数为呈跳跃上升的，每一跳跃为1/n，若有重复L次的值，则按1/n的L倍跳跃上升。图中圆滑曲线是总体X的理论分布函数F(x)的图形。若把经验分布函数的图形连成折线，那么它实际就是累积频率直方图的上边。
这和概率分布函数的性质是一致的。

经典统计推断主要的思想就是用样本分布来推断总体分布。

熵

熵详细介绍
下文仅为个人总结，参考

信息熵（information entropy）

信息熵是对信息的度量，对某一事件，信息越多则越了解。那么该事件的不确定性越低。
信息熵越低，信息的确定性越低。中国是一个国家。
而对于海南下雪了，我们需要大量的信息来佐证，则信息的熵很高。
这里仍然很抽象，度量的标准仍然很模糊，我们接着往下看

考虑随机变量 x x x ,发生的概率为 P ( x ) P(x) P(x) , I ( x ) I(x) I(x) 随机变量 x x x 的自信息 (self-information)，描述的是随机变量的某个事件发生所带来的信息量。
事件发生产生信息，多个事件x,y（相互独立）一起发生,则产生信息增加。
I ( x , y ) = I ( x ) + I ( y ) I(x,y)=I(x)+I(y) I(x,y)=I(x)+I(y)
P ( x , y ) = P ( x ) ∗ P ( y ) P(x,y)=P(x)*P(y) P(x,y)=P(x)∗P(y)
I ( x ) I(x) I(x)一定与 P ( x ) P(x) P(x)的对数有关。
I ( x ) = − l o g p ( x ) I(x)=-logp(x) I(x)=−logp(x)
I ( x ) I(x) I(x) 的关于概率分布 P ( x ) P(x) P(x)期望为:
H ( X ) = − ∑ x p ( x ) l o g p ( x ) = − ∑ i = 1 n p ( x i ) l o g p ( x i ) H(X)=-\displaystyle\sum_{x}p(x)logp(x)=-\sum_{i=1}^{n}p(x_i)logp(x_i) H(X)=−x∑p(x)logp(x)=−i=1∑np(xi)logp(xi)
H ( x ) H(x) H(x) 表示随机变量 x x x的熵，为随机变量不确定性的度量。X的种类越多，其熵就越大。当X服从均匀分布时，熵最大。

推广到两个相互独立的随机变量 x，y ，其联合熵表示：

H ( X , Y ) = − ∑ x , y p ( x , y ) l o g p ( x , y ) = − ∑ i = 1 n ∑ j = 1 m p ( x i , y i ) l o g p ( x i , y i ) H(X,Y)=-\displaystyle\sum_{x,y}p(x,y)logp(x,y)=-\sum_{i=1}^{n}\sum_{j=1}^{m}p(x_i,y_i)logp(x_i,y_i) H(X,Y)=−x,y∑p(x,y)logp(x,y)=−i=1∑nj=1∑mp(xi,yi)logp(xi,yi)

条件熵

顾名思义，其必与条件概率有关。
给定随机变量X的条件下，随机变量Y的条件概率分布熵对X的期望：
H ( Y ∣ X ) = ∑ x p ( x ) H ( Y , X = x ) H(Y|X)=\displaystyle\sum_{x}p(x)H(Y,X=x) H(Y∣X)=x∑p(x)H(Y,X=x)

条件熵 H ( Y ∣ X ) H(Y|X) H(Y∣X)相当于联合熵 H ( X , Y ) H(X,Y) H(X,Y)减去单独的熵 H ( X ) H(X) H(X)，即:

我这样理解，联合熵即为 X X X， Y Y Y的信息熵之和。因为 X X X， Y Y Y不相互独立，故其信息有重复，因此需要 H ( Y ∣ X ) H(Y|X) H(Y∣X)，而不是加 H ( Y ) H(Y) H(Y), 若X，Y相互独立，即信息不交叉，则 H ( Y ∣ X ) = H ( Y ) H(Y|X) = H(Y) H(Y∣X)=H(Y)。

相对熵（KL散度)

大佬详细介绍

In the context of machine learning, DKL(P‖Q) is often called the information gain achieved if P is used instead of Q.
information gain 即信息增益

翻译：在机器学习范围内，DKL（P||Q)被称为信息增益，由P而不是Q描述问题。

P P P , Q Q Q 为针对随机变量 x x x的概率分布，相对熵，或者KL散度来衡量二者的差异。

D K L ( p ∣ ∣ q ) = ∑ i = 1 n p ( x i ) l o g ( p ( x i ) q ( x i ) ) D_{KL}(p||q)=\sum_{i=1}^np(x_i)log(\frac{p(x_i)}{q(x_i)}) DKL(p∣∣q)=i=1∑np(xi)log(q(xi)p(xi))

DKL的值越小，信息增益越小，P Q 描述越接近。
机器学习中，通常P为样本经验分布作为P，Q为预测分布。

交叉熵

部分转载自这里详解机器学习中熵，条件熵，交叉熵

在信息论中，交叉熵是表示两个概率分布 p , q p,q p,q，其中 p p p表示真实分布， q q q表示非真实分布，在相同的一组事件中，其中，用非真实分布q来表示某个事件发生所需要的平均比特数。从这个定义中，我们很难理解交叉熵的定义。下面举个例子来描述一下：
假设现在有一个样本集中两个概率分布 p , q p,q p,q，其中 p p p为真实分布， q q q为非真实分布。假如，按照真实分布 p p p来衡量识别一个样本所需要的编码长度的期望为：
H ( p ) = ∑ x p ( x ) l o g 1 p ( x ) H(p) =\displaystyle\sum_{x}p(x)log\frac{1}{p(x)} H(p)=x∑p(x)logp(x)1
但是，如果采用错误的分布 q q q来表示来自真实分布 p p p的平均编码长度，则应该是：
H ( p ) = ∑ x p ( x ) l o g 1 q ( x ) H(p) =\displaystyle\sum_{x}p(x)log\frac{1}{q(x)} H(p)=x∑p(x)logq(x)1
此时就将 H ( p , q ) H(p,q) H(p,q)称之为交叉熵。

相对熵的公式
D K L ( p ∣ ∣ q ) = ∑ x p ( x ) l o g p ( x ) q ( x ) = ∑ x p ( x ) l o g p ( x ) − p ( x ) l o g q ( x ) D_{KL}(p||q)=\displaystyle\sum_{x}p(x)log\frac{p(x)}{q(x)}=\sum_{x}p(x)logp(x)-p(x)logq(x) DKL(p∣∣q)=x∑p(x)logq(x)p(x)=x∑p(x)logp(x)−p(x)logq(x)
熵的公式: H ( p ) = − ∑ x p ( x ) l o g p ( x ) H(p)=-\displaystyle\sum_{x}p(x)logp(x) H(p)=−x∑p(x)logp(x)

交叉熵的公式 H ( p ) = − ∑ x p ( x ) l o g p ( x ) H(p)=-\displaystyle\sum_{x}p(x)logp(x) H(p)=−x∑p(x)logp(x)

D K L ( p ∣ ∣ q ) = H ( p , q ) − H ( p ) D_{KL}(p||q)=H(p,q)-H(p) DKL(p∣∣q)=H(p,q)−H(p)
当用非真实分布 q ( x ) q(x) q(x)得到的平均码长比真实分布 p ( x ) p(x) p(x)得到的平均码长多出的比特数就是相对熵

又因为 D K L ( p ∣ ∣ q ) ≥ 0 D_{KL}(p||q)\geq0 DKL(p∣∣q)≥0, 所以 H ( p , q ) ≥ H ( p ) H(p,q)≥H(p) H(p,q)≥H(p)

（当 p ( x ) = q ( x ) p(x)=q(x) p(x)=q(x) 时取等号，此时交叉熵等于信息熵）并且当 H ( p ) H(p) H(p)

为常量时（注：在机器学习中，训练数据分布是固定的），最小化相对熵 D K L ( p ∣ ∣ q ) D_{KL}(p||q) DKL(p∣∣q)等价于最小化交叉熵 H ( p , q ) H(p,q) H(p,q).

也等价于最大化似然估计（具体参考Deep Learning 5.5）。

最大熵模型

最大熵原理

最大熵原理认为：学习概率模型时，在所有可能的概率模型（分布）中，熵最大的模型就是最好的模型。通常用约束条件来确定概率模型的集合，所以最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。
假设离散的随机变量 X X X的概率模型为 P ( X ) P(X) P(X),其熵为：
H ( X ) = − ∑ x p ( x ) l o g p ( x ) = − ∑ i = 1 n p ( x i ) l o g p ( x i ) H(X)=-\displaystyle\sum_{x}p(x)logp(x)=-\sum_{i=1}^{n}p(x_i)logp(x_i) H(X)=−x∑p(x)logp(x)=−i=1∑np(xi)logp(xi)
熵满足下列不等式：
0 0 0

AI数学基础——经验分布，熵相关推荐

最大似然函数、交叉熵和经验分布的关系
这是对<deep learning>书中(5.59)式和均方损失是经验分布和高斯模型之间的交叉熵的理解. 经验分布最大似然函数能推导出交叉熵,他们俩本质是一回事,推导的桥梁就是经验分布. ...
图解AI数学基础(2) | 概率与统计（要点速查清单·完结）
作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/83 本文地址:https://www.showmeai.tech/article-d ...
计算与推断思维九、经验分布
九.经验分布原文:Empirical Distributions 译者:飞龙协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译大部分数据科学都涉及来自大型随机样本的数据. 在本节中,我们将 ...
机器学习中的数学——常用概率分布（九）：经验分布（Empirical分布）
分类目录:<机器学习中的数学>总目录相关文章: · 常用概率分布(一):伯努利分布(Bernoulli分布) · 常用概率分布(二):范畴分布(Multinoulli分布) · 常用概率 ...
统计学习方法——知识点（1）经验分布
名词理解:联合分布.边缘分布.经验分布给定一个训练数据集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . ( x N , y N ) } T=\{(x_1,y ...
AI数学基础（2）--- 霍夫丁不等式
AI数学基础(2)--- 霍夫丁不等式简介推导霍夫丁不等式的引理霍夫丁不等式简介在概率论中,霍夫丁(Hoeffding)不等式,给出了随机变量的和与其期望值偏差的概率上限推导霍 ...
AI比赛经验分享 - 总目录
文章目录总目录 1. 不同方向经验分享 1.1 NLP 1.2 CV 1.3 语音 1.4 结构化数据 1.5 时序预测 1.6 网络安全方向 1.7 推荐与广告 1.8 风控 2. 工具和提分技巧 ...
图解AI数学基础(1) | 线性代数与矩阵论（要点速查清单·完结）
作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/83 本文地址:https://www.showmeai.tech/article-d ...

AI数学基础——经验分布，熵