信息量的定义

某事件发生的概率小,则该事件的信息量大。
定义随机变量 X X X的概率分布为P(X)" role="presentation" style="position: relative;">P(X)P(X)P\left( X \right), X X X的信息量为:h(X)=−log2P(X)" role="presentation" style="position: relative;">h(X)=−log2P(X)h(X)=−log2P(X)h\left( X \right) = - {\log _2}P\left( X \right).

对随机事件的信息量求期望,得到随机变量XX的熵:
H(X)=−∑x∈XP(x)logP(x)H\left( X \right) = - \sum\limits_{x \in X} {P\left( x \right)} \log P\left( x \right)

当对数底数是2时,单位是bit,当对数底数是e时,单位是nat(奈特)。同时,若P(x)=0P\left( x \right) = 0,则定义0log0=00\log 0 = 0。由熵定义可知,随机变量的熵只依赖于XX的分布,而与XX的取值无关。
熵表示的是随机变量不确定性的度量。熵越大,随机变量的不确定性也就越大。

两点分布的熵

H(X)=−∑x∈XP(x)logP(x)=−plog2p−(1−p)log2(1−p) H ( X ) = − ∑ x ∈ X P ( x ) log ⁡ P ( x ) = − p log 2 p − ( 1 − p ) log 2 ( 1 − p )

H\left( X \right) = - \sum\limits_{x \in X} {P\left( x \right)} \log P\left( x \right) = - p{\log _2}p - \left( {1 - p} \right){\log _2}\left( {1 - p} \right)

这时,熵 H(X) H ( X ) H\left( X \right)随概率 p p p变化的曲线如下图所示。

当p=0" role="presentation" style="position: relative;">p=0p=0p = 0或 p=1 p = 1 p = 1时,随机变量完全没有不确定性。当 p=0.5 p = 0.5 p = 0.5时, H(X)=1 H ( X ) = 1 H\left( X \right) = 1,熵取得最大值,随机变量的不确定性最大。

离散随机变量的最大熵

假设离散随机变量 X X X的概率分布是P(X)" role="presentation" style="position: relative;">P(X)P(X)P\left( X \right),则其熵是:

H(X)=−∑x∈XP(x)logP(x) H ( X ) = − ∑ x ∈ X P ( x ) log ⁡ P ( x )

H\left( X \right) = - \sum\limits_{x \in X} {P\left( x \right)} \log P\left( x \right)
熵满足下列不等式:

0≤H(X)≤log|X| 0 ≤ H ( X ) ≤ log ⁡ | X |

0 \le H\left( X \right) \le \log \left| X \right|
其中 |X| | X | \left| X \right|是 X X X的取值个数,当且仅当X" role="presentation" style="position: relative;">XXX的分布是均匀分布时右边的等号成立。也就是说,当 X X X服从均匀分布时,熵最大。

给定期望和方差,最大熵的分布形式

正态分布的概率密度函数为:

f(x)=12πσe−(x−μ)22σ2" role="presentation">f(x)=12π−−√σe−(x−μ)22σ2f(x)=12πσe−(x−μ)22σ2

f\left( x \right) = \frac{1}{{\sqrt {2\pi } \sigma }}{e^{ - \frac{{{{\left( {x - \mu } \right)}^2}}}{{2{\sigma ^2}}}}}
对数正态分布为:

lnf(x)=ln12π−−√−lnσ−−(x−μ)22σ2=α⋅x2+β⋅x+γ ln ⁡ f ( x ) = ln ⁡ 1 2 π − ln ⁡ σ − − ( x − μ ) 2 2 σ 2 = α ⋅ x 2 + β ⋅ x + γ

\ln f\left( x \right) = \ln \frac{1}{{\sqrt {2\pi } }} - \ln \sigma - - \frac{{{{\left( {x - \mu } \right)}^2}}}{{2{\sigma ^2}}} = \alpha \cdot {x^2} + \beta \cdot x + \gamma
该分布的对数是关于随机变量 X X X的二次函数。根据计算过程的可逆性,若某对数分布能够写成随机变量二次形式,该分布必然是正态分布。
目标函数为:

arg⁡maxP(x)⁡H(X)=−∑x∈XP(x)log⁡P(x)s.t.{E(X)=μVar(X)=σ2" role="presentation">argmaxP(x)H(X)=−∑x∈XP(x)logP(x)s.t.{E(X)=μVar(X)=σ2arg⁡maxP(x)⁡H(X)=−∑x∈XP(x)log⁡P(x)s.t.{E(X)=μVar(X)=σ2

\begin{array}{l} \arg \mathop {\max }\limits_{P\left( x \right)} H\left( X \right) = - \sum\limits_{x \in X} {P\left( x \right)} \log P\left( x \right)\\ s.t.\left\{ \begin{array}{l} E\left( X \right) = \mu \\ Var\left( X \right) = {\sigma ^2} \end{array} \right. \end{array}
由约束条件 E(X)=μ,Var(X)=σ2 E ( X ) = μ , V a r ( X ) = σ 2 E\left( X \right) = \mu ,Var\left( X \right) = {\sigma ^2}

可得 Var(X)=E(X2)−E2(X)⇒E(X2)=Var(X)+E2(X)=μ2+σ2 V a r ( X ) = E ( X 2 ) − E 2 ( X ) ⇒ E ( X 2 ) = V a r ( X ) + E 2 ( X ) = μ 2 + σ 2 Var\left( X \right) = E\left( {{X^2}} \right) - {E^2}\left( X \right) \Rightarrow E\left( {{X^2}} \right) = Var\left( X \right) + {E^2}\left( X \right) = {\mu ^2} + {\sigma ^2}
采用拉格朗日乘子法转化为无约束的极值问题。拉格朗日函数为:

L(P)=−∑x∈XP(x)logP(x)+λ1(E(X)−μ)+λ2(E(X2)−μ2−σ2)=−∑x∈XP(x)logP(x)+λ1(∑x∈Xx⋅P(x)−μ)+λ2(∑x∈Xx2⋅P(x)−μ2−σ2) L ( P ) = − ∑ x ∈ X P ( x ) log ⁡ P ( x ) + λ 1 ( E ( X ) − μ ) + λ 2 ( E ( X 2 ) − μ 2 − σ 2 ) = − ∑ x ∈ X P ( x ) log ⁡ P ( x ) + λ 1 ( ∑ x ∈ X x ⋅ P ( x ) − μ ) + λ 2 ( ∑ x ∈ X x 2 ⋅ P ( x ) − μ 2 − σ 2 )

\begin{array}{l} L\left( P \right) = - \sum\limits_{x \in X} {P\left( x \right)} \log P\left( x \right) + {\lambda _1}\left( {E\left( X \right) - \mu } \right) + {\lambda _2}\left( {E\left( {{X^2}} \right) - {\mu ^2} - {\sigma ^2}} \right)\\= - \sum\limits_{x \in X} {P\left( x \right)} \log P\left( x \right) + {\lambda _1}\left( {\sum\limits_{x \in X} {x \cdot P\left( x \right)} - \mu } \right) + {\lambda _2}\left( {\sum\limits_{x \in X} {{x^2} \cdot P\left( x \right)} - {\mu ^2} - {\sigma ^2}} \right) \end{array}
对 P(x) P ( x ) P\left( x \right)求导可得:

∂L∂P=−logP(x)−1+λ1⋅x+λ2⋅x2 ∂ L ∂ P = − log ⁡ P ( x ) − 1 + λ 1 ⋅ x + λ 2 ⋅ x 2

\frac{{\partial L}}{{\partial P}} = - \log P\left( x \right) - 1 + {\lambda _1} \cdot x + {\lambda _2} \cdot {x^2}
令其导数等于0,可得: logP(x)=λ1⋅x+λ2⋅x2−1 log ⁡ P ( x ) = λ 1 ⋅ x + λ 2 ⋅ x 2 − 1 \log P\left( x \right) = {\lambda _1} \cdot x + {\lambda _2} \cdot {x^2} - 1
P(x) P ( x ) P\left( x \right)的对数是关于随机变量 x x x的二次形式,所以该分布P(x)" role="presentation" style="position: relative;">P(x)P(x)P\left( x \right)是正态分布。

联合熵和条件熵

设有随机变量 (X,Y) ( X , Y ) \left( {X,Y} \right),其联合概率分布为:

P(X=xi,Y=yj)=p(xi,yj)=pij,i=1,2,⋯,n;j=1,2,⋯,m P ( X = x i , Y = y j ) = p ( x i , y j ) = p i j , i = 1 , 2 , ⋯ , n ; j = 1 , 2 , ⋯ , m

P\left( {X = {x_i},Y = {y_j}} \right) = p\left( {{x_i},{y_j}} \right) = {p_{ij}},i = 1,2, \cdots ,n;j = 1,2, \cdots ,m
联合熵为 H(X,Y)=−∑x,yP(x,y)logP(x,y) H ( X , Y ) = − ∑ x , y P ( x , y ) log ⁡ P ( x , y ) H\left( {X,Y} \right) = - \sum\limits_{x,y} {P\left( {x,y} \right)} \log P\left( {x,y} \right)
条件熵为 H(Y|X)=H(X,Y)−H(X) H ( Y | X ) = H ( X , Y ) − H ( X ) H\left( {Y\left| X \right.} \right) = H\left( {X,Y} \right) - H\left( X \right)。条件熵表示在已知随机变量 X X X的条件下随机变量Y" role="presentation" style="position: relative;">YYY的不确定性。

H(Y|X)=H(X,Y)−H(X)=−∑x,yP(x,y)logP(x,y)+∑xP(x)logP(x)=−∑x,yP(x,y)logP(x,y)+∑x(∑yP(x,y))logP(x)=−∑x,yP(x,y)logP(x,y)+∑x∑yP(x,y)logP(x)=−∑x,yP(x,y)logP(x,y)P(x)=−∑x,yP(x,y)logP(y|x)=−∑x∑yP(x)P(y|x)logP(y|x)=−∑xP(x)∑yP(y|x)logP(y|x)=∑xP(x)(−∑yP(y|x)logP(y|x))=∑xP(x)H(Y|X=x) H ( Y | X ) = H ( X , Y ) − H ( X ) = − ∑ x , y P ( x , y ) log ⁡ P ( x , y ) + ∑ x P ( x ) log ⁡ P ( x ) = − ∑ x , y P ( x , y ) log ⁡ P ( x , y ) + ∑ x ( ∑ y P ( x , y ) ) log ⁡ P ( x ) = − ∑ x , y P ( x , y ) log ⁡ P ( x , y ) + ∑ x ∑ y P ( x , y ) log ⁡ P ( x ) = − ∑ x , y P ( x , y ) log ⁡ P ( x , y ) P ( x ) = − ∑ x , y P ( x , y ) log ⁡ P ( y | x ) = − ∑ x ∑ y P ( x ) P ( y | x ) log ⁡ P ( y | x ) = − ∑ x P ( x ) ∑ y P ( y | x ) log ⁡ P ( y | x ) = ∑ x P ( x ) ( − ∑ y P ( y | x ) log ⁡ P ( y | x ) ) = ∑ x P ( x ) H ( Y | X = x )

\begin{array}{l} H\left( {Y\left| X \right.} \right) = H\left( {X,Y} \right) - H\left( X \right)\\= - \sum\limits_{x,y} {P\left( {x,y} \right)} \log P\left( {x,y} \right) + \sum\limits_x {P\left( x \right)} \log P\left( x \right)\\= - \sum\limits_{x,y} {P\left( {x,y} \right)} \log P\left( {x,y} \right) + \sum\limits_x {\left( {\sum\limits_y {P\left( {x,y} \right)} } \right)} \log P\left( x \right)\\= - \sum\limits_{x,y} {P\left( {x,y} \right)} \log P\left( {x,y} \right) + \sum\limits_x {\sum\limits_y {P\left( {x,y} \right)} } \log P\left( x \right)\\= - \sum\limits_{x,y} {P\left( {x,y} \right)} \log \frac{{P\left( {x,y} \right)}}{{P\left( x \right)}}\\= - \sum\limits_{x,y} {P\left( {x,y} \right)} \log P\left( {y\left| x \right.} \right)\\= - \sum\limits_x {\sum\limits_y {P\left( x \right)} } P\left( {y\left| x \right.} \right)\log P\left( {y\left| x \right.} \right)\\= - \sum\limits_x {P\left( x \right)\sum\limits_y {P\left( {y\left| x \right.} \right)} } \log P\left( {y\left| x \right.} \right)\\= \sum\limits_x {P\left( x \right)\left( { - \sum\limits_y {P\left( {y\left| x \right.} \right)} \log P\left( {y\left| x \right.} \right)} \right)} \\= \sum\limits_x {P\left( x \right)H\left( {Y\left| {X = x} \right.} \right)} \end{array}
H(Y|X) H ( Y | X ) H\left( {Y\left| X \right.} \right)定义为 X X X给定的条件下Y" role="presentation" style="position: relative;">YYY的条件概率分布的熵对 X X X的数学期望。

相对熵

相对熵,又称互熵,交叉熵,K-L散度等。用来衡量两个概率分布之间的差异。
设有两个概率分布p(x)" role="presentation" style="position: relative;">p(x)p(x)p\left( x \right)和 q(x) q ( x ) q\left( x \right),则 p p p对q" role="presentation" style="position: relative;">qqq的相对熵为:

D(p∥q)=∑xp(x)logp(x)q(x) D ( p ‖ q ) = ∑ x p ( x ) log ⁡ p ( x ) q ( x )

D\left( {p\left\| q \right.} \right) = \sum\limits_x {p\left( x \right)} \log \frac{{p\left( x \right)}}{{q\left( x \right)}}
对于连续的随机变量,定义为:

D(p∥q)=∫p(x)logp(x)q(x)dx D ( p ‖ q ) = ∫ p ( x ) log ⁡ p ( x ) q ( x ) d x

D\left( {p\left\| q \right.} \right) = \int {p\left( x \right)\log \frac{{p\left( x \right)}}{{q\left( x \right)}}} dx
1.相对熵可以度量两个随机变量的“距离”。
2.在概率和统计学中,经常会使用一种近似的分布来代替复杂的分布。K-L散度度量了使用一个分布来近似另一个分布时所损失的信息。
3.一般的, D(p∥q)≠D(q∥p) D ( p ‖ q ) ≠ D ( q ‖ p ) D\left( {p\left\| q \right.} \right) \ne D\left( {q\left\| p \right.} \right),即是非对称的。
4. D(p∥q)≥0,D(q∥p)≥0 D ( p ‖ q ) ≥ 0 , D ( q ‖ p ) ≥ 0 D\left( {p\left\| q \right.} \right) \ge 0,D\left( {q\left\| p \right.} \right) \ge 0。这个可以利用凸函数中Jensen不等式来证明。

D(p∥q)=∑xp(x)logp(x)q(x)=−∑xp(x)logq(x)p(x)≥−log(∑xp(x)⋅q(x)p(x))=−log(∑xp(x))=−log(1)=0 D ( p ‖ q ) = ∑ x p ( x ) log ⁡ p ( x ) q ( x ) = − ∑ x p ( x ) log ⁡ q ( x ) p ( x ) ≥ − log ⁡ ( ∑ x p ( x ) ⋅ q ( x ) p ( x ) ) = − log ⁡ ( ∑ x p ( x ) ) = − log ⁡ ( 1 ) = 0

\begin{array}{l} D\left( {p\left\| q \right.} \right) = \sum\limits_x {p\left( x \right)} \log \frac{{p\left( x \right)}}{{q\left( x \right)}}\\= - \sum\limits_x {p\left( x \right)} \log \frac{{q\left( x \right)}}{{p\left( x \right)}} \ge - \log \left( {\sum\limits_x {p\left( x \right)} \cdot \frac{{q\left( x \right)}}{{p\left( x \right)}}} \right)\\= - \log \left( {\sum\limits_x {p\left( x \right)} } \right) = - \log \left( 1 \right) = 0 \end{array}
其中,因为 log l o g log函数是凹函数,所以 −log − log - \log 是凸函数。
同理可证 D(q‖p)≥0 D ( q ‖ p ) ≥ 0 D\left( {q\left\| p \right.} \right) \ge 0。
5.假定已知随机变量 P P P,求相对简单的随机变量QQ" role="presentation" style="position: relative;">QQ,使得 Q Q Q尽量接近PP" role="presentation" style="position: relative;">PP。就可以使用 P P P和QQ" role="presentation" style="position: relative;">QQ的K-L距离。
6.假定使用 D(Q‖P) D ( Q ‖ P ) D\left( {Q\left\| P \right.} \right),为了让距离最小,则要求在 P P P为0的地方,QQ" role="presentation" style="position: relative;">QQ尽量为0。会得到比较“窄”的分布曲线。
7.假定使用 D(P‖Q) D ( P ‖ Q ) D\left( {P\left\| Q \right.} \right),为了让距离最小,则要求在 P P P不为0的地方,QQ" role="presentation" style="position: relative;">QQ尽量不为0。会得到比较“宽”的分布曲线。

互信息

两个随机变量X X X,YY" role="presentation" style="position: relative;">YY的互信息,定义为X X X,YY" role="presentation" style="position: relative;">YY的联合分布和独立分布乘积的相对熵。
I(X,Y)=D(p(x,y)‖p(x)p(y))=∑x,yp(x,y)logp(x,y)p(x)p(y)

I ( X , Y ) = D ( p ( x , y ) ‖ p ( x ) p ( y ) ) = ∑ x , y p ( x , y ) log ⁡ p ( x , y ) p ( x ) p ( y )

\begin{array}{l} I\left( {X,Y} \right) = D\left( {p\left( {x,y} \right)\left\| {p\left( x \right)p\left( y \right)} \right.} \right)\\= \sum\limits_{x,y} {p\left( {x,y} \right)\log \frac{{p\left( {x,y} \right)}}{{p\left( x \right)p\left( y \right)}}} \end{array}
计算 I(X,Y)=D(p(x,y)|p(x)p(y)) =∑x,yp(x,y)logp(x,y)p(x)p(y) I ( X , Y ) = D ( p ( x , y ) | p ( x ) p ( y ) ) = ∑ x , y p ( x , y ) log ⁡ p ( x , y ) p ( x ) p ( y ) \begin{array}{l} I\left( {X,Y} \right) = D\left( {p\left( {x,y} \right)\left| {p\left( x \right)p\left( y \right)} \right.} \right)\ = \sum\limits_{x,y} {p\left( {x,y} \right)\log \frac{{p\left( {x,y} \right)}}{{p\left( x \right)p\left( y \right)}}} \end{array}
H(Y)−I(X,Y)=−∑yp(y)logp(y)−∑x,yp(x,y)logp(x,y)p(x)p(y)=−∑y(∑xp(x,y))logp(y)−∑x,yp(x,y)logp(x,y)p(x)p(y)=−∑x,yp(x,y)logp(y)−∑x,yp(x,y)logp(x,y)p(x)p(y)=−∑x,yp(x,y)logp(x,y)p(x)=−∑x,yp(x,y)logp(y|x)=∑xp(x)(−∑yp(y|x)logp(y|x))=∑xp(x)H(Y|x)=H(Y|X)

H ( Y ) − I ( X , Y ) = − ∑ y p ( y ) log ⁡ p ( y ) − ∑ x , y p ( x , y ) log ⁡ p ( x , y ) p ( x ) p ( y ) = − ∑ y ( ∑ x p ( x , y ) ) log ⁡ p ( y ) − ∑ x , y p ( x , y ) log ⁡ p ( x , y ) p ( x ) p ( y ) = − ∑ x , y p ( x , y ) log ⁡ p ( y ) − ∑ x , y p ( x , y ) log ⁡ p ( x , y ) p ( x ) p ( y ) = − ∑ x , y p ( x , y ) log ⁡ p ( x , y ) p ( x ) = − ∑ x , y p ( x , y ) log ⁡ p ( y | x ) = ∑ x p ( x ) ( − ∑ y p ( y | x ) log ⁡ p ( y | x ) ) = ∑ x p ( x ) H ( Y | x ) = H ( Y | X )

\begin{array}{l} H\left( Y \right) - I\left( {X,Y} \right)\\= - \sum\limits_y {p\left( y \right)\log p\left( y \right) - } \sum\limits_{x,y} {p\left( {x,y} \right)\log \frac{{p\left( {x,y} \right)}}{{p\left( x \right)p\left( y \right)}}} \\= - \sum\limits_y {\left( {\sum\limits_x {p\left( {x,y} \right)} } \right)\log p\left( y \right) - } \sum\limits_{x,y} {p\left( {x,y} \right)\log \frac{{p\left( {x,y} \right)}}{{p\left( x \right)p\left( y \right)}}} \\= - \sum\limits_{x,y} {p\left( {x,y} \right)\log p\left( y \right) - } \sum\limits_{x,y} {p\left( {x,y} \right)\log \frac{{p\left( {x,y} \right)}}{{p\left( x \right)p\left( y \right)}}} \\ {\rm{ = }} - \sum\limits_{x,y} {p\left( {x,y} \right)\log \frac{{p\left( {x,y} \right)}}{{p\left( x \right)}}} \\= - \sum\limits_{x,y} {p\left( {x,y} \right)\log p} \left( {y\left| x \right.} \right)\\= \sum\limits_x {p\left( x \right)\left( { - \sum\limits_y {p\left( {y\left| x \right.} \right)\log p} \left( {y\left| x \right.} \right)} \right)} \\= \sum\limits_x {p\left( x \right)} H\left( {Y\left| x \right.} \right)\\= H\left( {Y\left| X \right.} \right) \end{array}
所以 H(Y|X)=H(X,Y)−H(X)=H(Y)−I(X,Y)I(X,Y)=H(X)+H(Y)−H(X,Y)

H ( Y | X ) = H ( X , Y ) − H ( X ) = H ( Y ) − I ( X , Y ) I ( X , Y ) = H ( X ) + H ( Y ) − H ( X , Y )

\begin{array}{l} H\left( {Y\left| X \right.} \right){\rm{ = }}H\left( {X,Y} \right) - H\left( X \right) = H\left( Y \right) - I\left( {X,Y} \right)\\ I\left( {X,Y} \right) = H\left( X \right) + H\left( Y \right) - H\left( {X,Y} \right) \end{array}
因为 I(X,Y)=H(X)+H(Y)−H(X,Y) I ( X , Y ) = H ( X ) + H ( Y ) − H ( X , Y ) I\left( {X,Y} \right) = H\left( X \right) + H\left( Y \right) - H\left( {X,Y} \right),所以从另一个角度也可以推出互信息的表达式。
I(X,Y)=H(X)+H(Y)−H(X,Y)=−∑xp(x)logp(x)−∑yp(y)logp(y)+∑x,yp(x,y)logp(x,y)=(−∑x∑yp(x,y)logp(x))−(∑y∑xp(x,y)logp(y))+∑x,yp(x,y)logp(x,y)=−∑x,yp(x,y)logp(x)−∑x,yp(x,y)logp(y)+∑x,yp(x,y)logp(x,y)=∑x,yp(x,y)(logp(x,y)−logp(x)−logp(y))=∑x,yp(x,y)(logp(x,y)p(x)p(y))

I ( X , Y ) = H ( X ) + H ( Y ) − H ( X , Y ) = − ∑ x p ( x ) log ⁡ p ( x ) − ∑ y p ( y ) log ⁡ p ( y ) + ∑ x , y p ( x , y ) log ⁡ p ( x , y ) = ( − ∑ x ∑ y p ( x , y ) log ⁡ p ( x ) ) − ( ∑ y ∑ x p ( x , y ) log ⁡ p ( y ) ) + ∑ x , y p ( x , y ) log ⁡ p ( x , y ) = − ∑ x , y p ( x , y ) log ⁡ p ( x ) − ∑ x , y p ( x , y ) log ⁡ p ( y ) + ∑ x , y p ( x , y ) log ⁡ p ( x , y ) = ∑ x , y p ( x , y ) ( log ⁡ p ( x , y ) − log ⁡ p ( x ) − log ⁡ p ( y ) ) = ∑ x , y p ( x , y ) ( log ⁡ p ( x , y ) p ( x ) p ( y ) )

\begin{array}{l} I\left( {X,Y} \right) = H\left( X \right) + H\left( Y \right) - H\left( {X,Y} \right)\\= - \sum\limits_x {p\left( x \right)} \log p\left( x \right) - \sum\limits_y {p\left( y \right)} \log p\left( y \right) + \sum\limits_{x,y} {p\left( {x,y} \right)} \log p\left( {x,y} \right)\\= \left( { - \sum\limits_x {\sum\limits_y {p\left( {x,y} \right)\log p\left( x \right)} } } \right) - \left( {\sum\limits_y {\sum\limits_x {p\left( {x,y} \right)\log p\left( y \right)} } } \right) + \sum\limits_{x,y} {p\left( {x,y} \right)} \log p\left( {x,y} \right)\\= - \sum\limits_{x,y} {p\left( {x,y} \right)\log p\left( x \right)} - \sum\limits_{x,y} {p\left( {x,y} \right)\log p\left( y \right)} + \sum\limits_{x,y} {p\left( {x,y} \right)} \log p\left( {x,y} \right)\\= \sum\limits_{x,y} {p\left( {x,y} \right)\left( {\log p\left( {x,y} \right) - \log p\left( x \right) - \log p\left( y \right)} \right)} \\= \sum\limits_{x,y} {p\left( {x,y} \right)\left( {\log \frac{{p\left( {x,y} \right)}}{{p\left( x \right)p\left( y \right)}}} \right)} \end{array}

Venn图

通过Venn图,可以方便我们记忆熵,联合熵,条件熵,互信息之间的关系。


左边的圆表示随机变量X X X的熵,右边的圆表示随机变量YY" role="presentation" style="position: relative;">YY的熵。左边的橙色部分表示随机变量Y Y Y给定的条件下随机变量XX" role="presentation" style="position: relative;">XX的条件熵。右边的绿色部分表示随机变量X X X给定的条件下随机变量YY" role="presentation" style="position: relative;">YY的条件熵。两圆中间相交的部分表示随机变量X X X和YY" role="presentation" style="position: relative;">YY的互信息。橙色部分、两圆相交的咖啡色部分以及绿色部分加在一起表示X X X和YY" role="presentation" style="position: relative;">YY的联合熵。通过此图,各种熵之间的关系就很好记忆了。

详解熵、最大熵、联合熵和条件熵、相对熵以及互信息之间的关系相关推荐

  1. 详解:物理地址,虚拟地址,内存管理,逻辑地址之间的关系

    物理地址: 这里说的物理地址是内存中的内存单元实际地址,不是外部总线连接的其他电子元件的地址! 物理地址属于比较好理解的,物理地址就是内存中每个内存单元的编号,这个编号是顺序排好的,物理地址的大小决定 ...

  2. 机器学习进阶(4):熵,联合熵,条件熵,互信息的推导和联系

    文章目录 前言 熵 联合熵 条件熵 互信息 几种熵之间的关系 前言 机器学习领域有一个十分重要的概念:熵.大家或多或少都听过一些熵的概念和定义,但是可能对他们的关系不是很清楚,本文就熵,联合熵,条件熵 ...

  3. 相对熵与交叉熵_详解机器学习中的熵、条件熵、相对熵、交叉熵

    目录 信息熵 条件熵 相对熵 交叉熵 总结 一  信息熵 (information entropy) 熵 (entropy) 这一词最初来源于热力学.1948年,克劳德·爱尔伍德·香农将热力学中的熵引 ...

  4. 详解机器学习中的熵、条件熵、相对熵、交叉熵

    欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/,学习更多的机器学习.深度学习的知识! 目录 信息熵 条件熵 相对熵 交叉熵 总结 一 信息熵 (info ...

  5. 信息安全—密码学信息熵信息理论基础—熵的概念(熵、联合熵、条件熵、平均互信息)

    数学基础:概率论乘法法则 两个事件相互独立:P(A∩B) = P(A)×P(B) · 意思是事件A和事件B同时发生的概率 = 事件A发生的概率 × 事件B发生的概率 · · 举个栗子:掷两枚硬币硬币同 ...

  6. 解释机器学习中的熵、联合熵、条件熵、相对熵和交叉熵

    原文地址:https://www.cnblogs.com/kyrieng/p/8694705.html 1.信息熵 (information entropy) 熵 (entropy) 这一词最初来源于 ...

  7. 一文理清楚:熵,条件熵,KL散度(相对熵),交叉熵,联合熵,信息增益,信息增益比,GINI系数

    熵 熵是表示随机变量不确定性的度量. 设 X X X是一个有N个取值有限的随机变量,其概率分布为: P ( X = i ) = p i , i = 1 , 2... N P(X=i)=p_i , i= ...

  8. 熵、联合熵、相对熵、交叉熵、JS散度、互信息、条件熵

    封面镇楼 目录 一.熵 二.联合熵 三.相对熵(KL散度) 四.交叉熵 五.JS散度 六.互信息 七.条件熵 八.总结 一.熵 对于离散型随机变量,当它服从均匀分布时,熵有极大值.取某一个值的概率为1 ...

  9. db2 联合数据源 mysql_详解DB2中联合SQL Server数据

    [51CTO独家特稿]DB2中联合SQL Server步骤: 1.安装DB2 2.安装IBM DataDirect ODBC驱动 3.安装关系连接器 或安装InfoSphere DB2(InfoSph ...

最新文章

  1. java设置虚基类的目的_设置虚基类的目的是( )。
  2. python抽奖游戏_python实现转盘效果 python实现轮盘抽奖游戏
  3. SaltStack入门(二)Grains、NoteGroup和State
  4. python需要php吗-学python需要学linux吗
  5. 深入理解分布式技术 - 先更新数据库,还是先更新缓存
  6. spring-cloud-eureka服务注册与发现
  7. [Redux/Mobx] Redux中异步action和同步action最大的区别是什么?
  8. FireEye:GreedyWonk行动针对经济和外交政策网站
  9. Pandas 通用方法
  10. 【class2src】Decompiler
  11. 陆上物探测量基本理论之一---高程
  12. Dynamics AX2012 保留上一次操作记录
  13. 小米路由器R1D改造记录-安装MIXBOX
  14. 如何计算吃鸡游戏的物理碰撞?
  15. 在EnableQ创建一张问卷
  16. HSPICE求导语句
  17. MD5文件如何解密zip文件
  18. php利用phpqrcode生成二维码,并将二维码盖在一张图上实现美化
  19. 计算机上安装了更新ie版本,电脑XP系统安装不了ie提示“安装了更新的Internet Explorer版本”的解决方法...
  20. 项目经理如何做好项目管理PMP - 持续更新

热门文章

  1. 怎样让dw的html表格移动,妙用dw图层与表格进行网页布局-网页设计,Dreamweaver
  2. 获取MPU9250九轴数据--以四轴飞行器姿态解算为例
  3. python十个实战项目
  4. 【欧几里得扩展欧几里得】
  5. C++ 链表的基本操作
  6. 学历对于程序员找工作重要吗?我来分享一下看法
  7. asr语音识别入门材料
  8. 什么是OpCode?
  9. 记一次mysql启动失败问题.
  10. Android Scroller