信息量的定义

某事件发生的概率小，则该事件的信息量大。
定义随机变量 X X X的概率分布为P(X)" role="presentation" style="position: relative;">P(X)P(X)P\left( X \right), X X X的信息量为：h(X)=−log2P(X)" role="presentation" style="position: relative;">h(X)=−log2P(X)h(X)=−log2P(X)h\left( X \right) = - {\log _2}P\left( X \right).

熵

对随机事件的信息量求期望，得到随机变量XX的熵：
H(X)=−∑x∈XP(x)logP(x)H\left( X \right) = - \sum\limits_{x \in X} {P\left( x \right)} \log P\left( x \right)

当对数底数是2时，单位是bit，当对数底数是e时，单位是nat(奈特)。同时，若P(x)=0P\left( x \right) = 0,则定义0log0=00\log 0 = 0。由熵定义可知，随机变量的熵只依赖于XX的分布，而与XX的取值无关。
熵表示的是随机变量不确定性的度量。熵越大，随机变量的不确定性也就越大。

两点分布的熵

H(X)=−∑x∈XP(x)logP(x)=−plog2p−(1−p)log2(1−p) H ( X ) = − ∑ x ∈ X P ( x ) log ⁡ P ( x ) = − p log 2 p − ( 1 − p ) log 2 ( 1 − p )

H\left( X \right) = - \sum\limits_{x \in X} {P\left( x \right)} \log P\left( x \right) = - p{\log _2}p - \left( {1 - p} \right){\log _2}\left( {1 - p} \right)

这时，熵 H(X) H ( X ) H\left( X \right)随概率 p p p变化的曲线如下图所示。

当p=0" role="presentation" style="position: relative;">p=0p=0p = 0或 p=1 p = 1 p = 1时，随机变量完全没有不确定性。当 p=0.5 p = 0.5 p = 0.5时， H(X)=1 H ( X ) = 1 H\left( X \right) = 1,熵取得最大值，随机变量的不确定性最大。

离散随机变量的最大熵

假设离散随机变量 X X X的概率分布是P(X)" role="presentation" style="position: relative;">P(X)P(X)P\left( X \right),则其熵是：

H(X)=−∑x∈XP(x)logP(x) H ( X ) = − ∑ x ∈ X P ( x ) log ⁡ P ( x )

H\left( X \right) = - \sum\limits_{x \in X} {P\left( x \right)} \log P\left( x \right)
熵满足下列不等式：

0≤H(X)≤log|X| 0 ≤ H ( X ) ≤ log ⁡ | X |

给定期望和方差，最大熵的分布形式

正态分布的概率密度函数为：

f(x)=12πσe−(x−μ)22σ2" role="presentation">f(x)=12π−−√σe−(x−μ)22σ2f(x)=12πσe−(x−μ)22σ2

f\left( x \right) = \frac{1}{{\sqrt {2\pi } \sigma }}{e^{ - \frac{{{{\left( {x - \mu } \right)}^2}}}{{2{\sigma ^2}}}}}
对数正态分布为：

lnf(x)=ln12π−−√−lnσ−−(x−μ)22σ2=α⋅x2+β⋅x+γ ln ⁡ f ( x ) = ln ⁡ 1 2 π − ln ⁡ σ − − ( x − μ ) 2 2 σ 2 = α ⋅ x 2 + β ⋅ x + γ

\ln f\left( x \right) = \ln \frac{1}{{\sqrt {2\pi } }} - \ln \sigma - - \frac{{{{\left( {x - \mu } \right)}^2}}}{{2{\sigma ^2}}} = \alpha \cdot {x^2} + \beta \cdot x + \gamma
该分布的对数是关于随机变量 X X X的二次函数。根据计算过程的可逆性，若某对数分布能够写成随机变量二次形式，该分布必然是正态分布。
目标函数为：

arg⁡maxP(x)⁡H(X)=−∑x∈XP(x)log⁡P(x)s.t.{E(X)=μVar(X)=σ2" role="presentation">argmaxP(x)H(X)=−∑x∈XP(x)logP(x)s.t.{E(X)=μVar(X)=σ2arg⁡maxP(x)⁡H(X)=−∑x∈XP(x)log⁡P(x)s.t.{E(X)=μVar(X)=σ2

\begin{array}{l} \arg \mathop {\max }\limits_{P\left( x \right)} H\left( X \right) = - \sum\limits_{x \in X} {P\left( x \right)} \log P\left( x \right)\\ s.t.\left\{ \begin{array}{l} E\left( X \right) = \mu \\ Var\left( X \right) = {\sigma ^2} \end{array} \right. \end{array}
由约束条件 E(X)=μ,Var(X)=σ2 E ( X ) = μ , V a r ( X ) = σ 2 E\left( X \right) = \mu ,Var\left( X \right) = {\sigma ^2}

可得 Var(X)=E(X2)−E2(X)⇒E(X2)=Var(X)+E2(X)=μ2+σ2 V a r ( X ) = E ( X 2 ) − E 2 ( X ) ⇒ E ( X 2 ) = V a r ( X ) + E 2 ( X ) = μ 2 + σ 2 Var\left( X \right) = E\left( {{X^2}} \right) - {E^2}\left( X \right) \Rightarrow E\left( {{X^2}} \right) = Var\left( X \right) + {E^2}\left( X \right) = {\mu ^2} + {\sigma ^2}
采用拉格朗日乘子法转化为无约束的极值问题。拉格朗日函数为：

L(P)=−∑x∈XP(x)logP(x)+λ1(E(X)−μ)+λ2(E(X2)−μ2−σ2)=−∑x∈XP(x)logP(x)+λ1(∑x∈Xx⋅P(x)−μ)+λ2(∑x∈Xx2⋅P(x)−μ2−σ2) L ( P ) = − ∑ x ∈ X P ( x ) log ⁡ P ( x ) + λ 1 ( E ( X ) − μ ) + λ 2 ( E ( X 2 ) − μ 2 − σ 2 ) = − ∑ x ∈ X P ( x ) log ⁡ P ( x ) + λ 1 ( ∑ x ∈ X x ⋅ P ( x ) − μ ) + λ 2 ( ∑ x ∈ X x 2 ⋅ P ( x ) − μ 2 − σ 2 )

\begin{array}{l} L\left( P \right) = - \sum\limits_{x \in X} {P\left( x \right)} \log P\left( x \right) + {\lambda _1}\left( {E\left( X \right) - \mu } \right) + {\lambda _2}\left( {E\left( {{X^2}} \right) - {\mu ^2} - {\sigma ^2}} \right)\\= - \sum\limits_{x \in X} {P\left( x \right)} \log P\left( x \right) + {\lambda _1}\left( {\sum\limits_{x \in X} {x \cdot P\left( x \right)} - \mu } \right) + {\lambda _2}\left( {\sum\limits_{x \in X} {{x^2} \cdot P\left( x \right)} - {\mu ^2} - {\sigma ^2}} \right) \end{array}
对 P(x) P ( x ) P\left( x \right)求导可得：

∂L∂P=−logP(x)−1+λ1⋅x+λ2⋅x2 ∂ L ∂ P = − log ⁡ P ( x ) − 1 + λ 1 ⋅ x + λ 2 ⋅ x 2

\frac{{\partial L}}{{\partial P}} = - \log P\left( x \right) - 1 + {\lambda _1} \cdot x + {\lambda _2} \cdot {x^2}
令其导数等于0，可得： logP(x)=λ1⋅x+λ2⋅x2−1 log ⁡ P ( x ) = λ 1 ⋅ x + λ 2 ⋅ x 2 − 1 \log P\left( x \right) = {\lambda _1} \cdot x + {\lambda _2} \cdot {x^2} - 1
P(x) P ( x ) P\left( x \right)的对数是关于随机变量 x x x的二次形式，所以该分布P(x)" role="presentation" style="position: relative;">P(x)P(x)P\left( x \right)是正态分布。

联合熵和条件熵

设有随机变量 (X,Y) ( X , Y ) \left( {X,Y} \right),其联合概率分布为：

P(X=xi,Y=yj)=p(xi,yj)=pij,i=1,2,⋯,n;j=1,2,⋯,m P ( X = x i , Y = y j ) = p ( x i , y j ) = p i j , i = 1 , 2 , ⋯ , n ; j = 1 , 2 , ⋯ , m

P\left( {X = {x_i},Y = {y_j}} \right) = p\left( {{x_i},{y_j}} \right) = {p_{ij}},i = 1,2, \cdots ,n;j = 1,2, \cdots ,m
联合熵为 H(X,Y)=−∑x,yP(x,y)logP(x,y) H ( X , Y ) = − ∑ x , y P ( x , y ) log ⁡ P ( x , y ) H\left( {X,Y} \right) = - \sum\limits_{x,y} {P\left( {x,y} \right)} \log P\left( {x,y} \right)
条件熵为 H(Y|X)=H(X,Y)−H(X) H ( Y | X ) = H ( X , Y ) − H ( X ) H\left( {Y\left| X \right.} \right) = H\left( {X,Y} \right) - H\left( X \right)。条件熵表示在已知随机变量 X X X的条件下随机变量Y" role="presentation" style="position: relative;">YYY的不确定性。

\begin{array}{l} H\left( {Y\left| X \right.} \right) = H\left( {X,Y} \right) - H\left( X \right)\\= - \sum\limits_{x,y} {P\left( {x,y} \right)} \log P\left( {x,y} \right) + \sum\limits_x {P\left( x \right)} \log P\left( x \right)\\= - \sum\limits_{x,y} {P\left( {x,y} \right)} \log P\left( {x,y} \right) + \sum\limits_x {\left( {\sum\limits_y {P\left( {x,y} \right)} } \right)} \log P\left( x \right)\\= - \sum\limits_{x,y} {P\left( {x,y} \right)} \log P\left( {x,y} \right) + \sum\limits_x {\sum\limits_y {P\left( {x,y} \right)} } \log P\left( x \right)\\= - \sum\limits_{x,y} {P\left( {x,y} \right)} \log \frac{{P\left( {x,y} \right)}}{{P\left( x \right)}}\\= - \sum\limits_{x,y} {P\left( {x,y} \right)} \log P\left( {y\left| x \right.} \right)\\= - \sum\limits_x {\sum\limits_y {P\left( x \right)} } P\left( {y\left| x \right.} \right)\log P\left( {y\left| x \right.} \right)\\= - \sum\limits_x {P\left( x \right)\sum\limits_y {P\left( {y\left| x \right.} \right)} } \log P\left( {y\left| x \right.} \right)\\= \sum\limits_x {P\left( x \right)\left( { - \sum\limits_y {P\left( {y\left| x \right.} \right)} \log P\left( {y\left| x \right.} \right)} \right)} \\= \sum\limits_x {P\left( x \right)H\left( {Y\left| {X = x} \right.} \right)} \end{array}
H(Y|X) H ( Y | X ) H\left( {Y\left| X \right.} \right)定义为 X X X给定的条件下Y" role="presentation" style="position: relative;">YYY的条件概率分布的熵对 X X X的数学期望。

相对熵

相对熵，又称互熵，交叉熵，K-L散度等。用来衡量两个概率分布之间的差异。
设有两个概率分布p(x)" role="presentation" style="position: relative;">p(x)p(x)p\left( x \right)和 q(x) q ( x ) q\left( x \right)，则 p p p对q" role="presentation" style="position: relative;">qqq的相对熵为：

D(p∥q)=∑xp(x)logp(x)q(x) D ( p ‖ q ) = ∑ x p ( x ) log ⁡ p ( x ) q ( x )

D\left( {p\left\| q \right.} \right) = \sum\limits_x {p\left( x \right)} \log \frac{{p\left( x \right)}}{{q\left( x \right)}}
对于连续的随机变量，定义为：

D(p∥q)=∫p(x)logp(x)q(x)dx D ( p ‖ q ) = ∫ p ( x ) log ⁡ p ( x ) q ( x ) d x

D\left( {p\left\| q \right.} \right) = \int {p\left( x \right)\log \frac{{p\left( x \right)}}{{q\left( x \right)}}} dx
1.相对熵可以度量两个随机变量的“距离”。
2.在概率和统计学中，经常会使用一种近似的分布来代替复杂的分布。K-L散度度量了使用一个分布来近似另一个分布时所损失的信息。
3.一般的， D(p∥q)≠D(q∥p) D ( p ‖ q ) ≠ D ( q ‖ p ) D\left( {p\left\| q \right.} \right) \ne D\left( {q\left\| p \right.} \right),即是非对称的。
4. D(p∥q)≥0,D(q∥p)≥0 D ( p ‖ q ) ≥ 0 , D ( q ‖ p ) ≥ 0 D\left( {p\left\| q \right.} \right) \ge 0,D\left( {q\left\| p \right.} \right) \ge 0。这个可以利用凸函数中Jensen不等式来证明。

D(p∥q)=∑xp(x)logp(x)q(x)=−∑xp(x)logq(x)p(x)≥−log(∑xp(x)⋅q(x)p(x))=−log(∑xp(x))=−log(1)=0 D ( p ‖ q ) = ∑ x p ( x ) log ⁡ p ( x ) q ( x ) = − ∑ x p ( x ) log ⁡ q ( x ) p ( x ) ≥ − log ⁡ ( ∑ x p ( x ) ⋅ q ( x ) p ( x ) ) = − log ⁡ ( ∑ x p ( x ) ) = − log ⁡ ( 1 ) = 0

\begin{array}{l} D\left( {p\left\| q \right.} \right) = \sum\limits_x {p\left( x \right)} \log \frac{{p\left( x \right)}}{{q\left( x \right)}}\\= - \sum\limits_x {p\left( x \right)} \log \frac{{q\left( x \right)}}{{p\left( x \right)}} \ge - \log \left( {\sum\limits_x {p\left( x \right)} \cdot \frac{{q\left( x \right)}}{{p\left( x \right)}}} \right)\\= - \log \left( {\sum\limits_x {p\left( x \right)} } \right) = - \log \left( 1 \right) = 0 \end{array}
其中，因为 log l o g log函数是凹函数，所以 −log − log - \log 是凸函数。
同理可证 D(q‖p)≥0 D ( q ‖ p ) ≥ 0 D\left( {q\left\| p \right.} \right) \ge 0。
5.假定已知随机变量 P P P,求相对简单的随机变量QQ" role="presentation" style="position: relative;">QQ,使得 Q Q Q尽量接近PP" role="presentation" style="position: relative;">PP。就可以使用 P P P和QQ" role="presentation" style="position: relative;">QQ的K-L距离。
6.假定使用 D(Q‖P) D ( Q ‖ P ) D\left( {Q\left\| P \right.} \right),为了让距离最小，则要求在 P P P为0的地方，QQ" role="presentation" style="position: relative;">QQ尽量为0。会得到比较“窄”的分布曲线。
7.假定使用 D(P‖Q) D ( P ‖ Q ) D\left( {P\left\| Q \right.} \right),为了让距离最小，则要求在 P P P不为0的地方，QQ" role="presentation" style="position: relative;">QQ尽量不为0。会得到比较“宽”的分布曲线。

互信息

两个随机变量X X X,YY" role="presentation" style="position: relative;">YY的互信息，定义为X X X,YY" role="presentation" style="position: relative;">YY的联合分布和独立分布乘积的相对熵。
I(X,Y)=D(p(x,y)‖p(x)p(y))=∑x,yp(x,y)logp(x,y)p(x)p(y)

I ( X , Y ) = D ( p ( x , y ) ‖ p ( x ) p ( y ) ) = ∑ x , y p ( x , y ) log ⁡ p ( x , y ) p ( x ) p ( y )

\begin{array}{l} I\left( {X,Y} \right) = D\left( {p\left( {x,y} \right)\left\| {p\left( x \right)p\left( y \right)} \right.} \right)\\= \sum\limits_{x,y} {p\left( {x,y} \right)\log \frac{{p\left( {x,y} \right)}}{{p\left( x \right)p\left( y \right)}}} \end{array}
计算 I(X,Y)=D(p(x,y)|p(x)p(y)) =∑x,yp(x,y)logp(x,y)p(x)p(y) I ( X , Y ) = D ( p ( x , y ) | p ( x ) p ( y ) ) = ∑ x , y p ( x , y ) log ⁡ p ( x , y ) p ( x ) p ( y ) \begin{array}{l} I\left( {X,Y} \right) = D\left( {p\left( {x,y} \right)\left| {p\left( x \right)p\left( y \right)} \right.} \right)\ = \sum\limits_{x,y} {p\left( {x,y} \right)\log \frac{{p\left( {x,y} \right)}}{{p\left( x \right)p\left( y \right)}}} \end{array}
H(Y)−I(X,Y)=−∑yp(y)logp(y)−∑x,yp(x,y)logp(x,y)p(x)p(y)=−∑y(∑xp(x,y))logp(y)−∑x,yp(x,y)logp(x,y)p(x)p(y)=−∑x,yp(x,y)logp(y)−∑x,yp(x,y)logp(x,y)p(x)p(y)=−∑x,yp(x,y)logp(x,y)p(x)=−∑x,yp(x,y)logp(y|x)=∑xp(x)(−∑yp(y|x)logp(y|x))=∑xp(x)H(Y|x)=H(Y|X)

H ( Y ) − I ( X , Y ) = − ∑ y p ( y ) log ⁡ p ( y ) − ∑ x , y p ( x , y ) log ⁡ p ( x , y ) p ( x ) p ( y ) = − ∑ y ( ∑ x p ( x , y ) ) log ⁡ p ( y ) − ∑ x , y p ( x , y ) log ⁡ p ( x , y ) p ( x ) p ( y ) = − ∑ x , y p ( x , y ) log ⁡ p ( y ) − ∑ x , y p ( x , y ) log ⁡ p ( x , y ) p ( x ) p ( y ) = − ∑ x , y p ( x , y ) log ⁡ p ( x , y ) p ( x ) = − ∑ x , y p ( x , y ) log ⁡ p ( y | x ) = ∑ x p ( x ) ( − ∑ y p ( y | x ) log ⁡ p ( y | x ) ) = ∑ x p ( x ) H ( Y | x ) = H ( Y | X )

\begin{array}{l} H\left( Y \right) - I\left( {X,Y} \right)\\= - \sum\limits_y {p\left( y \right)\log p\left( y \right) - } \sum\limits_{x,y} {p\left( {x,y} \right)\log \frac{{p\left( {x,y} \right)}}{{p\left( x \right)p\left( y \right)}}} \\= - \sum\limits_y {\left( {\sum\limits_x {p\left( {x,y} \right)} } \right)\log p\left( y \right) - } \sum\limits_{x,y} {p\left( {x,y} \right)\log \frac{{p\left( {x,y} \right)}}{{p\left( x \right)p\left( y \right)}}} \\= - \sum\limits_{x,y} {p\left( {x,y} \right)\log p\left( y \right) - } \sum\limits_{x,y} {p\left( {x,y} \right)\log \frac{{p\left( {x,y} \right)}}{{p\left( x \right)p\left( y \right)}}} \\ {\rm{ = }} - \sum\limits_{x,y} {p\left( {x,y} \right)\log \frac{{p\left( {x,y} \right)}}{{p\left( x \right)}}} \\= - \sum\limits_{x,y} {p\left( {x,y} \right)\log p} \left( {y\left| x \right.} \right)\\= \sum\limits_x {p\left( x \right)\left( { - \sum\limits_y {p\left( {y\left| x \right.} \right)\log p} \left( {y\left| x \right.} \right)} \right)} \\= \sum\limits_x {p\left( x \right)} H\left( {Y\left| x \right.} \right)\\= H\left( {Y\left| X \right.} \right) \end{array}
所以 H(Y|X)=H(X,Y)−H(X)=H(Y)−I(X,Y)I(X,Y)=H(X)+H(Y)−H(X,Y)

H ( Y | X ) = H ( X , Y ) − H ( X ) = H ( Y ) − I ( X , Y ) I ( X , Y ) = H ( X ) + H ( Y ) − H ( X , Y )

\begin{array}{l} H\left( {Y\left| X \right.} \right){\rm{ = }}H\left( {X,Y} \right) - H\left( X \right) = H\left( Y \right) - I\left( {X,Y} \right)\\ I\left( {X,Y} \right) = H\left( X \right) + H\left( Y \right) - H\left( {X,Y} \right) \end{array}
因为 I(X,Y)=H(X)+H(Y)−H(X,Y) I ( X , Y ) = H ( X ) + H ( Y ) − H ( X , Y ) I\left( {X,Y} \right) = H\left( X \right) + H\left( Y \right) - H\left( {X,Y} \right),所以从另一个角度也可以推出互信息的表达式。
I(X,Y)=H(X)+H(Y)−H(X,Y)=−∑xp(x)logp(x)−∑yp(y)logp(y)+∑x,yp(x,y)logp(x,y)=(−∑x∑yp(x,y)logp(x))−(∑y∑xp(x,y)logp(y))+∑x,yp(x,y)logp(x,y)=−∑x,yp(x,y)logp(x)−∑x,yp(x,y)logp(y)+∑x,yp(x,y)logp(x,y)=∑x,yp(x,y)(logp(x,y)−logp(x)−logp(y))=∑x,yp(x,y)(logp(x,y)p(x)p(y))

I ( X , Y ) = H ( X ) + H ( Y ) − H ( X , Y ) = − ∑ x p ( x ) log ⁡ p ( x ) − ∑ y p ( y ) log ⁡ p ( y ) + ∑ x , y p ( x , y ) log ⁡ p ( x , y ) = ( − ∑ x ∑ y p ( x , y ) log ⁡ p ( x ) ) − ( ∑ y ∑ x p ( x , y ) log ⁡ p ( y ) ) + ∑ x , y p ( x , y ) log ⁡ p ( x , y ) = − ∑ x , y p ( x , y ) log ⁡ p ( x ) − ∑ x , y p ( x , y ) log ⁡ p ( y ) + ∑ x , y p ( x , y ) log ⁡ p ( x , y ) = ∑ x , y p ( x , y ) ( log ⁡ p ( x , y ) − log ⁡ p ( x ) − log ⁡ p ( y ) ) = ∑ x , y p ( x , y ) ( log ⁡ p ( x , y ) p ( x ) p ( y ) )

\begin{array}{l} I\left( {X,Y} \right) = H\left( X \right) + H\left( Y \right) - H\left( {X,Y} \right)\\= - \sum\limits_x {p\left( x \right)} \log p\left( x \right) - \sum\limits_y {p\left( y \right)} \log p\left( y \right) + \sum\limits_{x,y} {p\left( {x,y} \right)} \log p\left( {x,y} \right)\\= \left( { - \sum\limits_x {\sum\limits_y {p\left( {x,y} \right)\log p\left( x \right)} } } \right) - \left( {\sum\limits_y {\sum\limits_x {p\left( {x,y} \right)\log p\left( y \right)} } } \right) + \sum\limits_{x,y} {p\left( {x,y} \right)} \log p\left( {x,y} \right)\\= - \sum\limits_{x,y} {p\left( {x,y} \right)\log p\left( x \right)} - \sum\limits_{x,y} {p\left( {x,y} \right)\log p\left( y \right)} + \sum\limits_{x,y} {p\left( {x,y} \right)} \log p\left( {x,y} \right)\\= \sum\limits_{x,y} {p\left( {x,y} \right)\left( {\log p\left( {x,y} \right) - \log p\left( x \right) - \log p\left( y \right)} \right)} \\= \sum\limits_{x,y} {p\left( {x,y} \right)\left( {\log \frac{{p\left( {x,y} \right)}}{{p\left( x \right)p\left( y \right)}}} \right)} \end{array}

Venn图

通过Venn图，可以方便我们记忆熵，联合熵，条件熵，互信息之间的关系。

左边的圆表示随机变量X X X的熵,右边的圆表示随机变量YY" role="presentation" style="position: relative;">YY的熵。左边的橙色部分表示随机变量Y Y Y给定的条件下随机变量XX" role="presentation" style="position: relative;">XX的条件熵。右边的绿色部分表示随机变量X X X给定的条件下随机变量YY" role="presentation" style="position: relative;">YY的条件熵。两圆中间相交的部分表示随机变量X X X和YY" role="presentation" style="position: relative;">YY的互信息。橙色部分、两圆相交的咖啡色部分以及绿色部分加在一起表示X X X和YY" role="presentation" style="position: relative;">YY的联合熵。通过此图，各种熵之间的关系就很好记忆了。

详解熵、最大熵、联合熵和条件熵、相对熵以及互信息之间的关系相关推荐

详解：物理地址，虚拟地址，内存管理，逻辑地址之间的关系
物理地址: 这里说的物理地址是内存中的内存单元实际地址,不是外部总线连接的其他电子元件的地址! 物理地址属于比较好理解的,物理地址就是内存中每个内存单元的编号,这个编号是顺序排好的,物理地址的大小决定 ...
机器学习进阶（4）：熵，联合熵，条件熵，互信息的推导和联系
文章目录前言熵联合熵条件熵互信息几种熵之间的关系前言机器学习领域有一个十分重要的概念:熵.大家或多或少都听过一些熵的概念和定义,但是可能对他们的关系不是很清楚,本文就熵,联合熵,条件熵 ...
相对熵与交叉熵_详解机器学习中的熵、条件熵、相对熵、交叉熵
目录信息熵条件熵相对熵交叉熵总结一信息熵 (information entropy) 熵 (entropy) 这一词最初来源于热力学.1948年,克劳德·爱尔伍德·香农将热力学中的熵引 ...
详解机器学习中的熵、条件熵、相对熵、交叉熵
欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/,学习更多的机器学习.深度学习的知识! 目录信息熵条件熵相对熵交叉熵总结一信息熵 (info ...
信息安全—密码学信息熵信息理论基础—熵的概念(熵、联合熵、条件熵、平均互信息)
数学基础:概率论乘法法则两个事件相互独立:P(A∩B) = P(A)×P(B) · 意思是事件A和事件B同时发生的概率 = 事件A发生的概率 × 事件B发生的概率 · · 举个栗子:掷两枚硬币硬币同 ...
解释机器学习中的熵、联合熵、条件熵、相对熵和交叉熵
原文地址:https://www.cnblogs.com/kyrieng/p/8694705.html 1.信息熵 (information entropy) 熵 (entropy) 这一词最初来源于 ...
一文理清楚：熵，条件熵，KL散度（相对熵），交叉熵，联合熵，信息增益，信息增益比，GINI系数
熵熵是表示随机变量不确定性的度量. 设 X X X是一个有N个取值有限的随机变量,其概率分布为: P ( X = i ) = p i , i = 1 , 2... N P(X=i)=p_i , i= ...
熵、联合熵、相对熵、交叉熵、JS散度、互信息、条件熵
封面镇楼目录一.熵二.联合熵三.相对熵(KL散度) 四.交叉熵五.JS散度六.互信息七.条件熵八.总结一.熵对于离散型随机变量,当它服从均匀分布时,熵有极大值.取某一个值的概率为1 ...
db2 联合数据源 mysql_详解DB2中联合SQL Server数据
[51CTO独家特稿]DB2中联合SQL Server步骤: 1.安装DB2 2.安装IBM DataDirect ODBC驱动 3.安装关系连接器或安装InfoSphere DB2(InfoSph ...

详解熵、最大熵、联合熵和条件熵、相对熵以及互信息之间的关系