多元正态分布的极大似然估计

1. 一元正态分布的密度函数

一元正态分布的密度函数表示为:

f ( x ) = 1 ( 2 π ) σ e − ( x − μ ) 2 2 σ 2 f(x) = \frac{1}{\sqrt {(2 \pi)} \sigma} e^{- \frac{(x - \mu)^2}{2 \sigma^2}} f(x)=(2π) ​σ1​e−2σ2(x−μ)2​其中, σ > 0 \sigma >0 σ>0。由于 x x x、 μ \mu μ均为一维的数值, ( x − μ ) T (x - \mu)^T (x−μ)T与 ( x − μ ) (x - \mu) (x−μ)是等价的,所以上述密度函数又可以写成如下形式:

f ( x ) = 1 ( 2 π ) 1 2 ( σ 2 ) 1 2 e − 1 2 ( x − μ ) T ( σ 2 ) − 1 ( x − μ ) f(x) = \frac{1}{(2 \pi)^{\frac{1}{2}} (\sigma^2)^\frac{1}{2} } e^{- \frac{1}{2} (x - \mu)^T (\sigma^2)^{- 1} (x - \mu)} f(x)=(2π)21​(σ2)21​1​e−21​(x−μ)T(σ2)−1(x−μ)将上式推广,就得到多元正态分布的定义。


2. 多元正态分布的密度函数

设 K K K维随机向量 x = [ x 1 . . . x K ] x = \left[ \begin{matrix} x_1 \\ ... \\ x_K \end{matrix} \right] x= ​x1​...xK​​ ​的密度函数为:

f μ , Σ ( x ) = f μ , Σ ( x 1 , . . . , x K ) = 1 ( 2 π ) K 2 ⋅ 1 ∣ Σ ∣ 1 2 ⋅ e − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) f_{\mu, \Sigma}(x) = f_{\mu, \Sigma}(x_1,...,x_K) = \frac{1}{(2 \pi)^{\frac{K}{2}}} \cdot \frac{1}{|\Sigma|^{\frac{1}{2}}} \cdot e^{- \frac{1}{2} (x - \mu)^T \Sigma^{-1} (x - \mu)} fμ,Σ​(x)=fμ,Σ​(x1​,...,xK​)=(2π)2K​1​⋅∣Σ∣21​1​⋅e−21​(x−μ)TΣ−1(x−μ)其中, K K K表示向量 x x x的维度。均值向量 μ \mu μ是 K K K维向量,协方差矩阵 Σ \Sigma Σ是一个 K × K K \times K K×K的对称正定阵,则称 x x x服从 K K K元正态分布,也称 x x x为 K K K维正态随机向量,简记为: x x x~ N K ( μ , Σ ) N_K (\mu, \Sigma) NK​(μ,Σ)。显然当 K = 1 K = 1 K=1时,即为一元正态分布的密度函数。

注意,当 ∣ Σ ∣ = 0 |\Sigma| = 0 ∣Σ∣=0时, Σ − 1 \Sigma^{-1} Σ−1不存在, x x x也就不存在通常意义下的密度函数,然而可以形式的给出一个表达式。有些问题可以利用这一形式对 ∣ Σ ∣ ≠ 0 |\Sigma| \neq 0 ∣Σ∣=0及 ∣ Σ ∣ = 0 |\Sigma| = 0 ∣Σ∣=0的情况给出一个统一的处理。


3. 多元正态分布的极大似然估计

对于 N N N个样本点: { x 1 , . . . , x N } \{ x^1,...,x^N\} {x1,...,xN},其似然函数为:

L ( μ , Σ ) = f μ , Σ ( x 1 ) f μ , Σ ( x 2 ) . . . f μ , Σ ( x N ) L(\mu, \Sigma) = f_{\mu,\Sigma}(x^1) f_{\mu,\Sigma}(x^2)...f_{\mu,\Sigma}(x^N) L(μ,Σ)=fμ,Σ​(x1)fμ,Σ​(x2)...fμ,Σ​(xN) = ( 2 π ) − K N 2 ⋅ ∣ Σ ∣ − N 2 ⋅ e − 1 2 ∑ n = 1 N ( x n − μ ) T Σ − 1 ( x n − μ ) = (2 \pi)^{- \frac{KN}{2}} \cdot |\Sigma|^{- \frac{N}{2}} \cdot e^{- \frac{1}{2} \sum_{n = 1}^N (x^n - \mu)^T \Sigma^{-1} (x^n - \mu)} =(2π)−2KN​⋅∣Σ∣−2N​⋅e−21​∑n=1N​(xn−μ)TΣ−1(xn−μ)

对数似然函数:

ln ⁡ L ( μ , Σ ) = − K N 2 ln ⁡ ( 2 π ) − N 2 ln ⁡ ∣ Σ ∣ − 1 2 ∑ n = 1 N ( x n − μ ) T Σ − 1 ( x n − μ ) \ln L(\mu, \Sigma) = - \frac{KN}{2} \ln (2 \pi) - \frac{N}{2} \ln |\Sigma| - \frac{1}{2} \sum_{n = 1}^N (x^n - \mu)^T \Sigma^{-1} (x^n - \mu) lnL(μ,Σ)=−2KN​ln(2π)−2N​ln∣Σ∣−21​n=1∑N​(xn−μ)TΣ−1(xn−μ) = C − N 2 ln ⁡ ∣ Σ ∣ − 1 2 ∑ n = 1 N ( x n − μ ) T Σ − 1 ( x n − μ ) = C - \frac{N}{2} \ln |\Sigma| - \frac{1}{2} \sum_{n = 1}^N (x^n - \mu)^T \Sigma^{-1} (x^n - \mu) =C−2N​ln∣Σ∣−21​n=1∑N​(xn−μ)TΣ−1(xn−μ)

其中, C = − K N 2 ln ⁡ ( 2 π ) C = - \frac{KN}{2} \ln (2 \pi) C=−2KN​ln(2π)为一个常数。


【矩阵代数】

一元微积分中,导数(标量对标量的导数)与微分有联系: d f = f ′ ( x ) d x df = f^{'} (x) dx df=f′(x)dx。

多元微积分中,梯度(标量对向量的导数)也与微分有联系: d f = ∑ i = 1 n ∂ f ∂ x i d x i = ∂ f ∂ x T d x df = \sum_{i= 1}^n \frac{\partial f}{\partial x_i} dx_i = \frac{\partial f}{\partial \boldsymbol{x}}^T d \boldsymbol{x} df=∑i=1n​∂xi​∂f​dxi​=∂x∂f​Tdx。这里第一个等号是全微分公式,第二个等号表达了梯度与微分的联系:全微分 d f df df是 n × 1 n \times 1 n×1梯度向量 ∂ f ∂ x \frac{\partial f}{\partial \boldsymbol{x}} ∂x∂f​与 n × 1 n \times 1 n×1微分向量 d x dx dx的内积。

据此,矩阵导数与微分也可建立联系: d f = ∑ i = 1 m ∑ j = 1 n ∂ f ∂ X i j d X i j = tr ( ∂ f ∂ X T d X ) df = \sum_{i = 1}^m \sum_{j = 1}^n \frac{\partial f}{\partial X_{ij}} dX_{ij} = \text{tr} \left (\frac{\partial f}{\partial X}^T dX \right) df=∑i=1m​∑j=1n​∂Xij​∂f​dXij​=tr(∂X∂f​TdX)。其中, tr \text{tr} tr代表迹(trace),是方阵对角线元素之和,满足性质:对尺寸相同的矩阵 A A A、 B B B有 tr ( A T B ) = ∑ i , j A i j B i j \text{tr} (A^T B) = \sum_{i,j}A_{ij}B_{ij} tr(ATB)=∑i,j​Aij​Bij​,即 tr ( A T B ) \text{tr} (A^T B) tr(ATB)是矩阵 A A A、 B B B的内积。与梯度相似,这里第一个等号是全微分公式,第二个等号表达了矩阵导数矩阵与微分的联系:全微分 d f df df是 m × n m \times n m×n导数 ∂ f ∂ X \frac{\partial f}{\partial X} ∂X∂f​与 m × n m \times n m×n微分矩阵 d X dX dX的内积。

矩阵微分的运算法则
  1. 加减法: d ( X ± Y ) = d X ± d Y d(X \pm Y) = dX \pm dY d(X±Y)=dX±dY
    矩阵乘法: d ( X Y ) = d X Y + X d Y d(XY) = dX Y + X dY d(XY)=dXY+XdY
    转置: d ( X T ) = ( d X ) T d(X^T) = (dX)^T d(XT)=(dX)T
    迹: d tr ( X ) = tr ( d X ) d \text{tr} (X) = \text{tr} (dX) dtr(X)=tr(dX)

  2. 逆: d X − 1 = − X − 1 d X X − 1 dX^{-1} = -X^{-1}dX X^{-1} dX−1=−X−1dXX−1。此式可在 X X − 1 = I XX^{-1} = I XX−1=I两侧求微分来证明

  3. 行列式: d ∣ X ∣ = tr ( X ∗ d X ) d|X| = \text{tr}(X^* dX) d∣X∣=tr(X∗dX) ,其中 X ∗ X^* X∗表示 X X X的伴随矩阵,在 X X X可逆时又可以写作 d ∣ X ∣ = ∣ X ∣ tr ( X − 1 d X ) d|X|= |X|\text{tr}(X^{-1}dX) d∣X∣=∣X∣tr(X−1dX)。此式可用Laplace展开来证明,详见张贤达《矩阵分析与应用》第279页

通过矩阵导数与微分的联系: d f = tr ( ∂ f ∂ X T d X ) df = \text{tr} \left (\frac{\partial f}{\partial X}^T dX \right) df=tr(∂X∂f​TdX),在求出左侧的微分 d f df df后,可以利用如下一些迹技巧(trace trick)写成右侧的形式并得到导数:

矩阵求导的运算法则
  1. ∂ X T A X ∂ X = ( A + A T ) X \frac{\partial X^T A X}{\partial X} = (A + A^T)X ∂X∂XTAX​=(A+AT)X,当 A A A为实对称矩阵时, ∂ X T A X ∂ x = 2 A X \frac{\partial X^T A X}{\partial x} = 2AX ∂x∂XTAX​=2AX

  2. 当 A A A为实对称矩阵时, ∂ ( X T A X ) ∂ A = X X T \frac{\partial (X^T A X)}{\partial A} = XX^T ∂A∂(XTAX)​=XXT, ∂ ln ⁡ ∣ A ∣ ∂ A = A − 1 \frac{\partial \ln |A|}{\partial A} = A^{-1} ∂A∂ln∣A∣​=A−1

  3. ∂ ( X − 1 ) ∂ t = − X − 1 ∂ X ∂ t X − 1 \frac{\partial (X^{-1}) }{\partial t} =- X^{-1} \frac{\partial X}{\partial t} X^{-1} ∂t∂(X−1)​=−X−1∂t∂X​X−1


对数似然函数分别对 μ \mu μ、 Σ \Sigma Σ求偏导

由上,对数似然函数:

ln ⁡ L ( μ , Σ ) = C − N 2 ln ⁡ ∣ Σ ∣ − 1 2 ∑ n = 1 N ( x n − μ ) T Σ − 1 ( x n − μ ) \ln L(\mu, \Sigma) = C - \frac{N}{2} \ln |\Sigma| - \frac{1}{2} \sum_{n = 1}^N (x^n - \mu)^T \Sigma^{-1} (x^n - \mu) lnL(μ,Σ)=C−2N​ln∣Σ∣−21​n=1∑N​(xn−μ)TΣ−1(xn−μ)

  • ln ⁡ L ( μ , Σ ) \ln L(\mu, \Sigma) lnL(μ,Σ)对 μ \mu μ求偏导,并令偏导为 0 0 0,即求解 ∂ [ ∑ n = 1 N ( x n − μ ) T Σ − 1 ( x n − μ ) ] ∂ μ = 0 \frac{\partial [\sum_{n = 1}^N (x^n - \mu)^T \Sigma^{-1} (x^n - \mu)]}{\partial \mu} = 0 ∂μ∂[∑n=1N​(xn−μ)TΣ−1(xn−μ)]​=0,记为 ∂ l 1 ∂ μ = 0 \frac{\partial l_1}{\partial \mu} = 0 ∂μ∂l1​​=0
  1. 将 l 1 = ∑ n = 1 N ( x n − μ ) T Σ − 1 ( x n − μ ) l_1 = \sum_{n = 1}^N (x^n - \mu)^T \Sigma^{-1} (x^n - \mu) l1​=∑n=1N​(xn−μ)TΣ−1(xn−μ)展开: ∑ n = 1 N [ ( x n ) T Σ − 1 x n − 2 ( x n ) T Σ − 1 μ + μ T Σ − 1 μ ] \sum_{n = 1}^N [ (x^n)^T \Sigma^{-1} x^n - 2(x^n)^T \Sigma^{-1} \mu + \mu^T \Sigma^{-1} \mu ] n=1∑N​[(xn)TΣ−1xn−2(xn)TΣ−1μ+μTΣ−1μ] = ∑ n = 1 N ( x n ) T Σ − 1 x n − 2 ∑ n = 1 N ( x n ) T Σ − 1 μ + N μ T Σ − 1 μ = \sum_{n = 1}^N (x^n)^T \Sigma^{-1} x^n - 2 \sum_{n = 1}^N (x^n)^T \Sigma^{-1} \mu + N \mu^T \Sigma^{-1} \mu =n=1∑N​(xn)TΣ−1xn−2n=1∑N​(xn)TΣ−1μ+NμTΣ−1μ

  2. 对第2项求微分:
    d ( − 2 ∑ n = 1 N ( x n ) T Σ − 1 μ ) = − 2 ∑ n = 1 N ( x n ) T Σ − 1 d μ = − 2 ∑ n = 1 N t r ( ( x n ) T Σ − 1 d μ ) d(- 2 \sum_{n = 1}^N (x^n)^T \Sigma^{-1} \mu) = -2 \sum_{n = 1}^N (x^n)^T \Sigma^{-1} d \mu = -2 \sum_{n = 1}^N tr((x^n)^T \Sigma^{-1} d \mu) d(−2∑n=1N​(xn)TΣ−1μ)=−2∑n=1N​(xn)TΣ−1dμ=−2∑n=1N​tr((xn)TΣ−1dμ)
    所以第2项对 μ \mu μ的偏导为: ∂ [ − 2 ∑ n = 1 N ( x n ) T Σ − 1 μ ] ∂ μ = − 2 ∑ n = 1 N ( ( x n ) T Σ − 1 ) T = − 2 ∑ n = 1 N Σ − 1 x n \frac{\partial [- 2 \sum_{n = 1}^N (x^n)^T \Sigma^{-1} \mu]}{\partial \mu} = -2 \sum_{n = 1}^N ((x^n)^T \Sigma^{-1})^T = -2 \sum_{n = 1}^N \Sigma^{-1} x^n ∂μ∂[−2∑n=1N​(xn)TΣ−1μ]​=−2n=1∑N​((xn)TΣ−1)T=−2n=1∑N​Σ−1xn
    第3项对 μ \mu μ的偏导为: ∂ ( N μ T Σ − 1 μ ) ∂ μ = 2 N Σ − 1 μ \frac{\partial (N \mu^T \Sigma^{-1} \mu)}{\partial \mu} = 2N \Sigma^{-1} \mu ∂μ∂(NμTΣ−1μ)​=2NΣ−1μ

  3. l 1 l_1 l1​对 μ \mu μ的偏导: ∂ l 1 ∂ μ = − 2 ∑ n = 1 N Σ − 1 x n + 2 N Σ − 1 μ \frac{\partial l_1}{\partial \mu} = -2 \sum_{n = 1}^N \Sigma^{-1} x^n + 2N \Sigma^{-1} \mu ∂μ∂l1​​=−2n=1∑N​Σ−1xn+2NΣ−1μ令其等于 0 0 0,解得极大似然估计为: μ ^ = 1 N ∑ n = 1 N x n = x ‾ \hat \mu = \frac{1}{N} \sum_{n = 1}^N x^n = \overline{x} μ^​=N1​n=1∑N​xn=x

  • ln ⁡ L ( μ , Σ ) \ln L(\mu, \Sigma) lnL(μ,Σ)对 Σ \Sigma Σ求偏导,并令偏导为 0 0 0,即求解 ∂ [ ln ⁡ ∣ Σ ∣ + 1 N ∑ n = 1 N ( x n − μ ) T Σ − 1 ( x n − μ ) ] ∂ Σ = 0 \frac{\partial [\ln |\Sigma| + \frac{1}{N} \sum_{n = 1}^N (x^n - \mu)^T \Sigma^{-1} (x^n - \mu)]}{\partial \Sigma} = 0 ∂Σ∂[ln∣Σ∣+N1​∑n=1N​(xn−μ)TΣ−1(xn−μ)]​=0,记为 ∂ l 2 ∂ Σ = 0 \frac{\partial l_2}{\partial \Sigma} = 0 ∂Σ∂l2​​=0
  1. 首先求微分,使用矩阵乘法、行列式、逆等运算法则
    第一项: d [ ln ⁡ ∣ Σ ∣ ] = ∣ Σ ∣ − 1 d ∣ Σ ∣ = tr ( Σ − 1 d Σ ) d [\ln |\Sigma|] = |\Sigma|^{-1} d |\Sigma| = \text{tr} (\Sigma^{-1} d \Sigma) d[ln∣Σ∣]=∣Σ∣−1d∣Σ∣=tr(Σ−1dΣ)
    第二项:
    d [ 1 N ∑ n = 1 N ( x n − μ ) T Σ − 1 ( x n − μ ) ] d [\frac{1}{N} \sum_{n = 1}^N (x^n - \mu)^T \Sigma^{-1} (x^n - \mu)] d[N1​∑n=1N​(xn−μ)TΣ−1(xn−μ)]
    = 1 N ∑ n = 1 N ( x n − μ ) T d Σ − 1 ( x n − μ ) = \frac{1}{N} \sum_{n = 1}^N (x^n - \mu)^T d \Sigma^{-1} (x^n - \mu) =N1​∑n=1N​(xn−μ)TdΣ−1(xn−μ)
    = − 1 N ∑ n = 1 N ( x n − μ ) T Σ − 1 d Σ Σ − 1 ( x n − μ ) = - \frac{1}{N} \sum_{n = 1}^N (x^n - \mu)^T \Sigma^{-1} d \Sigma \Sigma^{-1} (x^n - \mu) =−N1​∑n=1N​(xn−μ)TΣ−1dΣΣ−1(xn−μ)

  2. 套上迹,作交换
    第一项不变 tr ( Σ − 1 d Σ ) \text{tr} (\Sigma^{-1} d \Sigma) tr(Σ−1dΣ)
    第二项:
    tr ( − 1 N ∑ n = 1 N ( x n − μ ) T Σ − 1 d Σ Σ − 1 ( x n − μ ) ) \text{tr} \left (- \frac{1}{N} \sum_{n = 1}^N (x^n - \mu)^T \Sigma^{-1} d \Sigma \Sigma^{-1} (x^n - \mu) \right) tr(−N1​∑n=1N​(xn−μ)TΣ−1dΣΣ−1(xn−μ))
    = − 1 N ∑ n = 1 N tr ( ( x n − μ ) T Σ − 1 d Σ Σ − 1 ( x n − μ ) ) = - \frac{1}{N} \sum_{n = 1}^N \text{tr} ((x^n - \mu)^T \Sigma^{-1} d \Sigma \Sigma^{-1} (x^n - \mu)) =−N1​∑n=1N​tr((xn−μ)TΣ−1dΣΣ−1(xn−μ))
    = − 1 N ∑ n = 1 N tr ( Σ − 1 ( x n − μ ) ( x n − μ ) T Σ − 1 d Σ ) = - \frac{1}{N} \sum_{n = 1}^N \text{tr} (\Sigma^{-1} (x^n - \mu) (x^n - \mu)^T \Sigma^{-1} d \Sigma) =−N1​∑n=1N​tr(Σ−1(xn−μ)(xn−μ)TΣ−1dΣ)
    = tr ( − Σ − 1 1 N ∑ n = 1 N ( x n − μ ) ( x n − μ ) T Σ − 1 d Σ ) = \text{tr} \left (- \Sigma^{-1} \frac{1}{N} \sum_{n = 1}^N (x^n - \mu) (x^n - \mu)^T \Sigma^{-1} d \Sigma \right) =tr(−Σ−1N1​∑n=1N​(xn−μ)(xn−μ)TΣ−1dΣ)
    其中,第一个等号先交换了 tr \text{tr} tr与 ∑ \sum ∑,第二个等号将 d Σ d \Sigma dΣ右边式子交换到左边,第三个等号再一次交换 tr \text{tr} tr与 ∑ \sum ∑。

  3. 所以, d l 2 = tr ( ( Σ − 1 − Σ − 1 1 N ∑ n = 1 N ( x n − μ ) ( x n − μ ) T Σ − 1 ) d Σ ) d l_2 = \text{tr} \left( (\Sigma^{-1} - \Sigma^{-1} \frac{1}{N} \sum_{n = 1}^N (x^n - \mu) (x^n - \mu)^T \Sigma^{-1}) d \Sigma \right) dl2​=tr((Σ−1−Σ−1N1​∑n=1N​(xn−μ)(xn−μ)TΣ−1)dΣ),对照导数与微分的联系有: ∂ l 2 ∂ Σ = ( Σ − 1 − Σ − 1 1 N ∑ n = 1 N ( x n − μ ) ( x n − μ ) T Σ − 1 ) T \frac{\partial l_2}{\partial \Sigma} = (\Sigma^{-1} - \Sigma^{-1} \frac{1}{N} \sum_{n = 1}^N (x^n - \mu) (x^n - \mu)^T \Sigma^{-1})^T ∂Σ∂l2​​=(Σ−1−Σ−1N1​n=1∑N​(xn−μ)(xn−μ)TΣ−1)T令其等于 0 0 0,解得极大似然估计为: Σ ^ = 1 N ∑ n = 1 N ( x n − μ ) ( x n − μ ) T \hat \Sigma = \frac{1}{N} \sum_{n = 1}^N (x^n - \mu)(x^n - \mu)^T Σ^=N1​n=1∑N​(xn−μ)(xn−μ)T将 μ ^ = x ‾ \hat \mu = \overline{x} μ^​=x代入上式得: Σ ^ = 1 N ∑ n = 1 N ( x n − x ‾ ) ( x n − x ‾ ) T \hat \Sigma = \frac{1}{N} \sum_{n = 1}^N (x^n - \overline{x})(x^n - \overline{x})^T Σ^=N1​∑n=1N​(xn−x)(xn−x)T。

定义样本离差矩阵(又称为交叉乘积阵) V = ∑ n = 1 N ( x n − x ‾ ) ( x n − x ‾ ) T V = \sum_{n = 1}^N (x^n - \overline{x})(x^n - \overline{x})^T V=∑n=1N​(xn−x)(xn−x)T,它是一个 K × K K \times K K×K的矩阵。

定义样本协差阵 S = 1 N V = 1 N ∑ n = 1 N ( x n − x ‾ ) ( x n − x ‾ ) T S = \frac{1}{N} V = \frac{1}{N} \sum_{n = 1}^N (x^n - \overline{x})(x^n - \overline{x})^T S=N1​V=N1​∑n=1N​(xn−x)(xn−x)T,它也是一个 K × K K \times K K×K的矩阵。


计算结果

综上,多维正态分布的极大似然估计为: μ ^ = x ‾ , Σ ^ = S \hat \mu = \overline{x},\hat \Sigma = S μ^​=x,Σ^=S其中, S = 1 N ∑ n = 1 N ( x n − x ‾ ) ( x n − x ‾ ) T S = \frac{1}{N} \sum_{n = 1}^N (x^n - \overline{x})(x^n - \overline{x})^T S=N1​∑n=1N​(xn−x)(xn−x)T, N N N为样本个数。


参考资料
矩阵代数_pdf
矩阵求导术(上)
第一章 矩阵代数_pdf
第二章 多元正态分布的参数估计_ppt
第二章 多元正态分布及参数的估计_pdf
多元正态分布参数的估计和数据的清洁与变换_pdf

多元正态分布的极大似然估计相关推荐

  1. 一文看懂 “极大似然估计” 与 “最大后验估计” —— 极大似然估计篇

    参考: 唐宇迪<人工智能数学基础>第8章 Richard O. Duda <模式分类>第三章 白板机器学习 P2 - 频率派 vs 贝叶斯派 频率学派还是贝叶斯学派?聊一聊机器 ...

  2. 干货 | 一文搞懂极大似然估计

    极大似然估计,通俗理解来说,就是在假定整体模型分布已知,利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值! 换句话说,极大似然估计提供了一种给定观察数据来评估模型参数 ...

  3. 零基础掌握极大似然估计

    零基础掌握极大似然估计 https://mp.weixin.qq.com/s/v98qGCz_qN_73hnYKrCQFw 1极大似然估计 极大似然估计,通俗理解来说,就是在假定整体模型分布已知,利用 ...

  4. 极大似然估计_计量经济学 | 极大似然估计

    写在前面:本文写作于被新冠病毒 (COVID-19) 笼罩下的英国.前段时间本人的恩师.苏格兰老爷爷.英国伯明翰大学Emeritus讲席教授Peter Sinclair确诊新冠病毒,实乃不幸.在此祝P ...

  5. 7.2 极大似然估计

    7.2 极大似然估计 ​ 估计类条件概率的一种常用策略是先假设其具有某种确定的概率分布形式,然后再基于训练样本对概率分布的参数进行估计,具体的说,记关于类别C的类条件概率为P(X|C),假设P(X|C ...

  6. 伽马分布极大似然估计_一文通俗解释极大似然估计

    我们都知道机器学习的大致流程是通过建立一个合理的模型学习现有数据集,然后通过该模型去完成特定的任务.其中每个模型都包含自身的一组特定参数,而这组参数决定着模型的本身.但这里存在一个很关键的一个问题,就 ...

  7. Python实现极大似然估计

    概念 现实中任何随机变量的概率分布函数都是未知的. 如果假定随机变量服从某种分布(如正态分布),可以通过统计手段来计算该分布的参数,这种方法称为参数估计. 极大似然估计(Maximum Likelih ...

  8. 求解极大似然估计,一共有几步?

    前提知识 阅读本文之前,需要了解似然函数相关的概念,详见另一篇文章 如何通俗地理解"最大似然估计法"? 极大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样 ...

  9. 【转载】极大似然估计

    原文链接:知行流浪 https://blog.csdn.net/zengxiantao1994/article/details/72787849 以前多次接触过极大似然估计,但一直都不太明白到底什么原 ...

最新文章

  1. 机器学习模拟1亿原子:中美团队获2020「超算诺贝尔奖」戈登贝尔奖
  2. 我国医疗机器人产业发展特征分析
  3. python实现客户端和服务器端传输图片
  4. 英特尔又做了一个违背祖宗的决定:布局RISC-V
  5. leetcode算法题--除数博弈★
  6. git版本号管理工具的上手
  7. javascript中最最最常用的方法封装
  8. 转.net内存回收与Dispose﹐Close﹐Finalize方法
  9. You Only Watch Once:实时人体动作定位网络
  10. 为什么系统调用会消耗较多资源?系统调用的三种方法:软件中断(分析过程)、SYSCALL指令、vDSO(虚拟动态链接对象linux-vdso.so.1)
  11. Maven 编译打包时如何忽略测试用例
  12. java判断读到末尾_Java Web入门之java--第一节 java 简介及开发环境安装
  13. mysql 备份库的shell_linux备份Mysql数据库shell_MySQL
  14. php opendir(),PHP opendir()用法及代码示例
  15. 目前已完成linux适配的软件,WPS Linux版与国产统一操作系统UOS完成适配:体验追上Wintel...
  16. 重读经典:《The Craft of Research(1)》
  17. 英语思维导图大全 阅读理解(二十一)
  18. [算法竞赛入门经典] UVA 12174 - Shuffle
  19. 计算机二级C语言题型分值占比+考试要求+考试内容
  20. 前端学习——这十本书一定要看

热门文章

  1. ENC28J60电路故障 网络灯不亮
  2. 实现Windows下Qt扫描U盘的两种方式
  3. Android编译打包报错Invalid keystore format
  4. 笔记本固态硬盘温度测试软件,固态硬盘散热测试
  5. java StringTokenizer的用法
  6. 微信公众号-授权登录
  7. php发邮件错误,从PHP发送邮件 – 是我的错误还是邮件服务器?
  8. Python到底是干啥的?
  9. libxml2的使用总结
  10. 注册、登录、退出登录