机器学习基础：极大似然估计高斯参数

机器学习基础：极大似然估计

数据
参数估计均值
参数估计方差

数据

设DataSet：X={(x1,y1),(x2,y2),(x3,y3)…(xn,yn))}，其中xi∈Rpxi \in R^pxi∈Rp，yi∈Ryi \in Ryi∈R,也就是说X=（x1,x2,x3.....xn）T（x1,x2,x3.....xn）^T（x1,x2,x3.....xn）T，其中这里，每个元素x
都是一个p维的列向量，我们继续化简，X=[x11x12...x1px21x22...x2p......xn1xn2...xnp](1)\left[ \begin{matrix} x_{11} & x_{12} &... x_{1p} \\ x_{21} & x_{22} &... x_{2p} \\ \\...... \\x_{n1} & x_{n2} &... x_{_{np}} \end{matrix} \right]\tag{1} ⎣⎡x11x21......xn1x12x22xn2...x1p...x2p...xnp⎦⎤(1)
Y=[y1y2......yn](2)\left[ \begin{matrix} y_{1} \\ y_{2} \\ \\...... \\y_n \end{matrix} \right]\tag{2} ⎣⎡y1y2......yn⎦⎤(2)

xi∈Rpx_i\in R^pxi∈Rp,每个元素x_i服从独立同分布,本文当中，为了方便计算，我们令p=1。设θ=(μ,σ2)\theta=(\mu,\sigma^2)θ=(μ,σ2)一维标准高斯分布的pdf（概率密度函数）：P(X∣θ)=1σ2Π+exp(−(X−μ)22σ2)P(X|\theta) = \frac{1}{\sigma \sqrt{2\Pi}}+exp(-\frac{(X-\mu)^2}{2\sigma^2})P(X∣θ)=σ2Π1+exp(−2σ2(X−μ)2)

参数估计均值

ln⁡θMLE=argmaxln⁡P(X∣θ)\ln\theta _{MLE}=argmax \ln P(X|\theta)lnθMLE=argmaxlnP(X∣θ)
=argmax∏i=1Nln⁡P(xi∣θ)=argmax\prod_{i=1}^N \ln P(x_i|\theta)=argmax∏i=1NlnP(xi∣θ)
=argnaxln⁡∑i=1NP(xi∣θ)= argnax\ln\sum_{i=1}^NP(xi|\theta)=argnaxln∑i=1NP(xi∣θ)
=argmaxln⁡∑i=1N(1σ2Π+exp(−(xi−μ)22σ2))=argmax\ln\sum_{i=1}^N(\frac{1}{\sigma \sqrt{2\Pi}}+exp(-\frac{(x_i-\mu)^2}{2\sigma^2}))=argmaxln∑i=1N(σ2Π1+exp(−2σ2(xi−μ)2))
=argmax∑i=1N(ln⁡12Π−ln⁡σ−(xi−μ)22σ2)))=argmax\sum_{i=1}^N(\ln\frac{1}{\sqrt2\Pi}-\ln\sigma-\frac{(x_i-\mu)^2}{2\sigma^2})))=argmax∑i=1N(ln2Π1−lnσ−2σ2(xi−μ)2)))
化简到这里，我们的目标函数L(θ)L(\theta)L(θ)就化简完成了。
下面我们分别对μ,σ\mu,\sigmaμ,σ进行参数估计。
ln⁡μMLE==argmax∑i=1N(ln⁡12Π−ln⁡σ−(xi−μ)22σ2)))\ln\mu_{MLE}= =argmax\sum_{i=1}^N(\ln\frac{1}{\sqrt2\Pi}-\ln\sigma-\frac{(x_i-\mu)^2}{2\sigma^2})))lnμMLE==argmax∑i=1N(ln2Π1−lnσ−2σ2(xi−μ)2)))
因为其他两项都和系数μ\muμ无关，在求解偏导数的时候可以约去，所以：
ln⁡μMLE=argmax∑i=1N−(xi−μ)22σ2\ln\mu_{MLE}=argmax\sum_{i=1}^N-\frac{(x_i-\mu)^2}{2\sigma^2}lnμMLE=argmax∑i=1N−2σ2(xi−μ)2
=argmin∑i=1N(xi−μ)2=argmin\sum_{i=1}^N(x_i-\mu)^2=argmin∑i=1N(xi−μ)2
=∂∂μ∑i=1N(xi2−2xiμ+μ2)=0=\frac{\partial}{\partial \mu}\sum_{i=1}^N(x_i^2-2x_i\mu+\mu^2)=0=∂μ∂∑i=1N(xi2−2xiμ+μ2)=0
=∑i=1N(−2xi+2μ)=0=\sum_{i=1}^N(-2x_i+2\mu)=0=∑i=1N(−2xi+2μ)=0
∑i=1Nxi=Nμ\sum_{i=1}^Nx_i=N\mu∑i=1Nxi=Nμ
μMLE=1N∑i=1Nxi\mu_{MLE}=\frac{1}{N}\sum_{i=1}^Nx_iμMLE=N1∑i=1Nxi
因为
E[μMLE]=1N∑i=1NE[xi]=1N∑i=1Nμ=μE[\mu_{MLE}]=\frac{1}{N}\sum_{i=1}^NE[x_i]=\frac{1}{N}\sum_{i=1}^N\mu=\muE[μMLE]=N1∑i=1NE[xi]=N1∑i=1Nμ=μ
所以此结果为无偏估计

参数估计方差

我们上面求出来的L(X)带入到这里
ln⁡θMLE=argmaxln⁡P(X∣θ)\ln\theta _{MLE}=argmax \ln P(X|\theta)lnθMLE=argmaxlnP(X∣θ)
=argmax∏i=1Nln⁡P(xi∣θ)=argmax\prod_{i=1}^N \ln P(x_i|\theta)=argmax∏i=1NlnP(xi∣θ)
=argnaxln⁡∑i=1NP(xi∣θ)= argnax\ln\sum_{i=1}^NP(xi|\theta)=argnaxln∑i=1NP(xi∣θ)
=argmaxln⁡∑i=1N(1σ2Π+exp(−(xi−μ)22σ2))=argmax\ln\sum_{i=1}^N(\frac{1}{\sigma \sqrt{2\Pi}}+exp(-\frac{(x_i-\mu)^2}{2\sigma^2}))=argmaxln∑i=1N(σ2Π1+exp(−2σ2(xi−μ)2))
=argmax∑i=1N(ln⁡12Π−ln⁡σ−(xi−μ)22σ2)=argmax\sum_{i=1}^N(\ln\frac{1}{\sqrt2\Pi}-\ln\sigma-\frac{(x_i-\mu)^2}{2\sigma^2})=argmax∑i=1N(ln2Π1−lnσ−2σ2(xi−μ)2)

σMLE2=argmax∑i=1N(ln⁡12Π−ln⁡σ−(xi−μ)22σ2)\sigma^2_{MLE}=argmax\sum_{i=1}^N(\ln\frac{1}{\sqrt2\Pi}-\ln\sigma-\frac{(x_i-\mu)^2}{2\sigma^2})σMLE2=argmax∑i=1N(ln2Π1−lnσ−2σ2(xi−μ)2)
=∂∂σ∑i=1N(12Π−ln⁡σ−(xi−μ)22σ2)=0=\frac{\partial}{\partial \sigma}\sum_{i=1}^N(\frac{1}{\sqrt2\Pi}-\ln\sigma-\frac{(x_i-\mu)^2}{2\sigma^2})=0=∂σ∂∑i=1N(2Π1−lnσ−2σ2(xi−μ)2)=0
=∑i=1N(−1σ−(−2)σ−3(xi−μ)22)=0=\sum_{i=1}^N(-\frac{1}{\sigma}-(-2)\sigma^{-3}\frac{(x_i-\mu)^2} {2})=0=∑i=1N(−σ1−(−2)σ−32(xi−μ)2)=0
左右同时✖️σ3\sigma^3σ3
=∑i=1N((−σ)2+(xi−μ)2)=0=\sum_{i=1}^N((-\sigma)^2+(x_i-\mu)^2)=0=∑i=1N((−σ)2+(xi−μ)2)=0
σMLE2=1N∑i=1N(xi−μ)2=0\sigma^2_{MLE}=\frac{1}{N}\sum_{i=1}^N(x_i-\mu)^2=0σMLE2=N1∑i=1N(xi−μ)2=0
因为E[σMLE2]=N−1Nσ2因为E[\sigma_{MLE}^2]=\frac{N-1}{N}\sigma^2因为E[σMLE2]=NN−1σ2
所以此结果为有偏估计