机器学习笔记1.矩估计、极大似然估计。

1.矩估计

1.1矩估计思想：
矩估计是基于一种简单的“替换”思想，即用样本矩估计总体矩
1.2矩估计理论：
矩估计的理论依据就是基于大数定律的，大数定律语言化表述为：当总体的k阶矩存在时，样本的k阶矩依概率收敛于总体的k阶矩，即当抽取的样本数量n充分大的时候，样本矩将约等于总体矩。
1.3矩
令k为正整数或0，a为任意实数，X为随机变量。则期望值E(x−a)kE(x-a)^kE(x−a)k,叫做随机变量X对a的k阶矩。如果有a=0，则E(x)kE(x)^kE(x)k叫做k阶原点矩，也叫k阶矩。
1.4矩的计算方法
样本k阶原点矩Ak=1/n∑i=1nXikA_k=1/n\sum_{i=1}^{n}X_i^kAk=1/n∑i=1nXik ===>> 总体k阶原点矩μk=E(Xk)\mu_k=E(X^k)μk=E(Xk)
样本k阶中心矩Bk=1/n∑i=1n(Xi−X‾)kB_k=1/n\sum_{i=1}^{n}(X_i-\overline{X})^kBk=1/n∑i=1n(Xi−X)k ===>>总体k阶原点矩mk=E([X−E（X)]k)m_k=E([ X-E（X)]^k)mk=E([X−E（X)]k)
即令样本k阶矩与总体k阶矩相等（ps：矩估计理论）
1.5例子
设X的概率分布为

X	-1	0	1
P	θ	1-θ	θ

其中θ是位置参数，利用总体X的如下样本值-1,0,0,1,1。求θ的矩估计量。

求解过程如下：
利用样本矩=总体矩求解：
−1+0+0+1+15=−1∗θ+0∗(1−θ)+1∗θ\frac{-1+0+0+1+1}{5}=-1*θ+0*(1-θ)+1*θ5−1+0+0+1+1=−1∗θ+0∗(1−θ)+1∗θ
由于等式右侧为0，所以一阶矩失效。因此求二阶矩：
−12+02+02+12+125=(−1)2∗θ+02∗(1−θ)+12∗θ\frac{-1^2+0^2+0^2+1^2+1^2}{5}=(-1)^2*θ+0^2*(1-θ)+1^2*θ5−12+02+02+12+12=(−1)2∗θ+02∗(1−θ)+12∗θ求解可得θ=310\frac{3}{10}103。
对于连续型函数，矩估计依然这样求解，这里不再多说了。
矩估计的优缺点：
优点：此法简单易行，不需要事先知道总体是什么分布。（仅需按照均值和方差计算即可）。
缺点：总体类型已知时，未充分利用提供的分布信息，有些情况下，矩估计的量不唯一（样本矩近似总体矩有一定的随意性）。

2.极大似然估计（maximum likelihood estimation ，MLE）

2.1似然函数
再说极大似然估计之前先说一下似然函数。在概率论中，似然函数是一种关于统计模型中的参数的函数，表示模型参数中的似然性。“似然性”与”概率”意思相近，都是指某种事件发生的可能性，但是在统计学中，“似然性”和“概率”又有明确的区分。概率用于在已知一些参数的情况下，预测接下来的观测所得到的结果，而似然性则是用于在已知某些观测所得到的结果时，对有关事物的性质的参数进行估计。在这种意义上，似然函数可以理解为条件概率的逆反。在已知某个参数B时，事件A会发生的概率写作

利用贝叶斯定理，

因此，我们可以反过来构造表示似然性的方法：已知有事件A发生，运用似然函数L(B|A)，我们估计参数B的可能性。形式上，似然函数也是一种条件概率函数，但我们关注的变量改变了：此处关注的是影响B的参数大小。
2.2极大似然估计的目的
利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值
2.3原理
极大似然估计是建立在极大似然原理的基础上的一个统计方法，是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。通过若干次试验，观察其结果，利用试验结果得到某个参数值能够使样本出现的概率为最大，则称为极大似然估计。
2.4极大似然估计求解
记已知一个独立同分布的样本集为D{X1,X2,X3,⋯,XnX_1,X_2,X_3,\cdots,X_nX1,X2,X3,⋯,Xn}，已知其概率密度函数（连续分布）或概率质量函数（离散分布）为fdf_dfd，以及一个分布参数θ\thetaθ ，我们可以写严概率为.P{X1,X2,X3,⋯,XnX_1,X_2,X_3,\cdots,X_nX1,X2,X3,⋯,Xn}=fdf_dfd{X1,X2,X3,⋯,XnX_1,X_2,X_3,\cdots,X_nX1,X2,X3,⋯,Xn∣\rvert∣θ\thetaθ}.
所以似然函数（linkehood function）：联合概率密度函数fdf_dfd称为相对于{X1,X2,X3,⋯,XnX_1,X_2,X_3,\cdots,X_nX1,X2,X3,⋯,Xn}的θ的似然函数。
记为 L(θ)=P{X1,X2,X3,⋯,XnX_1,X_2,X_3,\cdots,X_nX1,X2,X3,⋯,Xn}=∏i=1nP(xi∣θ)\prod_{i=1}^{n}P(x_i|θ)∏i=1nP(xi∣θ)
如果θ^\hat{θ}θ^是参数空间中能使似然函数最大的θ值，则应该是“最可能”的参数值，那么就是θ的极大似然估计量
2.4.1求解L(θ)
求使得出现该组样本的概率最大的θ值
实际中为了便于计算，定义了对数似然函数（与线性函数单调性一致，取极值的时候点一样，且偏导时又方便计算）

未知参数只有一个（θ为标量），对θ求偏导令其为0求解即可得到θ^\hat{θ}θ^的值。即

一般都是利用对数似然计算（简化计算且不影响θ^\hat{θ}θ^的值）。
2.5总结
似然函数直接求导一般不太好求,一般得到似然函数L(θ)之后,都是先求它的对数,即ln L(θ),因为ln函数不会改变L的单调性，且计算更为简单，然后对ln L(θ)求θ的导数,令这个导数等于0,得到驻点.在这一点,似然函数取到最大值,所以叫最大似然估计法.本质原理为似然估计是已知结果去求未知参数,对于已经发生的结果（一般是一系列的样本值）,既然他会发生,说明在未知参数θ的条件下,这个结果发生的可能性很大,所以最大似然估计求的就是使这个结果发生的可能性最大的那个θ.

求最大似然估计量的一般步骤：

    （1）写出似然函数；（2）对似然函数取对数；（3）求导数；（4）解似然方程。最大似然估计的特点：1.比其他估计方法更加简单；2.收敛性：无偏或者渐近无偏，当样本数目增加时，收敛性质会更好；3.如果假设的类条件概率模型正确，则通常能获得较好的结果。但如果假设模型出现偏差，将导致非常差的估计结果。