系统学习机器学习之参数方法（一）

最大似然估计

最大似然估计法的基本思想
　　最大似然估计法的思想很简单：在已经得到试验结果的情况下，我们应该寻找使这个结果出现的可能性最大的那个作为真的估计。
　　我们分两种情进行分析：
　　1．离散型总体　
　　设为离散型随机变量，其概率分布的形式为，则样本的概率分布为，在固定时，上式表示取值的概率；当固定时，它是的函数，我们把它记为并称为似然函数。似然函数的值的大小意味着该样本值出现的可能性的大小。既然已经得到了样本值，那它出现的可能性应该是大的，即似然函数的值应该是大的。因而我们选择使达到最大值的那个作为真的估计。

　　2．连续型总体
　　设为连续型随机变量，其概率密度函数为则为从该总体抽出的样本。因为相互独立且同分布，于是，样本的联合概率密度函数为
，在是固定时，它是在处的密度，它的大小与落在附近的概率的大小成正比，而当样本值固定时，它是的函数。我们仍把它记为并称为似然函数。类似于刚才的讨论，我们选择使最大的那个作为真的估计。
　　　　　　　　　　　　　

　　总之，在有了试验结果即样本值时，似然函数反映了的各个不同值导出这个结果的可能性的大小。我们选择使达到最大值的那个作为真的估计。这种求点估计的方法就叫作最大似然法。

　 7.2.2　最大似然估计的求法
　　假定现在我们已经观测到一组样本要去估计未知参数。一种直观的想法是，哪一组能数值使现在的样本出现的可能性最大，哪一组参数可能就是真正的参数，我们就要用它作为参数的估计值。这里，假定我们有一组样本.如果对参数的两组不同的值和，似然函数有如下关系
　　 ,
　　那么，从又是概率密度函数的角度来看，上式的意义就是参数使出现的可能性比参数使出现的可能性大，当然参数比更像是真正的参数.这样的分析就导致了参数估计的一种方法，即用使似然函数达到最大值的点,作为未知参数的估计，这就是所谓的最大似然估计。现在我们讨论求最大似然估计的具体方法.为简单起见，以下记,求θ的极大似然估计就归结为求的最大值点.由于对数函数是单调增函数，所以
　　　　　　　　　　　　　　　(7.2.1)

　与有相同的最大值点。而在许多情况下，求的最大值点比较简单，于是，我们就将求的最大值点改为求的最大值点.对关于求导数，并命其等于零，得到方程组
　　　　　　　　　　, (7.2.2)
　　称为似然方程组。解这个方程组，又能验证它是一个极大值点，则它必是，也就是的最大值点，即为所求的最大似然估计。大多常用的重要例子多属于这种情况。然而在一些情况下，问题比较复杂，似然方程组的解可能不唯一，这时就需要进一步判定哪一个是最大值点。
　　还需要指出，若函数关于的导数不存在时，我们就无法得到似然方程组 (7.2.2)，这时就必须根据最大似然估计的定义直接去的最大值点。
　　在一些情况下，我们需要估计。如果分别是的最大似然估计，则称为的最大似然估计。
　　下面我们举一些例子来说明求最大似然估计的方法。

例 7.2.1设从正态总体抽出样本，这里未知参数为mm和（注意我们把看作一个参数）。似然函数为
　　　　　　　　
               　　　　　 =
　　它的对数为
　　，
　　似然方程组为

　　由第一式解得
，               (7.2.3)
     代入第二式得
.              (7.2.4)
　　似然方程组有唯一解( ，)，而且它一定是最大值点，这是因为当或或∞时，非负函数。于是和的最大似然估计为
　　　　　　　　，.         (7.2.5)
　　这里，我们用大写字母表示所有涉及的样本，因为最大似然估计和都是统计量，离开了具体的一次试验或观测，它们都是随机的。
　　例7.2.2　设总体服从参数为的泊松分布，它的分布律为
　　　　　　　　，
　　有了样本之后，参数λ的似然函数为
，

　　似然方程为
，
　　解得
　　　　　　　　　　　　 .
　　因为的二阶导数总是负值，可见，似然函数在处达到最大值。所以，是λ的最大似然估计。
　　例7.2.3 设总体为上的均匀分布，求的最大似然估计。
　　的概率密度函数为
　　　　　　　　　
　　对样本，
　　　　　　　　　

　　很显然，L(a，b)作为a和b的二元函数是不连续的。这时我们不能用似然方程组(7.2.2)来求最大似然估计，而必须从最大似然估计的定义出发，求L(a，b)的最大值。为使L(a，b)达到最大，b－a应该尽量地小，但b又不能小于，否则，L(a，b)=0。
　　类似地，a不能大过。因此，a和b的最大似然估计为
　　　　　　　　　，
.　
　　现在为止，我们以正态分布，泊松分布，均匀分布的参数以及事件发生的概率的估计为例子讨论了矩估计和最大似然估计。在我们所举的例子中，除了均匀分布外，两种估计都是一致的。矩估计的优点是简单，只需知道总体的矩，总体的分布形式不必知道。而最大似然估计则必须知道总体分布形式，并且在一般情况下，似然方程组的求解较复杂，往往需要在计算机上通过迭代运算才能计算出其近似解。

贝叶斯估计

贝叶斯（Bayes）统计是由T. R. Bayes于19世纪创立的数理统计的一个重要分支，20世纪50年代，以H. Robbins为代表提出了在计量经济学模型估计中将经验贝叶斯方法与经典方法相结合，引起了广泛的重视，得到了广泛的应用。贝叶斯估计对经典计量经济学模型估计方法的扩展在于，它不仅利用样本信息，同时利用非样本信息。

（1）贝叶斯估计

在经典计量经济学模型中广泛采用的最小二乘估计，以及本章讨论的最大似然函数估计和广义矩估计的一个共同特征是，在模型估计中只利用样本信息和关于总体分布的先验信息，而关于分布的先验信息仍然需要通过样本信息的检验，所以说到底还是样本信息。

由于模型估计依赖样本信息，这就要求样本信息足够多，因此，这些估计只有在大样本情况下才具有一定的优良性质。但是在许多实际应用研究中，人们无法重复大量的实验以得到大量的观测结果，只能得到少量的观测结果。在小样本情况下，最小二乘估计、最大似然估计和广义矩估计不再具有优良性质。因而，人们不得不寻求小样本情况下的优良估计方法。贝叶斯估计方法就是其中之一。

a、贝叶斯方法的基本思路

贝叶斯方法的基本思路是：假定要估计的模型参数是服从一定分布的随机变量，根据经验给出待估参数的先验分布（也称为主观分布），关于这些先验分布的信息被称为先验信息；然后根据这些先验信息，并与样本信息相结合，应用贝叶斯定理求出待估参数的后验分布；再应用损失函数，得出后验分布的一些特征值，并把它们作为待估参数的估计量。

贝叶斯方法与经典估计方法的主要不同之处是：

（a）关于参数的解释不同

经典估计方法认为待估参数具有确定值，它的估计量才是随机的，如果估计量是无偏的，该估计量的期望等于那个确定的参数；而贝叶斯方法认为待估参数是一个服从某种分布的随机变量。

（b）所利用的信息不同

经典方法只利用样本信息；贝叶斯方法要求事先提供一个参数的先验分布，即人们对有关参数的主观认识，被称为先验信息，是非样本信息，在参数估计过程中，这些非样本信息与样本信息一起被利用。

（c）对随机误差项的要求不同

经典方法，除了最大似然法，在参数估计过程中并不要求知道随机误差项的具体分布形式，但是在假设检验与区间估计时是需要的；贝叶斯方法需要知道随机误差项的具体分布形式。

（d）选择参数估计量的准则不同

经典估计方法或者以残差平方和最小，或者以似然函数值最大为准则，构造极值条件，求解参数估计量；贝叶斯方法则需要构造一个损失函数，并以损失函数最小化为准则求得参数估计量。

b、贝叶斯定理

c、损失函数

常用的损失函数有线性函数和二次函数，不同的损失函数，得到的参数估计值是不同的。

（2）线性单方程计量经济学模型的贝叶斯估计

以正态线性单方程计量经济学模型为例介绍贝叶斯估计方法。选择正态线性单方程计量经济学模型的主要原因是：（1）多元线性单方程计量经济学模型具有普遍性意义；（2）在模型设定正确的情况下，随机误差项是大量随机扰动之总和，根据中心极限定理，可以认为它是渐近正态分布；（3）计算简单，使用方便，并能完整地体现贝叶斯估计方法的主要内容。正态线性单方程计量经济学模型又分为随机误差项方差已知和方差未知两种情况。作为贝叶斯估计方法的演示，我们只讨论方差已知的情况。

a、有先验信息的后验分布

b、无先验信息的后验分布

c、点估计

d、区间估计

系统学习机器学习之参数方法（一）相关推荐

系统学习机器学习之参数方法（三）
原文:http://www.cnblogs.com/jerrylead 1判别模型与生成模型上篇报告中提到的回归模型是判别模型,也就是根据特征值来求结果的概率.形式化表示为,在参数确定的情况下,求解 ...
系统学习机器学习之参数方法（二）
一.贝叶斯决策现在举一个例子说明怎么使用贝叶斯公式来做决策. 例子: 假设有100个人,每个人都有自己的生日.1年有12个月,假设这100个人的生日从1月到12月的人数的分布情况如下: 3 ...
系统学习机器学习之增强学习（五）--马尔可夫决策过程策略TD求解（SARSA）
转自:https://www.cnblogs.com/pinard/p/9529828.html 1.时间差分法(temporal difference) 蒙特卡洛方法,需要所有的采样序列都是经历完整 ...
我是吴恩达：人在美国，刚上知乎，先答个「如何系统学习机器学习」
杨净发自凹非寺量子位 | 公众号 QbitAI 知乎新用户吴恩达,第一件事儿竟是回答如何系统学习机器学习. 嗯,果然随时都自带老师属性. 结果短短不到12个小时,就已经收获了两千多个赞同,关注者 ...
系统学习机器学习之增强学习（二）--马尔可夫决策过程
参考: http://blog.csdn.net/zz_1215/article/details/44138823 http://www.cnblogs.com/jerrylead/archive/2 ...
吴恩达登录知乎，亲自回答如何系统学习机器学习
如何系统地学习机器学习?知乎里有很多回答,近日,吴恩达老师亲自在知乎回答了这个问题: 作者:吴恩达链接:https://www.zhihu.com/question/266291909/answer ...
吴恩达入驻知乎首答：如何系统学习机器学习？
最近在知乎圆桌里看到吴恩达的回答,[如何系统学习机器学习?] 颇为惊喜,仿佛看到了知乎刚成立时的样子,请各个行业大佬来分享专业知识. 该回答目前已经有三千多赞,评论区也相当火爆,一片膜拜之声. 吴恩达 ...
吴恩达入驻知乎，涨粉秒过万！知乎首答：如何系统学习机器学习
文 | 卖萌酱大家好,我是卖萌酱. 昨天在知乎timeline上刷到一个问题: 虽然卖萌酱已经不需要系统学习机器学习了,但无意间发现最高赞的id竟然叫"吴恩达"?? 好家伙,看了 ...
系统学习机器学习之神经网络（七） --CPN
原文:http://blog.csdn.net/u014070279/article/details/47299987 1987年,美国学者Robert Hecht-Nielsen提出了对偶传播神经网 ...

系统学习机器学习之参数方法（一）

系统学习机器学习之参数方法（一）相关推荐

最新文章

热门文章