极大似然估计_计量经济学

写在前面：本文写作于被新冠病毒 (COVID-19) 笼罩下的英国。前段时间本人的恩师、苏格兰老爷爷、英国伯明翰大学Emeritus讲席教授Peter Sinclair确诊新冠病毒，实乃不幸。在此祝Peter早日康复。本文全文翻译自伯明翰大学经济学高级讲师Ralph Bailey的课件(Optimization Unit 7 Notes - Maximum Likelihood Estimation: A Ghost Story.) ，意在纪念本人在伯明翰大学的求学岁月，并分享通俗易懂的计量经济学知识给大家。

“

极大似然估计 (Maximum Likelihood Estimation, MLE) —— 一个鬼故事

一般的原理最好在简单的情境下学习。下面这个例子虽然有点做作，但却可以让我们抓住极大似然估计的要点。

例我们观察到n个0到1之间取值的独立同分布 (IID) 随机变量

。我们不假定它们是均匀分布的：也就是说，它们可能更靠近0或者1。

搞一个傻瓜式的应用：想象一下总共有n个酒鬼在酒吧里消磨时光。凡是把酒喝光的都已经走了，剩下的那些每个人都喝了一部分的酒，喝掉部分的占比记作

。

比如说，我们看到有四个酒鬼分别有

，那么他们都快要喝完酒并且准备离开了……

其实吧……其实吧……说来也好玩（都是旧回忆呀），我自己也是在这么一个酒吧里学的极大似然估计。我也不知道是不是我吃错了什么，但当我四下张望时，好像所有人都静止了。连香烟上燃着的烟都静止在空气中。还有一块被隔壁桌手肘无心打翻的鸡尾酒虾味的薯片^[1]，也固定在那准备用嘴巴接住它的雕像般人上方15厘米处。

那个和我相当聊得来的家伙 (Rather Agreeable Fellow, RAF) 却仿佛不受时间结界的影响。他有一把浓密的胡子，戴着厚厚的卵圆形玻璃眼镜。他不停地用一把有趣的古董烟枪吞云吐雾。（讲道理，这个好像违法诶？）在此之前他还滔滔不绝地跟我说那些关于吸烟和疾病的的统计学研究都毫无意义——其实吸烟有益他的健康。由于他好像懂一点概率论，我决定试着用我概率密度函数的知识炫耀一番，就以现在在这小酒馆里的酒鬼为例。

我在场所有酒鬼……都来自一个随机总体……随机变量……密度函数……不是均匀分布……靠近1而不是0……密度函数族……参数

。比如

。这是正确的形状。

^[2]RAF^[3] 你大概是想说——我就是说（在桌布上画）你看，你看。如果

那就是

我的意思是，看这个。看那个概率密度函数。这边小。小的值就不太会发生，大的值就比较可能发生。所以，这就对啦。RAF 【扯起了那块桌布凑近他的眼镜——他实在是近视】让我看看能不能让你这个蛮有道理的解释变得更合理。你观察到了几个0到1之间的数字。你觉得出于某种原因它们由

这种形式的隐含 (underlying) 概率密度函数产生。你画了个

情况下的图，它能够展示数据的特点，也就是结果更可能靠近1而非0。

我正是我刚刚说的。RAF 对……但是为什么

？如果你真的觉得

的期望靠近1的话，为什么不选

或者

？或者你不确定它会是这么高，也可能是

。又或者我们观察到的

都这么高只是出于巧合呢，而隐含分布就是均匀分布：

。【弯腰靠近桌子并在桌布上画着】

我呐，你看，

只是一个例子而已，某种吧。就好像你画的这样，看，你得要估计

才行。比方说，如果你计算一下样本均值。那就是，呃……

RAF

。

我然后计算隐含分布的期望……呃……RAF

^[4]。我正是。RAF 噢对的。我从来没试过。【开心地笑】这不就是老Pearson那家伙用过的东西嘛，直到我修正了它们。我修正？你说的是Karl Pearson？但他1936年就死了！只有——^[5]RAF 你看，任何一个傻瓜，哪怕是Pearson，都可以想出一个花哨的估计量 (estimator)。但一旦你仔细想想，你能用它们来做什么呢，嗯？你上面的

是差不多6.018，但它跟

是什么关系？嗯？真实的

会不会是1这么小？或者10这么大？或者假设存在这么个真实的

，你能告诉我任何关于

概率分布的东西吗？

我呃……RAF 你当然不能！我那……你能？RAF 不，我也不行。我【胜利地】看吧！RAF 但这是因为你的

并不是从任何合适的方法推出的。让我给你展示一个更加系统的方法。假设我们知道

是……

我或者它的先验 (prior) 概率密度函数是？……RAF 【瞪着我】别跟我说那不合理的主观贝叶斯 (Bayesian) 垃圾。我是个科学家，不是个巫师！数字

是固定的，只是我们不知道而已。

^[6]它描绘了假设中的无限总体（和这里的酒鬼一样的所有可能世界中的所有酒鬼）的性质。我【心想】科学家，啊行。RAF 什么？大声说出来！现在重复一遍。假设我们知道

，那我们就能够知道

,

,

,

的联合概率密度函数 (joint density function) 。这就是给定

情况下数据的似然方程 (likelihood)，我们可以把它写作

来表明这是个基于参数

的方程。但在目前的条件下，

是已知且固定的，所以我们不需要反反复复地提到他们。考虑似然方程

，如果我们假设这里的

相互独立，那么似然方程

便是各个概率密度函数的乘积：

而极大似然估计就是找到一个

使得

尽可能的大。或者说，让实际观测到这个样本的可能性尽可能高。

我所以说……?RAF 就是一个最优化问题：目标函数为

，优化对象为

。

对

求导，一阶导函数的零点为

，检查下二阶条件 (second-order condition, SOC) 确认这是个极大值。

我是的，但这里的

有点复杂：有乘法有乘方还有一大堆别的。求导只会变得一团糟。

RAF 【嘴角抽搐】是的，你确实是对的。但我们可以用一个小窍门来简化它。

是个单调增函数，所以当

取到极大值点时，

也在极大值，反之亦然——这就是对数似然方程 (log-likelihood function)。而且取对数之后，你就可以摆脱那些烦人的乘法和乘方了：密度函数之积的对数即为对数密度函数之和，通常看起来会更直观些，

我是的，当然！呃.....RAF 如果

，那么

现在最大化这个式子，找到

的极大似然估计量。

一阶条件 (FOC) 是

，代入式子化简得到

因为MLE相当重要，所以它们有自己的特殊记号。他们通常写作

而非

。【他把这拼作‘alpha till-der’，顺便鄙视学生们将它拼成‘alpha twiddle’】

我但是，且慢！

不应该是正的吗？否则概率密度就是负的啦！所以我们不应该有负的

对吧？这全是垃圾……这些推理……任何一个傻瓜都……

RAF 啊，尽管有个负号在前面，但

不是负的呀：

是负的（因为

），所以实际上

离你之前的估计

并不是很远。

我对

取对数这种方法——是不是有点太随意了？

RAF 对，刚开始看的话是这样的。但很快你会发现

本身也相当重要。

我拜托你能不能不要用你臭臭的烟斗向我喷云吐雾了？你知道这对你的健康非常不好的吧？RAF 胡说。目前你这个论断的统计证据非常弱。我你怎么知道？RAF 我研究过了现有的统计证据。我谁赞助你去做这个研究的？RAF 烟草公司。我我明白了……但说回来，目前为止你还没说

比

好在哪里呢！

RAF 我正要说到呢。MLE几乎所有的优良特性都得在大样本中体现。（如果你想了解更多关于小样本的知识，去跟我的朋友Gossett聊吧。^[7]这里的Guinness啤酒还不错。）简而言之：在大样本情况下，MLE估计量

近似正态分布，其均值为

（未知的参数真实值），方差为Cramer-Rao下限（Cramer-Rao Lower Bound, CRLB）：

我啥？RAF 我们一步一步来。先说MLE估计量的在数轴上的位置 (location)。以我们的小酒馆为例。这个例子中的

是4，但如果我们能够获得更大的样本的话，也就是说，

，我们会发现

。也就是说，MLE估计量是渐进无偏的。

我那小样本情况下就不是无偏的咯？RAF 对，不一定无偏。我好吧，这解决了MLE估计量位置的问题。如果他们有大样本的话，那就是无偏的。我承认这是个优点。
但你也提到了MLE估计量的分布不是吗。你在桌布上提到的那个表达式：呃……这个：

所以这难道不是说明

趋近于你这里的CRLB么？当

时，

？

RAF 嗯，让我们回到之前的例子。如果样本量为

,

的估计量是

,从而有

时，有

。【大样本下由于偏误趋于0，还能推出

】

我

?这又是从哪冒出来的？

RAF 我们还是不要太纠结细节了。对于所有的估计量来说^[8]，都有这么一个叫做Cramer-Rao 下限的量。如果

是

的任意一个估计量（即使在小样本情况下）

^[9]，有

而在我们这次的例子中，

就是

。

我那大样本呢？RAF 在大样本下可以确定 MLE 给出了一个有效 (efficient) 的结果。也就是说它们达到了最小可能的方差:

。换言之，在大样本下它们给出了最可能的估计值。用行话来讲：MLE 是渐进有效的。

我喔！RAF 没错。我但，你看，这不太对。能说明

很好，但这不是啥都没说么。我们仍然不知道

是啥。而这才是我们做估计的目的呀。实在看不出来有哪点比之前好了。

RAF 孩子，没关系。你可能只是生来不适合学习统计学。当然，我会给你再解释一遍。我之前提到过，你那简单的估计量

的问题之一是，尽管

，但我们不清楚真实值

到底是1还是10。

我我想你大概是想说，用这个新奇有趣唬人特殊拉风的MLE估计量，我们可以基于

为某个特定值的原假设进行统计检验。

RAF 啊，你悟到了。是的，就是这样。我你可以多提供点细节吗？RAF 好的。我刚刚说了大样本情况下MLE估计量位置的问题 (

) 和分布的问题 (

) ，但我还没说

确实是正态分布的呢（大样本情况下）。

我们说MLE估计量是渐进正态的——大样本下正态分布。我所以比方说，怎么检验

这个原假设？

RAF 嗯，

很难说是大样本吧。

我噢，那么……多大才是‘大’？

【一阵诡异的沙哑的笑声。贝叶斯学派大师的亡魂入场】

贝叶斯学派大师的亡魂 他戳爆你了，小Ronnie^[10]。多大才是大？无限大！古典统计学什么时候有用？当你有无限数量的观测值的时候！都是吃奶的婴儿说的话……【退场】RAF 【脸色变苍白、阴森的紫色】吹牛！你就等着看我下一版的《优生学评论》吧！它们会把你绝育干净！我【匆忙地】别放在心里。让我们假设

是个‘大’样本吧。这样的话你怎么检验

这个假设呢？

RAF 【恢复之前死人似苍白的脸色】假设原假设成立。如果我们认定4是‘大’的，我们可以得到（在原假设下）

如果我们进行标准化，定义

，那么Z的分布就是

。在我们的样本中，我们发现

，显然不显著 (

) 。总结一下，我们的样本不能提供足够证据拒绝

的原假设。

【台下贝叶斯暮光之城的居民在咯咯暗笑】

我所以在实际设定中，统计学家和计量经济学家根据问题想出一个原假设，然后我们给未知参数

赋予了一个值？

RAF 正是。我让我总结一下到目前为止我学了啥。
（1）MLE是一个成体系的利用数据估计参数的方法。
（2）

的MLE估计量，

，是通过最大化观测值的联合概率密度函数得到的。这个联合密度

可以被认为是

的函数，它叫似然方程。

（3）优化对象为

时，最大化

和最大化

是等价的。

（4）

是渐进无偏的：当

，

。优点1。

（5）任何估计量

的方差不小于CRLB，它能够由

推出。

（6）在‘大’样本情况下，MLE估计量达到理论最优分布CRLB：它是渐进有效的。优点2。
（7）在‘大’样本情况下，MLE估计量围绕真值

正态分布。它是渐进正态的。优点3。

（8）统计检验时未知的

由原假设提供

^[11]，就像陪审团审判运用的‘疑罪从无’原则一样，它让我们检验是否有足够证据拒绝模型给定的原假设。RAF 精彩。但你还应该加上：
（9）如果你想找到某个

的函数的MLE估计量，比方说

，那就直接是

。优点4。

（10）这些结论也适用于同时估计模型中的多个参数：任何长度的参数向量都可以。优点5。我还有一事。假设某一天我要去教本科二年级的经济学最优化理论 (Optimization for Economists) 这门课。RAF 经济学？我是的。假设我要给他们在这门课第7单元讲MLE的原理，要求他们一次掌握多少才合理呢？RAF 你觉得这些学生聪明吗？基因上没什么问题吧？我噢，当然：他们中的大多数反应都和鞭子一样快。RAF 嗯，那记得让他们多生几个孩子，所有聪明人都应该这样，我就有八个。我实际上，当我上这门课的时候，他们大多数可能更关心及格 (passing their exams) 而不是基因传递 (passing their genes on) 。RAF 好吧，即使他们聪明，也别对他们第一次学习抱太大希望。给他们一两个例子让他们自己找出MLE估计量就好，这样他们就能掌握技巧了。

对话到此，我的伙伴穿上了他那过时的外套（当然也可能相当时髦）。但那时，令我惊讶的是他没有推开门，而是看起来——我很难确切形容——嗯，消失在我们桌子旁边的墙里，只留下一本《优生学评论》在桌上，以及空气中一股奇怪的古老烟枪的味道。我不禁思考他究竟是一个怎样的人？

结界打破了。香烟里冒出的白眼继续着它向上的旅程。薯片掉到了那个人的嘴里并被大声地嚼碎。所有的

大概都取值为1了。

调酒师走了过来，心不在焉地拿起了那本《优生学评论》，结果那本书迅速化作尘土，在他的指尖变作虚无。‘快点吧先生，喝完它。别再对着墙说话了。我们都经历了美好时光，但现在已经很晚了。差不多要回家去准备课件了。’

参考

^英国乐事 (Walkers) 经典口味。
^这是一个概率密度函数，从0到1积分值为1，且靠近1处密度大。
^巧合的是，他和Ronald A. Fisher有一样的首字母。
^根据期望的定义，对概率密度函数和x的乘积求积分可得。
^享年79岁。
^贝叶斯计量认为参数是一个随机变量。
^William Gossett常被称作"学生"，学生t分布就是以他命名的。因为他的赞助人Guinness公司把t分布视作商业机密，Gossett化名“学生”发表了该论文。
^不只是MLE估计量。
^准确地说是（渐进）无偏估计量。
^Ronald的昵称。
^原理同LM检验。大样本条件下，Wald、LR和LM检验渐进等价。

极大似然估计_计量经济学 | 极大似然估计相关推荐

最大似然估计_机器学习最大似然估计
很早之前接触了费曼学习法,费曼学习法是说"如果你真的想确保你对知识的理解没什么问题,就把它教给非专业的另一个人,如果他能听懂,就说明你真的理解了".前段时间看卷积神经网络时特别想用 ...
通俗理解“极大似然估计”
文章目录前言 1. 似然估计 1.1 下定义 1.2 举例子 1.3 推公式 1.3.1 概率函数 1.3.2 似然函数 1.4 为什么要估计参数的似然性? 2. 极大似然估计 2.1 一般概念 2 ...
伽马分布极大似然估计_一文通俗解释极大似然估计
我们都知道机器学习的大致流程是通过建立一个合理的模型学习现有数据集,然后通过该模型去完成特定的任务.其中每个模型都包含自身的一组特定参数,而这组参数决定着模型的本身.但这里存在一个很关键的一个问题,就 ...
一文看懂 “极大似然估计” 与 “最大后验估计” —— 极大似然估计篇
参考: 唐宇迪<人工智能数学基础>第8章 Richard O. Duda <模式分类>第三章白板机器学习 P2 - 频率派 vs 贝叶斯派频率学派还是贝叶斯学派?聊一聊机器 ...
极大似然估计_一文读懂矩估计，极大似然估计和贝叶斯估计
概率论和数理统计是机器学习重要的数学基础. 概率论的核心是已知分布求概率,数理统计则是已知样本估整体. 概率论和数理统计是互逆的过程.概率论可以看成是由因推果,数理统计则是由果溯因. 数理统计最常见的 ...
极大似然估计_极大似然估计、极大后验估计和贝叶斯估计
本文题目中的三个概念,都属于概率统计领域,但机器学习相关的工作者们,也应该很好地理解并掌握. 有些同学也许会反问,我不了解,也没用过这些东西,工作也做的很好啊? 那好,再来看看下面几个问题. a. 机 ...
逻辑回归_极大似然估计
二.逻辑回归原理逻辑回归又叫对数几率回归,是一种广义的线性回归分析模型.虽然名字里有回归,但其实是分类模型,常用于二分类. 1.什么是逻辑回归由于逻辑回归的原理是用逻辑函数把线性回归的结果 ...
通俗理解极大似然估计
维基百科:在统计学中,最大似然估计(英语:Maximum Likelihood Estimation,简作MLE),也称极大似然估计,是用来估计一个概率模型的参数的一种方法极大似然估计,通俗理解来说 ...
求解极大似然估计，一共有几步？
前提知识阅读本文之前,需要了解似然函数相关的概念,详见另一篇文章如何通俗地理解"最大似然估计法"? 极大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样 ...

极大似然估计_计量经济学 | 极大似然估计

参考

极大似然估计_计量经济学 | 极大似然估计相关推荐

最新文章

热门文章