logit模型应用实例_最大似然估计（上）—

原创文章，如需转载请联系作者！

希望这篇文章能讲清楚什么是“最大似然估计”。

通过前文的推理，我们已经得到了二项Probit和二项Logit的模型表达式。在二项Probit模型中，决策者n选择方案i的概率为：

在二项Logit模型中，相应的概率为：

具体的推导过程可以参见之前的文章：

《效用最大化准则：离散选择模型的核心（Probit篇）——离散选择模型之七》

《你们要的二项Logit模型在这里——离散选择模型之八》

《从Gumbel分布到Logistic分布——离散选择模型之九》

模型已经有了，下一个需要解决的问题就是如何估计模型中参数？——这里就要用到最大似然估计（Maximum Likelihood Estimation，简称MLE）。

最大似然估计是干什么用的？

估计参数用的。假设已经知道某个随机变量服从正态分布

（

、

的值未知），通过对随机变量进行观测、获得一组观测值，我们就可以利用最大似然估计获得

、

的值。

最大似然估计的原理？

先看一个简单的例子。假设我们对一组小球的重量进行观测。第一个小球的重量为

，其在坐标轴上的位置如下图1所示：

Fig 1. 第一个小球的重量

根据以往的经验可知，小球的重量

服从正态分布；并且该分布的形状就是图2中的（a）、（b）、（c）中的某一个——您觉得

的分布最有可能是其中的哪一个？

Fig 2. X的可能的分布

答案当然是（b）。在继续往下阅读之前，你可以先闭上眼睛问问自己：为什么你觉得X的分布最有可能是（b）图中所示的形状？

看一下图3就会明白：若

满足（a）、（c）中的分布，“观测到1号球的质量为

”这一事件发生的概率比较小；而当

满足（b）图中所示的分布时，“观测到1号球的质量为

”这一事件发生的

概率最大。亦即：

Fig 3. 不同分布下，观测到X=x的概率

实际上，最大似然估计的思想就是：如果我进行一次随机的观测，观测到球的质量为

；那么我就认为随机变量

的分布一定会使得

这一事件发生的概率最大。我们都知道，正态分布有两个参数：均值

和方差

。对于参数为

、

的正态分布

，

的概率为：

(1)

（1）式中，不同的

、

的值对应的概率值

是不一样的。最大似然估计的目标就是，找到一组

、

的值，使得

最大。实际应用中一般会采集多个样本

；相应地，最大似然估计的目标变成：找到一组

、

的值，使得

、

、…、

同时最大。

如果

、

、…、

之间相互独立，上述目标就可以重新描述成——寻找一组合适的

、

，以使得：

继续上面小球的例子。假设我们一共观测到n个样本，那么我们的目标就是最大化：

(2)

(2)式就是所谓的似然函数。为求解方便，一般对其取对数：

(3)

(3)式就是所谓的对数似然函数；我们将其记作

。(3)式可以进一步化简成：

(4)

假设我们只观测了3次（n=3），并且我们已经知道了第1次观测到的小球的重量值

，第2次观测到的重量值

，第3次观测到的重量值

。带入(4)式可得：

(5)

为求解

、

的值，对（5）式求偏导，就可以得到方程组：

(6)

(7)

求解（6）、（7）两式可得：

，

。也就是说本例中，相对于其它的正态分布而言，当小球质量

服从均值为6、方差为6的正态分布时，连续抽样3次，观测到

X=3、X=6、X=9的概率最大。

“概率”和“似然”有什么区别？

在英语中，Probability（概率）和 Likelihood（似然）都是用来描述事件发生的可能性、几率的。在我看来，统计学中的“概率”、“似然”两个词所对应的问题的方向是相反的。

概率——如果已知

服从均值为6、方差为6的正态分布，我们就可以算出

在5到7之间的概率（即具体分布的参数

已知，求观测到某个样本的概率）；

似然——如果我有一组关于

的一组样本，并且知道

服从正态分布（但是具体的参数未知），我需要建立如（3）式所示的似然函数来估计模型的参数（即具体分布的参数

未知，利用样本来反推模型参数）。

【本篇完】

专栏文章列表（动态更新中...）

离散选择模型基础：

离散选择模型（Discrete Choice Model）简介
线性模型 vs. Logistic模型
Logit究竟是个啥？
Odds 和 Odds Ratio 的区别
正确打开/解读Logit模型系数的方式
Logit模型拟合实战案例（SAS）
Logit模型拟合实战案例（Python）

二项Logit/Probit：

效用最大化准则：离散选择模型的核心（Probit模型上篇）
效用最大化准则：离散选择模型的核心（Probit模型下篇）
效用最大化准则：离散选择模型的核心（二项Logit模型）
从Gumbel分布到Logistic分布

多项Logit（MNL）：

效用最大化准则：多项Logit模型（Multinomial Logit, MNL）
多项Logit模型（MNL）拟合实战案例（SAS篇）
MNL的IIA特性与“红公交/蓝公交悖论”（上篇）
MNL的IIA特性与“红公交/蓝公交悖论”（下篇）
如何将决策者的属性和方案属性同时放到MNL模型中？
Logit模型中的个人属性、方案属性数据处理案例
为什么条件Logit模型中没有常数项，以及，你的女神会不会不喜欢你？
Logit模型中的ASC（Alternative-Specific Constant）是指什么？

统计学相关：

最大似然估计（上）
最大似然估计（下）
模型中存在共线性问题，该怎么破？

关注【DCM笔记】公众号，私信作者获取相关文章中的练习数据和代码：