机器学习数学基础-最大似然估计与贝叶斯法则

以下文章摘录自

《机器学习观止——核心原理与实践》

京东： https://item.jd.com/13166960.html

当当：http://product.dangdang.com/29218274.html

1.最大似然估计 (MLE)

最大似然估计(maximum likelihood estimation)，又被译为极大似然估计或者最大概似估计等，是由德国数学家Gauss于1821年提出，并由英国统计学家和生物进化学家R.A. Fisher发展壮大的一种求估计的手段。

假设似然函数定义如下：

其中fD代表的是事件的概率分布的密度函数，表示分布参数。如果我们可以找到一个使得似然函数的取值达到最大，那么它就被称为的最大似然估计。

下面援引wikipedia上的一个范例。假设有三种类型的硬币放在盒子里，因为制作工艺不同它们抛出后正面朝上的概率分别为pH=1/3, pH=1/2, pH=2/3。某次试验中共抛出硬币80次，最后统计出正面朝上共49次，反面朝上31次，现在要通过最大似然估计求出哪种类型硬币的可能性最大。

这三种类型硬币对应的似然值分别为：

可见第3种硬币的可能性最大，换句话说p的最大似然估计是2/3。

2. 贝叶斯法则

贝叶斯法则 (Bayes'theorem/Bayes theorem/Bayesian law)也称为贝叶斯定理或者贝叶斯规则、贝叶斯推理等等，简单而言它是英国学者贝叶斯(1702～1763)于18世纪提出来的一个数学公式。公式本身并不复杂，如下所示：

其中：

l P(A|B)是指B已经发生情况下A的条件概率，也由于得自B的取值而被称作A的后验概率

l P(A)是A的先验概率（或边缘概率）

l P(B|A)是指A已经发生情况下B的条件概率，也由于得自A的取值而被称作B的后验概率

l P(B)是B的先验概率(或边缘概率)

上述释义中出现了前面小节也涉及过的先验概率和后验概率，我们这里再举一个例子来加深大家的印象。我们知道，如果一个人淋了雨，那么他有可能会得感冒。那么：

P(感冒)是先验概率

P(感冒|淋雨)是指淋雨已经发生的情况下，此人会得感冒的条件概率，称为感冒的后验概率。

接下来我们简单推导一下贝叶斯公式。

首先，根据条件概率可知当事件B发生的情况下事件A的条件概率是：

同理，当事件B发生的情况下事件A的条件概率是：

或者换一种表达形式就是：

P(A∩B) = P(B | A)*P(A)

这样一来，不难得出：

P(A|B) = P(A∩B) / P(B)

= P(B | A)*P(A) / P(B)

另外，贝叶斯公式也可以被理解为：

后验概率 = (可能性*先验概率)/标准化常量

下面我们再引用wikipedia上的一个吸毒者检测范例，来解释贝叶斯公式有哪些潜在的实用意义。

假设一个常规的检测结果的敏感度与可靠度均为99%，即吸毒者每次检测呈阳性（+）的概率为99%。而不吸毒者每次检测呈阴性（-）的概率为99%。从检测结果的概率来看，检测结果是比较准确的，但是贝叶斯定理却可以揭示了一个潜在的问题——假设某公司对全体雇员进行吸毒检测，已知0.5%的雇员吸毒。那么请问每位检测结果呈阳性的雇员吸毒的概率有多高？

我们假设“D”代表的是雇员吸毒事件，“N”为雇员不吸毒事件，“+”为检测呈阳性事件。那么可以得出：

l P(D)代表雇员吸毒的概率，不考虑其他情况，该值为0.005。因为公司的预先统计表明该公司的雇员中有0.5%的人吸食毒品，所以这个值就是D的先验概率。

l P(N)代表雇员不吸毒的概率，显然，该值为0.995，也就是1-P(D)。

l P(+|D)代表吸毒者阳性检出率，这是一个条件概率，由于阳性检测准确性是99%，因此该值为0.99。

l P(+|N)代表不吸毒者阳性检出率，也就是出错检测的概率，该值为0.01，因为对于不吸毒者，其检测为阴性的概率为99%，因此，其被误检测成阳性的概率为1 - 0.99 = 0.01。

l P(+)代表不考虑其他因素的影响的阳性检出率。该值为0.0149或者1.49%。我们可以通过全概率公式计算得到：此概率 = 吸毒者阳性检出率（0.5% x 99% = 0.495%)+ 不吸毒者阳性检出率（99.5% x 1% = 0.995%)。P(+）=0.0149是检测呈阳性的先验概率。用数学公式描述为：

根据上述描述，我们可以计算出某人检测呈阳性时确定是吸毒的条件概率P(D|+)：

换句话说，尽管吸毒检测的准确率高达99%，但贝叶斯定理告诉我们：如果某人检测呈阳性，其吸毒的概率只有大约33%，不吸毒的可能性比较大。假阳性高，则检测的结果并不可靠。