内容总结自自花书《deep learning》Chapter 5.5，由英文版翻译而来。英文版官网可以免费查阅：http://www.deeplearningbook.org/

估计器(estimators)从何而来？相较于猜测某个函数可能产生一个好的估计器，然后再分析其偏差和方差，我们更愿意拥有一些原则，可以用来推导针对不同模型的好的估计器的特定函数。

最常用的这种原则就是最大似然原则(maximum likelihood principle)。

一种对最大似然估计的解释是将其看做是对模型的分布和训练集所定义的实验分布p^data\hat{p}_{data}p^data的差异的最小化。差异的程度使用Kl散度来衡量。

最小化KL散度恰恰对应于最小化分布之间的交叉熵。很多作者会对伯努利分布和softmax分布的负log似然使用交叉熵这个术语，这实际上是错误使用。任何包含负log似然的loss函数都是训练集定义的实验分布和模型定义的概率分布的交叉熵。例如，MSE是实验分布和高斯模型的交叉熵（原书前面有详细推导过程，证明了最小化高斯模型的交叉熵和最小化MSE是一致的，5.5.1也有一个类型的推导过程。）。

这样我就得到了不管是最大化似然还是最小化KL散度都是在得到最优的θ\pmb{\theta}θθθ。最大似然这样就变成了最小化负log似然(NLL)，或者等价的，交叉熵的最小化。把最大似然看作是KL散度的最小化是非常有帮助的，因为KL散度有一个已知的最小值0，而负log似然实际上在x\pmb{x}xxx是实数值时可以是负的。

最大似然的性质

最大似然主要的吸引力在于它可以被证明是最好的估计器逼近，当样本数量m趋近于无穷时，它收敛的比率随着m增大而增大。

在以下两个条件下，最大似然估计器具有一致性(consistency)的性质：

然而，具备一致性的估计器在统计效率(statistical efficiency)上可以是不同的，这意味着一个一致估计器在固定数量上的m样本上可以取得低泛化误差(generalizarion error)，或者等价地说，只需要更少的样本就足以取得固定水平的泛化误差。

统计效率通常在在有参(parametric case)情况下被研究。

Cramér-Rao lower bound (Rao, 1945; Cramér, 1946)证明了没有其他的一致性估计器能比最大似然估计器取得更低的MSE。

因为一致性和高效性，最大似然通常是使用机器学习的首选估计器。当样本数量足够小以至于会产生过拟合时，可以采用诸如权重衰减等正则策略来得到一个具有更小方差的最大似然的有偏版本，尤其是在训练数据受限时。

最大似然估计(Maximum Likelihood Estimation) - 机器学习基础相关推荐

最大似然估计(Maximum likelihood estimation)(通过例子理解)
之前看书上的一直不理解到底什么是似然,最后还是查了好几篇文章后才明白,现在我来总结一下吧,要想看懂最大似然估计,首先我们要理解什么是似然,不然对我来说不理解似然,我就一直在困惑最大似然估计到底要求的是 ...
最大似然估计(Maximum likelihood estimation）
最大似然估计提供了一种给定观察数据来评估模型参数的方法,即:"模型已定,参数未知",利用已知样本结果(统计概率)反推最有可能导致这样结果的参数值.简单而言,假设我们要统计全国人口的 ...
极大似然估计 —— Maximum Likelihood Estimation
1 引入机器学习中,经常会遇到极大似然估计 (Maximum Likelihood Estimation, MLE) 这个名词,它的含义是什么?它能够解决什么问题?我们该如何理解并使用它?本篇就对此 ...
【机器学习算法-python实现】最大似然估计(Maximum Likelihood)
1.背景最大似然估计是概率论中常常涉及到的一种统计方法.大体的思想是,在知道概率密度f的前提下,我们进行一次采样,就可以根据f来计算这个采样实现的可能性.当然最大似然可以有很多变化,这里实现一种简单 ...
最大似然估计(Maximum Likehood Estimation，MLE)和最大后验估计(Maximum A Posteriori estimation， MAP)
概率与统计的区别概率研究的问题是一个模型和它的参数已知的情况下,怎么去预测这个模型产生的结果的特性(如均值,方差,协方差等) 统计研究的问题是在已有的大量的数据的情况下,推断产生这堆数据的模型及其参 ...
机器学习概念：最大后验概率估计与最大似然估计（Maximum posterior probability and maximum likelihood estimation)
joey 周琦假设有参数θ\theta, 观测x\mathbf{x}, 设f(x|θ)f(x|\theta)是变量xx的采样分布,θ\theta是其中的参数.那么θ\theta的最大似然估计可以表示 ...
均匀分布（uniform distribution）期望的最大似然估计（maximum likelihood estimation）
maximum estimator method more known as MLE of a uniform distribution [0,θ][0, \theta] 区间上的均匀分布为例,独立同 ...
极大似然估计(Maximum Likelihood)与无监督
1. 极大似然与最大概率因为不是科班出身,所以最初接触极大似然的时候,总是很奇怪为什么叫极大似然,而不直接叫做最大概率? 后来才知道极大似然是用来估计未知参数的,而最大概率的表述更适合于已知参数的情 ...
极大似然估计Maximum Likelihood Estimation
极大似然估计是概率论在统计学的应用,是一种参数估计.说的是已知随机样本满足某种具体参数未知的概率分布,参数估计就是通过若干次试验,利用结果推出参数的大概值.极大似然估计的一种直观想法是已知某个事件发生 ...
极大似然估计（Maximum likelihood estimation，MLE）：用样本估计总体参数
1 基本概念回顾边缘概率.联合概率和条件概率的基本概念. 1.1 定义边缘概率(Marginal Probability):可以简单理解为单一事件发生的概率.如果A是一个事件,且事件A发生的概率为 ...

最大似然估计(Maximum Likelihood Estimation) - 机器学习基础

最大似然的性质

最大似然估计(Maximum Likelihood Estimation) - 机器学习基础相关推荐

最新文章

热门文章