第六章频率派统计

6.1 简介

在第五章我们讨论的贝叶斯统计的这套方法，在一些非统计学问题中，比如医疗诊断，垃圾邮件过滤，飞机追踪等问题上，大家都是用贝叶斯的这一套去做。但是在很多统计学问题上，却存在一些争议，主要有一部分认为不应该用随机变量来刻画统计模型里面的参数。

那么统计学派的这些人，他们就希望能够找到一些统计的方法，而不是将参数设置为随机变量，用贝叶斯那一套去做。这样的方法被称作频率派的方法，古典的方法或者也叫做正统的方法。在这样的方法下，他们并不是基于后验分布的，而是建立一个估计器，利用对于真实分布的采样数据，利用估计器对参数进行估计。所以在频率学派的观点下，能够从真实的分布中进行重复的采样是进行频率派方法的关键。

相反，在贝叶斯的观点中，我们只需要考虑我们真实拥有的数据，并不需要知道这些数据是否是重复采样的结果。所以利用贝叶斯的方法可以去解决那些只会发生一次的事件。也许更重要的是，贝叶斯方法避免了困扰频率论方法的某些悖论（这在后面会说）。但是不管怎么说了解频率派的做法是很有必要的。

6.2 估计器的采样分布

在频率派的统计中，参数 $\hat{\boldsymbol \theta}$ 通过一个估计器 $\delta$ 对于一些数据（从真实的分布中重复采样得到的数据），所以说有 $\hat{\boldsymbol\theta} = \delta(\mathcal D)$ 。在统计学派的观点中，真实的分布是确定的，所以说参数是固定的，但是采样出来的数据是随机的，是变化的。但是在贝叶斯的概念中，数据是定的死的，但是参数是随机的。在频率派的方法中，关于参数的不确定性的估计可以通过估计器的采样分布来近似。具体的做法如下：首先假设我们有 $s$ 组数据 $\mathcal D^{(s)}$ ，从一个真实的概率模型中 $p(\cdot|\theta^*)$ 采样得到的。 $\mathcal D^{(s)} = \{x_i^{(s)}\}_{i=1}^{N}$ ，其中， $\theta^*$ 就是真实的参数。那么对于每一组数据我们都能通过估计器得到关于参数 $\theta^*$ 的一个估计值。当，由这些无穷多个点所构成的分布就是 $\theta$ 的采样分布。

6.3 Bootstrap

bootstrap是一个简单的monte carlo方法去近似采样分布，特别是在关于参数的估计器是一个特别复杂的函数的时候，这个方法尤其有用。

这个思想其实特别简单。假设我么已经知道了真实的参数 $\theta^*$ ，那么我们就可以生成许多假的数据集，这些数据都是从真实的分布中生成的。那么接下来，我们只需要用估计器估计出每一个样本集的关于参数的值，那么就可以用经验分布去近似参数的采样分布了。但是实际上呢，真实的参数 $\theta^*$ 我们并不知道。那么对于parametric bootstrap，我们就是用这个数据去得到 $\theta$ 的经验分布，这里我认为就是采了几组数据就用几组，因为你不可能一个数据集就够。那么还有non-parametric bootstrap，在这个方法下我们可以自己去构造数据集，就是利用重复采样，我们从一个总的 $\mathcal D$ 中不停的重复采样出若干个数据集，这样，我们想得到多少个数据点就得到多少个，然后再得到经验分布。

书中给了一个例子：

这个例子是用的parametric bootstrap的方法，不过书中说non-parametric bootstrap效果基本一样。这里两边都是由10000个数据集，左边的每个数据集里面有10个数据，即N=10，右边N=100。我们可以看到右边的分布与高斯分布十分的接近。

那么一个很自然的问题就出来了，在频率派中我们最终去刻画参数 $\theta$ 的不确定性是用的采样分布，而在贝叶斯的框架中，我们则是使用的是后验分布。那么这两者到底有什么不一样呢。从概念上来讲是有很大的不同。但是其实在很多常见的问题中，如果先验信息不强的话，其实是差不多的。因为参数二点后验就是似然乘以先验，如果先验不强，那么后验就是似然函数，这也是完全由数据决定的。所以说有人说bootstrap分布就是‘’穷人的后验‘‘。

但是bootstrap相比后验的计算方法是要更加的慢，因为bootstrap要进行多次的 $\hat{\boldsymbol\theta} = \delta(\mathcal D)$ ，这个其实是很慢的，而在后验的计算中只需要进行一次似然乘以先验二点计算，我个人理解上是 $\hat{\boldsymbol\theta} = \delta(\mathcal D)$ 是独立的不能取巧的，但是似然的计算虽然也涉及相同的数据量，但是可以合并计算，是可以取巧的，就是会更好算。

6.2.2 最大似然估计器（MLE）的大样本理论*

事实上呢，如果我们的模型是确定的，然后如果我们采样得到的每组数据集的样本是无穷的，那么我们的最大似然估计器（MLE）的得到的关于 $\boldsymbol\theta$ 采样分布就是高斯的（这里指S趋向于无穷）。但是这里呢有两个前提条件，那就是首先模型要是确定的，另外我们要能够得到无限多的样本，这在很多机器学习问题中其实是实现不了的。

那么关于这个高斯分布的中心就是对于所有数据（我个人觉得就是无穷多个数据即S组的数据的MLE）MLE最大似然估计的结果 $\hat{\boldsymbol\theta}$ ，但是这个高斯分布的方差是什么？直觉上我们发现高斯分布的方差就是与该分部中心位置处的曲率是相关的。如果曲率很大的话，说明这个峰很尖，那么就说明方差很小，相反如果曲率很小，那么说明这个峰很平坦，那么方差就会很大。

我们定义一个得分函数（score function）(这里指关于 $\boldsymbol\theta$ 求微分之后，然后取 $\boldsymbol\theta$ = $\hat{\boldsymbol\theta}$ )，同时我们再定义一个观测信息矩阵，观测信息矩阵是得分函数的负的梯度，定义如下：，在一维的情况下就是，这个矩阵其实就是关于曲率的一个测度。

由于我们研究的是采样分布，是一系列随机变量的集合。那么Fisher 信息矩阵定义如下：，其中。（这里要稍微说一下这不是一般的定义，但是在某些假设下其实是一样的。标准的定义是这样的：，这是得分函数的方差，但是如果 $\hat{\boldsymbol\theta}$ 是MLE的结果，因为导数为0，那么我们就有，所以我们有，而我们又有，所以在我们这里fisher信息矩阵就变成了如上的形式。）。这里 $\boldsymbol\theta^*$ 是真实的参数，假设我们是知道的。我们这里简化写为：，其实我们能够发现，并且令。

我们上面说过 $\hat{\boldsymbol\theta} = \hat{\boldsymbol\theta}_{mle}(\mathcal D)$ ， $\mathcal D$ 是从真实的分布中获得的。当：

有，具体的证明见。所以我们说MLE的采样分布是渐近正态的。

关于采样分布的均值我们知道可以用MLE得到，那么采样分布的的方差呢， $\boldsymbol\theta^*$ 是未知的,所以我们不能评估采样分布的方差。不过,我们可以近似用 $\hat{\boldsymbol\theta}$ 代替 $\boldsymbol\theta^*$ 。

因此关于 $\hat{\theta_k}$ 的标准差就是：。对于二项采样模型，我们有fisher 信息矩阵是，所以标准差就是：，这跟无信息先验的后验标准差是一样的。

6.3 频率派决策理论

在贝叶斯的框架下，我么有后验分布，同时我们可以计算后验损失，那么得到后验期望损失的最小值就是参数的估计值，所以我们可以自动的去进行参数的估计，而不要自己去设计估计器。但是在频率派的方法下，如果要获得关于参数的估计，那么我们首先要确定估计器，然后利用估计器去进行估计，但是选用什么估计器，是一个非常棘手的问题。我们的期望损失如下：

，其中就是 $p(\mathbf x_1|\theta^*)\cdots p(\mathbf x_N|\theta^*)$ ，这是关于数据的分布。那么这个损失函数需要我们自己去定义估计器，而且由于 $\boldsymbol\theta^*$ 我们并不知道，所以我们并不能直接去比较哪一个估计器的性能更好，所以我们定义了一个估计器，我们都没有办法知道这个估计器好不好用，这是非常难受的。所以下面给出了一些解决的方法。

6.3.1 贝叶斯风险（这一块很重要）

那么很明显我们想要得到的就是，一个不依赖于 $\boldsymbol\theta^*$ 的关于估计器的函数。其中一个方法就是使用贝叶斯风险或者是积分风险，具体如下：

那么我们的贝叶斯估计器就是，我们要知道一点是，我们在没有看到真实的数据的时候，我们的估计器就已经确定出来了。

下面我们将要证明一个非常重要的定理，这个定理是决策轮下贝叶斯方法和频率派方法的连接，具体定理和证明如下：

但是这里我有一些疑惑为什么会突然加入了一个y这个变量，所以我觉的这样写是不是更好：

所以说其实对于每一个固定的数据 $\mathbf x$ ，我们有，也就是说什么样的估计器是最好的呢，就是对于每一组固定的观测，使得最小的那个 $\mathbf a$ 是最好的。所以在这样的观点下来看的话，贝叶斯的方法提供了一个很好的方法去获得频率派的一些期望，这一点就将频率派的方法和贝叶斯的方法很好的结合在了一起。

那么这个定理就说明了对于每一个决策我们都能够用一个先验然后通过贝叶斯决策得到，也就是说如果我们能够找到合适的先验，那么贝叶斯决策就是最小化频率风险的最好方法。

6.3.2 最小化风险

很显然很多频率派学家并不喜欢用贝叶斯风险，因为它需要选择一个先验，在频率派学家的眼里，先验就是不能接受的。所以下面我们要讲另一个方法。首先定义一个估计器的最大化风险：，所以我们就是要找一个估计器使得它的最大化风险最小，也就是说它的最差的情况也是最好的，即：，书中给力一个例子：

我们可以看到在遍历了所有的 $\theta$ 之后， $\delta_1$ 的最大值是要比 $\delta_2$ 来的更小。那么这个估计器呢，我们称之为minmax estimator。这个东西看上去很有吸引力，但是一方面这个的计算很很复杂。另一个方面这个估计器太悲观了，他选得是最差的情况，也就是说对应于贝叶斯估计器，他选的是一个最不让人喜欢的先验，但是往往这样太悲观了，其实选一个自然的先验是更合理，可以选一个差的先验优点说不通。

6.3.3 可容许估计器（Admissible estimators）

关于频率决策论的一个基本的问题在于如果我们想得到风险的话，我们就需要得到真实的分布。但是事实上这是做不到的。但是有些情况我们能够区分一些估计器的好坏，比如说对于所有的 $\theta$ 我们都有，那我们就说 $\delta_1$ 支配了 $\delta_2$ ，并且如果不等是严格的，那么就称之为严格支配。如果存在一个估计器，它没有被任何的估计器严格支配，那么我们就可以称这个估计器是叫做Admissible estimators。

6.3.3.1 例子

下面我们来给出一个关于估计器的例子。考虑一个问题是关于估计一个高斯分布的均值，高斯分布的方差是已知的。我们假设我们的样本采样自，并且我们使用平方损失函数，其对应的风险就是均方误差MSE。我们定义如下的一些估计器：

对于 $\delta_\kappa$ ，在 $\kappa$ 等于0时，其实就是 $\delta_1$ ，在 $\kappa$ 趋向于无穷时，就是 $\delta_3$

下面我们就来推导风险函数，在6.4.4中我们会推导一个公式就是MSE可以被分解为bias的平方和方差，其中bias= ，具体如下：

，对于 $\delta_1$ 和 $\delta_2$ 都是无偏的，所以bias为0，所以我们有：

，（这里关于中位数的方差我也不知道怎么算的，书上直接给出了23333）。

对于 $\delta_3$ 而言，方差是等于0的，所以，对于 $\delta_4$ 而言呢，我们有：

书中做了一个仿真并给出一些解释：

左边的是N=5的情况，右边的是N=20的情况。我们可以发现的是当 $\theta^*=\theta_0$ 的时候， $\delta_3$ 是估计的最好的，当 $\theta^*\neq\theta_0$ 但是这两者十分接近时，用了强先验的会是最好的，当 $\theta^*$ 远离 $\theta_0$ 的时候，那么我们就会有mle的结果是最好的。这个现象想起来也是非常自然的。所以有的时候对于先验不是很肯定，我们可以用一个比较弱的先验。

令我们感到可能比较惊讶的点就是中位数的这样一个估计器是始终要好于均值的估计器的，无论在什么情况下都是这样的。所以在我们这个问题中，均值估计器肯定不会是一个admissible estimator。其实中位数估计器是具有更好的鲁棒性，尤其在重尾分布的情况下，因为对于重尾分布来说，他是有很大的可能会出现一个很大的值的，但是这个值其实出现的概率很小，但是如果从均值出发，他会大大的影响均值，但是这种低概率出现的点，并不会影响中位数。在一篇文章中显示了，如果我们的采样是来自于laplace分布的话，那么中位数估计器就是贝叶斯估计器。

6.3.3.2 斯坦悖论*

假设我们有N个独立的变量，并且我们希望去估计 $\theta_i$ ，i=1..N。那么一个比较常用的估计器就是MLE估计器，那么我们有，我们从刚才的例子中知道，其实这是一个inadmissible估计器，也就是说存在一个估计器是支配这个估计器的。

那么我们就有必要去建立一个更好的估计器。James-Stein估计器就是这样的一个估计器，定义如下：

，其中以及是一个调谐常数。这个估计器相比MLE而言呢，风险是更加的低的，但是这也带来了一个叫斯坦悖论的问题。因为这N个量是完全独立，举个例子，假设 $\theta_i$ 是某个学生的IQ， $X_i$ 是测试的得分，没道理这个学生的IQ会受到别人的影响，更夸张一点如果其他的变量是其余的风马牛不相及的东西，那么根本很难扯上关系。

为了解决这个悖论，提出了如下的方法。如果你的目标是估计 $\theta_i$ ，那么没有什么比用 $x_i$ 更加的合适了，但是如果我们想要估计的是向量 $\boldsymbol\theta$ 。这里我们再看，假设我们要去估计从一个样本中，如果 = ，那么我们会有：

，那么这个时候使用斯坦估计器就是很合理的。总感觉这里还是怪怪的。这里说5.6.2给了这个估计器的一个贝叶斯解释，不过我已经忘了，看来记录博客还是很有好处的，可以回头看看，捡的更快。

6.3.3.3 admissibility 并不够

现在我们在寻找估计器的时候呢，就从admissible的估计器里面去找。我们下面会讲到，其实去构建一个admissible的估计器是非常容易的。

证明：首先我们假设存在一个 $\delta_2$ 是严格支配 $\delta_1$ 的，那么我们就有，对于某些是严格小于的。那么当，并且我们有。，并且，所以我们有，那么就可以得到，那么 $\delta_2$ 和 $\delta_1$ 就必须是一样的，所以说就证明好了。

这个东西说明一个admissible估计器很容易就找到了，所以仅仅是admissible的估计器很有可能性性能还是会很差。

6.4 估计器所需要的一些特性

由于频率派的决策理论并没有提供自动的方法去选择最好的估计器。那么我们就需要一些启发式的方法。在这一节当中，我们讨论一些我们希望估计器所具有的特性，不过遗憾的是，我们并不能找到一个估计器具备所有的特性。

6.4.1 一致的估计器

我们称一个估计器是一致的，当我们的数据的采样数量趋向于无穷的时候可以恢复出真实的参数，即：。当然我们的数据并不是说真实世界的数据，而是从 $\theta^*$ 这个参数下的分布中重复采样得到的。不管怎么说，这个在理论上是一个很有用的特性。

MLE其实就是一致的估计器，比较直觉上的感受就是最大似然估计其实就是想要最小化，那么也就是说。当我们采样足够多的时候，真实的分布就会被完全刻画出来，自然我们假设的分布与其是一样的是最好的。

6.4.2 无偏的估计器

我们把一个估计器的偏差定义为：，其中 $\theta^*$ 是真实的参数值。如果这个偏差是0，那么我们就说这个估计器是无偏的。例如MLE对于高斯分布的均值就是无偏的：，但是事实上高斯分布的方差的MLE估计不是无偏的，即：，这个在概率论上都学过。

那么我们为了使其变成无偏估计器，我们使用如下估计器：，这就是一个无偏的估计器。当然对于很大的N来说，他们之间的差别是可以忽略的。

尽管MLE有时看起来是个无偏的估计器，但是其实往往他并不是。而且无偏估计器有时也并不是那么必要的，这在后面会讲到。

6.4.3 最小化方差估计器

无偏的估计器看上去是非常好的（尽管后面会说一些问题，现在我们先不谈这个），但是呢仅仅是无偏的其实还远远不够。例如，假设我们希望从数据集中去估计高斯分布的均值。我们仅仅使用第一个看到的值作为估计值，即，其实这就是无偏的估计器。但是这个估计器肯定不好相比于用所有数据的均值来看。所以估计器的方差也是非常重要的。

一个比较自然的问题就是这个方差低到底能够低到多少呢，一个著名的结论叫做CramerRao lower bound，给定了关于一个无偏估计器方差的最小值。更准确的是：

这就是给出了方差的下界，具体的证明我就不去看了。知道这一点就好。结果表明，MLE达到了Cramer Rao的下界，对于任何无偏估计器具有最小的渐近方差。因此，MLE被认为是渐近最优的。

6.4.4 偏差和方差之间的权衡

尽管使用无偏估计器看起来是一个好的方法，但是事实上并不总是这样。为什么呢，假设我们现在用的是平方损失，对应的就是风险就是MSE。上面我们讲过这个是可以分解的。我们定义以及即对于所有的data的关于估计器结果的期望。因此我们有：

所以说，我们有：

这就是偏差和方差的权衡，对于一个估计器而言，如果我们要使得方差并不是那么的大，就意味着有的时候我们并不能使用无偏的估计器。无偏和渐进方差之间是存在一定的矛盾的关系的。

6.4.4.1 例子：估计高斯均值

假设我们需要去估计一个高斯分布的均值，其中数据采样是，假设我们的数据是采样来自于。一个比较显然的估计器就是MLE。这个估计器的偏差是0以及方差是：。但是同样我们也可以使用MAP估计器。在4.6.1中，我们知道对于先验是，我们进行MAP估计的话，可以得到：

那么在MAP估计器下，我们可以得到偏差和方差的结果是：

所以尽管MAP估计器是有偏的，但是其方差其实是更低的。

6.4.4.2 例子：ridge回归

另一个要讲的例子就是ridge回归。之前也讲到过，ridge回归在贝叶斯的观点下就是加了一个高斯的先验，那么我们的高斯先验具有如下的形式。均值是0意味着参数尽量的小。当 $\lambda>0$ 的时候其实就是一个有偏的估计器。 $\lambda=0$ 就是MLE。下图阐述了这样做产生的效果：

当 $\lambda$ 很大的时候，其实方差会很小，但是偏差会很大，相反则是偏差比较小，方差比较大。

6.4.4.3 关于分类问题的偏差-方差的折中

我们刚刚讲了，在平方损失下，我们的risk可以看做是方差和偏差的这样一个和的关系，但是在0-1损失下，情况就变得不一样。如果我们大量的都能估对，那么这个时候偏差很小，方差也很小，这个时候减小偏差就意味着减小方差。另一方面如果我们大量情况下都是估计错误的，那么其实这个时候的偏差是很大的，但是方差很小，这个时候为了减小偏差就可能会带来增大方差的情况。后面我们总会有其他的方法来看待这些问题的。

6.5 经验风险最小化

对于频率决策论来说，最大的一个问题还是不能够得到真正的风险函数，因为我们不知道真实的参数到底是多少（但是贝叶斯后验期望损失是可以的，因为它依赖于真实的数据分布而不是分布的真实参数）。实际上我们可以去做一些改变从而去避免这个问题。原来我们是要去估计产生数据分布中的一些参数，去求这个风险函数，事实上我们可以去估计我们可以看到的一些量而并非我们看不到的这样的量。这样原来我们的风险函数是 $L(\theta^*,\delta(\mathbf x))$ ，现在则是 $L(y,\delta(\mathbf x))$ ，在这样的情况下，我们的风险函数就变成了：

但是我觉得这么写并不好，应该写成 $\sum_{(\mathbf x,y)}L(y,\delta(\mathbf x))p_*(\mathbf x,y)$ 或者说是 $\sum_{i=1}^NL(y_i,\delta(\mathbf x_i))p_*(\mathbf x_i,y_i)$

其中 $p_*$ 就是数据自然生成的分布。当然，这个分布其实是不知道的，但是我们可以利用数据去获得经验分布，这样我们就可以近似的得到 $p_*$ ，即：，也可以写成 $\frac{1}{N}\sum_{i=1}^N\delta_{(\mathbf x_i,y_i)}(\mathbf x,y)$ 。因为是关于 $\mathbf x$ 和y整体的一个分布，所以说其实这个后面的 $\delta$ 函数可以整合起来写。

那么有了这样一个经验分布之后，后面我们就可以去想怎么去定义我们的经验风险，如下：

这个式子其实是经过严格推导的，虽然看上去物理意义也是那么的明显，跟有监督学习的情况其实是一样的。

在0-1损失的情况下，其实，这个其实就变成了误分类率。在平方错误损失的情况下，，这就变成了均方误差。我们定义一个task叫做经验误差最小化或者是ERM作为我们要找一个决策过程来最小化这个经验task：

。

在无监督学习的情况下，我们可能只有数据 $\mathbf x$ ，而没有y，这个时候就被替换成了，其中例如，其实这个时候我们就是要最小化重构误差。当然你可以说 $\delta(\mathbf x) = \mathbf x$ ，但是其实很多时候是有限制的，比如在PCA下。在这样的情况下，我们就定义经验风险就是：。

6.5.1 正则化的风险最小化

注意我们上面的经验风险是和贝叶斯风险是一样的，如果我们假设的关于自然分布的先验是正好与我们的经验分布是相等的：

这里注意理解这里的 $p_*$ 跟之前的 $\theta^*$ 是等价的。

最小化经验风险往往有可能产生过拟合，因为数据生成的经验分布有可能会被噪声污染。所以对目标函数增加一些复杂的惩罚项是很有必要的：，其中 $C(\delta)$ 测试了关于这个 $\delta(\mathbf x)$ 的这样一个复杂度（越复杂越大）以及 $\lambda$ 控制了这样一个惩罚项的强度（越大惩罚的越厉害）。这个方法就叫做正则化的风险最小化（RRM）。注意到如果loss函数是负的log似然，并且正则化也是负的log先验，那么这就相当于做MAP了。其实这就是贝叶斯对于正则的解释，之前也说过。

关于RRM两个关键的点就是：我们怎么去度量这个 $\delta(\mathbf x)$ 的复杂度，以及我们怎么去选择合适的 $\lambda$ 。对于一个线性模型来看，我们可以通过观察它的自由度来确定他的复杂度。后面关于这些东西，会更具体的说该怎么做。

6.5.2 结构化风险最小化

在正则化的风险最小化中，我们就是要：得到估计器。但是我们怎么样去选择这个 $\lambda$ 呢？我们不能用训练数据再去选择 $\lambda$ ，这样的话可能会低估真实的风险，刻意再往训练数据上靠，解决不了过拟合的问题。因此，我们可以选择用一个结构化风险最小化的方法：，其中也是关于风险的估计。那这样的话，其实我们就是要遍历找一个 $\lambda$ ，使得这个最小。优良中比较常用的方法：一个叫做交叉验证还有一个是关于风险的理论上界。

6.5.3 使用交叉验证估计风险

如果我们有验证集合的话，我们可以用验证集来评估风险。这样去寻找最优的 $\lambda$ ，当然如果我们没有验证集的话，就可以使用交叉验证的方法，虽然在1.4.8我们已经提到过了，不过这里再详细说明一下。我们令，其中 $\mathcal D$ 就是我们的训练数据，然后我们把数据分为若干个fold，然后选择其中的一个fold作为test，其他的fold作为traning。当然fold的分配要能够均匀一点。那么接下来我们就是要找一个算法，可能是梯度下降啊等算法去估计一些参数以及模型参数：，这里模型的阶数可以指的是多项式的阶数或者说的正则项的强度等。得到了相关的参数我们就可以进行估计了，即，所以说上面的可以说就是确定我们估计器的一个参数。所以说：，用k-fold的交叉验证去估计m就是这样，不停的去改变的m，使得最小。我们定义一个叫fit-predict cycle的东西，即：。

对于第k个fold，，那么其实上面可以写为：

对于K=N的情况，我们称之为leave one out cross validation（LOOCV）。这个时候，这上面的-i应该是i，其中。广义交叉验证没看懂说了什么，后面遇到的话再说，呜呜呜。

6.5.3.1 例子：使用CV去选择ridge回归的参数 $\lambda$

作为一个具体的例子，我们就考虑关于线性回归二范数正则化的 $\lambda$ 的选取。那么我么有，并且有，这其实就是利用的上面的公式。其中，以及我们有：（这个是MAP的结果）。

对于分类问题0-1损失的话，可能我们的算法就不太实用，当然我们也可以做，就是用暴力穷搜法。另外当我们有多个参数的时候，这个时候可能还是使用经验贝叶斯更好，经验贝叶斯可以用来处理多个超参数的问题，具体见5.6.（理解的不太够）

6.5.3.2 一个标准错误规则

我们上面讲的都是围绕风险函数来的，讲怎么求风险，但是关于风险这样的不确定度，其实并没有给出什么好的解释。估计的不确定性的标准频率方法是求标准差。即：。其中。

假设我们将CV应用于一组模型，并计算其估计风险的平均值和se。那么一个启发式的方法就是我们选择的模型必须满足他的风险应该小于最小风险的那个模型的风险均值加上风险的标准差，即，其中就是风险最小的模型，同时在满足上面条件的基础上，我们选择的模型是最简单的。那么这个规则就叫做 one-standard error rule。

6.5.3.3 非概率无监督学习中模型选择的交叉验证

如果我们做的是非监督学习，我们必须使用一个损失函数，例如，这个就是度量了重构误差。事实上对于训练模型来说，我们使用越复杂的模型，对于训练数据拟合的是更好的，但是对于测试数据则不然。书的后面好像会讲到对于模型的复杂度的选择，对于无监督学习，CV是做不到的（暂时我也不去深究）。那么这个时候我们就要使用一些概率模型，或者加入一些启发式的东西。

6.5.4 使用统计学习理论给出风险的上界*

刚才我们上面讲用CV去找 $\lambda$ 使得结构化风险最小化，但是CV有一个很大的问题，就是CV很慢。我们下面用一个叫统计学习理论（statistical learning theory SLT）。SLT就是想要得到一个关于这个的上界，对于任意可能的数据分布以及假设空间。我们首先假设我们的假设空间就是有限的，即：，那么我们就有如下的定理：

为了证明这个首先我们要给出两个定理：一个是hoeffding's不等式还有一个是union bound。

hoeffding's不等式：

霍夫曼不等式还有一般形式：

union bound：

如果是一系列事件的集合，那么

为了符号的简单，令是真实的风险，是经验风险。那么我们有：

因为对于经验风险，我们有

不过这里是不是0-1损失才可以看成是伯努利分布，我感到有点疑惑，如果是平方损失还是正确的吗，那样的情况是不是要用霍夫曼不等式的一般形式。

这个bound是随着N的增加而减小随着假设空间的增大而增大。如果假设空间是无限的，那么这个方法就没用了，那么还有一个方法叫做Vapnik-Chervonenkis or VC，这里我们就不详细叙述了。

其实也就是说这个给了一个上界，所以说如果这个上界很小的话，那说明在这样的情况下，我们的经验误差什么时候都会是很小的。对于CV来说，SLT的好处就是就是利用SLT会计算的很快，但是呢，对于假设空间是无限的情况就没有办法处理，所以可能没有办法处理一些很有趣的模型，2333。书上说可以SLT用到应用到计算复杂度方面的学习，这里我觉得就是题外话了，就不考虑了。

6.5.5 替代损失函数

其实最小化ERM/RRM里面的risk并不是简单的是，因为有可能loss会非常的复杂，之前我们讲到的大多情况下用的平方损失函数，但是其实前面5.7里面我们也降到了关于AUC，FI等指标，这样的话计算会非常的复杂。举一个简单的例子，我们就拿前面用到了0-1损失来看，这在分类问题中是很常用的损失函数。但是这个是一个非光滑的目标函数，其实不太好求最优值。一个可行的方法就是最大化似然函数。因为似然函数是0-1risk的一个光滑凸的上界。

下面我们就以二分类的logistic回归问题作为例子，并且令。在这个logistic回归中，我们有：

以及。

我们定义我们的决策函数就是，那么相应的，我们的log-loss损失函数就定义为：

，其实这个就是负的log似然函数。这里只是将最大似然和我们之前用的经验风险结合起来看。

现在我们这么考虑，我么令，如果，相反也是一样的。那么我们函数的0-1损失就变成了：，图6.7展示了这两个损失函数，我们发现NLL确实是0-1损失的凸上界。

log-loss是替代损失函数的其中的一个例子，另一个例子是hinge loss：，这个损失函数是基于后面的SVM，后面会具体的讲到。

6.6 频率统计的pathologies(病症)*

频率统计显示了各种奇怪和不受欢迎的行为，被称为病态。为了提醒读者，我们在下面举几个例子;这些示例和其他示例将在本文中进行更详细的解释(Lindley 1972; Lindley and Phillips 1976; Lindley 1982; Berger 1985; Jaynes 2003; Minka 1999)

6.6.1 置信区间的反直觉行为

一个置信区间是从一个估计器的采样分布中推导得到的（在贝叶斯的框架下，可靠区间是利用参数的后验推导的）。具体的说，频率派的关于参数 $\theta$ 置信区间定义如下：

也就是说，如果我们的数据是从参数 $\theta$ 这样的分布中采样得到的话，那么 $\theta$ 在区间的概率是。

让我们退一步想想发生了什么，在贝叶斯派的观点中，我们基于的是我们已经知道的，也就是我们观测到的数据，然后我们队参数进行平均处理（也就是对参数进行期望处理）。在频率派的观点中，则完全相反，我们基于的是我们不知道的真实的参数，而对假设的未来的数据集取平均。网上有段话这么讲的：在频率派的观点中，真值要么在，要么不在，如果我们重复取样，每次取样后都用这个方法构造置信区间，有 95% 的置信区间会包含真值 (*)，所以我们也就理解了，为什么作者重复说是对未来假设的数据集取平均。

6.6.2 p-values 被认为是有害的（略）

6.6.3 似然原则（看看就好，我也只是有道翻译的）

这些病态现象的根本原因是频率理论违背了似然原理，即推理应该基于观测数据的可能性，而不是基于你没有观测到的假设未来数据。贝叶斯显然满足似然原理，因此不受这些病态的影响。

在1962年的伯恩鲍姆(Birnbaum)一书中，提出了一个支持似然原则的令人信服的论点，他指出它自动地遵循了两个更简单的原则。第一个是充分性原则，即充分性统计包含关于未知参数的所有相关信息(从定义上看，这是正确的)。第二个原则被称为弱限制性，它说推论应该基于已经发生的事件，而不是可能发生的事情。为了促进这一点，考虑一个来自伯杰1985年的例子。假设我们需要分析一种物质，然后把它送到纽约或加利福尼亚的实验室。这两个实验室看起来一样好，所以用一枚均匀的硬币来决定它们。硬币是正面朝上的，所以选择了加州实验室。当结果回来时，是否应该考虑到硬币可能出现反面，从而纽约实验室可能被使用?大多数人会认为纽约实验室无关紧要，因为反面事件并没有发生。这是一个弱条件的例子。根据这一原理，我们可以证明所有的推论都应该基于所观察到的东西，这与标准频率理论的程序是相反的。有关似然原理的详细信息，请参阅(Berger和Wolpert 1988)。

6.6.4 为什么不是每个人都用贝叶斯？

考虑到频率统计的这些基本缺陷，以及贝叶斯方法没有这些缺陷的事实，一个明显的问题是:为什么不是每个人都是贝叶斯的?统计学家布拉德利·埃夫隆(Bradley Efron)写了一篇论文，题目正是这个题目(埃夫隆1986年)。对于任何对这个话题感兴趣的人来说，他的短文都很值得一读。下面我们引用他的开篇部分

这个题目是一个合理的问题，至少在两点上是合理的。首先，每个人都是贝叶斯式的。拉普拉斯完全赞同贝叶斯对推理问题的表述，大多数19世纪的科学家也紧随其后。这包括高斯，它的统计工作通常用频率术语来表示。

第二个也是更重要的一点是贝叶斯论点的说服力。现代统计学家在Savage和de Finetti的带领下，提出了更倾向于贝叶斯推论的有力理论论据。这项工作的一个副产品是一个令人不安的不一致目录在频率的观点。

然而，每个人都不是贝叶斯式的。当今时代(1986年)是统计学被广泛用于科学报道的第一个世纪，事实上，20世纪的统计学主要是非贝叶斯式的。然而，林德利(1975)预言了21世纪的变化

按照这个说法，贝叶斯将是未来的主流！

MLAPP————第六章频率派统计相关推荐

python学习笔记第六章文本词频统计
我们这次需要解决的问题是在一篇文章中,哪一些词汇出现的最多,如何去做,我们考虑英文文本和中文的文本. 首先,我们先对哈姆雷特的英文文本进行统计词频. 1.获取文本并进行归一化 def gettext( ...
MLAPP————第四章高斯模型
第四章高斯模型 4.1 介绍本章主要开始介绍多变量的高斯模型或者叫做多变量的正态模型(MVN),在整本书中,可以说这个模型是非常常见的.这一章的数学的要求是比较高的,涉及到很多的线性代数和矩阵运算 ...
MLAPP 第四章高斯模型
第四章高斯模型 4.1 介绍本章主要开始介绍多变量的高斯模型或者叫做多变量的正态模型(MVN),在整本书中,可以说这个模型是非常常见的.这一章的数学的要求是比较高的,涉及到很多的线性代数和矩阵运算 ...
MLAPP————第五章贝叶斯统计
第五章贝叶斯统计 5.1 简介前面我们已经介绍了很多不同的概率分布,以及如果将这些概率分布与我们的数据进行结合.我们考虑了各种各样的先验,我们学习了MAP去估计参数,从而去判别新的样本,我们学会了 ...
机器学习理论《统计学习方法》学习笔记：第六章逻辑斯谛回归与最大熵模型
机器学习理论<统计学习方法>学习笔记:第六章逻辑斯谛回归与最大熵模型 6 逻辑斯谛回归与最大熵模型 6.1 逻辑斯谛回归模型 6.1.1 逻辑斯谛分布 6.1.2 二项逻辑斯蒂回归模型 ...
2020年余丙森概率统计强化笔记-第五章大数定律和中心极限定理第六章数理统计
文章目录第五章大数定律和中心极限定理第六章数理统计第五章大数定律和中心极限定理第六章数理统计
第六章（项目进度管理）知识点
项目进度管理核心概念: 1.项目管理团队选择进度计划方法,例如关键路径法或敏捷方法. 2.项目管理团队将项目特定数据,如活动.计划日期.持续时间.资源.依赖关系和制约因素等输入进度计划编制工具,以创 ...
嵌入式实时操作系统ucos-ii_「正点原子NANO STM32开发板资料连载」第三十六章 UCOSII 实验 1任务调度...
1)实验平台:alientek NANO STM32F411 V1开发板2)摘自<正点原子STM32F4 开发指南(HAL 库版>关注官方微信号公众号,获取更多资料:正点原子第三十六章 ...
【JAVA SE】第十六章进程、线程、同步锁和线程锁的简介
第十六章进程.线程.同步锁和线程安全问题文章目录第十六章进程.线程.同步锁和线程安全问题一.进程 1.基本介绍 2.进程模型二.线程 1.基本介绍 2.线程的生命周期 3.线程的优先级 4 ...

MLAPP————第六章频率派统计

第六章频率派统计

6.1 简介

6.2 估计器的采样分布

6.3 Bootstrap

6.2.2 最大似然估计器（MLE）的大样本理论*

6.3 频率派决策理论

6.3.1 贝叶斯风险（这一块很重要）

6.3.2 最小化风险

6.3.3 可容许估计器（Admissible estimators）

6.4 估计器所需要的一些特性

6.4.1 一致的估计器

6.4.2 无偏的估计器

6.4.3 最小化方差估计器

6.4.4 偏差和方差之间的权衡

6.5 经验风险最小化

6.5.1 正则化的风险最小化

6.5.2 结构化风险最小化

6.5.3 使用交叉验证估计风险

6.5.4 使用统计学习理论给出风险的上界*

6.5.5 替代损失函数

6.6 频率统计的pathologies(病症)*

6.6.1 置信区间的反直觉行为

6.6.2 p-values 被认为是有害的（略）

6.6.3 似然原则（看看就好，我也只是有道翻译的）

6.6.4 为什么不是每个人都用贝叶斯？

MLAPP————第六章频率派统计相关推荐

最新文章

热门文章

MLAPP————第六章 频率派统计

第六章 频率派统计

6.1 简介

6.2 估计器的采样分布

6.3 Bootstrap

6.2.2 最大似然估计器（MLE）的大样本理论*

6.3 频率派决策理论

6.3.1 贝叶斯风险（这一块很重要）

6.3.2 最小化风险

6.3.3 可容许估计器（Admissible estimators）

6.4 估计器所需要的一些特性

6.4.1 一致的估计器

6.4.2 无偏的估计器

6.4.3 最小化方差估计器

6.4.4 偏差和方差之间的权衡

6.5 经验风险最小化

6.5.1 正则化的风险最小化

6.5.2 结构化风险最小化

6.5.3 使用交叉验证估计风险

6.5.4 使用统计学习理论给出风险的上界*

6.5.5 替代损失函数

6.6 频率统计的pathologies(病症)*

6.6.1 置信区间的反直觉行为

6.6.2 p-values 被认为是有害的（略）

6.6.3 似然原则（看看就好，我也只是有道翻译的）

6.6.4 为什么不是每个人都用贝叶斯？

MLAPP————第六章 频率派统计相关推荐

最新文章

热门文章

MLAPP————第六章频率派统计

第六章频率派统计

MLAPP————第六章频率派统计相关推荐