平方的观测值表概率_茆诗松的概率论与数理统计（第六章）

本章干货十足：

开篇集中讨论“无偏、有效、相合、渐近正态”四大性质，整理它们的联系与差异；
不同方法解决EM例题，引入“双硬币模型”说明EM算法的应用场景和基本思路。

本章的主题是参数估计，分为两种方法：一是点估计，二是区间估计。其中“点估计”的方法包括：矩估计、极大似然估计以及贝叶斯估计等，占据了较多篇幅。其实除了估计方法，更重要的是理解估计量的性质，例如：无偏性、有效性、相合性、渐近正态性等。书中把估计的方法和性质结合起来讲，我准备把估计量的性质单独拿出来讲，以便比较各种性质之间的差异。

一、估计及其性质

“估计”在中文里既可以作名词，也可以作动词。用英文的话，可以表示成不同的单词：

estimate：所谓的“估计”（动词）就是根据样本预测总体分布中的未知参数。例如，已知总体服从正态分布

，但总体均值

未知，我们通过某个函数“估计”总体均值，

。

estimator：“估计量”（名词）

实际上是一个统计量，它是通过一个不含未知参数的样本函数计算出来的结果。一般使用

表示总体的参数，

表示参数的估计量。

estimation：“估计法”（名词）表示寻找函数

的过程，可以理解为一种估计方法。例如：Maximum Likelihood Estimation，最大似然估计法。

随着样本不同，同一估计法得到的结果可能是不一样的，因此“估计量”也是一个随机变量。对于同一个参数，有不同的估计方法，而且看起来都是合理的。如何比较它们的优劣呢？

（1）均方误差 MSE Mean Square Error

评价一个估计量的好坏，很自然地会想到：衡量“估计量”与“真实值”之间的距离，距离越小表示估计量的性能越好。也就是所谓的“均方误差”函数：

也就是距离平方的期望值，如果将其进一步展开：

注意：

和

均为数值，

表示参数的真实值，

表示估计量的数学期望。

由此看见，均方误差由两部分组成：一是估计量的方差（Variances），即

；二是估计量的系统偏差（Bias）的平方，即

。

从“马同学”处借来此图，它可以帮助理解“方差”与“偏差”：

备注：靶心表示“真实值”，红叉表示“估计值”

“方差”衡量估计值的分散程度，“偏差”衡量估计值的期望与真实值的距离。

左上图：估计值落在靶心四周，此时“方差”较大但“偏差”较小；

右上图：估计值落在靶心邻近，此时“方差”、“偏差”均较小；

左下图：估计值离靶心较远，呈分散状，此时“方差”、“偏差”均较大；

右下图：估计值离靶心较远，落点集中，此时“偏差”较大但“方差”较小。

（2）无偏性

有了前面的铺垫，无偏性就很好理解，表示估计量“偏差”一项为0，即没有系统性的偏差。以一把秤为例，产生误差的原因有二：一是称本身结构有问题，测量的结果总是偏高或偏低，这属于系统性误差；二是由于操作上或其他随机因素，导致测量的结果有时偏大，有时偏小，把这些误差平均起来结果为0。前者是“偏差”项，后者是“方差”项。

若

，则称

为

的

“无偏估计”。

无偏性的特点：

估计量的无偏性是固定n个样本就具有的性质，属于“小样本性质”；
无偏性不具有不变性，若
为

的无偏估计，一般而言，其非线性函数

不是

的无偏估计。书中例6.1.2说明了这一性质。因此无偏性无法简单地从一个参数推广至其他参数。

（3）有效性

对于同一参数可能存在多个无偏估计，又该如何选择呢？根据MSE的定义，当两个估计量都具有无偏性时，它们的误差完全由“方差”一项决定，即

此时当然是“方差”越小越好，即越“有效”。

值得注意的是：比较“有效性”的前提条件是估计量具有“无偏性”。

一个重要的定义：

设

为

的无偏估计，如果对另外任意一个

的无偏估计

，在参数空间上都有

则称

为

的“

一致最小方差无偏估计”，记作UMVUE （Uniform Minimum Variance Unbiased Estimator），也简单记作MVU估计。

UMVUE是书中的重点内容，用了整一节展开论述。除了它的定义，书中还介绍了若干UMVUE的判别方法：

定理6.4.1 UMVUE的充要条件：必须与任一0的无偏估计不相关。
充分性原则：若充分统计量和UMVUE存在，则UMVUE一定可以表示为充分统计量的函数（对非充分统计量的函数求充分统计量的条件期望）。
Cramer-Rao不等式，我们最后再深入讨论它。

（4）相合性和渐近正态性

根据格里纹科定理，随着样本数量不断增大，经验分布函数逼近真实分布函数，估计量与真实值逐渐重合。它的定义如下：

设

是未知参数

的一个估计量，n是样本容量，若对于任意

，有

，则称

为参数

的“相合估计”。

相合性是一个估计量的最基本要求，如果不具备相合性，无论样本数量多大，也不能把估计结果提升至预定的精度，这样的估计量就没有存在的价值了。

所谓“渐近正态性”，不但给出估计结果，也给出了估计量的分布。其定义如下：

设

是未知参数

的相合估计量，若存在趋于0的非负常数序列

，使得

收敛于标准正态分布，则称设

服从“渐近正态分布”，记作

。

对比“相合性”和“渐近正态性”，类似于“大数定律”与“中心极限定理”的关系。

它们的特点：

相合性和渐近正态性是针对

而言，属于“大样本性质”；
相合性往往可以通过函数推广（不变性），即估计量的函数仍具备相合性。

相合性的判别方法：

设

是未知参数

的一个估计量，若

，

，则

是

的相合估计。
若
分别是

的相合估计，

是

的连续函数，则

是

的相合估计。

（5）小结

陈希孺的书对于估计量的各种性质（称为“点估计的优良性准则”）进行了集中而深入的讨论，他认为：“每种准则在某种情况下都有其局限性”，要结合实际问题考虑是否取用某一准则。以无偏性为例：对于商店里面的秤，具有无偏性很重要，因为这对商家、顾客都是公平的。尽管某一次交易存在多给或少给，但长期来看双方都不吃亏。但对于另一种情况：实验室估计生成原料中某种成分的含量p，无论是高估还是低估，都会有损产品质量。因为估计的正、负偏差并不能抵消，此时无偏性就不那么重要了。又比如茆诗松书中的例6.4.1，从MSE的角度来看，某些无偏估计的性能还不如有偏估计。

四个性质里面，无偏性与相合性为主要性质，有效性与渐近正态性是在前两个性质基础上衍生的性质。

二、点估计方法

（1）矩估计

矩估计（替换原理）可以归结为：

用样本矩去替代总体矩（原点矩、中心矩均可）
用样本矩的函数替代相应的总体矩的函数
尽量采用低阶矩估计未知参数

我们回顾一下样本矩与总体矩的定义：

k阶总体矩：
k阶样本矩：

无偏性讨论：

容易证明，用样本矩替代总体矩具有无偏性：

但除非是线性函数，否则用样本矩的函数替代相应总体矩的函数不具有无偏性：

线性函数：

非线性函数：

与

存在差异。

相合性讨论：

根据相合性判别法则1（上节）：

显然成立（前面以证明即使n有限时也成立）。

，因此

是

的相合估计。

根据相合性判别法则2：

既然

是

的相合估计，只要

为连续函数，则可证明

是

的相合估计。

（2）最大似然估计

在总体分布类型已知的情况下，常用最大似然估计法求未知参数。

似然函数

离散总体

连续总体

若用概率函数（即可表示分布列，也可表示密度函数）

表示，则似然函数为

注意函数里面的分号“；”，分号前面的是样本变量，分号后面是待定参数。参数估计时，我们根据抽样结果（样本观测值），推断待定参数的值。因此

可以看作已知数，

只是参数

的函数。

似然函数的含义：样本

等n个事件独立同时发生的概率，即

，而且这个概率是在参数为

的情况下发生的。

在参数空间

里面，找到使得似然函数

取得最大值的参数

。

即

，则称

是

的

”最大似然估计“。

求解步骤

注意：参数

即可表示单个参数，又可表示多个参数构成的向量。

第一步：写出似然函数

第二步：利用对数函数单调性，转换为对数似然函数

第三步：求导数使得一阶导数为0，二阶导数为负

特殊情况：当似然函数为单调函数，见例6.3.5

样本来自均匀分布

，似然函数为

。

注意

为示性函数，当

位于

范围内时，

，否则

。

为了使似然函数更大，必须所有的

（否则似然函数为0），即

。

在此范围内寻找似然函数

的最大值，因此有

。

相关性质：

由于”最大似然估计法“得到的结果（估计量）为一个含有未知参数的代数方程，不一定有显式解，因此研究它的无偏性、相合性比较困难。

因此书中直接给出结论：

最大似然估计具有”不变性“，若称

是

的最大似然估计，则

是

的最大似然估计；
最大似然估计具有渐近正态性。

EM算法

书中举了一个例子6.3.7，演示EM算法的基本步骤，但例子并不典型，即使不使用EM算法也能求解。

非EM解法：

依题意得对数似然函数

若一阶导数为0，可得下列三次方程：

求解高次方程的办法很多，最简单的是用wolframalpha

得到3个数值解： -0.429，0.6067，1.325 。依题意，参数的取值范围在(0,1)之间，立刻可以排除其中2个，因此0.6067为参数估计量。

EM解法：

引入中间变量z1,z2，建立z与已知样本、未知参数的关系，本例有

，

2. E步，根据样本及参数估算值，基于完全数据求对数似然函数的期望

首先，当y和

已知，z的数学期望为

此时，基于完全数据的对数似然函数期望为

注意

为待定参数，

为已知的估算值。

3. M步，通过迭代法求参数，对

求一阶导数，建立参数迭代公式。

整理后得到

的迭代式，然后迭代求解。

关于EM例子的一点思考：

书中的例子，注重EM算法步骤的讲解，但忽略了与实际问题的联系。为什么要用EM算法？它能解决哪些特殊的问题？什么是中间变量z，它有什么含义呢？

”双硬币模型“

假设袋子里有A、B两种硬币，已知它们掷出正面的概率不一样。随机抽出一枚，连续投掷10次，把试验结果记录下来。然后再随机抽出一枚，连续投掷10次，如此重复5轮。

求：硬币A掷出正面的概率

？硬币B掷出正面的概率

？

假如已知每轮试验抽到是硬币A还是B，问题变得非常简单，很容易列出最大似然函数：

n1: 硬币A为正面的次数，n2：硬币A为反面的次数，n3：硬币B为正面的次数，n4：硬币B为反面的次数。

遗憾的是，由于不知道每轮抽出的是A还是B，因此n1,n2,n3,n4未知，在缺少它们的情况下，最大似然估计无法进行。

EM算法解决”双硬币“问题的思路：

第一步：假设两种硬币掷出正面的概率为

第二步：既然问题的关键在于每轮抽出的是A还是B，而这个参数的隐藏的，不妨先对它进行估算。这一步称为Expectation。

已知第i轮出现正面的次数为

，其中

。可计算出第 i 轮抽出硬币A的概率

，抽出硬币B的概率

注意推导过程，灵活运用贝叶斯公式：

从而估算出第 i 轮抽出A的概率为

，B的概率为

第三步：基于对隐藏参数（本轮是A还是B）的预测，通过最大似然法修正概率

和

，这一步称为Maximization。

迭代计算直至收敛。

篇幅所限，关于EM算法及双硬币模型的内容详见

August：人人都懂EM算法zhuanlan.zhihu.com

（3）贝叶斯估计

最大似然估计法基于两方面信息对未知参数进行估计，一是总体信息，如总体属于何种分布；二是样本信息，即抽样得到的观测值。而贝叶斯估计在前两者的基础上，增加一项：先验信息，即未知参数的先验分布。

先验分布与后验分布

最大似然估计把总体依赖于参数的密度函数记为

，而贝叶斯估计则记为

，其中X表示包含多个样本的向量。

假设参数

服从先验分布

，贝叶斯估计的目的：求在样本信息的条件下，参数的后验分布

。

从一个条件分布出发，求另一个条件分布，可以使用贝叶斯公式：

注意：无需对括号前面的

等感到困扰，它们都表示括号里发生的概率。可以把它们全部换成p，就得到熟悉的贝叶斯公式。

共轭先验分布

书中介绍“共轭先验分布”是确定先验分布的常用方法。

在茆诗松的《贝叶斯统计》中有较完整的介绍，其中很重要的一点是：共轭先验分布是对某一分布中的参数而言的，离开指定参数及其分布去谈共轭先验分布是没有意义的。

因此，它可以看作一系列经验总结，但不能随意推广。

三、区间估计

参数的点估计给出一个具体的数值，而区间估计给出参数的一个区间范围。

（1）分位数

复习一下分位数的概念，本书使用的p分位数，是指下侧p分位数。也就是说，密度函数从负无穷到分位点

的积分结果为p。下图显示了两种分位数的区别：

书中常见的一些分位点，它们都表示位于x轴上的一个实数：

表示位于此点右侧的概率为

，它的分布为对称分布

，而位于

左侧的概率也为

；

表示位于此点左侧的概率为

，它的分布为非对称的卡方分布，而位于

右侧的概率也为

。

（2）置信区间与置信水平

置信区间

表示参数的区间范围，置信水平

表示参数位于置信区间的可能性，常见的概念有：

置信区间：
同等置信区间：
单侧置信下限：
同等置信下限：
单侧置信上限：
同等置信上限：

等尾置信区间：

，表示置信区间以外，左右两侧的概率都为

。此时

为

同等置信区间。

一般来说，

，称为0.95或95%置信区间。

（3）枢轴量法

所谓“枢轴量”是一个样本和参数的函数，记作

。它本身是符合某种已知分布的（标准正态分布或三大抽样分布），从而将“待定参数”

的分布与已知抽样分布联系起来，达到参数估计的目的。

在上一章末尾整理了正态总体与其他分布联系的8个公式，就是构造枢轴量的有力工具。

枢轴量法三步：

构造枢轴量G
建立G的置信区间：
不等式变形，得到参数置信区间：

枢轴量法题型列表：

其中

（4）大样本置信区间

当枢轴量难以确定，但样本量充分大的时候，可以利用渐进分布构造置信区间。例如用正态分布近似二项分布。

（5）样本量的确定

一般来说，样本量越大，估计的精度越高。但更多的样本意味着更多的时间、人力、物力等成本，因此根据估计精度反推所需的样本数量（样本量的确定）是个常见的问题。

平方的观测值表概率_茆诗松的概率论与数理统计（第六章）相关推荐

平方的观测值表概率_中央气象台：“三九”大概率不会比“二九”更冷
注:本文转载自网络,不代表本平台立场,仅供读者参考,著作权属归原创者所有.我们分享此文出于传播更多资讯之目的.如有侵权,请在后台留言联系我们进行删除,谢谢! 话说,热在"三伏",冷 ...
概率论方差公式_【考研数学】概率论与数理统计
总论:概率论与数理统计这门课程,在考研真题中的难度是相对较小的:但由于它的概念繁杂,计算量较大,尤其是统计部分,很多同学在初学的时候都会被唬住,有的甚至放弃学概率.这种状态是要不得的,因为我总结这门课 ...
试验设计茆诗松电子版_非标机械设计有哪些设计过程？
推荐阅读:机械设计工程师技术成长之路(连载9)外企机械工程师的二十年职业感悟机械设计工程师--设计能力从何而来?完整版<机械工程师生存现状解析>看懂机械设计流程,你也可以成为一名合格的机械 ...
概率论与数理统计（茆诗松）复习
第一章随机事件及其概率概率的公理化定义: 1)非负性公理 2)正则性公理 3)可加性公理重复组合:从n个不同的元素中每次取出一个,放回后再取出下一个,如此连续取r次所得的组合称为重复组合,总数为 ...
[DataAnalysis]数据分析基础-茆诗松概率论知识点汇总
一.切比雪夫不等式证明: 二.常用离散分布二项分布泊松分布 ps:二项分布的泊松近似超几何分布:N件产品中有M件不合格,从中随机抽n件,其中不合格件数X服从的分布几何分布:记事件A发生的概率 ...
[DataAnalysis]数据分析基础-茆诗松数理统计
一.充分统计量总体分布函数为,统计量T称为θ的充分统计量,如果给定T的取值后,的条件分布与θ无关. 二.点估计 1.概念:是来自总体的一个样本,用于估计未知参数θ的统计量称为θ的估计量,或者称为θ的 ...
茆诗松《贝叶斯统计》第二版勘误
1. 第11页,例1.3.1中,sigma0的定义应该是:sigma0^2=sigma^2/n,书中把n写成pi了 2. 第12页,1.3.4公式的第二部分,应该是:1/tao1^2 = 1/ sig ...
正点原子探索者原理图_正点原子【STM32-F407探索者】第二十六章 DAC 实验
1)资料下载:点击资料即可下载 2)对正点原子Linux感兴趣的同学可以加群讨论:935446741 3)关注正点原子公众号,获取最新资料更新 http://weixin.qq.com/r/hEhUT ...
哈工大理论力学第八版电子版_理论力学哈工大第八版1第六章思考题课后题
关于我们大学生必备资源库为大学生提供网课答案.大学课后答案.软件安装.大学考试考证资源以及学习资料.影视资源等,大学生必备资源库致力于为大学生打造全面的大学学习服务,感谢您的支持与厚爱! 我们的答案 ...

平方的观测值表概率_茆诗松的概率论与数理统计（第六章）

平方的观测值表概率_茆诗松的概率论与数理统计（第六章）相关推荐

最新文章

热门文章