1. 统计推断
- 概念
- 问题表述
- 小结
- - 参数估计
  - 抽样分布
  - 假设检验
2. 两大估计方法后面的学派
- 概率的定义
- 本质区别
3. 参数估计的思想
- 3.1 最大似然估计（MLE）
- 3.2 贝叶斯估计：最大后验概率（MAP）
4. 最大似然估计和最大后验概率的区别

哲学（客观主观、动静）——确定和不确定性——概率——两大学派——统计推断

之前的内容主要是围绕概率、概率分布以及分布的统计特征来进行，现在开始重点放在“统计”这块。

1. 统计推断

概念

统计推断(statistical inference)，是指根据带随机性的观测数据（样本）以及问题的条件和假定（模型），而对未知事物作出的、以概率形式表述的推断。
统计推断是在概率论的基础上依据样本的有关数据和信息，对未知总体的质量特性参数，做出合理的判断和估计。它的一般过程如图1所示。

问题表述

在数理统计学中，统计推断问题常表述为如下形式：所研究的问题有一个确定的总体，其总体分布未知或部分未知，通过从该总体中抽取的样本（观测数据）作出与未知分布有关的某种结论。例如，某一群人的身高构成一个总体，通常认为身高是服从正态分布的，但不知道这个总体的均值，随机抽部分人，测得身高的值，用这些数据来估计这群人的平均身高，这就是一种统计推断形式，即参数估计。若感兴趣的问题是“平均身高是否超过1.7（米）”，就需要通过样本检验此命题是否成立，这也是一种推断形式，即假设检验。由于统计推断是由部分（样本）推断整体（总体），因此根据样本对总体所作的推断，不可能是完全精确和可靠的，其结论要以概率的形式表达。统计推断的目的，是利用问题的基本假定及包含在观测数据中的信息，作出尽量精确和可靠的结论。

小结

参数估计

通过样本推断总体（根据样本数据，求解未知总体的统计特征）

【大白话解释】因为无法直接通过计算得出总体样本的统计特征，所以使用能够获取到的可观测小样本，利用小样本的特性来对总体进行一个估计和推断。比如：

使用样本的平均值 x‾\overline{x}x 作为总体分布均值 μ 的估计；

样本均值是总体均值 μ 的无偏估计量，在多次重复实验中可以使均方误差最小。
使用样本的方差 S² 作为总体分布的方差 σ²；

但是对于小样本， S² 通常比方差分布低很多。由于这个糟糕的属性，人们将 S²
称为偏倚（biased）估计量。如果对于多次重复实验，一个估计量的预期误差总和（或均值）为0，那么这个估计量就是无偏的（unbiased）。

注：

参数估计：参数估计的分类包括点估计（包括矩估计和最大似然估计）和区间估计
参数（量）：参数（量）是总体分布中的参数，反映的是总体某方面特征的量。例如：合格率，均值，方差，中位数等。

抽样分布

抽样分布（sampling distribution）可以展示多次重复实验时估计值的变化。
人们通常用两种方法对抽样分布进行概括：
标准误差(standard error，SE) 和 置信区间（confidential interval，CI）

【大白话解释】实际上，参数估计之后得到估计值并不是总体样本真正的统计参数值（而且随着抽样的随机选择会导致这个估值产生变化，即抽样误差。）
我们的应对办法是，就把这些参数，比如平均值 x‾\overline{x}x 和样本均方差 S² ，分别当做总体的均值 μ 和方差 σ²（作为假定值）。然后，进行多次抽样和实验，每次都算出抽样样本的平均值x‾\overline{x}x 和方差 S²，得到cdf，如下：
然后比较抽样分布的估计值，比如 x‾\overline{x}x 与假定值 μ 的区别。
有两种方法用来衡量两者的差距：标准误差（SE）和置信区间（CI）。
…

假设检验

2. 两大估计方法后面的学派

在统计领域，有两种对立的思想学派：贝叶斯学派和经典学派（也称频率学派），它们之间最重要的区别就是如何看待被估计的未知参数。

频率学派（经典学派）：最大似然估计；
贝叶斯学派：最大后验估计

贝叶斯学派的观点是将其看成是已知分布的随机变量，
而经典学派的观点是将其看成未知的待估计的常量。

概率的定义

对于概率，概率最早便被定义为多次试验中某随机事件出现的频率的极限，这是古典概率观（频率学派）。但是，有很多时候，概率无法用多次试验得到。而且很多时候，概率一词所描述的也并不是“对随机事件重复的频率”，而更像是对某种“不确定性”的度量。

与频率学派通过大量实验得到频率的极限不同，贝叶斯学派首先对未知概率有一个先验猜测，然后结合观测数据，修正先验，得到更为合理的后验概率。

本质区别

在根本上，频率学派和贝叶斯学派认知世界的方法不同。

频率学派倾向于从客观的角度去理解事物，将模型参数看成固定的，并设法使用最大似然（maximum likelihood）以及置信区间（confidence interval）求解那个固定参。
贝叶斯学派更愿意使用一个动态的眼光，带着主观的心态去认识事物，把参数看成是随机变量，认为其也符合某种分布。因此，他们只关心参数每一种取值的可能性，即参数的概率分布。

简单地说，频率学派与贝叶斯学派探讨“不确定性”的出发点与立足点不同。频率学派试图直接为产生“事件”的物理本质建立模型，比如频率学派主张不断地抛掷硬币，是想要从抛掷次数增大时正面朝上次数的变化，来得到反映硬币正反偏向性的某个物理参数p。而贝叶斯学派认为，也许根本不存在这个固定的物理参数p，反之，数据是比“物理本体”更为重要的真实存在，人们只能通过“观察者”得到的数据来进行猜测和推断。所以，他们想要为这个“猜想推断”过程中的数据变化建模，建模方法便是使用贝叶斯公式将模型参数不断更新。因此，就实用而言，贝叶斯学派也需要一定程度的反复试验，频率学派也照样使用贝叶斯公式。但是，他们对使用这些方法到达何种目的的观点有差别，对物质世界本体的哲学观不同。

总而言之，频率学派试图描述的是事物本体，而贝叶斯学派试图描述的是观察者知识状态在新的观测发生后如何更新，是世界观的差异影响到方法上的差异。

3. 参数估计的思想

下面介绍下两个派别主要的统计方法：最大似然估计和最大后验估计（贝叶斯方式）。

为什么需要上述的方法来进行参数估计？
因为现实中有很多情况，使用方差、均值等普通的标准统计量不能满足我们的实际需求，这个时候我们就需要一个最大似然估计量。
比如，假设我掷3次骰子，让你预测点数总和。如果你猜对了，就会赢得奖品，猜错了则空手而归。在这种情况下，使均方误差最小的估计值是10.5，但是这个猜测显然不靠谱，因为掷3次骰子得到的总点数不可能是10.5。此时，你希望作出最可能与实际值相符的估计，即最大似然估计量（maximum likelihood estimator，MLE）。如果你猜10或者11，正确的可能性最大，为1/8。
贝叶斯的方法也可以解决一些其它我们正常无法达到的目标。

3.1 最大似然估计（MLE）

最大似然估计，即我们希望做出最可能与实际值相符的估计

似然
“似然”（likelihood）与“概率”（probability）意思相近，都是指某种事件发生的可能性，但是在统计学中，“似然”和“概率”又有明确的区分：概率，用于在已知一些参数的情况下，预测接下来在观测上所得到的结果（比如，对应1万个样本结果）；似然，则是用于在已知某些观测所得到的结果时，对有关事物之性质的参数进行估值，如线性回归的中的权重参数。

概率描述了已知参数时的随机变量的输出结果；似然则用来描述已知随机变量输出结果时，未知参数的可能取值。例如，对于“一枚正反对称的硬币上抛十次”这种事件，我们可以问硬币落地时十次都是正面向上的“概率”是多少；而对于“一枚硬币上抛十次”，我们则可以问，这枚硬币正反面对称的“似然”程度是多少。
似然函数
给定输出x时，关于参数θ的似然函数 L(θ|x)（在数值上）等于给定参数θ后变量X的概率：L(θ|x)=P(X=x|θ)。

推演：（由贝叶斯公式推出）

p(θ) 为先验概率；p(θ|x) 为后验概率；
L(θ|x)=C · P(X=x|θ) 为似然函数，其中C为常数，因为似然函数的绝对数值没有意义；
p(x)为证据因子，有时也被称为边缘似然。

现在我们抛掷10枚这个硬币，结果显示，有2次出现正面，现在预测下这枚硬币出现正面的概率到底有多大呢？这就是一个似然问题，求解模型本身的一些属性。求解它需要假定误差分布满足高斯分布，然后求出似然函数，因为既然已经发生了，就直接求概率发生的最大值吧，既然求最值，自然就能求出出现正面的概率参数来了。

3.2 贝叶斯估计：最大后验概率（MAP）

（1）贝叶斯定理：

p(Θ)：先验分布。反映的是在观测到数据之前我们对待估计的参数 Θ
的了解和认识。
p(X|Θ)：在确定了参数的情况下，试验数据的概率分布。实际上这就是对实际观测数据的一种描述。
p(Θ|X)：后验分布。后验分布就是我们通过贝叶斯定理得到的最终的分析结果，反映的是在给定观测数据的基础上，我们对于参数的新的认知。说得更直白一点，就是最开始没有观测数据的时候，我们依据以往的经验赋予了参数一个先验分布，然后来了实际的观测数据之后，我们就对先验进行了更新，得到了这次分析过程的后验分布。
p(X)：边缘概率。这是一个与我们待估计的参数Θ无关的一个边缘概率值：p(X)=∑_θp(X,Θ)=∑_θp(X|Θ)p(Θ)，因此我们并不用太关心这个值，仅仅把它当做是后验概率 p(Θ|X) 计算过程中的归一化系数即可。

因此我们更需要聚焦的就是如下的这个正比关系： p(Θ|X) ∝ p(X|Θ)p(Θ)

实际上，有一个概念需要大家树立，那就是后验分布也是不断地处在动态更新过程当中的。一次试验得到的后验分布，对于后续进一步收集到的新的观测数据，它又可以看作是后续分析的一个先验。

（2）贝叶斯推断求解过程

首先，贝叶斯推断的起点是未知随机变量 Θ 的先验分布 p_Θ 或者 f_Θ。
然后，我们需要确定观测数据 X 的分布模型，它是一个基于随机变量 Θ 的条件概率：p_X|Θ 或者 f_X|Θ。

一旦我们观察到了 X 的一个特定值 x 之后，我们就可以开始运用贝叶斯法则去计算 Θ

的后验分布：

如果是连续型的随机变量，就把上面的概率质量函数替换成概率密度函数就可以了。

后验分布 = 先验分布 + 观测数据

4. 最大似然估计和最大后验概率的区别

最大似然估计提供了一种给定观察数据来评估模型参数的方法,而且最大似然估计中的采样满足所有采样都是独立同分布的假设。

最大后验概率是根据经验数据获难以观察量的点估计,与最大似然估计最大的不同是最大后验概率融入了要估计量的先验分布在其中,

所以最大后验概率可以看做规则化的最大似然估计。

更多参考：点击1 点击2

参考：

经典统计推断：寻找最大似然
贝叶斯统计推断：最大后验
频率学派和贝叶斯学派的参数估计

数学知识——概率统计（8）统计推断之参数估计：极大似然估计和最大后验概率相关推荐

数学知识——概率统计（3）：随机变量
目录写在前面起源与发展概率基本计数原理本质 1. 随机变量(random variable) 1.1 随机变量 1.2 随机变量三要素 2.分类 2.1 离散型随机变量 2.2 随机变量三要 ...
机器学习中的数学：概率统计
内容亮点详解 6 大核心板块:概率思想.随机变量.统计推断.随机过程.采样理论.概率模型,筑牢机器学习核心基础. 教你熟练使用 Python 工具库:依托 NumPy.SciPy.Matplotli ...
python实现概率论与数理统计_《统计思维：程序员数学之概率统计》读书笔记
更多 1.书籍信息书名:Think Stats: Probability and Statistics for Programmers 译名:<统计思维:程序员数学之概率统计> 作者:A ...
《统计思维：程序员数学之概率统计》学习笔记 Chap.1-2
最近在阅读Allen B. Downey所著的<统计思维:程序员数学之概率统计>,由于文章中大部分的函数操作都是基于作者自己写的模块thinkstats2,为了能够使用常用python库来 ...
机器学习中的数学(五)--概率统计
写在前面 <机器学习中的数学>系列主要列举了在机器学习中用到的较多的数学知识,包括微积分,线性代数,概率统计,信息论以及凸优化等等.本系列重在描述基本概念,并不在应用的方面的做深入的探讨, ...
参数估计——极大似然估计与贝叶斯估计
极大似然估计与贝叶斯估计的理解 1 参数估计 2 极大似然估计(MLE) 3 贝叶斯估计 4 极大验后估计(MAP) 参考 1 参数估计参数估计(Parameter Estimation)是根据从总 ...
程序员的数学 2 概率统计pdf
下载地址: 网盘下载内容简介 · · · · · · 本书沿袭<程序员的数学>平易近人的风格,用通俗的语言和具体的图表深入讲解程序员必须掌握的各类概率统计知识,例证丰富,讲解明晰,且提 ...
统计思维：程序员数学之概率统计（第2版）：第1章探索性数据分析
第1章探索性数据分析如果能将数据与实际方法相结合,就可以在存在不确定性时解答问题并指导决策,这就是本书的主题. 举个例子.我的妻子在怀第一胎时,我听到了一个问题:第一胎是不是经常晚于预产期出生?下 ...
读书笔记：程序员的数学概率统计
读书笔记:程序员的数学概率统计特点内容第一.二章概率定义多随机变量第三.四章离散.连续分布第五章协方差矩阵与多元正态分布第六.七章估计与检验伪随机数第八章各类应用体会 ...

数学知识——概率统计（8）统计推断之参数估计：极大似然估计和最大后验概率

目录