概率密度估计--参数估计与非参数估计

我们观测世界，得到了一些数据，我们要从这些数据里面去找出规律来认识世界，一般来说，在概率上我们有一个一般性的操作步骤

1. 观测样本的存在

2. 每个样本之间是独立的

3. 所有样本符合一个概率模型

我们最终想要得到的是一个概率密度的模型，有了概率密度模型以后，我们就可以统计预测等非常有用的地方，因此，首要任务是找出一些概率分布的概率密度模型。

我们来分析一下上面的三个步骤，第一第二都很好解决，关于第三点，我们可以有不同的处理方式

如果我们已经对观测的对象有了一些认识，对观测的现象属于那种类型的概率密度分布已经了解了，只是需要确定其中的参数而已，这种情况就是属于参数估计问题。

如果我们研究观测的对象，也很难说这些观测的数据符合什么模型，参数估计的方法就失效了，我们只有用非参数估计的办法去估计真实数据符合的概率密度模型了。

因此，本文主要讨论参数估计和非参数估计问题

1. 参数估计

对我们已经知道观测数据符合某些模型的情况下，我们可以利用参数估计的方法来确定这些参数值，然后得出概率密度模型。这个过程中用到了一个条件，就是概率分布符合某些模型这个事实。在这个事实上进行加工。

一般来说，参数估计中，最大似然方法是最重要和最常用的，我们重点介绍参数估计方法

我们在《无基础理解贝叶斯》中已经讲过似然性，那么我们就可以先写出似然函数。

假设有N个观测数据，并且概率模型是一个一维的高斯模型，用f(x)表示高斯模型，参数待定，因此我们可以写出似然函数

L(x1,x2,...xn) = f(x1,x2,...xn) = f(x1)*f(x2)*......*f(xn),第二个等式用到了样本之间是独立性这个假设（上面提到的一般步骤的第二条）

然后把对似然函数取对数

logL(x1,x2,...xn) = log(f(x1)*f(x2)*......*f(xn)) = log(f(x1)) + log(f(x2))+......+log(f(xn))

我们既然提到了极大释然方法，那就是要求出使得logL(x1,x2,...xn) 取最大值得参数。

因此对 logL(x1,x2,...xn) 求导等于0的参数就是符合要求的参数。

注意，如果似然函数求导有困难，通常我们会用迭代方法去求得这些参数，后面我们讲EM算法就是属于此类型

2. 贝叶斯方法

在我们谈到参数估计方法中，我们假定了参数是固定值，但是贝叶斯观点会人文，模型的参数值不是固定的，也是属于某种分布的状态。

因此我们做参数估计的时候其实是不准确的，因此贝叶斯方法会把参数的也作为一个概率考虑进来，然后再去观测。

我个人理解，这种方式也只能算是参数估计里面的一个变种而已

后验概率 ∝ 似然性 * 先验概率

先验概率，我们可以看成是待估计模型的参数的概率分布，后验模型是在我们观测到新的数据以后，结合先验概率再得出的修正的参数的分布

注意，如果似然函数的形式和先验概率的乘积有同样的分布形式的话，得到的后验分布也会有同样的分布模型

因此，人为的规定，如果先验概率与似然函数的乘积在归一化以后，与先验分布的形式上是一致的话，似然函数与先验概率就是共轭的，注意共轭不是指先验与后验的共轭

至于满足这个条件的共轭分布有很多种，二项分布与贝塔分布，多项式分布于狄利克雷分布等

后面有时间再更新一些贝叶斯方法相关的内容

3. 非参数估计

看过了参数估计后，我们知道，如果有模型的知识可以利用的话，问题就会变得很简单，但是如果没有关于模型的知识，我们怎么办？

回过头来看我们的目标，求出观测数据的概率密度模型。因此我们就会从概率密度这个定义开始分析，看有没有可以入手的地方。

概率密度，直观的理解就是在某一个区间内，事件发生的次数的多少的问题，比如N(0，1)高斯分布，就是取值在0的很小的区间的概率很高，至少比其他等宽的小区间要高。

我们把所有可能取值的范围分成间隔相等的区间，然后看每个区间内有多少个数据？这样我们就定义出了直方图，因此直方图就是概率密度估计的最原始的模型。

直方图我们用的是矩形来表示纵轴，当样本在某个小区间被观测到，纵轴就加上一个小矩形。

这样用矩形代表的模型非常粗糙，因此可以用其他的形状来表示，进一步就是核概率密度估计方法。

核概率密度估计

本节分为三个部分：第一部分是直方图，讨论了如何创建它以及它的属性是什么样的。第二部分是核密度估计，介绍了它对比直方图有哪些改进和更一般性的特点。

最后一部分是，为了从数据中抽取所有重要的特征，怎么样选择最合适，漂亮的核函数。

直方图

直方图是最简单，并且也是最常见的一种的非参数概率密度估计方法

为了构造直方图，我们需要把数据取值所覆盖的区间分成相等的小区间，可以叫做“箱子”，每次一个数据值将会掉落在一个特定的小区间中，一个“箱子”宽度的盒子就会垒在数据点的上方。当我们构造直方图的时候，需要考虑两件事情：第一，“箱子”的宽度，第二，箱子的结束位置。

这里用的数据是1956年到1984年的飞机的机翼的跨度（完整的数据可以在Bowman & Azzalini(1997)Applied Smoothing Techniques for Data Analysis 找到）。我们只用到其中的一部分数据，也就是2, 22, 42, 62, 82, 102, 122, 142,162, 182, 202 and 222。为了在图上显示的方便我们只使用了部分的数据，否则一些点就会变得稠密看不清。数据点在x轴上用十字叉表示。

如果我们选择在0 和 0.5作为分界点并且带宽为0.5，直方图看起来就像下面左边的图形，相对直方图的左边它的概率密度看起来是单峰形状并且滑向右边，

右边的直方图选择分界点在0.25和0.75之间，并且选择了相同的“箱子”宽度，现在我们得到了一个完全不同的概率密度估计，它看起来是一个双峰模型。

我们已经用了上面的两个例子讲解了直方图的特性，他们是

不平滑
依赖“箱子”的结束点
依赖箱子的宽度

我们可以通过使用核概率密度估计方法消除前面两个问题，为了去掉对“箱子”结束点的依赖，我们把需要累加到数据点上的箱子按照以数据点为中心对齐而不是按照“箱子”的结束点对齐。

在上面这个新的直方图中，我们把“箱子”换成宽1/2 高 1/6 (如虚线框标注的箱子)，一共有12个数据点，然后把他们加在一起（以数据点为中心，重叠的部分往上累加）。

这个概率密度估计（图中实线部分）比前面提到的直方图少了很多矩形块状，因为我们抽取出了更好的结构，概率密度估计看起来是双峰的结构。

我们把它叫做盒子核概率密度估计。这个密度估计仍然不是连续的因为我们用了一个不连续的核做为我们构建的基础块。如果我们使用一个平滑的核做为构建的基础块，那么我们会得到一个平滑的核概率密度估计，因此我们可以消除直方图问题中的第一个（不平滑问题），但不幸运的是，我们仍然不能消除对带宽（“盒子宽度”）的依赖

选择一个合适的带宽值是非常重要的，太大或者太小的值都没有多大的用处。

如果我们选择一个高斯核，带宽（标准差）为0.1(每一个高斯核曲线下方的面积为1/12，因为有12个高斯曲线，为了保证所有的概率密度曲线的面积为1),那么这个核密度估计是欠平滑的因为带宽太小的原因。看下面的图中左边图中，这有4个峰值在该密度估计中，其中一些是因为数据的问题（some of these are surely artifices of the data，不知道如何翻译）。我们可以通过增加高斯核的带宽到0.5来设法消除这些影响，我们获得了一个更平滑的单峰的估计模型。这种情况就是过平滑，因为我们选择了一个比较大的带宽，忽略了比较多的数据本身的结构特征。

那么我们怎么选择一个最优的带宽呢？一个通用的办法是使用最小化最优误差（该误差是一个最优带宽的函数）AMISE(Asymptotic Mean Integrated Squared Error)的带宽.因此最优带宽就是 argmin AMISE 也就是选择使得AMISE最小的参数作为带宽。

一般来说，AMISE 任然要依赖于隐藏在背后的真实的概率分布（显然我们得不到这个分布）。因此我们需要从观测的数据中去估计AMISE，这意味着带宽的选择是一个渐进近似的估计。这听起来好像远离了真实的最优值，但是事实证明这种特殊的带宽选择方式覆盖了几乎所有重要的特征同时保持了估计的平滑性。

在我们的数据集中，最优的带宽值设置为0.25。从最优化的平滑和密度估计中可以看出有两个峰。因为这些是飞行器机翼跨度的数据记录，这表示有一组小型轻量级的飞机的制造。这些聚类在2.5附近（大概是12米）。然而从1960年起，大型的装配了喷气式引擎的商业用途的飞机的聚类在3.5附近（33米）

核概率密度估计是在概率论中用来估计未知的密度函数，属于非参数检验方法之一，由Rosenblatt (1955)和Emanuel Parzen(1962)提出，又名Parzen窗（Parzen window）。

假设我们有n个数X1-Xn,我们要计算某一个数X的概率密度有多大。核概率密度估计的方法是这样的：

其中N(x,z)为正太分布的概率密度函数,z为设定的参数。

（1）基本原理: 核概率密度估计的原理其实是很简单的。在我们对某一事物的概率分布的情况下。如果某一个数在观察中出现了，我们可以认为这个数的概率密度很大，和这个数比较近的数的概率密度也会比较大，而那些离这个数远的数的概率密度会比较小。基于这种想法，针对观察中的第一个数，我们都可以f(x-xi)（f(x)是我们选择的核函数，非负，积分为1，均值为0，符合概率密度的性质，如高斯分布概率密度函数、均匀分布概率密度函数、三角分布概率密度函数等）去拟合我们想象中的那个远小近大概率密度。当然其实也可以用其他对称的函数。针对每一个观察中出现的数拟合出多个概率密度分布函数之后，取平均。如果某些数是比较重要，某些数反之，则可以取加权平均。

与直方图比较，核密度估计的属性列表如下：

平滑性
不依赖核的尾部位置
依赖带宽的选择

这是一个对核密度估计的入门介绍问题，当前的研究状态是，一维下的很多问题已经被解决了，下一阶段需要扩展这些思想到多维的情况，这些情况还少有研究成果

这是由于多维核的方向对概率密度的估计有很大的影响（which has no counter part inone-dimensionalkernels这种情况下找不到一维概率密度相对应的核函数）

作者当前正在为对维核寻找可靠的带宽选择方法。当前取得的进展是plug-in 方法可以在这里找到，但是这篇文章更多的技术性并且用到了更多的方程。

原文地址：http://www.mvstat.net/tduong/research/seminars/seminar-2001-05/

把非参数估计的方法讲的很浅显易懂，主要是原理上的处理，对缺少先验知识的情况下，估计概率密度函数很有用，同样对高斯混合模型，有的地方可以看到，说一个分部可以通过多个高斯分布混合来拟合出来，看起来好像没有什么区别，混合高斯模型与核密度估计，都是从数据估计概率分布的情况，但是混合高斯模型的应用场景是几乎可以判定数据是从高斯模型生成的，或者是近似高斯分布的，利用了先验知识，得到的结果可能更好一些，用于分类的场景比较多，核密度估计方法主要是用于概率密度估计，完全没有先验知识。