fisher information 的直观意义

作者：知乎用户
链接：https://www.zhihu.com/question/26561604/answer/33275982
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

首先我们看一下 Fisher Information 的定义：
假设你观察到 i.i.d 的数据 $X_1, X_2, \ldots X_n$ 服从一个概率分布 $f(X; \theta)$ , $\theta$ 是你的目标参数（for simplicity，这里 $\theta$ 是个标量，且不考虑 nuissance parameter），那么你的似然函数（likelihood）就是：
$L(\bold{X};\theta) = \prod_{i=1}^n f(X_i;\theta)$
为了解得Maximum Likelihood Estimate(MLE)，我们要让log likelihood的一阶导数得0，然后解这个方程，得到 $\hat{\theta}_{MLE}$
这个log likelihood的一阶导数也叫，Score function ：
$S(\bold{X};\theta) = \sum_{i=1}^n \frac{\partial log f(X_i;\theta)}{\partial \theta}$

那么Fisher Information，用 $I(\theta)$ 表示，的定义就是这个Score function的二阶矩（second moment） $I(\theta) = E[S(X;\theta)^2]$ 。
一般情况下（under specific regularity conditions）可以很容易地证明， $E[S(\bold{X};\theta)]= 0$ , 从而得到：
$I(\theta) = E[S(X;\theta)^2]-E[S(X;\theta)]^2 = Var[S(X;\theta)]$
于是得到了Fisher Information的第一条数学意义：就是用来估计MLE的方程的方差。它的直观表述就是，随着收集的数据越来越多，这个方差由于是一个Independent sum的形式，也就变的越来越大，也就象征着得到的信息越来越多。

而且，如果log likelihood二阶可导，在一般情况下（under specific regularity conditions）可以很容易地证明:
$E[S(\bold{X};\theta)^2] = -E(\frac{\partial^2}{\partial \theta^2}log L(\bold{X};\theta))$
于是得到了Fisher Information的第二条数学意义：log likelihood在参数真实值处的负二阶导数的期望。这个意义好像很抽象，但其实超级好懂。
首先看一下一个normalized Bernoulli log likelihood长啥样：
&amp;lt;img src="https://pic3.zhimg.com/28c4c679b6758707ed779c066d0e8e3a_b.jpg" data-rawwidth="900" data-rawheight="806" class="origin_image zh-lightbox-thumb" width="900" data-original="https://pic3.zhimg.com/28c4c679b6758707ed779c066d0e8e3a_r.jpg"&amp;gt;对于这样的一个log likelihood function，它越平而宽，就代表我们对于参数估计的能力越差，它高而窄，就代表我们对于参数估计的能力越好，也就是信息量越大。而这个log likelihood在参数真实值处的负二阶导数，就反应了这个log likelihood在顶点处的弯曲程度，弯曲程度越大，整个log likelihood的形状就越偏向于高而窄，也就代表掌握的信息越多。

对于这样的一个log likelihood function，它越平而宽，就代表我们对于参数估计的能力越差，它高而窄，就代表我们对于参数估计的能力越好，也就是信息量越大。而这个log likelihood在参数真实值处的负二阶导数，就反应了这个log likelihood在顶点处的弯曲程度，弯曲程度越大，整个log likelihood的形状就越偏向于高而窄，也就代表掌握的信息越多。

然后，在一般情况下（under specific regularity conditions），通过对score function在真实值处泰勒展开，然后应用中心极限定理，弱大数定律，依概率一致收敛，以及Slutsky定理，可以证明MLE的渐进分布的方差是 $I^{-1}(\theta)$ ，即 $Var(\hat{\theta}_{MLE}) = I^{-1}(\theta)$ , 这也就是Fisher Information的第三条数学意义。不过这样说不严谨，严格的说，应该是 $\sqrt{n}(\hat{\theta}_{MLE}-\theta) \xrightarrow{D} N(0,I^*(\theta)^{-1})$ , 这里 $I^*(\theta)$ 是当只观察到一个X值时的Fisher Information，当有n个 i.i.d 观测值时， $I^*(\theta) = I(\theta)/n$ 。所以这时的直观解释就是，Fisher Information反映了我们对参数估计的准确度，它越大，对参数估计的准确度越高，即代表了越多的信息。

fisher information 的直观意义相关推荐

图像检索：Fisher Information Matrix and Fisher Kernel
罗纳德·费雪(Sir Ronald Aylmer Fisher, FRS,1890.2.17-1962.7.29),现代统计学与现代演化论的奠基者之一,安德斯·哈尔德称他是"一位几乎独自建立 ...
Fisher information解释和数学意义
** Fisher information解释和数学意义在数理统计学,费雪信息 (有时简称为信息)是一种度量随机变量 X 所含有的关于其自身随机分布函数的未知参数 θ 的信息量.严格地说,它是分数 ...
Fisher information（费雪信息）和费雪信息矩阵
费雪信息在数理统计学,费雪信息 (有时简称为信息)是一种度量随机变量 X 所含有的关于其自身随机分布函数的未知参数 θ 的信息量.严格地说,它是分数对方差或观测信息的期望值.Fisher信息在最大 ...
费雪信息 (Fisher information)
------------------------------------------------------------------------------ 作者:知乎用户链接:https://ww ...
深度模型从研者眼里的似然估计 Hessain 海森矩阵 Fisher Information （费雪信息）...
2019独角兽企业重金招聘Python工程师标准>>> 深度模型的训练的基本依据是最小化模型拟合数据的误差.旨在不仅知其然(如何构建和训练一个深度模型),还应知其所以然(为什么这样训 ...
似然估计 Hessain Fisher Information
深度模型的训练的基本依据是最小化模型拟合数据的误差.旨在不仅知其然(如何构建和训练一个深度模型),还应知其所以然(为什么这样训练,可以做哪些优化).我们就会发现,有很多研究者,在面向一些特定问题下,深 ...
Fisher Information（费雪信息）详解
Fisher Information(费雪信息) 定义 Fisher Information 是一种衡量"随机观测样本携带的未知参数 θ \theta θ的信息量"的方法,其中 θ ...
复数和复变指数函数和三角函数和欧拉公式关系及几何直观意义
证明欧拉公式如果这么看自变量:θ=ωt\theta= \omega t θ=ωt那么就可以发现欧拉公式的几何意义. 复数的表示形式通过下面对比可以发现,用复指数表示复数在几何上更直观. 复数的运算 ...
互信息（Mutual Information）
本文根据以下参考资料进行整理: 1.维基百科:https://zh.wikipedia.org/wiki/%E4%BA%92%E4%BF%A1%E6%81%AF 2.新浪博客:http://blog. ...

fisher information 的直观意义

fisher information 的直观意义相关推荐

最新文章

热门文章