fisher information 的直观意义
链接:https://www.zhihu.com/question/26561604/answer/33275982
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
首先我们看一下 Fisher Information 的定义:
假设你观察到 i.i.d 的数据 服从一个概率分布,是你的目标参数(for simplicity, 这里是个标量,且不考虑 nuissance parameter),那么你的似然函数(likelihood)就是:
为了解得Maximum Likelihood Estimate(MLE),我们要让log likelihood的一阶导数得0,然后解这个方程,得到
这个log likelihood的一阶导数也叫,Score function :
那么Fisher Information,用表示,的定义就是这个Score function的二阶矩(second moment)。
一般情况下(under specific regularity conditions)可以很容易地证明,, 从而得到:
于是得到了Fisher Information的第一条数学意义:就是用来估计MLE的方程的方差。它的直观表述就是,随着收集的数据越来越多,这个方差由于是一个Independent sum的形式,也就变的越来越大,也就象征着得到的信息越来越多。
而且,如果log likelihood二阶可导,在一般情况下(under specific regularity conditions)可以很容易地证明:
于是得到了Fisher Information的第二条数学意义:log likelihood在参数真实值处的负二阶导数的期望。这个意义好像很抽象,但其实超级好懂。
首先看一下一个normalized Bernoulli log likelihood长啥样:
<img src="https://pic3.zhimg.com/28c4c679b6758707ed779c066d0e8e3a_b.jpg" data-rawwidth="900" data-rawheight="806" class="origin_image zh-lightbox-thumb" width="900" data-original="https://pic3.zhimg.com/28c4c679b6758707ed779c066d0e8e3a_r.jpg">对于这样的一个log likelihood function,它越平而宽,就代表我们对于参数估计的能力越差,它高而窄,就代表我们对于参数估计的能力越好,也就是信息量越大。而这个log likelihood在参数真实值处的负二阶导数,就反应了这个log likelihood在顶点处的弯曲程度,弯曲程度越大,整个log likelihood的形状就越偏向于高而窄,也就代表掌握的信息越多。
对于这样的一个log likelihood function,它越平而宽,就代表我们对于参数估计的能力越差,它高而窄,就代表我们对于参数估计的能力越好,也就是信息量越大。而这个log likelihood在参数真实值处的负二阶导数,就反应了这个log likelihood在顶点处的弯曲程度,弯曲程度越大,整个log likelihood的形状就越偏向于高而窄,也就代表掌握的信息越多。
然后,在一般情况下(under specific regularity conditions),通过对score function在真实值处泰勒展开,然后应用中心极限定理,弱大数定律,依概率一致收敛,以及Slutsky定理,可以证明MLE的渐进分布的方差是,即, 这也就是Fisher Information的第三条数学意义。不过这样说不严谨,严格的说,应该是 , 这里是当只观察到一个X值时的Fisher Information,当有n个 i.i.d 观测值时,。所以这时的直观解释就是,Fisher Information反映了我们对参数估计的准确度,它越大,对参数估计的准确度越高,即代表了越多的信息。
fisher information 的直观意义相关推荐
- 图像检索:Fisher Information Matrix and Fisher Kernel
罗纳德·费雪(Sir Ronald Aylmer Fisher, FRS,1890.2.17-1962.7.29),现代统计学与现代演化论的奠基者之一,安德斯·哈尔德称他是"一位几乎独自建立 ...
- Fisher information解释和数学意义
** Fisher information解释和数学意义 在数理统计学,费雪信息 (有时简称为 信息)是一种度量随机变量 X 所含有的关于其自身随机分布函数的未知参数 θ 的信息量.严格地说,它是分数 ...
- Fisher information(费雪信息)和费雪信息矩阵
费雪信息 在数理统计学,费雪信息 (有时简称为 信息)是一种度量随机变量 X 所含有的关于其自身随机分布函数的未知参数 θ 的信息量.严格地说,它是分数对方差或观测信息的期望值.Fisher信息在最大 ...
- 费雪信息 (Fisher information)
------------------------------------------------------------------------------ 作者:知乎用户 链接:https://ww ...
- 深度模型从研者 眼里的 似然估计 Hessain 海森矩阵 Fisher Information (费雪信息)...
2019独角兽企业重金招聘Python工程师标准>>> 深度模型的训练的基本依据是最小化模型拟合数据的误差.旨在不仅知其然(如何构建和训练一个深度模型),还应知其所以然(为什么这样训 ...
- 似然估计 Hessain Fisher Information
深度模型的训练的基本依据是最小化模型拟合数据的误差.旨在不仅知其然(如何构建和训练一个深度模型),还应知其所以然(为什么这样训练,可以做哪些优化).我们就会发现,有很多研究者,在面向一些特定问题下,深 ...
- Fisher Information(费雪信息)详解
Fisher Information(费雪信息) 定义 Fisher Information 是一种衡量"随机观测样本携带的未知参数 θ \theta θ的信息量"的方法,其中 θ ...
- 复数和复变指数函数和三角函数和欧拉公式关系及几何直观意义
证明欧拉公式 如果这么看自变量:θ=ωt\theta= \omega t θ=ωt那么就可以发现欧拉公式的几何意义. 复数的表示形式 通过下面对比可以发现,用复指数表示复数在几何上更直观. 复数的运算 ...
- 互信息(Mutual Information)
本文根据以下参考资料进行整理: 1.维基百科:https://zh.wikipedia.org/wiki/%E4%BA%92%E4%BF%A1%E6%81%AF 2.新浪博客:http://blog. ...
最新文章
- php微信小程序会话保持,微信小程序保持session会话的方法
- sql server排序慢_SQL 查询调优之 where 条件排序字段以及 limit 使用索引的奥秘
- 顶刊学者带你深度理解本地差分隐私【会议笔记】
- Oracle EBS SLA取值
- pandas删除index与某一列有重复值所在的行
- JavaScript DOM 编程艺术 公用方法
- 计算机系统保密检查整改情况函,保密工作整改情况汇报
- onenote2019导入_将OneNote 2007笔记本导入Evernote
- Python学习3-层次聚类
- 解决Mac谷歌浏览器问题
- Elasticsearch ILM 索引生命周期管理常见坑及避坑指南
- 软碟通 (UltraISO)制作启动盘
- 动物名称日语单词集合
- 机械臂正运动学(1)——MDH下的正解(自编)
- RP Fiber Power 光纤数据
- 五绝------送卢兄之某传xiao之都
- 尺取法(日志统计和锻造兵器)
- openwrt怎么做ap_树莓派 + OpenWrt 实现 BT 下载机
- 电脑添加夏普(sharp)打印机 从磁盘安装驱动过程
- 小学五年级计算机试题,【优质文档】小学五年级信息技术期末试题(答案)
热门文章
- 黑客养成—CTF笔记(一)
- word中运行Mathtype报错问题解决方案(The MathType DLL cannot be found)
- 百度SEO Photo相册图库个人网站模板
- react and reduct 学习手记3
- 网络安全 顶级进行鱼叉式钓鱼攻击?手把手教学
- flex布局的应用 —— 模仿携程移动端的首页
- 基于HTML5气3D仿真培训系统
- Call From xx/x.x.x.x .hdp1:9000:java.net.ConnectException:拒绝连接For m...see:http://wiki.apac..Refused
- 常见(XSS|CSRF)六大Web安全攻防解析
- design pattern Builder 生成器设计模式