在参数估计和统计中,Cramer-Rao界限(Cramer-Rao bound, CRB)或者Cramer-Rao下界(CRLB),表示一个确定性参数的估计的方差下界。命名是为了纪念Harald Cramer和Calyampudi Radhakrishna Rao。这个界限也称为Cramer-Rao不等式或者信息不等式。

它的最简单形式是:任何无偏估计的方差至少大于Fisher信息的倒数。一个达到了下界的无偏估计被称为完全高效的(fully efficient)。这样的估计达到了所有无偏估计中的最小均方误差(MSE,mean square error),因此是最小方差无偏(MVU,minimum variance unbiased)估计。

给定偏倚,Cramer-Rao界限还可以用于确定有偏估计的界限。在一些情况下,有偏估计方法的结果可能方差和均方差都小于无偏估计的Cramer-Rao下界。

标量情形

标量的无偏情形

假设θ\thetaθ是一个位置确定性参数。我们需要从观察变量xxx估计它。而它们满足一个概率密度函数f(x;θ)f(x;\theta)f(x;θ)。任何θ\thetaθ的无偏估计θ^\hat{\theta}θ^的方差的下界为Fisher信息I(θ)I(\theta)I(θ)的倒数:
\begin{equation}
\mathrm{Var}{\hat{\theta}} \ge \frac{1}{I(\theta)}
\end{equation}
其中Fisher信息定义为
\begin{equation}
I(\theta) = \mathrm{E}[(\frac{\partial \ln f(x;\theta)}{\partial \theta})^2] =-\mathrm{E}[\frac{\partial^2 \ln f(x;\theta)}{\partial \theta^2}]
\end{equation}
其中E\mathrm{E}E表示求期望。

无偏估计θ^\hat{\theta}θ^的效率描述估计的方差有多接近下限,定义为
\begin{equation}
e(\theta) = \frac{I(\theta)^{-1}}{\mathrm{Var} (\hat \sigma)}
\end{equation}
显然有
\begin{equation}
0 \le e(\hat{\sigma}) \le 1
\end{equation}

标量的一般情形

更一般的情况是考虑参数θ\thetaθ的无偏估计T(X)T(X)T(X)。这里的无偏性理解为E[T(X)]=ϕ(θ)\mathrm{E} [ T(X)] = \phi (\theta)E[T(X)]=ϕ(θ)。这种情况下,方差的下界为
\begin{equation}
\mathrm{Var}(T) \ge \frac{[\phi’(\theta)]^2}{I(\theta)}
\label{eq:gsc}
\end{equation}
其中ϕ′(θ)\phi'(\theta)ϕ′(θ)表示ϕ(θ)\phi(\theta)ϕ(θ)关于θ\thetaθ的导数,I(θ)I(\theta)I(θ)仍然是Fisher信息。

有偏估计的界限

考虑估计θ^\hat\thetaθ^,设其偏倚b(θ)=E[θ^]−θb(\theta) = \mathrm{E}[\hat\theta] - \thetab(θ)=E[θ^]−θ,令ϕ(θ)=b(θ)+θ\phi(\theta) = b(\theta) + \thetaϕ(θ)=b(θ)+θ。利用上式,任何期望为ϕ(θ)\phi(\theta)ϕ(θ)的无偏估计的方差都大于等于(ϕ′(θ)2)/I(θ))(\phi'(\theta)^2) / I(\theta))(ϕ′(θ)2)/I(θ))。于是
\begin{equation}
\mathrm{Var} (\hat{\theta}) \ge \frac{[1 + b’(\theta)]^2}{I(\theta)}
\end{equation}
当b(θ)=0b(\theta) = 0b(θ)=0,上式退化为无偏估计得方差界限。当估计θ^\hat\thetaθ^退化为常数(概率密度函数为脉冲函数),则方差退化为0。

从上式,利用标准分解可以推出有偏估计的均方误差下界为
\begin{equation}
\mathrm{E}[(\hat\theta - \theta)^2] \ge \frac{[1 + b’(\theta)]^2}{I(\theta)} + b(\theta)^2
\end{equation}
注意,如果1+b′(θ)<11+b'(\theta) < 11+b′(θ)<1,那么上式右端的下界可能小于Cramer-Rao下界。例如,当1+b′(θ)=nn+2<11+b'(\theta) = \frac{n}{n+2} < 11+b′(θ)=n+2n​<1。

多元变量的情形

定义向量θ=[θ1,θ2,⋯,θd]T∈Rd\theta =[\theta_1, \theta_2, \cdots, \theta_d]^T \in R^dθ=[θ1​,θ2​,⋯,θd​]T∈Rd,它的概率密度函数为f(x;θ)f(x; \theta)f(x;θ)满足后面的两个正则化条件。Fisher信息矩阵是一个d×dd \times dd×d的矩阵,元素Im,kI_{m,k}Im,k​定义为
\begin{equation}
I_{m, k} = \mathrm{E}[\frac{\partial}{\partial \theta_m} \ln f(x;\theta) \frac{\partial}{\partial \theta_k} \ln f(x;\theta) ] = -\mathrm{E}[ \frac{\partial^2}{\partial \theta_m \partial \theta_k} \ln f(x;\theta) ]
\end{equation}

令T(X)T(X)T(X)为一个向量函数的估计,T(X)=(T1(X),T2(X),⋯,Td(X))TT(X) = (T_1(X), T_2(X), \cdots, T_d(X))^TT(X)=(T1​(X),T2​(X),⋯,Td​(X))T,记它的期望向量E[T(X)]\mathrm{E}[T(X)]E[T(X)]为ϕ(θ)\phi(\theta)ϕ(θ)。Cramer-Rao下界认为T(X)的协方差矩阵满足
\begin{equation}
\mathrm{Cov}_\theta (T(X)) \ge \frac{\partial \phi(\theta)}{\partial \theta} [I(\theta)]^{-1} ( \frac{\partial \phi(\theta)}{\partial \theta})^T
\end{equation}
其中

  • 矩阵大于等于符号A≥BA \ge BA≥B表示A−BA - BA−B是一个半正定矩阵;
  • ∂ϕ(θ)/∂θ\partial \phi(\theta) / \partial \theta∂ϕ(θ)/∂θ是雅克比矩阵,它的第ijijij个元素为∂ϕi(θ)/∂θj\partial \phi_i(\theta) / \partial \theta_j∂ϕi​(θ)/∂θj​。

当T(X)T(X)T(X)为θ\thetaθ的无偏估计(例如T(θ)=θT(\theta) = \thetaT(θ)=θ),则Cramer-Rao法则退化为
\begin{equation}
\mathrm{Cov_\theta}(T(X)) \ge I(\theta)^{-1}
\end{equation}

两个正则化条件

边界依赖两个关于f(x;θ)f(x;\theta)f(x;θ)和T(X)T(X)T(X)的弱正则化条件:

  • Fisher信息矩阵总是存在。等价地说,对于所有xxx,如果f(x;θ)>0f(x;\theta) > 0f(x;θ)>0,则∂ln⁡f(x;θ)/∂θ\partial \ln f(x; \theta) / \partial \theta∂lnf(x;θ)/∂θ存在并且有限。
  • 对xxx的积分和对θ\thetaθ的微分可以交换顺序。也就是说,在下式右侧有限时,有
    \begin{equation}
    \frac{\partial}{\partial \theta} [\int T(x) f(x;\theta) dx] = \int T(x) [\frac{\partial}{\partial \theta} f(x; \theta)] dx
    \end{equation}

上述条件通常可以通过以下任意一个条件来确认:

  1. 函数f(x;θ)f(x; \theta)f(x;θ)在xxx中有边界支持,并且边界不依赖于θ\thetaθ。
  2. 函数f(x;θ)f(x; \theta)f(x;θ)有有限的支持,连续可微,并且对于所有θ\thetaθ积分收敛。

标量情形的证明

假设T=t(X)T = t(X)T=t(X)是一个ϕ(θ)\phi(\theta)ϕ(θ)的无偏估计,且E(T)=ϕ(θ)E(T) = \phi(\theta)E(T)=ϕ(θ)。目标是证明,对于所有θ\thetaθ,
\begin{equation}
Var(t(X)) \ge \frac{[\phi’ (\theta)]^2}{I(\theta)}
\end{equation}

令XXX为随机变量,且概率密度函数为f(x;θ)f(x;\theta)f(x;θ). T=t(X)T = t(X)T=t(X)为统计量,且作为ϕ(θ)\phi (\theta)ϕ(θ)的估计。定义VVV为概率密度函数关于θ\thetaθ的偏导数
\begin{equation}
V = \frac{\partial}{\partial \theta} \ln f(X; \theta) = \frac{1}{f(X; \theta)} \frac{\partial}{\partial \theta} f(X; \theta)
\end{equation}
可以发现,VVV的概率密度函数也是f(X;θ)f(X;\theta)f(X;θ)。利用第二个正则化条件,可以得到VVV的期望为0。即
\begin{equation}
\mathrm{E}(V) = \int f(x;\theta)[ \frac{1}{f(x; \theta)} \frac{\partial}{\partial \theta} f(x; \theta)]dx= \frac{\partial}{\partial \theta} [\int f(x;\theta) dx] = 0
\end{equation}
因为E(V)=0\mathrm{E}(V)=0E(V)=0,由协方差定义式可以推出Cov(V,T)=E(VT)\mathrm{Cov}(V, T) = \mathrm{E}(VT)Cov(V,T)=E(VT)。展开可以得到
\begin{equation}
\begin{aligned}
\mathrm{Cov}(V, T) =& \mathrm{E}(T \cdot [ \frac{1}{f(X; \theta)} \frac{\partial}{\partial \theta} f(X; \theta) ]) \
=& \int t(x)[\frac{1}{f(x; \theta)} \frac{\partial}{\partial \theta} f(x; \theta)] f(x; \theta) dx \
=& \frac{\partial}{\partial \theta} [\int t(x) f(x;\theta) dx] \
= & \phi’(\theta)
\end{aligned}
\end{equation}
由柯西-施瓦茨不等式可得
\begin{equation}
\sqrt{\mathrm{Var}(T)\mathrm{Var}(V) } \ge \vert \mathrm{Cov}(V, T) \vert = \vert \phi’(\theta) \vert
\end{equation}
因此
\begin{equation}
\mathrm{Var}(T) \ge \frac{[\phi’(\theta)]^2}{\mathrm{Var}(V)} = \frac{[\phi’(\theta)]^2}{I(\theta)}
\end{equation}

参考文献

[https://en.wikipedia.org/wiki/Cram%C3%A9r%E2%80%93Rao_bound#Regularity_conditions][1]
[1]:https://en.wikipedia.org/wiki/Cram%C3%A9r%E2%80%93Rao_bound#Regularity_conditions

Cramer-Rao下界相关推荐

  1. 异方差下的OLS估计无效性

    对于异方差模型 Y=Xβ+ε,Y=Xβ+ε, Y=X\beta+\varepsilon, 其中 X=c(x1,x2,...,xn)T, E(ε|X)=0, E(εεT|X)=Σ=σ2ΩX=c(x1,x ...

  2. MLAPP————第六章 频率派统计

    第六章 频率派统计 6.1 简介 在第五章我们讨论的贝叶斯统计的这套方法,在一些非统计学问题中,比如医疗诊断,垃圾邮件过滤,飞机追踪等问题上,大家都是用贝叶斯的这一套去做.但是在很多统计学问题上,却存 ...

  3. 【学习笔记】网络图数据分析导论(solid)

    讲座标题:Introduction to Network Data Analysis 中文标题:网络数据分析导论 讲授者: Dr. Zongming Ma \text{Dr. Zongming Ma} ...

  4. 【声源定位】 球面散乱数据插值方法/似然估计hybrid spherical interpolation/maximum likelihood (SI/ML) 麦克风阵列声源定位

    1.软件版本 MATLAB2021a 2.本算法理论知识点 球面散乱数据插值方法/似然估计SI/ML 麦克风阵列声源定位 3.算法具体理论 这个部分的程序如下所示: 这个部分理论如下所示: 本文最后的 ...

  5. 【转载】定位系统中的多径效应

    原文:https://www.jianshu.com/p/98dc5f57881f 1. 定义 扩频测距系统中,来自信号源的信号在其发射和传播过程中由于受到环境因素的影响而导致接收信号中带入周围环境造 ...

  6. 从信号处理的角度研究毫米波联合雷达通信

    具有共同光谱和硬件资源的通信和雷达系统的协同设计预示着一个有效利用有限射频频谱的新时代.该联合雷达通信(JRC)模型具有成本低.体积小.功耗低.频谱共享.性能改善和安全等优点.今天,毫米波(mmwav ...

  7. Getting Start --TI AWR1642 近程雷达(SRR)案例理论设计

    1.概述 在近程应用中,AWR1642传感器配置为多模雷达,可以跟踪距离高达80米的目标,以及生成20米 内的丰富点云目标,可以同时探测到接近的车辆和更近的小目标. 1.1系统关键规划 SRR设计有两 ...

  8. 几种优化算法的读书笔记——梯度下降、牛顿法、拟牛顿法、随机梯度下降、AdaGrad、RMSProp、Adam及选择优化算法的建议

    文章目录 1 梯度下降 1.1 特点 1.2 思想 1.3 数学基础 1.4 具体算法 2 牛顿法和拟牛顿法 2.1 特点 2.2 牛顿法 2.2.1 数学基础 2.2.2 思想 2.2.3 具体算法 ...

  9. 理解Rao - Cramer不等式

    在可估计函数的无偏估计量中,自然希望估计量的方差尽可能小,那么估计量的方差能小到什么程度呢?有无下界?若有的话,如何去求它?Rao - Cramer不等式回答了这些问题. 一个无偏估计量希望方差最小, ...

最新文章

  1. 代码审计之Catfish CMS v4.5.7后台作者权限越权两枚+存储型XSS一枚
  2. Java中的责任链模式
  3. linux版vmware卡顿,Manjaro下Vmware安装的MacOS10.15遇到的性能问题导致几乎无法启动问题及解决...
  4. One Switch for Mac(系统功能快速切换工具)
  5. 简单的Spring配置文件
  6. 为编译安装的nginx提供init服务控制脚本
  7. adsl密码查看器,宽带密码查看器,无广告,绿色版
  8. c语言流程图各个框的作用,C语言流程图的三种基本结构
  9. app逆向 安卓开发环境搭建
  10. php 真太阳时间修正,全国真太阳时对照表
  11. java设计模式-终结者者模式
  12. ABS系统类最新发表的论文趋势怎么看?
  13. 为什么不建议使用免费的IP代理?
  14. 使用浏览器转化ASCII码为字符
  15. Android大厂面试真题解析大全,安卓未来路在何方
  16. 软件测试流程、计划和方案
  17. creator 物理画线
  18. linux系统安装时无线键盘吗,在Deepin系统中连接罗技蓝牙键盘K380的方法
  19. 计算机系统xp和w7,告诉你十年老电脑装xp还是win7
  20. 几种靠谱的离职原因回答策略,了解一下?

热门文章

  1. 《Spring Boot+Vue全栈开发实战》读书笔记
  2. 单相交流线路与三相交流线路的区别
  3. 2022-2028全球及中国电子商务欺诈预防行业研究及十四五规划分析报告
  4. ODOO芯片制造委外加工业自动化解决方案
  5. 机器学习与深度学习系列连载(NTU-Machine Learning, cs229, cs231n, cs224n, cs294):欢迎进入机器学习的世界
  6. 京东杨业飞:京东云原生大规模实践之路
  7. MySQL单元选择题及答案(期末复习题)
  8. 浅谈元认知理论与学会学习
  9. 活动库存限制是“递增”还是“递减”、你认为哪种方式更好些???
  10. Python二级试题(一)