文章目录

  • 前提
  • 传统稳健方法评估
    • 评估方法
    • 均值稳健估计方法评估
      • 估计方法
      • SEIF 评估
      • BreakDown Value 评估均值稳健估计方法
    • 方差平方根稳健估计方法评估
      • 估计方法
      • SEIF 评估
      • BreakDown Value 评估方差平方根稳健估计方法
  • 总结

参考文献: Robust estimation in very small samples

本文将用 SEIF(Styled Empirical Influence Function)和 Breakdown Value 评估各种,对均值、方差的平方根的稳健估计方法的可靠性。

前提

本篇博客主要讨论两个估计量:

  1. 均值( μ \mu μ),我们用样本去估计,记为 T n ( x 1 , x 2 , ⋯ , x n ) T_n(x_1,x_2,\cdots,x_n) Tn​(x1​,x2​,⋯,xn​),简记为 T n ( X ) T_n(X) Tn​(X)
  2. 方差的平方根( σ \sigma σ),我们用样本去估计,记为 S n ( x 1 , x 2 , ⋯ , x n ) S_n(x_1,x_2,\cdots,x_n) Sn​(x1​,x2​,⋯,xn​),简记为 S n ( X ) S_n(X) Sn​(X)
    其中 n n n 为样本容量,当然,在计算 S n S_n Sn​ 和 T n T_n Tn​ 的时候, μ , σ \mu, \sigma μ,σ 都是未知的。

我们讨论的稳健估计必须满足下述条件:
T n ( a X + b ) = a T n ( X ) + b S n ( a X + b ) = ∣ a ∣ S n ( X ) \begin{array}{l} T_{n}(a X+b)=a T_{n}(X)+b \\ S_{n}(a X+b)=|a| S_{n}(X) \end{array} Tn​(aX+b)=aTn​(X)+bSn​(aX+b)=∣a∣Sn​(X)​
且 X ∼ i . i . d X\sim i.i.d X∼i.i.d

另外,为了方便了理解,我们定义样本 x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots, x_{n} x1​,x2​,⋯,xn​ 的次序统计量为: x 1 : n , x 2 : n , ⋯ , x n − 1 : n , x n : n x_{1:n},x_{2:n},\cdots, x_{n-1:n},x_{n:n} x1:n​,x2:n​,⋯,xn−1:n​,xn:n​

传统稳健方法评估

评估方法

我们用 SEIF 来评估稳健估计方法,其中 EIF 的定义如下:
EIF ( x ) = T n ( x 1 , x 2 , ⋯ , x n − 1 , x ) \textbf{EIF}(x) = T_n(x_1,x_2,\cdots, x_{n-1}, x) EIF(x)=Tn​(x1​,x2​,⋯,xn−1​,x)
其中 x x x 是未知数, x 1 , x 2 , ⋯ , x n − 1 x_1,x_2,\cdots, x_{n-1} x1​,x2​,⋯,xn−1​ 是容量为 n − 1 n-1 n−1 的样本。EIF 的估计原理是, x 1 , x 2 , ⋯ , x n − 1 x_1,x_2,\cdots, x_{n-1} x1​,x2​,⋯,xn−1​ 是正常样本,不包含离群值,而 x x x 作为自变量,可以模拟离群值和非离群值,于是,就可以根据 EIF 和 x 的关系,或变化曲线,来判断稳健估计方法的效果。

但这个正常样本 x 1 , x 2 , ⋯ , x n − 1 x_1,x_2,\cdots, x_{n-1} x1​,x2​,⋯,xn−1​ 该如何取呢?根据 T n ( a X + b ) = a T n ( X ) + b T_{n}(a X+b)=a T_{n}(X)+b Tn​(aX+b)=aTn​(X)+b 和 S n ( a X + b ) = ∣ a ∣ S n ( X ) S_{n}(a X+b)=|a| S_{n}(X) Sn​(aX+b)=∣a∣Sn​(X),我们可以用正态分布来代表所有类型的样本。

对于 x 1 , x 2 , ⋯ , x n − 1 x_1,x_2,\cdots, x_{n-1} x1​,x2​,⋯,xn−1​ ,我们可以取正态分布的 m m m 分位数:
x i = Φ − 1 ( i − 1 / 3 m + 1 / 3 ) for  i = 1 , … , m x_{i}=\Phi^{-1}\left(\frac{i-1 / 3}{m+1 / 3}\right) \quad \text { for } i=1, \ldots, m xi​=Φ−1(m+1/3i−1/3​) for i=1,…,m
其中 m = n − 1 m=n-1 m=n−1。

于是,我们将样本 x 1 , x 2 , ⋯ , x n − 1 x_1,x_2,\cdots, x_{n-1} x1​,x2​,⋯,xn−1​ 根据上式取值的 EIF 称之为 SEIF。

均值稳健估计方法评估

估计方法

这里讨论的估计方法有:

样本均值
ave n ( X ) = 1 n ∑ i = 1 n x i \text{ave}_n(X)=\frac{1}{n}\sum_{i=1}^{n} x_i aven​(X)=n1​i=1∑n​xi​
样本中位数
med ⁡ n ( X ) = med ⁡ i = 1 n x i = { x n + 1 2 : n when  n is odd,  1 2 ( x n 2 : n + x n 2 + 1 : n ) when  n is even  \operatorname{med}_{n}(X)=\operatorname{med}_{i=1}^{n} x_{i}=\left\{\begin{array}{ll} x_{\frac{n+1}{2}: n} & \text { when } n \text { is odd, } \\ \frac{1}{2}\left(x_{\frac{n}{2}: n}+x_{\frac{n}{2}+1: n}\right) & \text { when } n \text { is even } \end{array}\right. medn​(X)=medi=1n​xi​={x2n+1​:n​21​(x2n​:n​+x2n​+1:n​)​ when n is odd,  when n is even ​
Hodges-Lehmann 估计
HL n ( X ) = med { x i + x j 2 ;  1 ≤ i ≤ j ≤ n } \text{HL}_n(X)=\text{med}\{ \frac{x_i+x_j}{2} \text{ ; } 1\leq i \leq j \leq n \} HLn​(X)=med{2xi​+xj​​ ; 1≤i≤j≤n}
(k/n)-trimmed 均值
(k/n)-trimmed 均值是剔除样本首尾 k k k 个样本后的样本均值
(k/n)-trimmed 均值 = ave { x k + 1 : n , ⋯ , x n − k : n } \text{(k/n)-trimmed 均值} = \text{ave}\{ x_{k+1:n}, \cdots, x_{n-k:n} \} (k/n)-trimmed 均值=ave{xk+1:n​,⋯,xn−k:n​}

SEIF 评估

画出各个均值稳健估计方法的 SEIF,如下所示:


可以看到,当 n = 3 n=3 n=3 时,此时只有 中位数 才有界((1/3)-trimmed 均值此时等于中位数),而 HL,若对他分析,可得 HL 估计等价于:
x 1 : 3 + x 3 : 3 2 \frac{x_{1:3}+x_{3:3}}{2} 2x1:3​+x3:3​​
因此,其稳健性,甚至要低于样本均值,更容易受到离群值的影响。

当 n = 4 n=4 n=4,HL 估计等价于中位数(大家也可以自己算一下)。而(1/3)-trimmed 均值,依旧是等价于中位数,也对于 n ≥ 5 n\geq5 n≥5,仅有样本均值是没有界的,其他的是有界的,也即稳健的,不会随着 x → inf ⁡ x\to \inf x→inf 而“爆炸”。

话句话说,对于小样本的话,应该用中位数

BreakDown Value 评估均值稳健估计方法

BreakDown Value 的意义,在于评估样本中有多少离群值时,稳健估计法会失效(类似于上述的无界)。设样本为: X = ( x 1 , x 2 , ⋯ , x n ) X=(x_1,x_2,\cdots,x_n) X=(x1​,x2​,⋯,xn​),挑出其中 m 个样本,并用任意值替换: x i 1 , x i 2 , ⋯ , x i m x_{i1},x_{i2},\cdots,x_{im} xi1​,xi2​,⋯,xim​,于是 BreakDown value 为:
ε n ∗ ( T n ; X ) = min ⁡ { m n ; sup ⁡ Z m ∣ T n ( Z m ) ∣ = ∞ } \varepsilon_{n}^{*}\left(T_{n} ; X\right)=\min \left\{\frac{m}{n} ; \sup _{Z^{m}}\left|T_{n}\left(Z^{m}\right)\right|=\infty\right\} εn∗​(Tn​;X)=min{nm​;Zmsup​∣Tn​(Zm)∣=∞}
可得样本均值的 breakdown value 为 1 / n 1/n 1/n,且可以证明,breakdown value 的上界为:
ε n ∗ ( T n , X ) ⩽ ⌈ n / 2 ⌉ n \varepsilon_{n}^{*}\left(T_{n}, X\right) \leqslant \frac{\lceil n / 2\rceil}{n} εn∗​(Tn​,X)⩽n⌈n/2⌉​
其中 ⌈ n / 2 ⌉ \lceil n / 2\rceil ⌈n/2⌉ 为取整函数,即取大于 n / 2 n/2 n/2 的最小整数。

可以证明的是,取得上述上界的,只有中位数。而 HL 估计的 breakdown value 为 1 − 2 − 1 / 2 ≈ 29 1-2^{-1/2}\approx 29% 1−2−1/2≈29;(k/n)-trimmed 平均值为 ( k + 1 ) / n (k+1)/n (k+1)/n

很明显了,无论是 SEIF 和 breakdown value,都指出中位数最好

方差平方根稳健估计方法评估

估计方法

方差平方根的稳健估计方法有:

标准差
SD n ( X ) = 1 n − 1 ∑ i = 1 n ( x i − ave n ( X ) ) 2 \text{SD}_n(X)=\sqrt{ \frac{1}{n-1}\sum_{i=1}^{n} (x_i - \text{ave}_n (X))^2 } SDn​(X)=n−11​i=1∑n​(xi​−aven​(X))2 ​
与中位数的距离均值
ADM n ( X ) = ave n ( ∣ x i − med n ( X ) ∣ ) \text{ADM}_n(X) = \text{ave}_n (|x_i - \text{med}_n(X)|) ADMn​(X)=aven​(∣xi​−medn​(X)∣)
与中位数的距离中位数
MAD n ( X ) = b n 1.4826 med n ( ∣ x i − med n ( X ) ∣ ) \text{MAD}_n(X) =b_n 1.4826 \text{med}_n (|x_i - \text{med}_n(X)|) MADn​(X)=bn​1.4826medn​(∣xi​−medn​(X)∣)
Q 估计
Q n ( X ) = c n 2.2219 { ∣ x i − x j ∣ ; i < j } { l th } Q_n(X) = c_n 2.2219 \{ |x_i - x_j|; i<j \} _{\{l \text{ th}\}} Qn​(X)=cn​2.2219{∣xi​−xj​∣;i<j}{l th}​
意味着取第 l l l 个顺序值(从小到大)其中 l l l 取值为: l = ( h 2 ) ≈ ( n 2 ) / 4 l=\left(\begin{array}{c} h \\ 2 \end{array}\right) \approx\left(\begin{array}{l} n \\ 2 \end{array}\right) / 4 l=(h2​)≈(n2​)/4 其中 h = ⌊ n / 2 ⌋ + 1 h=\lfloor n / 2\rfloor+1 h=⌊n/2⌋+1,其中 ⌊ n / 2 ⌋ \lfloor n / 2\rfloor ⌊n/2⌋ 为取整函数,取 ≤ n / 2 \leq n/2 ≤n/2 的最大整数。
(k/n)-trimmed 范围
( k / n ) -trimmed range  = ∣ x n − k : n − x k + 1 : n ∣ (k / n) \text { -trimmed range }=\left|x_{n-k: n}-x_{k+1: n}\right| (k/n) -trimmed range =∣xn−k:n​−xk+1:n​∣

其中 b n , c n b_n, c_n bn​,cn​ 是为了让小样本 MAD 和 Q 估计 unbias 的系数,假定样本呈现正态分布,则取 b n , c n = 1 b_n,c_n =1 bn​,cn​=1。

SEIF 评估


当 n = 3 n=3 n=3 时,可以看到 MAD 和 Q 估计量在 x = ± 0.57 x=\pm 0.57 x=±0.57 中时,方差为 0。但很明显,方差为 0 是不可能的。对于这种错误,我们称之为“嵌入”错误。相反,对于 SD 这种无界的,我们称之为 ”爆炸“ 错误。

BreakDown Value 评估方差平方根稳健估计方法

对于“爆炸”错误,我们用的 BreakDown Value 的定义如下:
ε n + ( S n , X ) = min ⁡ { m n ; sup ⁡ Z m S n ( Z m ) = ∞ } \varepsilon_{n}^{+}\left(S_{n}, X\right)=\min \left\{\frac{m}{n} ; \sup _{Z^{m}} S_{n}\left(Z^{m}\right)=\infty\right\} εn+​(Sn​,X)=min{nm​;Zmsup​Sn​(Zm)=∞}

对于“嵌入”错误,我们用:
ε n − ( S n , X ) = min ⁡ { m n ; inf ⁡ Z m S n ( Z m ) = 0 } \varepsilon_{n}^{-}\left(S_{n}, X\right)=\min \left\{\frac{m}{n} ; \inf _{Z^{m}} S_{n}\left(Z^{m}\right)=0\right\} εn−​(Sn​,X)=min{nm​;Zminf​Sn​(Zm)=0}
整合两者,就是:
ε n ∗ ( S n , X ) = min ⁡ { ε n + ( S n ; X ) , ε n − ( S n ; X ) } \varepsilon_{n}^{*}\left(S_{n}, X\right)=\min \left\{\varepsilon_{n}^{+}\left(S_{n} ; X\right), \varepsilon_{n}^{-}\left(S_{n} ; X\right)\right\} εn∗​(Sn​,X)=min{εn+​(Sn​;X),εn−​(Sn​;X)}
可以证明的是:
ε n ∗ ( S n , X ) ⩽ ⌊ n / 2 ⌋ n \varepsilon_{n}^{*}\left(S_{n}, X\right) \leqslant \frac{\lfloor n / 2\rfloor}{n} εn∗​(Sn​,X)⩽n⌊n/2⌋​
对于 Q 估计和 MAD,都能达到其上界。

总结

对于均值,建议用中位数比较稳健;对于方差平方根,用 Q 估计和 MAD 比较准确。

稳健估计的可靠性分析相关推荐

  1. Zookeeper和Redis实现分布式锁,附我的可靠性分析

    作者:今天你敲代码了吗 链接:https://www.jianshu.com/p/b6953745e341 在分布式系统中,为保证同一时间只有一个客户端可以对共享资源进行操作,需要对共享资源加锁来实现 ...

  2. RabbitMQ消息可靠性分析和应用

    2019独角兽企业重金招聘Python工程师标准>>> RabbitMQ流程简介(带Exchange) RabbitMQ使用一些机制来保证可靠性,如持久化.消费确认及发布确认等. 先 ...

  3. matlab边坡可靠性分析,滇西南地区高速公路高边坡调查及抗震稳定性分析

    滇西南地区高速公路高边坡调查及抗震稳定性分析 随着我国基础设施建设在西部多山地区的快速的发展,必然会产生大量的边坡.另外我国大部分地区多地震,尤其是云南的西南部地区.这就使得研究地震力作用下边坡的稳定 ...

  4. [架构之路-179]-《软考-系统分析师》-19- 系统可靠性分析与设计 -1- 故障模型、可靠性模型、可靠性分析

    目录 前言: 1 9 . 1 系统可靠性概述 19.1.1 系统故障模型 1.  在信息系统中,故障或错误有如下儿种表现形式: 2. 故障的缘由 3. 故障模型 (1)逻辑电路级的故障 (2) 数据结 ...

  5. matlab边坡可靠性分析,基于ABAQUS-ANFIS-MCS的岩质边坡可靠性分析

    第28卷第12期 2007年12月 岩 土 力 学 Rock and Soil Mechanics .,01.28 No.12 Dec.2007 文章编号l 1000--7598--(2007)12- ...

  6. 5V的LDO电源的WCCA分析-可靠性分析计算过程

    WCCA(WorstCase Circuit Analysis)分析方法是一种电路可靠性分析设计技术,用来评估电路中各个器件同时发生变化时的性能,用于保证设计电路在整个生命周期的都可以可靠工作.通过W ...

  7. 计算机网可靠性,计算机网络可靠性分析

    林业调查规划设计分析 1.计算机网络可靠性特点 1.1可靠性的基本分析 现如今计算机网络对于人们的正常生活有着非常重要的影响,不论是工厂中的产品开发还是网络购物中的信息交换,计算机技术都具有很强的影响 ...

  8. 可靠性分析类毕业论文文献都有哪些?

    本文是为大家整理的可靠性分析主题相关的10篇毕业论文文献,包括5篇期刊论文和5篇学位论文,为可靠性分析选题相关人员撰写毕业论文提供参考. 1.[期刊论文]基于可靠性安全系数的折叠展开机构可靠性分析 期 ...

  9. 围绕增材制造零件可靠性分析,概述增材制造方法的可重复性!

    增材制造技术为现代制造业提供了自由度高的设计能力.然而工业应用需要对增材制造零部件可靠性问题进行广泛的分析,而重复性问题目前阻碍了该技术向充分.广泛的生产方向发展.随着当前研究的重点扩展到增材制造技术 ...

最新文章

  1. 选择、分组、引用,指定匹配的位置
  2. centos 6.8 源码安装 erlang/otp 19.0.2
  3. Mat对象与它各种用法
  4. 中国杀菌剂行业需求趋势与投资战略规划研究报告2021-2027年版
  5. Oracle rowid
  6. HR要我薪资流水,可我多报了怎么办?
  7. oracle 配置监听和TNS常见的问题
  8. 设计模式之二-Proxy模式
  9. Qt中SQL语句update同时更新多字段及设置字段值为空的方法
  10. 【李宏毅2020 ML/DL】P82 Generative Adversarial Network | Improving Sequence Generation by GAN
  11. 给定N个加号,M个减号以及N+M+1个整数,A1+A2+...+Am+An+1,小明想知道在所有由这n个加号,M个减号以及N+M+1个整数凑出的合法的后缀表达式中,结果最大的是哪一个?
  12. educoder Scala面向对象编程
  13. Android对system_server中binder的ioctl调用拦截
  14. 关于人工智能不会使大脑变懒惰的议论文_模拟人类大脑 :人工智能的救赎之路 ?...
  15. 学习信息安全技术心得
  16. 谷歌翻译器 6.2.620 电脑版
  17. Hook技术看这篇就够了
  18. 复现SCI图表-ggplot做花瓣图
  19. VoIP技术(2)--语音编码算法-1
  20. window系统中hosts文件位置与修改

热门文章

  1. C++ Primer Plus(第6版)读书笔记--c++自定义函数
  2. Mastering Qt 5 学习笔记-Mandelbrot
  3. Mandelbrot图像
  4. Curl de 详细介绍
  5. AS中码云和GitHub的使用入门
  6. python字典统计男女比例_python统计男女比例-女性时尚流行美容健康娱乐mv-ida网...
  7. win10非分页缓冲池占用过大的解决方法
  8. SSM+ckplayer.js实现web项目网页看视频
  9. 织梦如何添html5播放器,织梦ckplayer视频播放器插件安装使用教程
  10. 尚驰洗车:尚驰洗车店汽车美容精简价目表