Jackknife是用来干什么的

不用Jackknife的情形（理想情况下我们是怎么做的）
- 特例（均值）
- 一般的例子
- 这个估计好吗？（统计量的性质）
使用Jackknife的情形
- Jackknife是什么
- 这个估计好吗？（ θ ^ \hat \theta θ^的性质）
- - 偏差
  - 标准误差
注意
复盘
参考

不用Jackknife的情形（理想情况下我们是怎么做的）

一般地，我们想要研究总体 P P P，我们对参数 θ \theta θ非常感兴趣，但是这是一个未知的值，我们只能通过样本来估计它。我们如何利用样本来估计它呢？

特例（均值）

我们先用一个比较具体的例子，统计人的好伙伴——均值。

比如我们想要估计总体的均值 μ \mu μ，假设我们任意抽的样本为 X = ( x 1 , x 2 , . . . , x n ) X=(x_1, x_2, ..., x_n) X=(x1,x2,...,xn)，我们就通过统计量 s = s ( x 1 , . . . x n ) = 1 n ∑ i = 1 n x i s=s(x_1,...x_n)=\frac{1}{n} \sum_{i=1}^n x_i s=s(x1,...xn)=n1∑i=1nxi来估计 μ \mu μ。

我们抽样得到了多组样本 X 1 , X 2 , . . . X m X_1,X_2,...X_m X1,X2,...Xm（ X i = ( x i 1 , x i 2 , . . . , x i n ) X_i=(x_{i1},x_{i2}, ..., x_{in}) Xi=(xi1,xi2,...,xin)），每组样本都可以计算出统计量 s s s的值，一共有 m m m组样本，那么我们就可以算出 m m m个统计量 s s s的值。

使用样本 X 1 ： s 1 = s ( x 11 , . . . , x 1 n ) = 1 n ∑ j = 1 n x 1 j 使用样本X_1：s_1 = s(x_{11},...,x_{1n})=\frac{1}{n}\sum_{j=1}^n x_{1j} 使用样本X1：s1=s(x11,...,x1n)=n1j=1∑nx1j

使用样本 X 2 ： s 2 = s ( x 21 , . . . , x 2 n ) = 1 n ∑ j = 1 n x 2 j 使用样本X_2：s_2 = s(x_{21},...,x_{2n})=\frac{1}{n}\sum_{j=1}^n x_{2j} 使用样本X2：s2=s(x21,...,x2n)=n1j=1∑nx2j

. . . . . . ...... ......

使用样本 X m ： s m = s ( x m 1 , . . . , x m n ) = 1 n ∑ j = 1 n x m j 使用样本X_m：s_m = s(x_{m1},...,x_{mn})=\frac{1}{n}\sum_{j=1}^n x_{mj} 使用样本Xm：sm=s(xm1,...,xmn)=n1j=1∑nxmj

每一个 s i ( i = 1 , . . . , m ) s_i(i=1,...,m) si(i=1,...,m)都可以用来反映 μ \mu μ的大小，我们究竟应该听谁的呢？我们选择综合每个样本的意见，使用 s ˉ = 1 m ∑ i = 1 m s i \bar s = \frac{1}{m} \sum_{i=1}^m s_i sˉ=m1∑i=1msi来反映 μ \mu μ的大小。

一般的例子

比如我们想要估计总体的参数 θ \theta θ（比如均值、方差、中位数等等），假设我们任意抽的样本为 X = ( x 1 , x 2 , . . . , x n ) X=(x_1, x_2, ..., x_n) X=(x1,x2,...,xn)，我们就通过统计量 s = s ( x 1 , . . . x n ) s=s(x_1,...x_n) s=s(x1,...xn)来估计 θ \theta θ。

使用样本 X 1 ： s 1 = s ( x 11 , . . . , x 1 n ) 使用样本X_1：s_1 = s(x_{11},...,x_{1n}) 使用样本X1：s1=s(x11,...,x1n)

使用样本 X 2 ： s 2 = s ( x 21 , . . . , x 2 n ) 使用样本X_2：s_2 = s(x_{21},...,x_{2n}) 使用样本X2：s2=s(x21,...,x2n)

. . . . . . ...... ......

使用样本 X m ： s m = s ( x m 1 , . . . , x m n ) 使用样本X_m：s_m = s(x_{m1},...,x_{mn}) 使用样本Xm：sm=s(xm1,...,xmn)

每一个 s i ( i = 1 , . . . , m ) s_i(i=1,...,m) si(i=1,...,m)都可以用来反映 θ \theta θ的大小，我们究竟应该听谁的呢？我们选择综合每个样本的意见，使用 s ˉ = 1 m ∑ i = 1 m s i \bar s = \frac{1}{m} \sum_{i=1}^m s_i sˉ=m1∑i=1msi来反映 θ \theta θ的大小。

上面是一般情况下也是理想情况下的操作，但现实总是很魔幻，那就是下面的事情了。

这个估计好吗？（统计量的性质）

我们使用 s ˉ \bar s sˉ来估计总体参数 θ \theta θ，这种估计好不好呢？可能我们从构造了一个不好的统计量，那么这个统计量对参数的估计效果可能就很差。所以我们还需要考察构造的统计量 s s s的好坏。这样我们就需要用到偏差和标准误差。

偏差： b i a s = E ( s ) − θ 偏差：bias = E(s) - \theta 偏差：bias=E(s)−θ

标准误差： s e = s 标准差 n 标准误差：se = \frac{s_{标准差}}{\sqrt{n}} 标准误差：se=n s标准差

（仅仅 s 标准差 s_{标准差} s标准差代表标准差，其他所有的 s s s代表统计量，不好意思我第一次写的时候没有意识到我要用两个 s s s，这里声明一下）

使用Jackknife的情形

假设我们现在想要研究的总体目标 P P P非常特殊，是得一种很稀有的病的人，可能几万个人才有1个得病的，这个人群非常稀少，我们很难获得大量的样本，就算可以获得一定的样本，也很难重复抽样。但是我们依然希望能够估计总体的参数 θ \theta θ，我们依然用统计量 s s s去估计总体参数 θ \theta θ，并且还要评价这种估计的好坏，那么现在会面临什么样的问题呢？

我们现在面临的问题

我们费尽千辛万苦终于有一组样本 X = ( x 1 , x 2 , . . . , x n ) X=(x_1, x_2, ..., x_n) X=(x1,x2,...,xn)，但没办法再重复抽样了，也就是没有办法得到多组样本 X 1 , X 2 , . . . , X m X_1,X_2,...,X_m X1,X2,...,Xm，于是无法得到统计量 s s s的多个估计值 s 1 , . . . , s m s_1,...,s_m s1,...,sm，无法通过平均多个估计值得到 s ˉ \bar s sˉ去估计参数 θ \theta θ。
我们无法衡量统计量 s s s的好坏了。之前每次计算的统计量 s s s的值有大有小，现在我们只有一个值，我们怎么知道这个值是不是正常地恰好偏大或者恰好偏小，还是这个统计量本身就有问题，所以我们算出来的值偏离很严重？

我们现在只能怎么做呢？

只能通过仅有的一个样本 X = ( x 1 , x 2 , . . . , x n ) X=(x_1, x_2, ..., x_n) X=(x1,x2,...,xn)去估计统计量 s s s的一个值，然后仅仅根据这一个值来估计总体参数 θ \theta θ。

这样做可以吗
可以，但是不好。为什么不好呢？因为只用一个数去估计总体参数的话方差会很大，会非常不精确。那怎么办呢？我们可以借助Jackknife的方法。

Jackknife是什么

有点类似于机器学习中的leave-one-out思想：

我们不是只有一个样本 X = ( x 1 , x 2 , . . . , x n ) X=(x_1, x_2, ..., x_n) X=(x1,x2,...,xn)吗？现在我们希望能够得到多个样本，但是又没办法重复抽样得到多个样本了，我们就只能利用已有的样本 X X X，通过它来重复产生样本。

很简单，我们每次剔除 X X X中的一个值就可以产生一个样本，这样我们一共可以产生 n n n个样本。第 i i i个样本为：

X ( i ) = ( x 1 , . . . , x i − 1 , x i + 1 , . . . , x n ) X_{(i)} = (x_1, ..., x_{i-1}, x_{i+1}, ..., x_n) X(i)=(x1,...,xi−1,xi+1,...,xn)

于是我们得到了新的 n n n个样本 X ( 1 ) , . . . , X ( n ) X_{(1)},...,X_{(n)} X(1),...,X(n)，我们通过这 n n n个样本计算出统计量 s s s的 n n n个值，通过 s ˉ \bar s sˉ来估计总体参数 θ \theta θ。最后我们还要考察统计量 s s s好不好。

以下记统计量为 θ ^ \hat \theta θ^。

记 θ ^ ( i ) = θ ^ ( x 1 , . . . , x i − 1 , x i + 1 , . . . , x n ) \hat \theta_{(i)} = \hat \theta(x_{1}, ..., x_{i-1}, x_{i+1}, ..., x_n) θ^(i)=θ^(x1,...,xi−1,xi+1,...,xn)，是代入样本 X ( i ) X_{(i)} X(i)后算出来统计量 θ ^ \hat \theta θ^的值，每个值都可以反映 θ \theta θ的大小。我们再将每次算出的值进行平均，构造出新的统计量 θ ^ ( . ) {\hat {\theta}}_{(.)} θ^(.)：

θ ^ ( . ) = 1 n ∑ i = 1 n θ ^ ( i ) {\hat {\theta}}_{(.)} = \frac{1}{n} \sum_{i=1}^{n} \hat \theta_{(i)} θ^(.)=n1i=1∑nθ^(i)

我们使用 θ ^ ( . ) {\hat {\theta}}_{(.)} θ^(.)来估计总体参数 θ \theta θ。

这个估计好吗？（ θ ^ \hat \theta θ^的性质）

下面我们来考察统计量 θ ^ ( . ) {\hat {\theta}}_{(.)} θ^(.)的好坏，衡量统计量好坏的指标有很多，这里我们选择的是【偏差】和【标准误差】。

由于之前的推导并没有对未知参数 θ \theta θ做出任何要求， θ \theta θ可以是期望、方差、峰度等等任何指标，如果要计算未知参数 θ \theta θ对应统计量的偏差和标准误差需要知道统计量的具体构造方法，因此仅仅是根据笼统的未知参数 θ \theta θ是不能具体计算的。下面分别在未知参数 θ \theta θ为总体方差和期望的两种情况下分别计算对应统计量的偏差和方差作为特例。

偏差

以总体方差 θ = σ 2 \theta = \sigma^2 θ=σ2为例，我们构造了统计量 θ ^ = σ ^ 2 = 1 n ∑ i = 1 n ( x i − x ˉ ) 2 \hat \theta = \hat \sigma^2 = \frac{1}{n}\sum_{i=1}^n (x_i - \bar x)^2 θ^=σ^2=n1∑i=1n(xi−xˉ)2，我们想知道这个统计量 θ ^ \hat \theta θ^是否无偏，我们可以考察统计量 θ ^ \hat \theta θ^的偏差 b i a s ( θ ^ ) bias(\hat \theta) bias(θ^)（是一个未知的数）：

b i a s ( θ ^ ) = E ( θ ^ ) − θ bias(\hat \theta) = E(\hat \theta) - \theta bias(θ^)=E(θ^)−θ

如果偏差 b i a s ( θ ^ ) = 0 bias(\hat \theta)=0 bias(θ^)=0，说明统计量 θ ^ \hat \theta θ^无偏。但是偏差 b i a s ( θ ^ ) = 0 bias(\hat \theta)=0 bias(θ^)=0是一个未知的数，我们只能通过构造统计量 b i a s ( θ ^ ) ^ \hat {bias(\hat \theta)} bias(θ^)^去估计 θ ^ \hat \theta θ^，构造方法如下：

用 E ^ ( θ ^ ) \hat E(\hat \theta) E^(θ^)来估计 E ( θ ^ ) E(\hat \theta) E(θ^)，即用样本均值估计期望。
用 θ ^ \hat \theta θ^来估计 θ \theta θ。

但是我们只有一个样本 X = ( x 1 , . . . , x n ) X = (x_1, ..., x_n) X=(x1,...,xn)，只能计算一个 θ ^ \hat \theta θ^的值，无法得到样本均值 E ^ ( θ ^ ) \hat E(\hat \theta) E^(θ^)。怎么办呢？我们使用Jackknife方法构造出新的n个样本 X ( 1 ) , . . . , X ( n ) X_{(1)},...,X_{(n)} X(1),...,X(n)，这样就可以得到多个 θ ^ \hat \theta θ^的值，从而计算除 E ^ ( θ ^ ) \hat E(\hat \theta) E^(θ^)了。

E ^ ( θ ^ ) = 1 n ∑ i = 1 n θ ^ ( i ) = θ ^ ( . ) \hat E(\hat \theta) = \frac{1}{n} \sum_{i=1}^{n} \hat \theta_{(i)} = \hat \theta_{(.)} E^(θ^)=n1i=1∑nθ^(i)=θ^(.)

b i a s ( θ ^ ) ^ = E ^ ( θ ^ ) − θ ^ = θ ^ ( . ) − θ ^ \hat {bias(\hat \theta)} = \hat E(\hat \theta) - \hat \theta= \hat \theta_{(.)} - \hat \theta bias(θ^)^=E^(θ^)−θ^=θ^(.)−θ^

其中：
θ ^ ( i ) = θ ^ ( X ( i ) ) \hat \theta_{(i)} = \hat \theta(X_{(i)}) θ^(i)=θ^(X(i))

θ ^ = θ ^ ( X ) \hat \theta = \hat \theta(X) θ^=θ^(X)

我们本意是查看统计量 θ ^ \hat \theta θ^的好坏，我们通过偏差 b i a s bias bias这个指标来衡量 θ ^ \hat \theta θ^的好坏。但是由于 b i a s bias bias是一个未知的数，我们只能通过构造统计量去估计它，于是我们构造出了 b i a s bias bias的统计量 b i a s ^ \hat {bias} bias^。我们构造出的这个统计量可能好可能不好，下面我们来计算统计量 b i a s ^ \hat {bias} bias^的期望（如果无偏则统计量 b i a s ^ \hat {bias} bias^好）：

E ( b i a s ( θ ^ ) ^ ) = E ( θ ^ ( . ) − θ ^ ) = E ( θ ^ ( . ) − θ ) + E ( θ − θ ^ ) = b i a s ( θ ^ ( . ) ) − b i a s ( θ ^ ) = − σ 2 n − 1 − ( − σ 2 n ) = − 1 n ( n − 1 ) σ 2 \begin{aligned} E(\hat {bias(\hat \theta)}) &= E(\hat \theta_{(.)} - \hat \theta) \\ &= E(\hat \theta_{(.)} - \theta) + E(\theta - \hat \theta) \\ &= bias(\hat \theta_{(.)}) - bias(\hat \theta)\\ &= -\frac{\sigma^2}{n-1} - (- \frac{\sigma^2}{n}) \\ &= -\frac{1}{n(n-1)} \sigma^2 \end{aligned} E(bias(θ^)^)=E(θ^(.)−θ^)=E(θ^(.)−θ)+E(θ−θ^)=bias(θ^(.))−bias(θ^)=−n−1σ2−(−nσ2)=−n(n−1)1σ2

「对上式倒数第二行的证明（回想一下 θ ^ \hat \theta θ^是什么，是 σ ^ 2 \hat \sigma^2 σ^2；回想一下 σ ^ 2 \hat \sigma^2 σ^2是什么，是 1 n ∑ i = 1 n ( x i − x ˉ ) 2 \frac{1}{n}\sum_{i=1}^n (x_i - \bar x)^2 n1∑i=1n(xi−xˉ)2，回想一下 x i x_i xi是什么……

【统计计算】关于Jackknife的理解和推导相关推荐

numpy 是否为零_一文看懂Numpy统计计算、数组比较
导读:工欲善其事,必先利其器.此前,我们在<玩数据必备Python库:Numpy使用详解>一文中介绍了利用Numpy进行矩阵运算的方法,本文继续介绍Numpy的统计计算及其他科学运算的方法 ...
Numpy统计计算、数组比较，看这篇就够了
导读:工欲善其事,必先利其器.此前,我们在<玩数据必备Python库:Numpy使用详解>一文中介绍了利用Numpy进行矩阵运算的方法,本文继续介绍Numpy的统计计算及其他科学运算的方法 ...
array用法 numpy_Numpy统计计算、数组比较，看这篇就够了
导读:工欲善其事,必先利其器.此前,我们在<玩数据必备Python库:Numpy使用详解>一文中介绍了利用Numpy进行矩阵运算的方法,本文继续介绍Numpy的统计计算及其他科学运算的方法 ...
UA STAT675 统计计算I 随机数生成7 Envelope Accept-Reject Algorithm
UA STAT675 统计计算I 随机数生成7 Envelope Accept-Reject Algorithm Squeeze Principle Atkinson's Poisson Simula ...
UA STAT675 统计计算I 随机数生成6 Accept-Reject Algorithm
UA STAT675 统计计算I 随机数生成6 Accept-Reject Algorithm 随机模拟基本定理(Fundamental Theorem of Simulation) 根据随机模拟基本 ...
UA MATH566 统计理论7 还有一个例子：推导卡方检验
UA MATH566 统计理论7 还有一个例子:推导卡方检验均值已知均值未知前面的文章中我们已经推导了Z检验和T检验,Z检验是方差已知时比较单个或两个正态总体均值的方法:T检验是方差未知时比较单 ...
卡尔曼滤波的理解、推导和应用
卡尔曼滤波的理解.推导和应用 1. 卡尔曼滤波简介 2. 卡尔曼滤波原理 3. 卡尔曼滤波的公式 3.1. 五个公式 3.2. 公式作用 4. 卡尔曼滤波的公式推导 4.1. 符号说明 4.2. 概念 ...
统计计算第五节课，Mante Calor方法（二）——减小估计量的方差
这是我上的统计计算课讲的主要内容,写在这可以互相交流,有些地方我不是很理解的会标出来(用加粗斜体*标出),求大佬在留言处表达自己的看法,另外如果有啥问题也可以在留言处留言,如果我看到了会回复这次的内 ...
matlab pq变换,PQ变换与DQ变换的理解与推导详解.doc
p-q变换与d-q变换的理解与推导 120变换和空间向量 120坐标系是一个静止的复数坐标系.120分量首先由莱昂(Lyon)提出,所以亦成为莱昂分量.下面以电流为例说明120变换...为三相电流瞬时 ...

【统计计算】关于Jackknife的理解和推导