【学习笔记】数理统计习题十二

Q1: Consider the multiple linear regression model
Y=Xβ+ϵ,\boldsymbol{Y} = \boldsymbol{X}\boldsymbol {\beta} + \boldsymbol\epsilon, Y=Xβ+ϵ,
where Y=(y1,…,yn)⊤\boldsymbol Y=(y_1,\dots,y_n)^\topY=(y1,…,yn)⊤, β=(β0,…,βp−1)⊤\boldsymbol\beta=(\beta_0,\dots,\beta_{p-1})^\topβ=(β0,…,βp−1)⊤, X\boldsymbol XX is the n×pn\times pn×p design matrix, and ϵ=(ϵ1,…,ϵn)⊤\boldsymbol\epsilon=(\epsilon_1,\dots,\epsilon_n)^\topϵ=(ϵ1,…,ϵn)⊤. Assume that rank(X)=p<n\mathrm{rank}(X)=p<nrank(X)=p<n, E[ϵ]=0E[\boldsymbol\epsilon]=\boldsymbol 0E[ϵ]=0, and Var[ϵ]=σ2In\mathrm{Var}[\boldsymbol\epsilon]= \sigma^2 I_nVar[ϵ]=σ2In with σ>0\sigma>0σ>0.

(a). Show that the covariance matrix of the least squares estimates is diagonal if and only if the columns of X\boldsymbol{X}X, X1,…,Xp\boldsymbol{X}_1,\dots,\boldsymbol{X}_pX1,…,Xp, are orthogonal, that is Xi⊤Xj=0\boldsymbol{X}_i^\top \boldsymbol{X}_j=0Xi⊤Xj=0 for i≠ji\neq ji=j.

(b). Let y^i\hat y_iy^i and ϵ^i\hat\epsilon_iϵ^i be the fitted values and the residuals, respectively. Show that nσ2=∑i=1nVar[y^i]+∑i=1nVar[ϵ^i]n\sigma^2 = \sum_{i=1}^n \mathrm{Var}[\hat y_i]+\sum_{i=1}^n\mathrm{Var}[\hat\epsilon_i]nσ2=∑i=1nVar[y^i]+∑i=1nVar[ϵ^i].

(c). Suppose further that ϵ∼N(0,σ2In)\boldsymbol\epsilon\sim N(\boldsymbol 0,\sigma^2 I_n)ϵ∼N(0,σ2In), and you use F test to handle the hypothesis
H0:β1=β2=⋯=βp−1=0vs.H1:∑i=1p−1βi2≠0.H_0: \beta_1=\beta_2=\dots=\beta_{p-1}=0\ vs.\ H_1:\sum_{i=1}^{p-1} \beta_i^2\neq0.H0:β1=β2=⋯=βp−1=0 vs. H1:i=1∑p−1βi2=0.If the coefficient of determination R2=0.58R^2=0.58R2=0.58, p=5p = 5p=5 and n=15n=15n=15, is the null rejected at the significance level α=0.05\alpha =0.05α=0.05?
(F0.95(4,10)=3.48,F0.95(5,10)=3.33,t0.95(10)=1.81F_{0.95}(4,10)=3.48,F_{0.95}(5,10)=3.33,t_{0.95}(10)=1.81F0.95(4,10)=3.48,F0.95(5,10)=3.33,t0.95(10)=1.81)

解：
(a) 可知最小二乘估计为β^=(XTX)−1XTY\hat\beta=(X^TX)^{-1}X^TYβ^=(XTX)−1XTY，有Var[β^]=σ2(XTX)−1Var[\hat\beta]=\sigma^2(X^TX)^{-1}Var[β^]=σ2(XTX)−1，如果Var[β^]Var[\hat\beta]Var[β^]是对角的，于是XTXX^TXXTX也是对角的，这表明矩阵X\pmb XXXX的列X1,X2,⋯,XnX_1,X_2,\cdots,X_nX1,X2,⋯,Xn是正交的，反之亦然。
(b) 残差为ϵ^=Y−Xβ^=Y−X(XTX)−1XTY=(In−P)Y\hat\epsilon=Y-X\hat\beta=Y-X(X^TX)^{-1}X^TY=(I_n-P)Y ϵ^=Y−Xβ^=Y−X(XTX)−1XTY=(In−P)Y其中P=X(XTX)−1XTP=X(X^TX)^{-1}X^TP=X(XTX)−1XT，又有Var[ϵ^]=Var[(In−P)Y]=(In−P)(σ2In)(In−P)TVar[\hat\epsilon]=Var[(I_n-P)Y]=(I_n-P)(\sigma^2I_n)(I_n-P)^T Var[ϵ^]=Var[(In−P)Y]=(In−P)(σ2In)(In−P)T同时，Var[Y^]=Var[PY]=P(σ2In)PT=σ2PVar[\hat Y]=Var[PY]=P(\sigma^2I_n)P^T=\sigma^2PVar[Y^]=Var[PY]=P(σ2In)PT=σ2P，于是Var[ϵ^]+Var[Y^]=σ2InVar[\hat\epsilon]+Var[\hat Y]=\sigma^2I_n Var[ϵ^]+Var[Y^]=σ2In因此∑i=1nVar[y^i]+∑i=1nVar[ϵ^i]=trace(σ2In)=nσ2\sum_{i=1}^n \mathrm{Var}[\hat y_i]+\sum_{i=1}^n\mathrm{Var}[\hat\epsilon_i]=trace(\sigma^2I_n)=n\sigma^2 i=1∑nVar[y^i]+i=1∑nVar[ϵ^i]=trace(σ2In)=nσ2 (c)检验统计量为F=SR2/(p−1)Se2/(n−p)=R2/(p−1)(1−R2)/(n−p)=0.58/4(1−0.58)/10=3.45<F0.95(4,10)=3.48F=\frac{S_R^2/(p-1)}{S_e^2/(n-p)}=\frac{R^2/(p-1)}{(1-R^2)/(n-p)}=\frac{0.58/4}{(1-0.58)/10}=3.45<F_{0.95}(4,10)=3.48 F=Se2/(n−p)SR2/(p−1)=(1−R2)/(n−p)R2/(p−1)=(1−0.58)/100.58/4=3.45<F0.95(4,10)=3.48因此我们接受原假设

Q2: Consider the multiple linear model Y=Xβ+ϵY = X\beta +\epsilonY=Xβ+ϵ, where XXX is the n×pn\times pn×p design matrix, β=(β0,…,βp−1)⊤\beta=(\beta_0,\dots,\beta_{p-1})^\topβ=(β0,…,βp−1)⊤ is a vector of ppp parameters, and the error ϵ∼N(0,σ2In)\epsilon\sim N(0,\sigma^2 I_n)ϵ∼N(0,σ2In).
Now consider the problem of estimating θ=β0+β1+⋯+βp−1\theta = \beta_0+\beta_1+\dots+\beta_{p-1}θ=β0+β1+⋯+βp−1. Assume that rank(X)=p<n\mathrm{rank}(X)=p<nrank(X)=p<n. Let β^=(β^0,…,β^p−1)⊤\hat\beta=(\hat\beta_0,\dots,\hat\beta_{p-1})^\topβ^=(β^0,…,β^p−1)⊤ be the least squares estimate of β\betaβ. Let θ^=β^0+β^1+⋯+β^p−1\hat\theta=\hat\beta_0+\hat\beta_1+\dots+\hat\beta_{p-1}θ^=β^0+β^1+⋯+β^p−1.

(a) Show that θ^\hat\thetaθ^ is an unbaised estimate of θ\thetaθ.
解：令α=(1,1,⋯,1)T\alpha=(1,1,\cdots,1)^Tα=(1,1,⋯,1)T，则θ^=αTβ^\hat\theta=\alpha^T\hat\betaθ^=αTβ^，注意到β^=(XTX)−1XTY\hat\beta=(X^TX)^{-1}X^TY β^=(XTX)−1XTY且E[β^]=(XTX)−1XTE[Y]=(XTX)−1XTXβ=β\mathbb E[\hat\beta]=(X^TX)^{-1}X^T\mathbb E[Y]=(X^TX)^{-1}X^TX\beta=\beta E[β^]=(XTX)−1XTE[Y]=(XTX)−1XTXβ=β因此，E[θ^]=αTE[β^]=αTβ=θ\mathbb E[\hat\theta]=\alpha^T\mathbb E[\hat\beta]=\alpha^T\beta=\thetaE[θ^]=αTE[β^]=αTβ=θ，故，θ^\hat\thetaθ^是θ\thetaθ的无偏估计

(b) Find the variance of the estimate θ^\hat\thetaθ^.
解：注意到Var[β^]=σ2(XTX)−1Var[\hat\beta]=\sigma^2(X^TX)^{-1}Var[β^]=σ2(XTX)−1，因此，我们有Var[θ^]=Var[αTβ^]=σ2αT(XTX)−1αVar[\hat\theta]=Var[\alpha^T\hat\beta]=\sigma^2\alpha^T(X^TX)^{-1}\alpha Var[θ^]=Var[αTβ^]=σ2αT(XTX)−1α

(c) Let θ^c=c⊤Y\hat\theta_c=c^\top Yθ^c=c⊤Y be an unbiased estimate of θ\thetaθ for any β∈Rp×1\beta\in \mathbb{R}^{p\times 1}β∈Rp×1, where c∈Rn×1c\in \mathbb{R}^{n\times 1}c∈Rn×1 is any fixed vector. Prove that Var(θ^c)≥Var(θ^)\mathrm{Var}(\hat\theta_c)\ge \mathrm{Var}(\hat\theta)Var(θ^c)≥Var(θ^). (Notice that θ^\hat\thetaθ^ is also a linear combination of yiy_iyi. This result implies that θ^\hat\thetaθ^ is the best linear unbiased estimator for θ\thetaθ.)
解：因为
E[θ^c]=E(cTY)=cTXβ=αTβ\mathbb E[\hat\theta_c]=\mathbb E(c^T\pmb Y)=c^T\pmb X\beta=\alpha^T\beta E[θ^c]=E(cTYYY)=cTXXXβ=αTβ 这里的β\betaβ是任意的，且注意到θ^=αTβ^=cTXβ^=cTY^\hat\theta=\alpha^T\hat\beta=c^TX\hat\beta=c^T\hat Y θ^=αTβ^=cTXβ^=cTY^和θ^c=cTY=cT(Y^+ϵ^)\hat\theta_c=c^TY=c^T(\hat Y+\hat\epsilon) θ^c=cTY=cT(Y^+ϵ^)已知Y^,ϵ^\hat Y,\hat\epsilonY^,ϵ^相互独立，因此有Var[θ^c]=Var[cT(Y^+ϵ^)]=Var[cTY^]+Var[cTϵ^]≥Var[cTY^]=Var[θ^]Var[\hat\theta_c]=Var[c^T(\hat Y+\hat\epsilon)]=Var[c^T\hat Y]+Var[c^T\hat\epsilon]\ge Var[c^T\hat Y]=Var[\hat\theta] Var[θ^c]=Var[cT(Y^+ϵ^)]=Var[cTY^]+Var[cTϵ^]≥Var[cTY^]=Var[θ^]

Q3: Consider the simple linear model

yi=β0+β1xi+ϵi,ϵi∼iidN(0,σ2).y_i= \beta_0+\beta_1x_i+\epsilon_i,\ \epsilon_i\stackrel{iid}{\sim} N(0,\sigma^2).yi=β0+β1xi+ϵi, ϵi∼iidN(0,σ2).

Use the F-test method derived in the multiple linear model to test the hypothesis H0:β1=0vs.H1:β1≠0H_0:\beta_1=0\ vs.\ H_1:\beta_1\neq 0H0:β1=0 vs. H1:β1=0, and see whether the F-test agrees with the earlier t-test derived in the simple linear models.
解：用FFF检验，考虑检验统计量
F=SR2(p−1)Se2/(n−p)=SR2Se2/(n−2)F=\frac{S_R^2(p-1)}{S_e^2/(n-p)}=\frac{S_R^2}{S_e^2/(n-2)} F=Se2/(n−p)SR2(p−1)=Se2/(n−2)SR2其中SR2=∑i=1n(y^i−yˉ)2=∑i=1n(β^0+β^1xi−yˉ)2=∑i=1n(yˉ−β^1xˉ+β^1xi−yˉ)2=β^12∑i=1n(xi−xˉ)2=β^12ℓxxS_R^2=\sum_{i=1}^n(\hat y_i-\bar{y})^2=\sum_{i=1}^n(\hat\beta_0+\hat\beta_1x_i-\bar{y})^2=\sum_{i=1}^n(\bar y-\hat\beta_1\bar x+\hat\beta_1x_i-\bar{y})^2=\hat\beta_1^2\sum_{i=1}^n(x_i-\bar x)^2=\hat\beta_1^2\ell_{xx} SR2=i=1∑n(y^i−yˉ)2=i=1∑n(β^0+β^1xi−yˉ)2=i=1∑n(yˉ−β^1xˉ+β^1xi−yˉ)2=β^12i=1∑n(xi−xˉ)2=β^12ℓxx早期线性模型的ttt分布，有检验统计量
t=β^1σ^ℓxx∼t(n−2)t=\frac{\hat{\beta}_1}{\hat{\sigma}}\sqrt{\ell_{xx}}\sim t(n-2) t=σ^β^1ℓxx∼t(n−2)其中σ^2=Se2/(n−2)\hat\sigma^2=S_e^2/(n-2)σ^2=Se2/(n−2)，即
t=β^1σ^ℓxx=β^1ℓxxSe2/(n−2)=F∼t(n−2)t=\frac{\hat{\beta}_1}{\hat{\sigma}}\sqrt{\ell_{xx}}=\frac{\hat{\beta}_1\sqrt{\ell_{xx}}}{\sqrt {S_e^2/(n-2)}}=\sqrt{F}\sim t(n-2) t=σ^β^1ℓxx=Se2/(n−2)β^1ℓxx=F∼t(n−2)所以FFF检验是否与早期简单线性模型中的ttt检验一致

Q4: Consider the linear model in matrix formalism

Y=Xβ+ϵ,\boldsymbol{Y} = \boldsymbol{X}\boldsymbol {\beta} + \boldsymbol\epsilon, Y=Xβ+ϵ,
where Y=(y1,…,yn)⊤\boldsymbol Y=(y_1,\dots,y_n)^\topY=(y1,…,yn)⊤, β=(β0,…,βp−1)⊤\boldsymbol\beta=(\beta_0,\dots,\beta_{p-1})^\topβ=(β0,…,βp−1)⊤, X\boldsymbol XX is the n×pn\times pn×p design matrix, and ϵ=(ϵ1,…,ϵn)⊤∼N(0,σ2In)\boldsymbol\epsilon=(\epsilon_1,\dots,\epsilon_n)^\top\sim N(\boldsymbol 0,\sigma^2 I_n)ϵ=(ϵ1,…,ϵn)⊤∼N(0,σ2In) with unknown σ>0\sigma>0σ>0. Assume that rank(X)=r<p\mathrm{rank}(\boldsymbol{X})=r<prank(X)=r<p.

(a) Show that the least squares estimator (LSE) for β\boldsymbol\betaβ is not unique.
解：最小二乘估计β^\hat\betaβ^最小化，
Q(β)=(Y−Xβ)T(Y−Xβ)Q(\beta)=(\pmb Y-\pmb X\beta)^T(\pmb Y-\pmb X\beta) Q(β)=(YYY−XXXβ)T(YYY−XXXβ) 于是我们可以得到正规方程
XTXβ^=XTYX^TX\hat\beta=X^TY XTXβ^=XTY 故该线性方程组的增广矩阵为(XTX,XTY)(X^TX,X^TY)(XTX,XTY)，

首先，易知rank(X)=rank(XT)=rank(XTX)=r<prank(X)=rank(X^T)=rank(X^TX)=r<prank(X)=rank(XT)=rank(XTX)=r<p，

有rank(XTX,XTY)≥rank(XTX)=rrank(X^TX,X^TY)\geq rank(X^TX)=rrank(XTX,XTY)≥rank(XTX)=r，

又有(XTX,XTY)=XT(X,Y)(X^TX,X^TY)=X^T(X,Y)(XTX,XTY)=XT(X,Y)，

从而rank(XTX,XTY)≤min(rank(XT),rank(X,Y))=rank(XT)=rrank(X^TX,X^TY)\leq min(rank(X^T),rank(X,Y))=rank(X^T)=rrank(XTX,XTY)≤min(rank(XT),rank(X,Y))=rank(XT)=r，

可知，rank(XTX)=rank(XTX,XTY)=rrank(X^TX)=rank(X^TX,X^TY)=rrank(XTX)=rank(XTX,XTY)=r，

系数矩阵的秩与增广矩阵的秩相等，因此该方程组有解

又rank(XTX)=r<prank(X^TX)=r<prank(XTX)=r<p，所以，该线性方程组有无穷多解

综上，此时β\betaβ的最小二乘估计不唯一

(b) Show that there exists an n×rn\times rn×r submatrix X∗\boldsymbol{X}^*X∗ of X\boldsymbol{X}X with rank rrr such that X=X∗Q\boldsymbol{X}=\boldsymbol{X}^*\boldsymbol{Q}X=X∗Q, where Q\boldsymbol{Q}Q is a r×pr\times pr×p matrix.

解：因为XXX的秩为rrr, 不失一般性, 不妨假设XXX的前rrr列线性无关, 取X∗X^∗X∗为这rrr列构成的子矩阵. 剩下的p−rp − rp−r列，可由前rrr列线性表示, 所以存在矩阵QQQ使得X=X∗QX = X^∗QX=X∗Q

(c) Let β∗=Qβ\boldsymbol\beta^* = \boldsymbol{Q\beta}β∗=Qβ. Then the linear model becomes Y=X∗β∗+ϵ\boldsymbol{Y} = \boldsymbol{X}^*\boldsymbol {\beta}^* + \boldsymbol\epsilonY=X∗β∗+ϵ. Find an LSE for β∗\boldsymbol\beta^*β∗ and show that the LSE is unique. Find an unbiased estimate of σ2\sigma^2σ2 and show its variance.
解：注意到rank(X∗)=rrank(X^*)=rrank(X∗)=r，故X∗X^*X∗列满秩，X∗TX∗X^{*T}X^*X∗TX∗可逆，所以最小二乘估计唯一，为β^∗=(X∗TX∗)−1X∗TY\hat{\beta}^*=(X^{*T}X^*)^{-1}X^{*T}Yβ^∗=(X∗TX∗)−1X∗TY，有E(Se2)=(n−r)σ2\mathbb E(S_e^2)=(n-r)\sigma^2E(Se2)=(n−r)σ2，所以σ2\sigma^2σ2的无偏估计为σ^2=Se2/(n−r)\hat\sigma^2=S_e^2/(n-r)σ^2=Se2/(n−r)，由抽样分布定理知道(n−r)σ^2/σ2∼χ2(n−r)(n-r)\hat\sigma^2/\sigma^2\sim\chi^2(n-r)(n−r)σ^2/σ2∼χ2(n−r)，所以
Var[σ^2]=2σ4n−rVar[\hat\sigma^2]=\frac{2\sigma^4}{n-r} Var[σ^2]=n−r2σ4

【学习笔记】数理统计习题十二相关推荐

OpenCV学习笔记（五十一）——imge stitching图像拼接stitching OpenCV学习笔记（五十二）——号外：OpenCV 2.4.1 又出来了。。。。。 OpenCV学习笔记（五
OpenCV学习笔记(五十一)--imge stitching图像拼接stitching stitching是OpenCV2.4.0一个新模块,功能是实现图像拼接,所有的相关函数都被封装在Stitch ...
OpenCV学习笔记（四十一）——再看基础数据结构core OpenCV学习笔记（四十二）——Mat数据操作之普通青年、文艺青年、暴力青年 OpenCV学习笔记（四十三）——存取像素值操作汇总co
OpenCV学习笔记(四十一)--再看基础数据结构core 记得我在OpenCV学习笔记(四)--新版本的数据结构core里面讲过新版本的数据结构了,可是我再看这部分的时候,我发现我当时实在是看得太马 ...
OpenCV学习笔记（三十一）——让demo在他人电脑跑起来 OpenCV学习笔记（三十二）——制作静态库的demo，没有dll也能hold住 OpenCV学习笔记（三十三）——用haar特征训练自己
OpenCV学习笔记(三十一)--让demo在他人电脑跑起来这一节的内容感觉比较土鳖.这从来就是一个老生常谈的问题.学MFC的时候就知道这个事情了,那时候记得老师强调多次,如果写的demo想在人家那 ...
Slicer学习笔记（六十二）slicer下导出模块接口
Slicer学习笔记(六十二)slicer下导出模块接口 1. 参考文件实现 1. 参考文件实现通过配置config_file为每一个生成类添加 Export,并为每个Module生成 Export ...
Slicer学习笔记（四十二）slicer c++源码编译
Slicer学习笔记(四十二)slicer c++源码编译 1.cmake生成项目 2.编译失败的原因汇总 2.1.下载代码失败之前在windows下编译slicer,没有做笔记. 后面再次编译还会 ...
【OS学习笔记】三十二保护模式九：分页机制对应的汇编代码之---内核代码
本片文章是以下两篇文章: [OS学习笔记]三十保护模式九:段页式内存管理机制概述 [OS学习笔记]三十一保护模式九:页目录.页表和页三者的关系详解对应的内核汇编代码. ;代码清单16-1;文件名 ...
OpenCV学习笔记（四十二）——Mat数据操作之普通青年、文艺青年、暴力青年
首先还是要感谢箫鸣朋友在我<OpenCV学习笔记(四十)--再谈OpenCV数据结构Mat详解>的留言,告诉我M.at<float>(3, 3)在Debug模式下运行缓慢,推荐 ...
jquery设置宽_JavaScript学习笔记（三十二） jQuery（中）
jQuery 昨天讲了 jQuery 的基本选择器筛选器和属性操作今天来说一些 jQuery 别的东西元素操作创建一个元素 var div = $(') 内部插入元素 // 向 div 元素中插 ...
Dynamic CRM 2013学习笔记（四十二）流程5 - 实时/同步工作流（Workflow）用法图解...
实时工作流跟插件一样,也是用事件执行管道来执行,能在pre,post或核心操作中执行.跟插件一样,不能在创建之前和删除之后执行.如果执行过程中有异常发生,会取消并回滚整个操作.实时工作流里所有的活动和 ...
系统架构师学习笔记_第十二章_连载
第十二章系统安全架构设计 12.1 信息系统安全架构的简单描述信息安全的特征是为了保证信息的机密性.完整性.可用性.可控性.不可抵赖性. 以风险策略为基础. 12.1.1 信息安全的现状 ...

【学习笔记】数理统计习题十二

【学习笔记】数理统计习题十二相关推荐

最新文章

热门文章