【学习笔记】数理统计习题十二
Q1: Consider the multiple linear regression model
Y=Xβ+ϵ,\boldsymbol{Y} = \boldsymbol{X}\boldsymbol {\beta} + \boldsymbol\epsilon, Y=Xβ+ϵ,
where Y=(y1,…,yn)⊤\boldsymbol Y=(y_1,\dots,y_n)^\topY=(y1,…,yn)⊤, β=(β0,…,βp−1)⊤\boldsymbol\beta=(\beta_0,\dots,\beta_{p-1})^\topβ=(β0,…,βp−1)⊤, X\boldsymbol XX is the n×pn\times pn×p design matrix, and ϵ=(ϵ1,…,ϵn)⊤\boldsymbol\epsilon=(\epsilon_1,\dots,\epsilon_n)^\topϵ=(ϵ1,…,ϵn)⊤. Assume that rank(X)=p<n\mathrm{rank}(X)=p<nrank(X)=p<n, E[ϵ]=0E[\boldsymbol\epsilon]=\boldsymbol 0E[ϵ]=0, and Var[ϵ]=σ2In\mathrm{Var}[\boldsymbol\epsilon]= \sigma^2 I_nVar[ϵ]=σ2In with σ>0\sigma>0σ>0.
(a). Show that the covariance matrix of the least squares estimates is diagonal if and only if the columns of X\boldsymbol{X}X, X1,…,Xp\boldsymbol{X}_1,\dots,\boldsymbol{X}_pX1,…,Xp, are orthogonal, that is Xi⊤Xj=0\boldsymbol{X}_i^\top \boldsymbol{X}_j=0Xi⊤Xj=0 for i≠ji\neq ji=j.
(b). Let y^i\hat y_iy^i and ϵ^i\hat\epsilon_iϵ^i be the fitted values and the residuals, respectively. Show that nσ2=∑i=1nVar[y^i]+∑i=1nVar[ϵ^i]n\sigma^2 = \sum_{i=1}^n \mathrm{Var}[\hat y_i]+\sum_{i=1}^n\mathrm{Var}[\hat\epsilon_i]nσ2=∑i=1nVar[y^i]+∑i=1nVar[ϵ^i].
(c). Suppose further that ϵ∼N(0,σ2In)\boldsymbol\epsilon\sim N(\boldsymbol 0,\sigma^2 I_n)ϵ∼N(0,σ2In), and you use F test to handle the hypothesis
H0:β1=β2=⋯=βp−1=0vs.H1:∑i=1p−1βi2≠0.H_0: \beta_1=\beta_2=\dots=\beta_{p-1}=0\ vs.\ H_1:\sum_{i=1}^{p-1} \beta_i^2\neq0.H0:β1=β2=⋯=βp−1=0 vs. H1:i=1∑p−1βi2=0.If the coefficient of determination R2=0.58R^2=0.58R2=0.58, p=5p = 5p=5 and n=15n=15n=15, is the null rejected at the significance level α=0.05\alpha =0.05α=0.05?
(F0.95(4,10)=3.48,F0.95(5,10)=3.33,t0.95(10)=1.81F_{0.95}(4,10)=3.48,F_{0.95}(5,10)=3.33,t_{0.95}(10)=1.81F0.95(4,10)=3.48,F0.95(5,10)=3.33,t0.95(10)=1.81)
解:
(a) 可知最小二乘估计为β^=(XTX)−1XTY\hat\beta=(X^TX)^{-1}X^TYβ^=(XTX)−1XTY,有Var[β^]=σ2(XTX)−1Var[\hat\beta]=\sigma^2(X^TX)^{-1}Var[β^]=σ2(XTX)−1,如果Var[β^]Var[\hat\beta]Var[β^]是对角的,于是XTXX^TXXTX也是对角的,这表明矩阵X\pmb XXXX的列X1,X2,⋯,XnX_1,X_2,\cdots,X_nX1,X2,⋯,Xn是正交的,反之亦然。
(b) 残差为ϵ^=Y−Xβ^=Y−X(XTX)−1XTY=(In−P)Y\hat\epsilon=Y-X\hat\beta=Y-X(X^TX)^{-1}X^TY=(I_n-P)Y ϵ^=Y−Xβ^=Y−X(XTX)−1XTY=(In−P)Y其中P=X(XTX)−1XTP=X(X^TX)^{-1}X^TP=X(XTX)−1XT,又有Var[ϵ^]=Var[(In−P)Y]=(In−P)(σ2In)(In−P)TVar[\hat\epsilon]=Var[(I_n-P)Y]=(I_n-P)(\sigma^2I_n)(I_n-P)^T Var[ϵ^]=Var[(In−P)Y]=(In−P)(σ2In)(In−P)T同时,Var[Y^]=Var[PY]=P(σ2In)PT=σ2PVar[\hat Y]=Var[PY]=P(\sigma^2I_n)P^T=\sigma^2PVar[Y^]=Var[PY]=P(σ2In)PT=σ2P,于是Var[ϵ^]+Var[Y^]=σ2InVar[\hat\epsilon]+Var[\hat Y]=\sigma^2I_n Var[ϵ^]+Var[Y^]=σ2In因此∑i=1nVar[y^i]+∑i=1nVar[ϵ^i]=trace(σ2In)=nσ2\sum_{i=1}^n \mathrm{Var}[\hat y_i]+\sum_{i=1}^n\mathrm{Var}[\hat\epsilon_i]=trace(\sigma^2I_n)=n\sigma^2 i=1∑nVar[y^i]+i=1∑nVar[ϵ^i]=trace(σ2In)=nσ2 (c)检验统计量为F=SR2/(p−1)Se2/(n−p)=R2/(p−1)(1−R2)/(n−p)=0.58/4(1−0.58)/10=3.45<F0.95(4,10)=3.48F=\frac{S_R^2/(p-1)}{S_e^2/(n-p)}=\frac{R^2/(p-1)}{(1-R^2)/(n-p)}=\frac{0.58/4}{(1-0.58)/10}=3.45<F_{0.95}(4,10)=3.48 F=Se2/(n−p)SR2/(p−1)=(1−R2)/(n−p)R2/(p−1)=(1−0.58)/100.58/4=3.45<F0.95(4,10)=3.48因此我们接受原假设
Q2: Consider the multiple linear model Y=Xβ+ϵY = X\beta +\epsilonY=Xβ+ϵ, where XXX is the n×pn\times pn×p design matrix, β=(β0,…,βp−1)⊤\beta=(\beta_0,\dots,\beta_{p-1})^\topβ=(β0,…,βp−1)⊤ is a vector of ppp parameters, and the error ϵ∼N(0,σ2In)\epsilon\sim N(0,\sigma^2 I_n)ϵ∼N(0,σ2In).
Now consider the problem of estimating θ=β0+β1+⋯+βp−1\theta = \beta_0+\beta_1+\dots+\beta_{p-1}θ=β0+β1+⋯+βp−1. Assume that rank(X)=p<n\mathrm{rank}(X)=p<nrank(X)=p<n. Let β^=(β^0,…,β^p−1)⊤\hat\beta=(\hat\beta_0,\dots,\hat\beta_{p-1})^\topβ^=(β^0,…,β^p−1)⊤ be the least squares estimate of β\betaβ. Let θ^=β^0+β^1+⋯+β^p−1\hat\theta=\hat\beta_0+\hat\beta_1+\dots+\hat\beta_{p-1}θ^=β^0+β^1+⋯+β^p−1.
(a) Show that θ^\hat\thetaθ^ is an unbaised estimate of θ\thetaθ.
解: 令α=(1,1,⋯,1)T\alpha=(1,1,\cdots,1)^Tα=(1,1,⋯,1)T,则θ^=αTβ^\hat\theta=\alpha^T\hat\betaθ^=αTβ^,注意到β^=(XTX)−1XTY\hat\beta=(X^TX)^{-1}X^TY β^=(XTX)−1XTY且E[β^]=(XTX)−1XTE[Y]=(XTX)−1XTXβ=β\mathbb E[\hat\beta]=(X^TX)^{-1}X^T\mathbb E[Y]=(X^TX)^{-1}X^TX\beta=\beta E[β^]=(XTX)−1XTE[Y]=(XTX)−1XTXβ=β因此,E[θ^]=αTE[β^]=αTβ=θ\mathbb E[\hat\theta]=\alpha^T\mathbb E[\hat\beta]=\alpha^T\beta=\thetaE[θ^]=αTE[β^]=αTβ=θ,故,θ^\hat\thetaθ^是θ\thetaθ的无偏估计
(b) Find the variance of the estimate θ^\hat\thetaθ^.
解: 注意到Var[β^]=σ2(XTX)−1Var[\hat\beta]=\sigma^2(X^TX)^{-1}Var[β^]=σ2(XTX)−1,因此,我们有Var[θ^]=Var[αTβ^]=σ2αT(XTX)−1αVar[\hat\theta]=Var[\alpha^T\hat\beta]=\sigma^2\alpha^T(X^TX)^{-1}\alpha Var[θ^]=Var[αTβ^]=σ2αT(XTX)−1α
(c) Let θ^c=c⊤Y\hat\theta_c=c^\top Yθ^c=c⊤Y be an unbiased estimate of θ\thetaθ for any β∈Rp×1\beta\in \mathbb{R}^{p\times 1}β∈Rp×1, where c∈Rn×1c\in \mathbb{R}^{n\times 1}c∈Rn×1 is any fixed vector. Prove that Var(θ^c)≥Var(θ^)\mathrm{Var}(\hat\theta_c)\ge \mathrm{Var}(\hat\theta)Var(θ^c)≥Var(θ^). (Notice that θ^\hat\thetaθ^ is also a linear combination of yiy_iyi. This result implies that θ^\hat\thetaθ^ is the best linear unbiased estimator for θ\thetaθ.)
解: 因为
E[θ^c]=E(cTY)=cTXβ=αTβ\mathbb E[\hat\theta_c]=\mathbb E(c^T\pmb Y)=c^T\pmb X\beta=\alpha^T\beta E[θ^c]=E(cTYYY)=cTXXXβ=αTβ 这里的β\betaβ是任意的,且注意到θ^=αTβ^=cTXβ^=cTY^\hat\theta=\alpha^T\hat\beta=c^TX\hat\beta=c^T\hat Y θ^=αTβ^=cTXβ^=cTY^和θ^c=cTY=cT(Y^+ϵ^)\hat\theta_c=c^TY=c^T(\hat Y+\hat\epsilon) θ^c=cTY=cT(Y^+ϵ^)已知Y^,ϵ^\hat Y,\hat\epsilonY^,ϵ^相互独立,因此有Var[θ^c]=Var[cT(Y^+ϵ^)]=Var[cTY^]+Var[cTϵ^]≥Var[cTY^]=Var[θ^]Var[\hat\theta_c]=Var[c^T(\hat Y+\hat\epsilon)]=Var[c^T\hat Y]+Var[c^T\hat\epsilon]\ge Var[c^T\hat Y]=Var[\hat\theta] Var[θ^c]=Var[cT(Y^+ϵ^)]=Var[cTY^]+Var[cTϵ^]≥Var[cTY^]=Var[θ^]
Q3: Consider the simple linear model
yi=β0+β1xi+ϵi,ϵi∼iidN(0,σ2).y_i= \beta_0+\beta_1x_i+\epsilon_i,\ \epsilon_i\stackrel{iid}{\sim} N(0,\sigma^2).yi=β0+β1xi+ϵi, ϵi∼iidN(0,σ2).
Use the F-test method derived in the multiple linear model to test the hypothesis H0:β1=0vs.H1:β1≠0H_0:\beta_1=0\ vs.\ H_1:\beta_1\neq 0H0:β1=0 vs. H1:β1=0, and see whether the F-test agrees with the earlier t-test derived in the simple linear models.
解: 用FFF检验,考虑检验统计量
F=SR2(p−1)Se2/(n−p)=SR2Se2/(n−2)F=\frac{S_R^2(p-1)}{S_e^2/(n-p)}=\frac{S_R^2}{S_e^2/(n-2)} F=Se2/(n−p)SR2(p−1)=Se2/(n−2)SR2其中SR2=∑i=1n(y^i−yˉ)2=∑i=1n(β^0+β^1xi−yˉ)2=∑i=1n(yˉ−β^1xˉ+β^1xi−yˉ)2=β^12∑i=1n(xi−xˉ)2=β^12ℓxxS_R^2=\sum_{i=1}^n(\hat y_i-\bar{y})^2=\sum_{i=1}^n(\hat\beta_0+\hat\beta_1x_i-\bar{y})^2=\sum_{i=1}^n(\bar y-\hat\beta_1\bar x+\hat\beta_1x_i-\bar{y})^2=\hat\beta_1^2\sum_{i=1}^n(x_i-\bar x)^2=\hat\beta_1^2\ell_{xx} SR2=i=1∑n(y^i−yˉ)2=i=1∑n(β^0+β^1xi−yˉ)2=i=1∑n(yˉ−β^1xˉ+β^1xi−yˉ)2=β^12i=1∑n(xi−xˉ)2=β^12ℓxx早期线性模型的ttt分布,有检验统计量
t=β^1σ^ℓxx∼t(n−2)t=\frac{\hat{\beta}_1}{\hat{\sigma}}\sqrt{\ell_{xx}}\sim t(n-2) t=σ^β^1ℓxx∼t(n−2)其中σ^2=Se2/(n−2)\hat\sigma^2=S_e^2/(n-2)σ^2=Se2/(n−2),即
t=β^1σ^ℓxx=β^1ℓxxSe2/(n−2)=F∼t(n−2)t=\frac{\hat{\beta}_1}{\hat{\sigma}}\sqrt{\ell_{xx}}=\frac{\hat{\beta}_1\sqrt{\ell_{xx}}}{\sqrt {S_e^2/(n-2)}}=\sqrt{F}\sim t(n-2) t=σ^β^1ℓxx=Se2/(n−2)β^1ℓxx=F∼t(n−2)所以FFF检验是否与早期简单线性模型中的ttt检验一致
Q4: Consider the linear model in matrix formalism
Y=Xβ+ϵ,\boldsymbol{Y} = \boldsymbol{X}\boldsymbol {\beta} + \boldsymbol\epsilon, Y=Xβ+ϵ,
where Y=(y1,…,yn)⊤\boldsymbol Y=(y_1,\dots,y_n)^\topY=(y1,…,yn)⊤, β=(β0,…,βp−1)⊤\boldsymbol\beta=(\beta_0,\dots,\beta_{p-1})^\topβ=(β0,…,βp−1)⊤, X\boldsymbol XX is the n×pn\times pn×p design matrix, and ϵ=(ϵ1,…,ϵn)⊤∼N(0,σ2In)\boldsymbol\epsilon=(\epsilon_1,\dots,\epsilon_n)^\top\sim N(\boldsymbol 0,\sigma^2 I_n)ϵ=(ϵ1,…,ϵn)⊤∼N(0,σ2In) with unknown σ>0\sigma>0σ>0. Assume that rank(X)=r<p\mathrm{rank}(\boldsymbol{X})=r<prank(X)=r<p.
(a) Show that the least squares estimator (LSE) for β\boldsymbol\betaβ is not unique.
解: 最小二乘估计β^\hat\betaβ^最小化,
Q(β)=(Y−Xβ)T(Y−Xβ)Q(\beta)=(\pmb Y-\pmb X\beta)^T(\pmb Y-\pmb X\beta) Q(β)=(YYY−XXXβ)T(YYY−XXXβ) 于是我们可以得到正规方程
XTXβ^=XTYX^TX\hat\beta=X^TY XTXβ^=XTY 故该线性方程组的增广矩阵为(XTX,XTY)(X^TX,X^TY)(XTX,XTY),
首先,易知rank(X)=rank(XT)=rank(XTX)=r<prank(X)=rank(X^T)=rank(X^TX)=r<prank(X)=rank(XT)=rank(XTX)=r<p,
有rank(XTX,XTY)≥rank(XTX)=rrank(X^TX,X^TY)\geq rank(X^TX)=rrank(XTX,XTY)≥rank(XTX)=r,
又有(XTX,XTY)=XT(X,Y)(X^TX,X^TY)=X^T(X,Y)(XTX,XTY)=XT(X,Y),
从而rank(XTX,XTY)≤min(rank(XT),rank(X,Y))=rank(XT)=rrank(X^TX,X^TY)\leq min(rank(X^T),rank(X,Y))=rank(X^T)=rrank(XTX,XTY)≤min(rank(XT),rank(X,Y))=rank(XT)=r,
可知,rank(XTX)=rank(XTX,XTY)=rrank(X^TX)=rank(X^TX,X^TY)=rrank(XTX)=rank(XTX,XTY)=r,
系数矩阵的秩与增广矩阵的秩相等,因此该方程组有解
又rank(XTX)=r<prank(X^TX)=r<prank(XTX)=r<p,所以,该线性方程组有无穷多解
综上,此时β\betaβ的最小二乘估计不唯一
(b) Show that there exists an n×rn\times rn×r submatrix X∗\boldsymbol{X}^*X∗ of X\boldsymbol{X}X with rank rrr such that X=X∗Q\boldsymbol{X}=\boldsymbol{X}^*\boldsymbol{Q}X=X∗Q, where Q\boldsymbol{Q}Q is a r×pr\times pr×p matrix.
解: 因为XXX的秩为rrr, 不失一般性, 不妨假设XXX的前rrr列线性无关, 取X∗X^∗X∗为这rrr列构成的子矩阵. 剩下的p−rp − rp−r列,可由前rrr列线性表示, 所以存在矩阵QQQ使得X=X∗QX = X^∗QX=X∗Q
(c) Let β∗=Qβ\boldsymbol\beta^* = \boldsymbol{Q\beta}β∗=Qβ. Then the linear model becomes Y=X∗β∗+ϵ\boldsymbol{Y} = \boldsymbol{X}^*\boldsymbol {\beta}^* + \boldsymbol\epsilonY=X∗β∗+ϵ. Find an LSE for β∗\boldsymbol\beta^*β∗ and show that the LSE is unique. Find an unbiased estimate of σ2\sigma^2σ2 and show its variance.
解: 注意到rank(X∗)=rrank(X^*)=rrank(X∗)=r,故X∗X^*X∗列满秩,X∗TX∗X^{*T}X^*X∗TX∗可逆,所以最小二乘估计唯一,为β^∗=(X∗TX∗)−1X∗TY\hat{\beta}^*=(X^{*T}X^*)^{-1}X^{*T}Yβ^∗=(X∗TX∗)−1X∗TY,有E(Se2)=(n−r)σ2\mathbb E(S_e^2)=(n-r)\sigma^2E(Se2)=(n−r)σ2,所以σ2\sigma^2σ2的无偏估计为σ^2=Se2/(n−r)\hat\sigma^2=S_e^2/(n-r)σ^2=Se2/(n−r),由抽样分布定理知道(n−r)σ^2/σ2∼χ2(n−r)(n-r)\hat\sigma^2/\sigma^2\sim\chi^2(n-r)(n−r)σ^2/σ2∼χ2(n−r),所以
Var[σ^2]=2σ4n−rVar[\hat\sigma^2]=\frac{2\sigma^4}{n-r} Var[σ^2]=n−r2σ4
【学习笔记】数理统计习题十二相关推荐
- OpenCV学习笔记(五十一)——imge stitching图像拼接stitching OpenCV学习笔记(五十二)——号外:OpenCV 2.4.1 又出来了。。。。。 OpenCV学习笔记(五
OpenCV学习笔记(五十一)--imge stitching图像拼接stitching stitching是OpenCV2.4.0一个新模块,功能是实现图像拼接,所有的相关函数都被封装在Stitch ...
- OpenCV学习笔记(四十一)——再看基础数据结构core OpenCV学习笔记(四十二)——Mat数据操作之普通青年、文艺青年、暴力青年 OpenCV学习笔记(四十三)——存取像素值操作汇总co
OpenCV学习笔记(四十一)--再看基础数据结构core 记得我在OpenCV学习笔记(四)--新版本的数据结构core里面讲过新版本的数据结构了,可是我再看这部分的时候,我发现我当时实在是看得太马 ...
- OpenCV学习笔记(三十一)——让demo在他人电脑跑起来 OpenCV学习笔记(三十二)——制作静态库的demo,没有dll也能hold住 OpenCV学习笔记(三十三)——用haar特征训练自己
OpenCV学习笔记(三十一)--让demo在他人电脑跑起来 这一节的内容感觉比较土鳖.这从来就是一个老生常谈的问题.学MFC的时候就知道这个事情了,那时候记得老师强调多次,如果写的demo想在人家那 ...
- Slicer学习笔记(六十二)slicer下导出模块接口
Slicer学习笔记(六十二)slicer下导出模块接口 1. 参考文件实现 1. 参考文件实现 通过配置config_file为每一个生成类添加 Export,并为每个Module生成 Export ...
- Slicer学习笔记(四十二)slicer c++源码编译
Slicer学习笔记(四十二)slicer c++源码编译 1.cmake生成项目 2.编译失败的原因汇总 2.1.下载代码失败 之前在windows下编译slicer,没有做笔记. 后面再次编译还会 ...
- 【OS学习笔记】三十二 保护模式九:分页机制对应的汇编代码之---内核代码
本片文章是以下两篇文章: [OS学习笔记]三十 保护模式九:段页式内存管理机制概述 [OS学习笔记]三十一 保护模式九:页目录.页表和页三者的关系详解 对应的内核汇编代码. ;代码清单16-1;文件名 ...
- OpenCV学习笔记(四十二)——Mat数据操作之普通青年、文艺青年、暴力青年
首先还是要感谢箫鸣朋友在我<OpenCV学习笔记(四十)--再谈OpenCV数据结构Mat详解>的留言,告诉我M.at<float>(3, 3)在Debug模式下运行缓慢,推荐 ...
- jquery设置宽_JavaScript学习笔记(三十二) jQuery(中)
jQuery 昨天讲了 jQuery 的基本选择器筛选器和属性操作 今天来说一些 jQuery 别的东西 元素操作 创建一个元素 var div = $(') 内部插入元素 // 向 div 元素中插 ...
- Dynamic CRM 2013学习笔记(四十二)流程5 - 实时/同步工作流(Workflow)用法图解...
实时工作流跟插件一样,也是用事件执行管道来执行,能在pre,post或核心操作中执行.跟插件一样,不能在创建之前和删除之后执行.如果执行过程中有异常发生,会取消并回滚整个操作.实时工作流里所有的活动和 ...
- 系统架构师学习笔记_第十二章_连载
第十二章 系统安全架构设计 12.1 信息系统安全架构的简单描述 信息安全的特征 是为了保证信息的 机密性.完整性.可用性.可控性.不可抵赖性. 以风险策略为基础. 12.1.1 信息安全的现状 ...
最新文章
- 超详干货!Linux 环境变量配置全攻略
- 热潮下的冷思考,人工智能即将改变的三大领域
- vim下自动排版命令
- 【翻译】Programming Ruby——数组,哈希表和控制结构
- 队列链式结构C/C++实现(数据结构严蔚敏版)
- UNIX再学习 -- TCP/UDP 客户机/服务器
- 莫利定理的超直观演示!
- java添加背景图片_Java怎么添加背景图片
- 3d数学基础:图形和游戏开发(第2版)_人教版五年级数学上册教学计划进度表
- 字符串 - KMP模式匹配
- 2018前端面试题总结
- 极域电子书包课堂管理系统_朝阳群众说小康 | 从黑板课本到VR互动课堂、电子书包,朝阳的课堂如此有趣!...
- python爬取别人qq空间相册_Python网络爬虫5 - 爬取QQ空间相册
- OPENCV 实现png绘制,alpha通道叠加。
- 深度:那些梦碎乐视的造车高人!
- 国内最好的B端设计资源,都在这里了
- vivo平台sdk php说明书,vivo
- 15. Python3 处理JSON格式数据(制作交易收盘价走势图)
- 重庆理工大学控制工程matlab大作业,(论文答辩)第六届校园数学建模知识竞赛决赛答辩会成功举行...
- 小白专属:大数据总纲_大数据路线_高屋建瓴的体验大数据的世界