UA MATH571A 一元线性回归III 方差分析与相关性分析

  • ANOVA Table
  • F检验
    • 回归系数的F检验
      • F检验与t检验等价
    • 广义线性检验方法
  • R2R^2R2
  • 数值例子:女性肌肉量与年龄的关系
  • 相关性系数
    • PPMCC
    • PPMCC的区间估计
  • Spearman秩相关系数
  • 数值例子:学历与犯罪率

ANOVA Table

ANOVA(Analysis of Variance)是分析方差构成的常用方法。在前两篇中,我们定义过
SST=∑i=1N(Yi−Yˉ)2SST = \sum_{i=1}^N (Y_i-\bar{Y})^2 SST=i=1∑N​(Yi​−Yˉ)2
SST表示被解释变量Y的样本总离差平方和(或称总平方和),代表样本数据整体的信息含量,其自由度为dfT=N−1df_T=N-1dfT​=N−1。我们也定义过
SSE=∑i=1Nei2=∑i=1N(Yi−Y^i)2SSE = \sum_{i=1}^{N} e_i^2 = \sum_{i=1}^{N} (Y_i - \hat{Y}_i)^2 SSE=i=1∑N​ei2​=i=1∑N​(Yi​−Y^i​)2
SSE是回归的残差平方和,代表无法被变量X解释的那部分信息量,自由度为dfE=N−2df_E=N-2dfE​=N−2。
SST−SSE=∑i=1N[(Yi−Yˉ)2−(Yi−Y^i)2]=∑i=1N[Yˉ2+Yi^2−2Yi(Y^i−Yˉ)]=∑i=1N[Yˉ2+Yi^2−2(Yi−Yˉ)(Y^i−Yˉ)]=∑i=1N(Y^i−Yˉ)2≜SSRSST-SSE=\sum_{i=1}^N [(Y_i-\bar{Y})^2-(Y_i - \hat{Y}_i)^2] \\ =\sum_{i=1}^N [\bar{Y}^2+\hat{Y_i}^2-2Y_i(\hat{Y}_i-\bar{Y})] \\ = \sum_{i=1}^N [\bar{Y}^2+\hat{Y_i}^2-2(Y_i-\bar{Y})(\hat{Y}_i-\bar{Y})] \\ =\sum_{i=1}^N (\hat{Y}_i - \bar{Y})^2 \triangleq SSR SST−SSE=i=1∑N​[(Yi​−Yˉ)2−(Yi​−Y^i​)2]=i=1∑N​[Yˉ2+Yi​^​2−2Yi​(Y^i​−Yˉ)]=i=1∑N​[Yˉ2+Yi​^​2−2(Yi​−Yˉ)(Y^i​−Yˉ)]=i=1∑N​(Y^i​−Yˉ)2≜SSR
SSR是回归平方和,代表回归模型可以解释的那部分信息含量,自由度为dfR=1df_R=1dfR​=1。对于回归而言,只有两个回归系数贡献两个自由度,但存在约束∑i=1N(Y^i−Yˉ)=0\sum_{i=1}^N (\hat{Y}_i - \bar{Y})=0∑i=1N​(Y^i​−Yˉ)=0,所以减去一个自由度,只剩下一个自由度。将三个平方和做自由度修正,定义
MST=SSTdfT,MSR=SSRdfR,MSE=SSEdfEMST = \frac{SST}{df_T}, \ \ MSR = \frac{SSR}{df_R}, \ \ MSE = \frac{SSE}{df_E} MST=dfT​SST​,  MSR=dfR​SSR​,  MSE=dfE​SSE​
根据上述定义,可以写出下列方差分析表(ANOVA Table)

来源 SS df MS
回归 SSR=∑i=1N(Y^i−Yˉ)2SSR=\sum_{i=1}^N (\hat{Y}_i - \bar{Y})^2SSR=∑i=1N​(Y^i​−Yˉ)2 1 MSR=SSRdfRMSR = \frac{SSR}{df_R}MSR=dfR​SSR​
残差 SSE=∑i=1N(Yi−Y^i)2SSE=\sum_{i=1}^N (Y_i - \hat{Y}_i )^2SSE=∑i=1N​(Yi​−Y^i​)2 N-2 MSE=SSEdfEMSE = \frac{SSE}{df_E}MSE=dfE​SSE​
总平方和 SST=∑i=1N(Yi−Yˉ)2SST=\sum_{i=1}^N (Y_i - \bar{Y})^2SST=∑i=1N​(Yi​−Yˉ)2 N-1 MST=SSTdfTMST = \frac{SST}{df_T}MST=dfT​SST​

F检验

回归系数的F检验

之前有说过MSE是方差的无偏估计,也就是E(MSE)=σ2E(MSE)=\sigma^2E(MSE)=σ2。现在计算一下MSR的期望。
SSR=∑i=1N(Y^i−Yˉ)2=∑i=1N[β^0+β^1Xi−(β^0+β^1Xˉ)]2=β^12∑i=1N(Xi−Xˉ)2E(β^12)=Var(β^1)+[E(β^1)]2=σ2∑i=1N(Xi−Xˉ)2+β12E(MSR)=E(SSR)=σ2+β12∑i=1N(Xi−Xˉ)2SSR = \sum_{i=1}^N (\hat{Y}_i - \bar{Y})^2 = \sum_{i=1}^N [\hat{\beta}_0 +\hat{\beta}_1X_i- (\hat{\beta}_0+\hat{\beta}_1\bar{X})]^2 =\hat{\beta}_1^2\sum_{i=1}^N (X_i - \bar{X})^2 \\ E(\hat{\beta}_1^2)=Var(\hat{\beta}_1)+[E(\hat{\beta}_1)]^2=\frac{\sigma^2}{\sum_{i=1}^N (X_i - \bar{X})^2} + \beta_1^2 \\ E(MSR)=E(SSR)=\sigma^2 + \beta_1^2 \sum_{i=1}^N (X_i - \bar{X})^2 SSR=i=1∑N​(Y^i​−Yˉ)2=i=1∑N​[β^​0​+β^​1​Xi​−(β^​0​+β^​1​Xˉ)]2=β^​12​i=1∑N​(Xi​−Xˉ)2E(β^​12​)=Var(β^​1​)+[E(β^​1​)]2=∑i=1N​(Xi​−Xˉ)2σ2​+β12​E(MSR)=E(SSR)=σ2+β12​i=1∑N​(Xi​−Xˉ)2
显然当β1\beta_1β1​等于0时,MSR也是方差的无偏估计,当β1\beta_1β1​不等于0时,MSR不是方差的无偏估计。考虑对系数的双边检验:
H0:β1=0Ha:β1≠0H_0: \beta_1 = 0 \\ H_a: \beta_1 \ne 0 H0​:β1​=0Ha​:β1​​=0
定义统计量
F∗=MSRMSEF^* = \frac{MSR}{MSE} F∗=MSEMSR​
SSR/σ2SSR/\sigma^2SSR/σ2是标准正态随机变量的平方,由于自由度为1,因此服从χ2(1)\chi^2(1)χ2(1)分布,所以根据F分布的定义,在原假设下,F∗∼(1,N−2)F^* \sim (1,N-2)F∗∼(1,N−2)。假设检验水平为α\alphaα,若F∗≤F(1−α;1,N−2)F^*\le F(1-\alpha;1,N-2)F∗≤F(1−α;1,N−2),接受原假设,若F∗>F(1−α;1,N−2)F^*>F(1-\alpha;1,N-2)F∗>F(1−α;1,N−2),拒绝原假设。

F检验与t检验等价

F检验与双边t检验等价,
F∗=MSRMSE=SSR/1MSE=β^12∑i=1N(Xi−Xˉ)2MSE=β^12s2{β^1}=(t∗)2F^* = \frac{MSR}{MSE}=\frac{SSR/1}{MSE}=\frac{\hat{\beta}_1^2\sum_{i=1}^N (X_i - \bar{X})^2}{MSE}=\frac{\hat{\beta}_1^2}{s^2\{\hat{\beta}_1\}}=(t^*)^2 F∗=MSEMSR​=MSESSR/1​=MSEβ^​12​∑i=1N​(Xi​−Xˉ)2​=s2{β^​1​}β^​12​​=(t∗)2
但由于F分布是单尾分布,因此与t检验不同,F检验只能做双边检验。

广义线性检验方法

完整的一元线性回归模型为FM(Full Model):
Yi=β0+β1Xi+ϵiY_i = \beta_0 + \beta_1 X_i + \epsilon_i Yi​=β0​+β1​Xi​+ϵi​
其残差平方和为
SSE(FM)=∑i=1N(Yi−Y^i)2=∑i=1N[Yi−(β^0+β^1X^i)]2=SSESSE(FM)=\sum_{i=1}^N (Y_i - \hat{Y}_i )^2 = \sum_{i=1}^N [Y_i -( \hat{\beta}_0 + \hat{\beta}_1\hat{X}_i )]^2 =SSE SSE(FM)=i=1∑N​(Yi​−Y^i​)2=i=1∑N​[Yi​−(β^​0​+β^​1​X^i​)]2=SSE
在原假设下,β1\beta_1β1​等于0,完整的一元回归模型可以被简化为RM(Reduced Model):
Yi=β0+ϵiY_i = \beta_0 + \epsilon_i Yi​=β0​+ϵi​
残差平方和为
SSE(RM)=∑i=1N(Yi−Y^i)2=∑i=1N(Yi−β^0)2=∑i=1N(Yi−Yˉ)2=SSTSSE(RM)=\sum_{i=1}^N (Y_i - \hat{Y}_i )^2 = \sum_{i=1}^N (Y_i - \hat{\beta}_0 )^2 = \sum_{i=1}^N (Y_i - \bar{Y})^2 =SST SSE(RM)=i=1∑N​(Yi​−Y^i​)2=i=1∑N​(Yi​−β^​0​)2=i=1∑N​(Yi​−Yˉ)2=SST
在这些设定下,可以将F检验推广。定义
F∗=SSE(RM)−SSE(FM)dfRM−dfFM/SSE(FM)dfFM∼F(dfRM−dfFM,dfFM)F^* = \frac{SSE(RM)-SSE(FM)}{df_{RM}-df_{FM}}/\frac{SSE(FM)}{df_{FM}} \sim F(df_{RM}-df_{FM},df_{FM}) F∗=dfRM​−dfFM​SSE(RM)−SSE(FM)​/dfFM​SSE(FM)​∼F(dfRM​−dfFM​,dfFM​)
原假设为应该使用RM,备择假设为应该使用FM。

R2R^2R2

R2R^2R2表示能够用回归模型解释的那部分信息占总信息的比值,
R2=SSRSST=1−SSESSTR^2 = \frac{SSR}{SST}=1-\frac{SSE}{SST} R2=SSTSSR​=1−SSTSSE​
R2R^2R2又叫可决系数,R2R^2R2越大代表回归模型越能解释被解释变量Y的变化情况,回归模型质量就越高。

数值例子:女性肌肉量与年龄的关系

我们最后再用这个例子来介绍一下做ANOVA的F检验的方法,关于这个例子已经完成的分析可以看前两篇博文。对线性模型lm()的输出结果使用anova()函数可以得到ANOVA Table,

> anova(Ex1.lm)


灰框中是ANOVA Table中的方差来源栏,红框中是自由度,黄框中是SS和MS。绿框中是F统计量和F检验的p值,根据这两个值可以判断回归系数β1\beta_1β1​是显著异于0的,说明回归有效,这与t检验的结果一致。在回归结果的汇总中,

红框内的是F统计量及其对应的自由度,黄框内是F检验的p值,这与ANOVA Table中的结果一致。简单计算可以发现β1\beta_1β1​的t统计量的平方等于F统计量,但t统计量可以有正负,而F统计量总是为正的,这是因为t分布是双尾分布,而F分布只有单尾。因此做单边检验时只能用t检验。蓝框内的值是R2R^2R2,这个值说明年龄可以解释女性肌肉量75%的变化。但要注意的是解释不代表因果,只是一个统计相关性。这个结果只能说明女性肌肉量的下降从统计上讲有75%与年龄增长有关,但不能证明女性肌肉量的下降有75%是年龄增长造成的。

相关性系数

在回归模型中,我们认为变量X的改变会引起变量Y的改变(称这种关系是统计上的因果关系),变量X被视为是常量,变量Y是随机变量。但在有的情况下,两个变量之间到底谁引起谁的改变很难说清楚,在这个时候可以做相关性分析(Correlation Analysis)分析两个变量的相关性而非统计因果,即假设待分析的两个变量均是随机变量。

假设Y1Y_1Y1​与Y2Y_2Y2​是两个随机变量,他们的相关性系数(Correlation Coefficients)为:
ρ=Corr(Y1,Y2)=Cov(Y1,Y2)Var(Y1)Var(Y2)\rho=Corr(Y_1,Y_2)=\frac{Cov(Y_1,Y_2)}{\sqrt{Var(Y_1)Var(Y_2)}} ρ=Corr(Y1​,Y2​)=Var(Y1​)Var(Y2​)​Cov(Y1​,Y2​)​
二元相关性分析的目标是估计这个相关性系数,并检验这个系数是否为零(双边检验)或者检验系数的符号(单边检验)。通常假设这两个变量服从二元正态分布,概率密度函数如下:
f(y1,y2)=12πσ1σ21−ρ2exp{−12(1−ρ2)[(Y1−μ1σ1)2−2ρ(Y1−μ1σ1)(Y2−μ2σ2)+(Y2−μ2σ2)2]}f(y_1,y_2)=\frac{1}{2 \pi \sigma_1 \sigma_2 \sqrt{1-\rho^2}}exp\{ -\frac{1}{2(1-\rho^2)} [(\frac{Y_1-\mu_1}{\sigma_1})^2 - 2\rho (\frac{Y_1-\mu_1}{\sigma_1}) (\frac{Y_2-\mu_2}{\sigma_2})+ (\frac{Y_2-\mu_2}{\sigma_2})^2] \} f(y1​,y2​)=2πσ1​σ2​1−ρ2​1​exp{−2(1−ρ2)1​[(σ1​Y1​−μ1​​)2−2ρ(σ1​Y1​−μ1​​)(σ2​Y2​−μ2​​)+(σ2​Y2​−μ2​​)2]}
但这个表达式真的很长,定义Y=[Y1,Y2]TY=[Y_1,Y_2]^TY=[Y1​,Y2​]T,μ=[μ1,μ2]T\mu=[\mu_1,\mu_2]^Tμ=[μ1​,μ2​]T,
Σ={σ12ρσ1σ2ρσ1σ2σ22}\Sigma= \left\{ \begin{matrix} \sigma_1^2 & \rho \sigma_1 \sigma_2 \\ \rho \sigma_1 \sigma_2 & \sigma_2^2\\ \end{matrix} \right\} \\ Σ={σ12​ρσ1​σ2​​ρσ1​σ2​σ22​​}
可以将分布记作Y∼N(μ,Σ)Y \sim N(\mu, \Sigma)Y∼N(μ,Σ),概率密度函数可以写成:
f(Y)=1(2π)n/2detΣexp[−12(Y−μ)TΣ−1(Y−μ)]f(Y)=\frac{1}{(2 \pi)^{n/2}\sqrt{det \Sigma}} exp[-\frac{1}{2} (Y-\mu)^T \Sigma^{-1}(Y-\mu)] f(Y)=(2π)n/2detΣ​1​exp[−21​(Y−μ)TΣ−1(Y−μ)]
假设现在我们有一组样本{(Y1i,Y2i)}i=1N\{(Y_{1i},Y_{2i})\}_{i=1}^{N}{(Y1i​,Y2i​)}i=1N​,用最大似然法:
L(μ,Σ)=f((Y1i,Y2i)i=1N∣μ,Σ)=∏i=1Nf(Y1i,Y2i)l(μ,Σ)=∑i=1Nlnf(Y1i,Y2i)=−12(1−ρ2)∑i=1N{[(Y1−μ1σ1)2−2ρ(Y1−μ1σ1)(Y2−μ2σ2)+(Y2−μ2σ2)2]}−Nln(2πσ1σ21−ρ2)L(\mu,\Sigma)=f({(Y_{1i},Y_{2i})}_{i=1}^{N}|\mu,\Sigma)=\prod_{i=1}^{N} f(Y_{1i},Y_{2i}) \\ l(\mu,\Sigma) = \sum_{i=1}^{N} lnf(Y_{1i},Y_{2i})= -\frac{1}{2(1-\rho^2)} \sum_{i=1}^{N} \{ [(\frac{Y_1-\mu_1}{\sigma_1})^2 - 2\rho (\frac{Y_1-\mu_1}{\sigma_1}) (\frac{Y_2-\mu_2}{\sigma_2})+ (\frac{Y_2-\mu_2}{\sigma_2})^2] \} - Nln(2 \pi \sigma_1 \sigma_2 \sqrt{1-\rho^2}) L(μ,Σ)=f((Y1i​,Y2i​)i=1N​∣μ,Σ)=i=1∏N​f(Y1i​,Y2i​)l(μ,Σ)=i=1∑N​lnf(Y1i​,Y2i​)=−2(1−ρ2)1​i=1∑N​{[(σ1​Y1​−μ1​​)2−2ρ(σ1​Y1​−μ1​​)(σ2​Y2​−μ2​​)+(σ2​Y2​−μ2​​)2]}−Nln(2πσ1​σ2​1−ρ2​)
最大化对数似然,即可求解出五个参数的最大似然估计。尽管形式有点复杂,但过程非常标准化。

PPMCC

PPMCC全称是Pearson交叉矩相关性系数(Pearson Product-Moment Correlation Coefficients),是相关性系数的最大似然估计:
r12=∑(Y1i−Yˉ1)(Y2i−Yˉ2)∑(Y1i−Yˉ1)2∑(Y2i−Yˉ2)2r_{12}=\frac{\sum (Y_{1i}-\bar{Y}_1) (Y_{2i}-\bar{Y}_2)}{\sqrt{ \sum (Y_{1i}-\bar{Y}_1)^2 \sum (Y_{2i}-\bar{Y}_2)^2 }} r12​=∑(Y1i​−Yˉ1​)2∑(Y2i​−Yˉ2​)2​∑(Y1i​−Yˉ1​)(Y2i​−Yˉ2​)​
但这个估计量并不是相关性系数的无偏估计,有兴趣的读者可以自己推一下。相关性分析可以看成是做如下检验:
H0:ρ=0Ha:ρ≠0H_0: \rho=0\\ H_a: \rho \ne 0 H0​:ρ=0Ha​:ρ​=0
下面我们推导这个检验要怎么做。由于二元正态分布的边缘分布仍然是正态分布,所以Y1Y_1Y1​的边缘密度为
f(y1)=12πσ1exp{−(Y1−μ1)2σ2}f(y_1)=\frac{1}{\sqrt{2 \pi}\sigma_1} exp\{-\frac{(Y_1-\mu_1)}{2\sigma^2}\} f(y1​)=2π​σ1​1​exp{−2σ2(Y1​−μ1​)​}
Y2Y_2Y2​关于Y1Y_1Y1​的条件密度为
f(y2∣y1)=12π(1−ρ2)σ2exp{−(Y2−μ2+μ1ρσ2σ1−ρσ2σ1Y1)2σ22(1−ρ2)}f(y_2|y_1)=\frac{1}{\sqrt{2 \pi (1-\rho^2)}\sigma_2 } exp\{-\frac{(Y_2-\mu_2+\mu_1 \rho \frac{\sigma_2}{\sigma_1} - \rho \frac{\sigma_2}{\sigma_1} Y_1)}{2\sigma_2^2 (1-\rho^2)}\} f(y2​∣y1​)=2π(1−ρ2)​σ2​1​exp{−2σ22​(1−ρ2)(Y2​−μ2​+μ1​ρσ1​σ2​​−ρσ1​σ2​​Y1​)​}
定义:
α2∣1=μ2−μ1ρσ2σ1β21=ρσ2σ1σ2∣1=σ22(1−ρ2)\alpha_{2|1} = \mu_2-\mu_1 \rho \frac{\sigma_2}{\sigma_1} \\ \beta_{21} =\rho \frac{\sigma_2}{\sigma_1} \\ \sigma_{2|1} = \sigma_2^2 (1-\rho^2) α2∣1​=μ2​−μ1​ρσ1​σ2​​β21​=ρσ1​σ2​​σ2∣1​=σ22​(1−ρ2)
从而E(Y2∣Y1)=α2∣1+β21Y1E(Y_2 | Y_1) = \alpha_{2|1} + \beta_{21} Y_1E(Y2​∣Y1​)=α2∣1​+β21​Y1​,在原假设下,β21=0\beta_{21}=0β21​=0,将β21\beta_{21}β21​视为Y2∣Y1Y_2|Y_1Y2​∣Y1​关于Y1Y_1Y1​的回归系数,上面的检验可以视为:
H0:β21=0Ha:β21≠0H_0: \beta_{21}=0\\ H_a: \beta_{21} \ne 0 H0​:β21​=0Ha​:β21​​=0
构造t统计量
t∗=β^21se(β21^)=r12N−21−r122∼t(N−2)t^* = \frac{\hat{\beta}_{21} }{se(\hat{\beta_{21}})} =\frac{r_{12}\sqrt{N-2}}{\sqrt{1-r_{12}^2}} \sim t(N-2) t∗=se(β21​^​)β^​21​​=1−r122​​r12​N−2​​∼t(N−2)
基于该统计量可以完成对PPMCC的假设检验。

PPMCC的区间估计

因为PPMCC的分布在原假设不成立时非常复杂,因此采用下面的方法计算置信区间。对PPMCC做Fisher z变换:
z=12ln(1+r121−r12)z = \frac{1}{2}ln(\frac{1+r_{12}}{1-r_{12}}) z=21​ln(1−r12​1+r12​​)
不加证明地给出下列结果:当N足够大时(一般N>25N>25N>25即可),有以下渐进分布
z∼N(12ln(1+ρ21−ρ2),1N−3)z \sim N(\frac{1}{2}ln(\frac{1+\rho^2}{1-\rho^2}),\frac{1}{N-3}) z∼N(21​ln(1−ρ21+ρ2​),N−31​)
由此可以构造Z统计量:
z−12ln(1+ρ21−ρ2)1/N−3∼N(0,1)\frac{z- \frac{1}{2}ln(\frac{1+\rho^2}{1-\rho^2})}{1/\sqrt{N-3}} \sim N(0,1) 1/N−3​z−21​ln(1−ρ21+ρ2​)​∼N(0,1)
并可据此计算置信区间。

Spearman秩相关系数

当Y1Y_1Y1​和Y1Y_1Y1​不服从二元正态分布时,可以考虑将其变换成二元正态分布。但当很难找到合适的变换时,我们就不能使用上面的方法做相关性分析了。在Y1Y_1Y1​和Y2Y_2Y2​的联合密度未知或者比较复杂的时候可以考虑使用非参数方法。对于Y1Y_1Y1​的一列观测值{Y11,Y21,...,YN1}\{Y_{11},Y_{21}, ... , Y_{N1}\}{Y11​,Y21​,...,YN1​},假设Yi1Y_{i1}Yi1​按从大到小排第k个(k=1,2,...,Nk=1,2,...,Nk=1,2,...,N),记Ri1=kR_{i1}=kRi1​=k为第i个观察值的秩(rank)。对于Y1Y_1Y1​和Y2Y_2Y2​观测值的秩,定义Spearman秩相关系数(Spearman Rank Correlation Coefficients):
rS=∑(R1i−Rˉ1)(R2i−Rˉ2)∑(R1i−Rˉ1)2∑(R2i−Rˉ2)2r_S = \frac{\sum (R_{1i}-\bar{R}_1) (R_{2i}-\bar{R}_2)}{\sqrt{ \sum (R_{1i}-\bar{R}_1)^2 \sum (R_{2i}-\bar{R}_2)^2 }} rS​=∑(R1i​−Rˉ1​)2∑(R2i​−Rˉ2​)2​∑(R1i​−Rˉ1​)(R2i​−Rˉ2​)​
其中Rˉ1=Rˉ2=N+12\bar{R}_1=\bar{R}_2=\frac{N+1}{2}Rˉ1​=Rˉ2​=2N+1​。同样考虑如下检验:
H0:ρ=0Ha:ρ≠0H_0: \rho=0\\ H_a: \rho \ne 0 H0​:ρ=0Ha​:ρ​=0
不加证明地给出统计量:
t∗=rSN−21−rS2∼t(N−2)t^* =\frac{r_{S}\sqrt{N-2}}{\sqrt{1-r_{S}^2}} \sim t(N-2) t∗=1−rS2​​rS​N−2​​∼t(N−2)
只要N>10N>10N>10就可认为上述统计量的渐进分布成立,并进行相关性分析。

数值例子:学历与犯罪率

这个例子的数据来源于Applied Linear Regression Models. Kutner et al 第一章二十八题。一项犯罪学的研究想要探索教育与犯罪率之间的关系,于是随机选取了84个中等规模的社区,并收集了社区居民持高中文化以上的人数占(Y2)以及社区犯罪率(Y1)。从直觉上讲,学历越高的社区居民素质越高,犯罪率就会越低。因此做假设检验:
H0:ρ≥0Ha:ρ<0H_0: \rho \ge 0\\ H_a: \rho < 0 H0​:ρ≥0Ha​:ρ<0
先读取数据,由于犯罪率的数据是每十万人的犯罪次数,所以这里用犯罪率除以10万得到犯罪率

## Set work dictionary
setwd("D:\\Stat PhD\\semester1\\regression\\Notes\\Ch2")## Read-in text data
Ex2 <- read.table("D:/Stat PhD/semester1/regression/Notes/Ch2/CH01PR28.txt", quote="\"", comment.char="")
Ex2 <- as.matrix(Ex2)
Y1 <- Ex2[,1]/100000
Y2 <- Ex2[,2]

假设检验水平为5%,用PPMCC做相关性分析

> alpha <- .05
> N <- length(Y1)
> r12 <- cor(Y1,Y2)
> r12
[1] -0.4127033
> t <- r12*sqrt(N-2)/sqrt(1-r12^2)
> t
[1] -4.102897
> t < -qt(1-alpha/2,N-2)
[1] TRUE
> p <- pt(t,N-2)
> p
[1] 4.785698e-05

PPMCC的估计值是-0.4127033,t检验统计量的值为-4.102897,小于t(1−α/2,N−2)t(1-\alpha/2,N-2)t(1−α/2,N−2),这说明社区居民的学历与犯罪率呈显著的负相关。该检验的p值为0.00004785698。我们还可以计算出相关性系数的95%置信区间,为[-0.5761223,-0.217558],显然95%置信区间在负半轴,说明t统计量整体分布都集中在负半轴。

> z = 0.5*( log(1+r12) - log(1-r12) )
> se = 1/sqrt( N-3 )
> zlwr = z - qnorm( 1-alpha/2 )*se
> zupr = z + qnorm( 1-alpha/2 )*se
> rholwr = (exp(2*zlwr)-1)/(exp(2*zlwr)+1)
> rhoupr = (exp(2*zupr)-1)/(exp(2*zupr)+1)
> c(rholwr, rhoupr)
[1] -0.5761223 -0.2175580

用Spearman秩相关做相关性分析。

> cor.test(Y1,Y2,method = "spearman",exact = F)Spearman's rank correlation rhodata:  Y1 and Y2
S = 140839, p-value = 5.359e-05
alternative hypothesis: true rho is not equal to 0
sample estimates:rho
-0.4259324

Spearman秩相关系数为-0.4259324,与PPMCC还是比较接近的,检验结果是接受备择假设,二者显著负相关,p值为5.539e-5。综合上面的分析,可以初步认为社区居民犯罪率与学历是负相关的。

UA MATH571A 一元线性回归III 方差分析与相关性分析相关推荐

  1. UA MATH571A 一元线性回归IV 模型诊断

    UA MATH571A 一元线性回归IV 模型诊断 解释变量 解释变量的可视化 残差 残差的性质 Semistudentized Residual 残差的可视化 残差关于解释变量的图 残差关于拟合值的 ...

  2. UA MATH571A 一元线性回归I 模型设定与估计

    UA MATH571A 一元线性回归I 模型设定与估计 模型设定 最小二乘法(Method of Least Square) Coefficients Mean Response and Residu ...

  3. UA MATH571A 一元线性回归II 统计推断2

    UA MATH571A 一元线性回归II 统计推断2 β0\beta_0β0​的分布 拟合与预测 拟合值的区间估计 预测值的区间估计 数值例子:女性肌肉量与年龄的关系 β0\beta_0β0​的分布 ...

  4. UA MATH571A 一元线性回归II 统计推断1

    UA MATH571A 一元线性回归II 统计推断1 β1\beta_1β1​的假设检验与置信区间 Gauss-Markov定理 检验的势 双边检验,单边检验与置信区间 置信区间 双边检验 单边检验 ...

  5. 【计量经济学】SPSS——一元线性回归【方差分析、残差分析】

    基于中国居民总量消费支出与收入资料作一元线性回归分析 数据可关注公众号:321红绿灯 回复一元线性回归获得 一.实验目的 随着社会经济发展的步伐加快,人民生活水平得到明显的提高.中国居民消费与收入的关 ...

  6. UA MATH571A 多元线性回归II 变量选择

    UA MATH571A 多元线性回归II 变量选择 多项式回归与交互项回归 阶数的确定 含质量型变量的回归 含质量型变量的交互项 二值变量与二值变量的交互项 二值变量与数量型变量的交互项 变量选择的准 ...

  7. UA MATH571A 多元线性回归I 模型设定与推断

    UA MATH571A 多元线性回归I 模型设定与推断 模型设定 最小二乘法(Method of Least Square) 系数 Mean Response and Residual 多元回归的AN ...

  8. UA MATH571A 多元线性回归V 自相关与非线性模型简介

    UA MATH571A 多元线性回归V 自相关与非线性模型简介 一阶误差自相关模型 Durbin-Watson检验 一阶自相关的消去 Cochrane-Orcutt方法 Hildreth-Lu方法 非 ...

  9. UA MATH571A 多元线性回归IV 广义线性模型

    UA MATH571A 多元线性回归IV 广义线性模型 广义线性模型 二值被解释变量 Probit模型 Logit模型 系数的最大似然估计 系数的推断 Wald检验 似然比检验 二项回归 拟合优度检验 ...

最新文章

  1. 上天探索脉冲星,下海保护白海豚,腾讯这个AI团队,今年真的有点忙
  2. IIS7中使用集成模式时出现HttpException
  3. 【MySQL】MySQL中的查询语句的详解----等值连接、左连接、右连接、全连接
  4. 重磅消息:F5收购Nginx!
  5. Android下 使用百度地图sdk
  6. 传输层协议(13):拥塞控制(2)
  7. Java核心技术卷II:高级特性
  8. mac能开发android吗,怎么在Mac上开发Android应用
  9. 5个简单的游戏设计技巧,让你的游戏更有趣
  10. 《认知心理学》思维导图
  11. Codeforces Round #363 (Div. 2) B. One Bomb (水题)
  12. jieBa analyse.extract_tags
  13. everedit选择_文本编辑器软件EverEdit怎么样?EverEdit相关功能介绍
  14. win10计算机丢失msvcr,计算机中丢失msvcr110.dll怎么办?Win10系统中丢失msvcr110.dll解决方法...
  15. MATLAB数据导入
  16. html 浮动脱离文档流,脱离文档流(正常流-文档流)
  17. git提示subject >50 characters; use shorter first paragraph
  18. 安卓通过链接打开淘宝客户端
  19. AIoT人工智能物联网
  20. 利用HTML+css+js制作侧边栏小广告

热门文章

  1. (转载)hadoop2.2.0集群的HA高可靠的最简单配置
  2. JVM 常用的基本配置有哪些?
  3. Python 技术篇-连接oracle数据库并执行sql语句实例演示,python连接oracle数据库oci详细配置方法
  4. c# 学习笔记 (1) 类型转换
  5. [YTU]_2637(编程题:类---矩形类)
  6. Jobdu MM分水果
  7. java servlet helloworld,Java如何创建HelloWorld Servlet?
  8. apache mysql php实现最大负载的方法_如何架设高性能nginx+php+mysql搭配的服务器,解决高并发问题...
  9. 2018第九届蓝桥省赛题目
  10. 基于单片机的贪吃蛇游戏设计_前端入门,基于html,css,javascript的贪吃蛇游戏