方差分析表和回归分析表的解读
各种统计量检验的决策准则
各种假设检验的假设的建立

第十一章 一元线性回归


11.1 变量间的关系的度量

11.1.1 变量间的关系

  • 函数关系:设有两个x和y,y随x一起变化,并完全依赖于x,y是x的函数, y = f ( x ) y = f(x) y=f(x),x为自变量,y为因变量。
  • 相关关系:变量之前存在的不确定的关系称为相关关系。
    1. 一个变量的取值不能由另一个变量唯一确定
    2. 当变量x 取某个值时,变量y 的取值对应着一个分布
    3. 各观测点分布在直线周围

11.1.2 相关关系的描述与测量

  • 散点图:可以通过散点图判断两个变量之间有无相关关系,并对变量间的关系形态做出大致的描述。
  • 相关系数:是度量变量之间线性关系强度的一个统计量。
    • 若相关系数是根据总体全部数据计算的,称为总体相关系数,记为 ρ ρ ρ;
    • 若是根据样本数据计算的,则称为样本相关系数,简称为相关系数,记为 r r r,也称为 Pearson \textbf{Pearson} Pearson相关系数或者线性相关系数
      • r = n ∑ x y − ∑ x ∑ y n ∑ x 2 − ( ∑ x ) 2 − n ∑ y 2 − ( ∑ y ) 2 r = \frac{n\sum{xy} - \sum{x}\sum{y}}{\sqrt{n\sum{x^2} - (\sum{x})^2} - \sqrt{n\sum{y^2} - (\sum{y})^2}} r=n∑x2−(∑x)2 ​−n∑y2−(∑y)2 ​n∑xy−∑x∑y​
    • 相关系数 r r r 的性质:
      • r r r 的取值范围为 [ 0 , 1 ] [0,1] [0,1];
      • y 和 x : { 完 全 负 线 性 相 关 关 系 , − 1 = r 负 线 性 相 关 关 系 , − 1 < r < 0 不 存 在 相 关 关 系 , r = 0 正 线 性 相 关 关 系 , 0 < r < 1 完 全 正 线 性 相 关 关 系 , r = 1 可 见 , 当 ∣ r ∣ = 1 是 y 的 取 值 完 全 依 赖 于 x , 二 者 为 函 数 关 系 。 ∣ r ∣ 越 趋 于 1 表 示 关 系 越 强 ; ∣ r ∣ 越 趋 于 0 表 示 关 系 越 弱 。 y和x: \begin{cases} 完全负线性相关关系 & ,-1 = r\\ 负线性相关关系 & ,-1 < r < 0 \\ 不存在相关关系 & ,\qquad\quad r = 0\\ 正线性相关关系 &,\quad 0 < r < 1 \\ 完全正线性相关关系 & ,\qquad\quad r = 1\\ \end{cases} \\ \qquad \\ 可见,当|r| = 1是y的取值完全依赖于x,二者为函数关系。\\ |r|越趋于1表示关系越强;|r|越趋于0表示关系越弱。 y和x:⎩⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎧​完全负线性相关关系负线性相关关系不存在相关关系正线性相关关系完全正线性相关关系​,−1=r,−1<r<0,r=0,0<r<1,r=1​可见,当∣r∣=1是y的取值完全依赖于x,二者为函数关系。∣r∣越趋于1表示关系越强;∣r∣越趋于0表示关系越弱。
      • r r r 具有对称性。即x与y之间的相关系数和y与x之间的相关系数相等,即 r x y = r y x r_{xy}= r_{yx} rxy​=ryx​
      • r r r 数值大小与x和y原点及尺度无关,即改变x和y的数据原点及计量尺度,并不改变r数值大小
      • r r r 仅仅是x与y之间线性关系的一个度量,它不能用于描述非线性关系。这意味着, r=0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系
      • r r r 虽然是两个变量之间线性关系的一个度量,却不一定意味着x与y一定有因果关系
      • y 和 x 之 间 : { 不 相 关 , 0.3 < ∣ r ∣ 低 度 相 关 , 0.3 ≤ ∣ r ∣ < 0.5 中 度 相 关 , 0.5 ≤ ∣ r ∣ < 0.8 高 度 相 关 , ∣ r ∣ ≥ 0.8 上 述 解 释 必 须 建 立 在 对 相 关 系 数 的 显 著 性 进 行 检 验 的 基 础 之 上 。 y和x之间: \begin{cases} 不相关 & ,0.3<|r|\\ 低度相关 & ,0.3≤|r|<0.5 \\ 中度相关 & ,0.5≤|r|<0.8\\ 高度相关 & ,\qquad\;\; |r|≥0.8 \\ \end{cases} \\ \quad \\ 上述解释必须建立在对相关系数的显著性进行检验的基础之上。 y和x之间:⎩⎪⎪⎪⎨⎪⎪⎪⎧​不相关低度相关中度相关高度相关​,0.3<∣r∣,0.3≤∣r∣<0.5,0.5≤∣r∣<0.8,∣r∣≥0.8​上述解释必须建立在对相关系数的显著性进行检验的基础之上。

11.1.3 相关关系的显著性检验

检验两个变量之间是否存在线性相关关系,通常将 r r r 作为 ρ ρ ρ 的估计值。

  • r r r 的抽样分布(不写)
  • r r r 的显著性检验
    1. 提出假设:
      H 0 : ρ = 0 ; H 1 : ρ ≠ 1 ; \; H_0:ρ = 0;\\ H_1:ρ \ne 1; H0​:ρ=0;H1​:ρ​=1;
    2. 计算检验的统计量:
      t = ∣ r ∣ n − 2 1 − t 2 ∼ t ( n − 2 ) t = |r|\sqrt{\frac{n-2}{1-t^2}} \sim t(n-2) t=∣r∣1−t2n−2​ ​∼t(n−2)
    3. 进行决策:
      • 根据给定的显著性水平 α \alpha α 和自由度 d f = n − 2 df = n-2 df=n−2查 t t t分布表,得出 t α / 2 ( n − 2 ) t_{\alpha/2}(n-2) tα/2​(n−2)的临界值。
      • 若 ∣ t ∣ > t α / 2 |t| > t_{\alpha/2} ∣t∣>tα/2​,则拒绝 H 0 H_0 H0​,表明总体的两个变量之间存在显著的线性关系;

11.2 一元线性回归的估计和检验

  • 相关分析目的在于用相关系数测度变量之间的关系强度。

  • 回归分析侧重于考察变量之间的数量关系,并通过一定的数学表达式将这种关系描述出来,从而确定一个或几个变量(自变量)的变化对另一个特定变量(因变量)的影响程度。具体来说,回归分析具体解决以下几个方面的问题:

    1. 从一组样本数据出发,确定变量之间的数学关系式。
    2. 对这些关系式的可信程度进行各种统计检验,并从影响因变量的诸多变量中找出哪些变量的影响是显著的,哪些是不显著的。
    3. 利用所求的关系式,根据一个或几个自变量的取值来估计或预测因变量的取值,并给出这种估计或预测的可靠程度。
  • 在回归分析中:

    • 被预测或被解释的变量称为因变量,用y表示;
    • 用来预测或被解释的一个或多个变量称为自变量,用x表示;

11.2.1 一元线性回归模型

涉及一个自变量的回归。

  • 回归模型:描述因变量y 如何依赖于自变量x 和误差项 ε ε ε 的方程称为回归模型,一元线性回归模型可表示为:
    y = β 0 + β 1 x + ε ( ε 是 被 称 为 误 差 项 的 随 机 变 量 , β 0 和 β 1 称 为 模 型 的 参 数 ) y = β_0 + β_1x + ε \\ (ε是被称为误差项的随机变量,β_0和β_1称为模型的参数) y=β0​+β1​x+ε(ε是被称为误差项的随机变量,β0​和β1​称为模型的参数)

    • 上述模型称为理论回归模型,对于这一模型,有以下几个假定:

      1. 因变量y与自变量x之间具有线性关系;
      2. 在重复抽样中,自变量x的取值是固定的,即假定x是非随机的;
      3. 对于满足:
        • 正态性。 ε ∼ N ( 0 , σ 2 ) ε \sim N(0 , σ^2 ) ε∼N(0,σ2) 。对于所有的x 值, E ( y ) = β 0 + β 1 x E(y)=β_0+ β_1x E(y)=β0​+β1​x。
        • 方差齐性。对于所有的x 值, D ( ε ) = σ 2 D(ε) = σ^2 D(ε)=σ2 , D ( y ) = σ 2 D(y) = σ^2 D(y)=σ2。
        • 独立性。独立性意味着对于一个特定的x 值,它所对应的ε与其他x 值所对应的ε不相关;对于一个特定的x 值,它所对应的y值与其他x 所对应的y 值也不相关。
  • 回归方程 :描述因变量y的期望值如何依赖于自变量x的方程称为回归方程,一元线性回归方程的形式为:
    E ( y ) = β 0 + β 1 x E(y) = β_0 + β_1x E(y)=β0​+β1​x

    • 一元线性回归方程的图示是一条直线,因此也被称为回归方程。
    • β 0 β_0 β0​是回归直线在y轴上的截距,是当x=0时y的期望值;
    • β 1 β_1 β1​是直线的斜率,它表示x每变动一个单位时,y的平均变动值;
  • 估计的回归方程:如果 β 0 β_0 β0​和 β 1 β_1 β1​未知,则用样本统计量 β ^ 1 \hatβ_1 β^​1​和 β ^ 1 \hatβ_1 β^​1​代替回归方程中的未知参数 β 0 β_0 β0​和 β 1 β_1 β1​来计算y的期望值,就得到了估计的回归方程:
    y ^ = β ^ 0 + β ^ 1 x \hat y = \hatβ_0 + \hatβ_1x y^​=β^​0​+β^​1​x

    • β ^ 0 \hatβ_0 β^​0​是回归直线在y轴上的截距,是当x=0时y的期望值;
    • β ^ 1 \hatβ_1 β^​1​是直线的斜率,它表示x每变动一个单位时,y的平均变动值;

11.2.2 参数的最小二乘估计

  • 最小二乘法:使因变量的观察值与估计值之间的误差平方和达到最小来求得 β ^ 1 \hatβ_1 β^​1​和 β ^ 1 \hatβ_1 β^​1​的方法:
    ∑ ( y i − y ^ i ) 2 = ∑ ( y i − β ^ 0 − β ^ 1 x i ) 2 最 小 \sum{(y_i - \hat y_i)}^2 = \sum{(y_i - \hat β_0 - \hatβ_1x_i)^2}最小 ∑(yi​−y^​i​)2=∑(yi​−β^​0​−β^​1​xi​)2最小

    • 用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小
    • 根据最小二乘法,可得求解 β ^ 1 \hatβ_1 β^​1​和 β ^ 1 \hatβ_1 β^​1​的公式如下:

11.2.3 回归直线的拟合优度

估计或预测的精度如何,将取决于回归直线对观测数据的拟合程度。各观测点越是紧密围绕直线,说明对观测数据的拟合程度越好,反之越差。

  • 判定系数:判定系数是对估计的回归方程拟合优度的度量,也称为决定系数。

    • 变差:因变量y 的取值是不同的,y 取值的这种波动,可用 ( y − y ^ ) − ( y − y ˉ ) (y-\hat y) - (y - \bar y) (y−y^​)−(y−yˉ​)也就是 y − y ˉ y - \bar y y−yˉ​来表示;
    • 总平方和( S S T SST SST):反映因变量的n 个观察值与其均值的总误差。
      S S T = ∑ ( y i − y ˉ ) 2 SST = \sum{(y_i - \bar y)^2} SST=∑(yi​−yˉ​)2
    • 残差平方和:又称误差平方和,反映除x 以外的其他因素对y 取值的影响,也称为不可解释的平方和或剩余平方和。
      S S E = ∑ ( y i − y ^ ) 2 SSE = \sum{(y_i - \hat y)^2} SSE=∑(yi​−y^​)2
    • 回归平方和(SSR):反映自变量x 的变化对因变量y 取值变化的影响,或者说,是由于x 与y 之间的线性关系引起的y 的取值变化,也称为可解释的平方和。
      S S R = ∑ ( y ^ − y ˉ ) 2 SSR = \sum{(\hat y - \bar y)^2} SSR=∑(y^​−yˉ​)2
    • 三者的关系为:
      S S T = S S E + S S R SST = SSE + SSR SST=SSE+SSR
    • 判定系数( R 2 R^2 R2):回归平方和占总误差平方和的比例
      R 2 = S S R S S T = S S R S S R + S S E = 1 − S S E S S T R^2 = \frac{SSR}{SST} = \frac{SSR}{SSR+SSE} = 1 - \frac{SSE}{SST} R2=SSTSSR​=SSR+SSESSR​=1−SSTSSE​

      • 反映回归直线的拟合程度;
      • 取值范围在 [ 0 , 1 ] [ 0 , 1 ] [0,1]之间;
      • R 2 → 1 R^2 →1 R2→1,说明回归方程拟合的越好; R 2 → 0 R^2→0 R2→0,说明回归方程拟合的越差;
      • 判定系数平方根等于相关系数;
  • 估计标准误差( s e s_e se​):反映实际观察值在回归直线周围的分散状况,是均方残差(MSE)的平方根

11.2.4 显著性检验

线性关系的检验:
  1. 提出假设:
    H 0 : β 1 = 0 两 个 变 量 之 间 的 线 性 关 系 不 显 著 H_0: \beta_1 = 0 \qquad 两个变量之间的线性关系不显著 H0​:β1​=0两个变量之间的线性关系不显著
  2. 计算检验统计量F:
    F = S S R / 1 S S E / ( n − 2 ) = M S R M S E ∼ F ( 1 , n − 2 ) F = \frac{SSR/1}{SSE/(n-2)} = \frac{MSR}{MSE} \sim F(1, n-2) F=SSE/(n−2)SSR/1​=MSEMSR​∼F(1,n−2)
  3. 确定显著性水平α
  4. 作出决策:
    • 用F分布:查找临界值 F α ( 1 , n − 2 ) F_{\alpha}(1, n-2) Fα​(1,n−2)在 F F F分布表中的值

      • F > F α F > F_\alpha F>Fα​,拒绝 H 0 H_0 H0​,表明两个变量之间的线性关系是显著的。
      • F < F α F < F_\alpha F<Fα​,不拒绝 H 0 H_0 H0​,没有证据表明两个变量之间的线性关系显著。
    • 用P值:
      • 若 P < α P < α P<α,拒绝 H 0 H_0 H0​,表明两个变量之间的线性关系显著
      • 若 P > α P > α P>α,不拒绝 H 0 H_0 H0​,没有证据表明两个变量之间的线性关系显著。
回归系数的检验:

  1. 提出假设:
    H 0 : β 1 = 0 两 个 变 量 之 间 的 线 性 关 系 不 显 著 H 1 : β 1 ≠ 0 两 个 变 量 之 间 的 线 性 关 系 显 著 H_0: \beta_1 = 0 \qquad 两个变量之间的线性关系不显著\\ H_1: \beta_1 \ne 0 \qquad\quad 两个变量之间的线性关系显著 H0​:β1​=0两个变量之间的线性关系不显著H1​:β1​​=0两个变量之间的线性关系显著
  2. 计算检验统计量t:
    t = β ^ 1 s β ^ 1 ∼ t ( n − 2 ) t = \frac{\hat \beta_1}{s_{\hat \beta_1}}\sim t(n-2) t=sβ^​1​​β^​1​​∼t(n−2)
  3. 确定显著性水平α
  4. 作出决策:
    • 用F分布:查找临界值 t α / 2 ( n − 2 ) t_{\alpha/2}(n-2) tα/2​(n−2)在 F F F分布表中的值

      • t > t α / 2 t > t_{\alpha/2} t>tα/2​,拒绝 H 0 H_0 H0​,回归系数等于0的可能性小于 α \alpha α,表明两个变量之间的线性关系是显著的。
      • t < t α / 2 t < t_{\alpha/2} t<tα/2​,不拒绝 H 0 H_0 H0​,没有证据表明两个变量之间的线性关系显著。
    • 用P值:
      • 若 P < α P < α P<α,拒绝 H 0 H_0 H0​,表明两个变量之间的线性关系是显著的。
      • 若 P > α P > α P>α,不拒绝 H 0 H_0 H0​,二者不存在显著的线性关系。

11.3 利用回归方程进行预测

11.3.1 平均值的置信区间

  • 置信区间(confidence interval):利用估计的回归方程,对于自变量x 的一个给定值 x 0 x_0 x0​ ,求出因变量 y y y的平均值的估计区间,这一估计区间称为置信区间。

11.3.2 个别值的预测区间

  • 预测区间(prediction interval):利用估计的回归方程,对于自变量x 的一个给定值x0 ,求出因变量y 的一个个别值的估计区间,这一区间称为预测区间。

比平均值的公式根号内多了个1而已:


11.4 残差分析

11.4.1 残差与残差图(检验方差齐性)

  • 残差:因变量的观测值与根据估计的回归方程求出的预测值之差,用 e e e表示,反映了用估计的回归方程去预测而引起的误差。

    • 第i个观测值的残差写为:
      e i = y i − y ^ i e_i = y_i - \hat y_i ei​=yi​−y^​i​
    • 可用于确定有关误差项ε的假定是否成立
    • 用于检测有影响的观测值

11.4.2 标准化残差(检验正态性)

  • 标准化残差:也称为Pearson 残差或半学生化残差(semistudentized
    residuals)。

    • 第i个观察值的标准化残差写为:
      z e i = e i s e = y i − y ^ i s e s e 是 残 差 的 标 准 差 的 估 计 。 z_{e_i} = \frac{e_i}{s_e} = \frac{y_i - \hat y_i}{s_e} \qquad s_e是残差的标准差的估计。 zei​​=se​ei​​=se​yi​−y^​i​​se​是残差的标准差的估计。
    • 用以直观地判断误差项服从正态分布这一假定是否成立
      • 若假定成立,标准化残差的分布也应服从正态分布,因此在标准化残差图中,大约有95%的标准化残差在-2到+2之间

【统计学笔记】第十一章 一元线性回归相关推荐

  1. [统计学笔记] (十)一元线性回归

    (十)一元线性回归 基本术语 回归这一术语最早来源于生物遗传学,由高尔顿(Francis Galton)引入. 回归的解释:回归分析是研究某一变量(因变量)与另一个或多个变量(解释变量.自变量)之间的 ...

  2. 第十一章 一元线性回归

    主要分析数值型自变量与数值型自变量之间的关系. 从变量个数上看,可分为简单相关与简单回归分析和多元相关与多元回归分析:从变量之间的关系形态上看,有线性相关与线性回归分析和非线性相关与非线性回归分析. ...

  3. 《Go语言圣经》学习笔记 第十一章 测试

    <Go语言圣经>学习笔记 第十一章 测试 目录 go test 测试函数 测试覆盖率 基准测试 剖析 示例函数 注:学习<Go语言圣经>笔记,PDF点击下载,建议看书. Go语 ...

  4. STATA:陈强教授 计量经济学及stata应用第四章 一元线性回归

    第四章 一元线性回归 一元回归的stata实例 (1)带常数项的回归 (2)不带常数项的回归 stata命令运行结果的储存与调用 4.9 总体回归函数与样本回归函数:蒙特卡洛模拟 附录(1) 随机数的 ...

  5. 《金融学》笔记 第十一章 货币政策

    <金融学>笔记 第十一章 货币政策 前言 在<<金融学>笔记>中开了一个头,现在完善具体细节. 金融范畴篇 第一章 货币的本质 第二章 货币制度 第三章 信用.利息 ...

  6. [go学习笔记.第十一章.项目案例] 2.客户信息管理系统

    一.基本介绍 1.需求说明 项目需求分析 1.模拟实现基于文本界面的 < 客户信息管理软件 > 2.该软件实现对客户对象的插入.修改和删除(用切片实现),并能够打印客户明细表 2.界面设计 ...

  7. [go学习笔记.第十一章.项目案例] 1.家庭收支记账软件项目

    一.基本介绍 1.项目开发流程说明 2.项目需求说明 目标: 模拟实现一个基于文本界面的<<家庭记账软件>> 掌握初步的编程技巧和调试技巧 主要涉及以下知识点 : (1).局部 ...

  8. Linux(b站视频兄弟连)自学笔记第十一章——shell编程

    Linux(b站视频兄弟连)自学笔记第十一章--shell基础 正则表达式 字符截取命令 cut命令 printf命令 awk命令 sed命令 字符处理命令 判断条件 流程控制 if语句 case语句 ...

  9. 《统计学》笔记:第11章 一元线性回归

    变量之间的关系可以分为两种类型,即函数关系和相关关系. 函数关系 functional relationship 函数关系是一一对应的确定关系.设有两个变量x和y,变量y随变量x一起变化,并完全依赖于 ...

最新文章

  1. Davinci DM6446开发攻略——LINUX GPIO驱动源码移植
  2. 房产企业数字化转型如何快速落地?
  3. arduino python firmate_processing firmata协议及数组训练
  4. VC网络通信API概览
  5. 剑指offer(23)二叉搜索树的后序遍历序列
  6. Android系统手机端抓包方法(tcpdump)
  7. matlab 8.4,《DSP using MATLAB》Problem 8.42
  8. 结构体变量和结构体指针变量作为函数参数传递问题
  9. linux 描述符 打开 个数,Linux下增大可打开文件描述符的最大数的方法
  10. hbase copytable_HBase使用HashTable/SyncTable工具同步集群数据
  11. 微软提出Layout,多模态任务也有预训练模型啦
  12. 电脑中如何添加环境变量
  13. 六款Mac电脑上值得推荐的看图工具,欢迎收藏!
  14. MediaPipe基础(5)Pose(姿势)
  15. 五星大饭店韩文插曲-请不要离我而去MV
  16. 春节期间,怎样晒朋友圈才安全?
  17. jmeter参数化时常用随机函数
  18. 关于CS找实习的不完整经验
  19. 【自动驾驶行业观察】奥迪A8自动驾驶功能剖析
  20. execjs安装及相关问题解决

热门文章

  1. Java GUI编程(3)---JLabel设置图片
  2. mac jemer 安装
  3. HTML中的 nbsp; ensp; emsp;等6种空格标记
  4. 支付宝页面第三方登录开发
  5. 七夜在线音乐台开发 第三弹 爬虫篇 (原创)
  6. java获取组合框值_在Java swing中获得组合框值
  7. http://www.3lian.com/edu/2014/01-25/126892.html
  8. C++接入CrashRpt并上报分析崩溃信息
  9. 贝塞尔曲线(Bezier Curve)原理、公式推导及matlab代码实现
  10. 360度全透明星空房,感受“坐观星辰”的绝妙体验