统计学理论—一元线性回归
在学习统计学贾书的过程,在第6—14章节出有许多需要理解与记忆的公式和概念,在此通过博客的形式做一次梳理,主要内容为统计学中抽样分布、假设检验、参数估计、分类数据分析、方差分析、一元二元线性分析、时间序列分析、指数的理论知识,不足之处望多多指正。
1.变量间关系的度量
1.1变量间的关系
- 函数关系
是一一对应的确定关系;变量 y 随变量 x 一起变化,并完全依赖于 x ,当变量 x 取某个数值时, y 依确定的关系取相应的值,则称 y 是 x 的函数(特点是唯一确定) - 相关关系
变量间关系不能用函数关系精确表达;一个变量的取值不能由另一个变量唯一确定。
(1)常用的一些相关关系:
(2)相关关系的描述与测度
1.2相关系数的描述与测度
- 相关系数的定义:度量变量之间关系强度的一个统计量,对两个变量之间线性相关强度的度量称为简单相关系数记总体相关系数为ρ\rhoρ;样本的相关系数为r
- 样本相关系数的计算公式:r=∑(x−xˉ)(y−yˉ)∑(x−xˉ)2⋅∑(y−yˉ)2化简得到r=n∑xy−∑x∑yn∑x2−(∑x)2⋅n∑y2−(∑y)2r=\frac{\sum(x-\bar{x})(y-\bar{y})}{\sqrt{\sum(x-\bar{x})^{2} \cdot \sum(y-\bar{y})^{2}}} 化简得到 r=\frac{n \sum x y-\sum x \sum y}{\sqrt{n \sum x^{2}-\left(\sum x\right)^{2}} \cdot \sqrt{n \sum y^{2}-\left(\sum y\right)^{2}}}r=∑(x−xˉ)2⋅∑(y−yˉ)2∑(x−xˉ)(y−yˉ)化简得到r=n∑x2−(∑x)2⋅n∑y2−(∑y)2n∑xy−∑x∑y
- 样本相关系数r的常用性质
(1)r的取值范围是[-1,1],|r|=1时,两变量完全相关,r=0不存在线性相关关系,小于0时负相关,大于0时正相关;
(2)r具有对称性。即x与y之间的相关系数和y与x之间的相关系数相等;
(3)r数值大小与x和y原点及尺度无关;
(4)仅仅是x与y之间线性关系的一个度量,它不能用于描述非线性关系。这意为着, r=0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系;
(5)r虽然是两个变量之间线性关系的一个度量,却不一定意味着x与y一定有因果关系 - 对于相关系数r的经验解释
(1)|r|>0.8时,可视为两个变量之间高度相关;
(2)0.5<|r|<0.8时,可视为中度相关;
(3)0.3<|r|<0.5时,视为低度相关;
(4)|r|<0.3时,说明两个变量之间的相关程度极弱,可视为不相关;
(5)上述解释必须建立在对相关系数的显著性进行检验的基础之上
1.3相关系数的显著性检验
- 需要知道的性质
(1)用于检验两个变量之间是否存在线性相关关系;
(2)等价于对回归系数 β1\beta_1β1的检验;
(3)检验方式是t检验。 - 检验步骤
(1)提出假设:H0:ρ=0\rho=0ρ=0 ;H1:ρ≠0\rho \neq 0ρ=0;
(2)计算检验的统计量:t=∣r∣n−21−r2∼t(n−2)t=|r| \sqrt{\frac{n-2}{1-r^{2}}} \sim t(n-2)t=∣r∣1−r2n−2∼t(n−2);
(3)确定显著性水平α\alphaα,并作出决策。
2. 一元线性回归
2.1.一元线性回归的几种格式与求解
- 1、一元线性回归模型:y=β0+β1x+ε{y}={\beta}_{0}+{\beta}_{1} x+\varepsilony=β0+β1x+ε
(1)模型的特点y 是 x 的线性函数(部分)加上误差项;
(2)线性部分反映了由于 x 的变化而引起的 y 的变化;
(3)误差项 ε\varepsilonε是随机变量反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响,是不能由 x 和 y 之间的线性关系所解释的变异性
(4)β0\beta_0β0 和 β1\beta_1β1 称为模型的参数 - 一元线性回归模型的假定
(1)因变量x与自变量y之间具有线性关系;
(2)在重复抽样中,自变量x的取值是固定的,即假定x是非随机的
(3)误差项ε是一个期望值为0的随机变量,既有:E(y)=β0+β1xE(y)={\beta}_{0}+{\beta}_{1} xE(y)=β0+β1x
(4)误差项ε是一个服从正态分布的随机变量,且相互独立。即ε~N(0 ,σ2 )(关于随机误差的理解)
- 2、一元线性回归方程:E(y)=β0+β1xE(y)={\beta}_{0}+{\beta}_{1} xE(y)=β0+β1x
(1)β0\beta_0β0是回归直线在 y 轴上的截距,是当 x=0 时 y 的期望值
(2)β1\beta_1β1是直线的斜率,称为回归系数,表示当 x 每变动一个单位时,y 的平均变动值 - 3、估计的回归方程
(1)作用:用样本统计量β^0\hat\beta_0β^0 和 β^1\hat\beta_1β^1 代替回归方程中的未知参数 β0\beta_0β0 和 β1\beta_1β1 就得到了估计的回归方程
(2)估计的回归方程:y^=β^0+β^1x\hat y=\hat\beta_0+\hat\beta_ 1 xy^=β^0+β^1x - 用最小二乘法估计回归方程的参数:
(1)本质:使得∑i=1n(yi−y^)2=∑i=1n(yi−β^0−β^1xi)2=min\sum_{i=1}^{n}\left(y_{i}-\hat{y}\right)^{2}=\sum_{i=1}^{n}\left(y_{i}-\hat{\beta}_{0}-\hat{\beta}_{1} x_{i}\right)^{2}=\min∑i=1n(yi−y^)2=∑i=1n(yi−β^0−β^1xi)2=min,求法是分别对β^0\hat\beta_0β^0 和 β^1\hat\beta_1β^1求偏导;
(2)求解公式:求偏导{∂Q∂β0∣β0=β^0=−2∑i=1n(yi−β^0−β^1xi)2=0∂Q∂β1∣β1−β^1=−2∑i=1nxi(yi−β^0−β^1xi)2=0\left\{\begin{array}{l}\left.\frac{\partial Q}{\partial \beta_{0}}\right|_{\beta_{0}=\hat{\beta}_{0}}=-2 \sum_{i=1}^{n}\left(y_{i}-\hat{\beta}_{0}-\hat{\beta}_{1} x_{i}\right)^{2}=0 \\ \left.\frac{\partial Q}{\partial \beta_{1}}\right|_{\beta_{1}-\hat{\beta}_{1}}=-2 \sum_{i=1}^{n} x_{i}\left(y_{i}-\hat{\beta}_{0}-\hat{\beta}_{1} x_{i}\right)^{2}=0\end{array}\right.⎩⎪⎨⎪⎧∂β0∂Q∣∣∣β0=β^0=−2∑i=1n(yi−β^0−β^1xi)2=0∂β1∂Q∣∣∣β1−β^1=−2∑i=1nxi(yi−β^0−β^1xi)2=0
解得:β^1=n∑i=1nxiyi−(∑i=1nxi)(∑i=1nyi)n∑i=1nxi2−(∑i=1nxi)2β^0=yˉ−β^1xˉ\hat{\beta}_{1}=\frac{n \sum_{i=1}^{n} x_{i} y_{i}-\left(\sum_{i=1}^{n} x_{i}\right)\left(\sum_{i=1}^{n} y_{i}\right)}{n \sum_{i=1}^{n} x_{i}^{2}-\left(\sum_{i=1}^{n} x_{i}\right)^{2}} \quad \hat{\beta}_{0}=\bar{y}-\hat{\beta}_{1} \bar{x}β^1=n∑i=1nxi2−(∑i=1nxi)2n∑i=1nxiyi−(∑i=1nxi)(∑i=1nyi)β^0=yˉ−β^1xˉ
2.2.回归直线的拟合优度检验
误差分解;
拆分格式:∑i=1n(yi−yˉ)2=∑i=1n(y^i−yˉ)2+∑i=1n(yi−y^)2\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}=\sum_{i=1}^{n}\left(\hat{y}_{i}-\bar{y}\right)^{2}+\sum_{i=1}^{n}\left(y_{i}-\hat{y}\right)^{2}∑i=1n(yi−yˉ)2=∑i=1n(y^i−yˉ)2+∑i=1n(yi−y^)2
(1)总平方和SST=∑i=1n(yi−yˉ)2\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}∑i=1n(yi−yˉ)2;反映因变量的 n 个观察值与其均值的总误差
(2)回归平方和SSR=∑i=1n(y^i−yˉ)2\sum_{i=1}^{n}\left(\hat{y}_{i}-\bar{y}\right)^{2}∑i=1n(y^i−yˉ)2;反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和
(3)残差平方和SSE=∑i=1n(yi−y^)2\sum_{i=1}^{n}\left(y_{i}-\hat{y}\right)^{2}∑i=1n(yi−y^)2。反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和判定系数R2R^2R2的计算
(1)计算公式:R2=SSRSST=∑i=1n(y^i−yˉ)2∑i=1n(yi−yˉ)2=1−∑i=1n(yi−y^)2∑i=1n(y^i−yˉ)2R^{2}=\frac{S S R}{S S T}=\frac{\sum_{i=1}^{n}\left(\hat{y}_{i}-\bar{y}\right)^{2}}{\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}}=1-\frac{\sum_{i=1}^{n}\left(y_{i}-\hat{y}\right)^{2}}{\sum_{i=1}^{n}\left(\hat{y}_{i}-\bar{y}\right)^{2}}R2=SSTSSR=∑i=1n(yi−yˉ)2∑i=1n(y^i−yˉ)2=1−∑i=1n(y^i−yˉ)2∑i=1n(yi−y^)2;
(2)反映回归直线的拟合程度;
(3)取值范围在 [ 0 , 1 ] 之间;
(4)判定系数等于相关系数的平方,即R2=r2R^2=r^2R2=r2标椎估计误差的计算:
(1)计算公式:se=∑i=1n(yi−y^i)2n−2=SSEn−2=MSEs_{e}=\sqrt{\frac{\sum_{i=1}^{n}\left(y_{i}-\hat{y}_{i}\right)^{2}}{n-2}}=\sqrt{\frac{S S E}{n-2}}=\sqrt{M S E}se=n−2∑i=1n(yi−y^i)2=n−2SSE=MSE;
(2)实际观察值与回归估计值误差平方和的均方根;
(3)对误差项ε\varepsilonε的标准差σ2 的估计,是在排除了x对y的线性影响后,y随机波动大小的一个估计量。
2.3. 显著性检验
- 线性关系检验
(1)检验自变量与因变量之间的线性关系是否显著
(2)计算:将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验来分析二者之间的差别是否显著,回归平方和SSR除以相应的自由度(自变量的个数k) ,残差平方和SSE除以相应的自由度(n-k-1)。计算公式为:F=SSR/1SSE/(n−2)=MSRMSE∼F(1,n−2)F=\frac{S S R / 1}{S S E /(n-2)}=\frac{M S R}{M S E} \sim F(1, n-2)F=SSE/(n−2)SSR/1=MSEMSR∼F(1,n−2) - 回归系数检验
(1)目的:检验 x 与 y 之间是否具有线性关系,或者说,检验自变量 x 对因变量 y 的影响是否显著;
(2)理论基础是回归系数β^1\hat\beta_1β^1 的抽样分布
(3)t检验统计量计算公式:t=β^1sβ^∼t(n−2)t=\frac{\hat{\beta}_{1}}{s_{\hat{\beta}}} \sim t(n-2)t=sβ^β^1∼t(n−2)(等价于相关系数的显著性检验)
3.利用回归方程进行评估和预测
3.1点估计
- y平均值的点估计
(1)定义:利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的一个估计值E(y0) ,就是平均值的点估计
(2)公式:E(y0)=β0+β1xE(y_0)={\beta}_{0}+{\beta}_{1} xE(y0)=β0+β1x - y个别值的点估计;
(1)定义:利用估计的回归方程,对于自变量 x 的一个给定值x0x_0x0 ,求出因变量 y 的一个个别值的估计值 y^0\hat y_0y^0,就是个别值的点估计
(2)公式:y^0=β^0+β^1x\hat y_0=\hat\beta_0+\hat\beta_ 1 xy^0=β^0+β^1x
3.2区间估计
y平均值的置信区间估计
(1)定义:利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的估计区间 ,这一估计区间称为置信区间;
(2)E(y0y_0y0)1-a置信区间水平下的计算公式:y^0±tα/2(n−2)se1n+(x0−xˉ)2∑i=1n(xi−xˉ)2\hat{y}_{0} \pm t_{\alpha / 2}(n-2) s_{e} \sqrt{\frac{1}{n}+\frac{\left(x_{0}-\bar{x}\right)^{2}}{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}}y^0±tα/2(n−2)sen1+∑i=1n(xi−xˉ)2(x0−xˉ)2y估计值的预测区间估计
(1)定义:利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计区间,这一区间称为预测区间;
(2)公式:y^0±tα/2(n−2)Se1+1n+(x0−xˉ)2∑i=1n(xi−xˉ)2\hat{y}_{0} \pm t_{\alpha / 2}(n-2) S_{e} \sqrt{1+\frac{1}{n}+\frac{\left(x_{0}-\bar{x}\right)^{2}}{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}}y^0±tα/2(n−2)Se1+n1+∑i=1n(xi−xˉ)2(x0−xˉ)2两种区间估计区别在于根号里面(几何区别)
几者的区别:在点估计条件下,平均值的点估计和个别值的的点估计是一样的,但在区间估计中则不同。
4.残差分析
4.1残差与残差图
*残差
(1)因变量的观测值与根据估计的回归方程求出的预测值之差,用e表示公式为:ei=yi−y^ie_{i}=y_{i}-\hat{y}_{i}ei=yi−y^i
(2)反映了用估计的回归方程去预测而引起的误差 ;
(3)作用:可用于确定有关误差项的假定是否成立 。
- 残差图像
(1)好坏判别:判断误差项ε\varepsilonε是否符合假定(均值为零的正态分布)
(2)一般图像:
标椎化残差
- 标椎化残差的计算:(残差除以它的标准差):zei=eise=yi−y^isez_{e_{i}}=\frac{e_{i}}{s_{e}}=\frac{y_{i}-\hat{y}_{i}}{s_{e}}zei=seei=seyi−y^i即:zi=yi−y^ise1−(1n+(xi−xˉ)2∑(xi−xˉ)2)z_{i}=\frac{y_{i}-\hat{y}_{i}}{s_{e} \sqrt{1-\left(\frac{1}{n}+\frac{\left(x_{i}-\bar{x}\right)^{2}}{\sum\left(x_{i}-\bar{x}\right)^{2}}\right)}}zi=se1−(n1+∑(xi−xˉ)2(xi−xˉ)2)yi−y^i
(1)作用:用以直观地判断误差项服从正态分布这一假定是否成立 ;
(2)若假定成立,标准化残差的分布也应服从正态分布;
(3)在标准化残差图中,大约有95%的标准化残差在-2到+2之间。
参考
《统计学》 第7版_贾俊平
统计学理论—一元线性回归相关推荐
- 【一元线性回归】理论一镜到底!线性回归大总结——一元线性回归(1)
考完研了,感觉考不上了,不想把总结资料浪费了,更一下线性回归.方差分析和时间序列的文章,也算是让笔记发了最后一份光和热,再接下来就是更新项目代码了,不会再写理论方面的文章了. 至少在我的目标院校来说, ...
- UA MATH 571B 回归 QE练习题 一元线性回归理论
UA MATH 571B 回归 QE练习题 一元线性回归理论 2015/1/5 2015/5/5 2016/5/6 2017/1/5 2017/5/6 这是2015年1月第五题,2015年5月第五题, ...
- 统计学 一元线性回归
统计学 一元线性回归 回归(Regression):假定因变量与自变量之间有某种关系,并把这种关系用适当的数学模型表达出来,利用该模型根据给定的自变量来预测因变量 线性回归:因变量和自变量之间是线性关 ...
- 《统计学》笔记:第11章 一元线性回归
变量之间的关系可以分为两种类型,即函数关系和相关关系. 函数关系 functional relationship 函数关系是一一对应的确定关系.设有两个变量x和y,变量y随变量x一起变化,并完全依赖于 ...
- 统计学——一元线性回归与多元线性回归
统计学(第6版) 贾俊平 读书笔记 第11章 一元线性回归 11.1 变量间关系的度量 变量之间的关系可分为两种类型,即函数关系和相关关系.其中,函数关系是一一确定的关系,给定一个自变量x,因变量y依 ...
- 【统计学笔记】第十一章 一元线性回归
方差分析表和回归分析表的解读 各种统计量检验的决策准则 各种假设检验的假设的建立 第十一章 一元线性回归 11.1 变量间的关系的度量 11.1.1 变量间的关系 函数关系:设有两个x和y,y随x一起 ...
- 【统计学笔记】如何判断变量间相关关系,并建立一元线性回归模型?
本章内容: 判断两个变量间是否有相关关系,且关系强度如何? 如何建立一元线性回归模型,且模型效果如何? 如何利用回归方程进行预测? 为什么要进行残差分析,及如何进行分析? 索引
- 一元线性回归与多元线性回归理论及公式推导
一元线性回归 回归分析只涉及到两个变量的,称一元回归分析. 一元回归的主要任务是从两个相关变量中的一个变量去估计另一个变量,被估计的变量,称因变量,可设为Y:估计出的变量,称自变量,设为X.回归分析就 ...
- [统计学笔记] (十)一元线性回归
(十)一元线性回归 基本术语 回归这一术语最早来源于生物遗传学,由高尔顿(Francis Galton)引入. 回归的解释:回归分析是研究某一变量(因变量)与另一个或多个变量(解释变量.自变量)之间的 ...
- 一元线性回归决定系数_回归分析|笔记整理(1)——引入,一元线性回归(上)...
大家好! 新学期开始了,不知道大家又是否能够适应新的一学期呢?先祝所有大学生和中小学生开学快乐! 本学期我的专业课是概率论,回归分析,偏微分方程,数值代数,数值逼近,金融时间序列分析,应用金融计量学和 ...
最新文章
- python join 的使用
- Python——eventlet.websocket
- html页面判断其他div为空,将外部html加载到div中 - 页面加载然后变为空白
- Golang的模板与渲染
- _Blank主页——个人浏览器主页定制
- git clone --depth=1 -b 4.24
- 怎么样才显示暗=安装好了mysql_linux mysql安装
- C++的掐拷贝、深拷贝【面向对象程序设计细节】
- 【linux】xrander/cvt自定义分辨率
- 用python建立三元一次方程_python简单的三元一次方程求解实例
- IE6不支持position:fixed解决方法
- python提取cad坐标_从CAD图里提取坐标的方法
- php后台发送qq消息,WebQQ消息发送功能
- 动态服务器值 回放报错 没有关联到_LR关联(带附件) - 缺1份淡定ㄣ - 51Testing软件测试网 51Testing软件测试网-软件测试人的精神家园...
- NW集成打包 自定义图标及注意事项
- 面向对象之抽象类与接口【Java】
- c语言将时速转换成配速,配速与时速换算(跑步配速和时速换算)
- limited扫描仪 pfu_扫描一气呵成:PFU新款扫描仪赏析
- Ant design vue中实现动态更换主题色
- 函数柯里化与反柯里化