线性回归模型的度量参数1- SST SSR SSE R-Squared
本文解释线性回归模型的度量参数,并通过示例给出其计算过程。
模型度量参数概述
线性回归用于找到一条线能够最佳拟合数据集。通常使用三个不同的平方和值衡量回归线实际拟合数据的程度。
Sum of Squares Total (SST)
单个数据点(观测值)于响应变量的均值差的平方和。Sum of Squares Regression (SSR)
预测值ŷi与响应变量均值差的平方和。Sum of Squares Error (SSE)
预测值ŷi与观测值差的平方和。
三者之间的关系为:
SST = SSR + SSE
我们已经知道了三者的关系,如果已知两个变量,则可以通过上述公式计算第三个变量。
- R-Squared
R-Squared 也称为决定系数,它是衡量线性回归模型拟合数据集的程度,表示一定比例响应变量的方差能够被预测变量解释。R-Squared 取值范围是0 ~ 1。R-Squared 值越高,模型拟合数据集越好。0 表示响应变量完全不能被预测变量解释,1表示响应变量可以完美无误被预测变量解释。
使用 SSR 和 SST 能够计算 R-squared:
** R-squared = SSR / SST **
举例:
如果给定模型的SSR为137.5,SST为156, 则可以使用下面公式计算R-squared:
R-squared = 137.5 / 156 = 0.8814
结果表示 在总误差中响应变量的88.14%能够被预测变量解释。
计算 SST, SSR, SSE
假设有下面数据集,表示学习事件与考试成绩的关系,
下面我们使用R进行预测
examResult <- data.frame(hours=c(1,2,2,3,4,5), score= c(68,77,81,82,88,90))
fit <- lm(score ~ hours, examResult)
summary(fit)# Call:
# lm(formula = score ~ hours, data = examResult)
#
# Residuals:
# 1 2 3 4 5 6
# -3.6923 0.2308 4.2308 0.1538 1.0769 -2.0000
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) 66.6154 2.8886 23.062 2.09e-05 ***
# hours 5.0769 0.9212 5.511 0.00529 **
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 3.032 on 4 degrees of freedom
# Multiple R-squared: 0.8836, Adjusted R-squared: 0.8546
# F-statistic: 30.38 on 1 and 4 DF, p-value: 0.005288
我们获得预测模型为:
score = 66.615 + 5.0769*(hours)
下面使用图形表示预测情况:
library(ggplot2)ggplot(examResult, aes(hours, score)) + geom_point(shape = 21, fill = "yellow", size = 5) + geom_smooth(method="lm", se=FALSE ,linetype = 2)
我们已经知道了最佳预测模型,下面我们计算 SST, SSR, SSE:
1.计算响应变量的均值
library(tidyverse)
avg <- mean(examResult$score)
examResult <- examResult %>% bind_cols(yu =avg)
examResult # hours score yu
# 1 1 68 81
# 2 2 77 81
# 3 2 81 81
# 4 3 82 81
# 5 4 88 81
# 6 5 90 81
2.计算每个观察变量的预测变量
library(tidyverse)examResult <- examResult %>% mutate(yp = ( 66.615 + 5.0769 * hours))
examResult# hours score yu yp
# 1 1 68 81 71.6919
# 2 2 77 81 76.7688
# 3 2 81 81 76.7688
# 4 3 82 81 81.8457
# 5 4 88 81 86.9226
# 6 5 90 81 91.9995
3.计算总平方和(sst)
例如第一个学生的总平方和为:
(yi – y)^2 = (68 – 81) ^2 = 169.
我们可以使用相同的方法计算每个学生的总平方和:
examResult <- examResult %>% mutate(SSTi = (score-yu)^2)
examResult
# hours score yu yp SSTi
# 1 1 68 81 71.6919 169
# 2 2 77 81 76.7688 16
# 3 2 81 81 76.7688 0
# 4 3 82 81 81.8457 1
# 5 4 88 81 86.9226 49
# 6 5 90 81 91.9995 81SST <- sum(examResult$SSTi)
SST
# [1] 316
SST值为316,下面我们计算SSR
4.计算回归平方和(SSR)
第一个学生的回归平方和为:
(ŷi – y)^2 = (71.69 – 81) ^2 = 86.64.
我们可以使用同样的方法计算每个学生的回归平方和:
examResult <- examResult %>% mutate(SSRi = (yp-yu)^2)
examResult# hours score yu yp SSTi SSRi
# 1 1 68 81 71.6919 169 86.6407256
# 2 2 77 81 76.7688 16 17.9030534
# 3 2 81 81 76.7688 0 17.9030534
# 4 3 82 81 81.8457 1 0.7152085
# 5 4 88 81 86.9226 49 35.0771908
# 6 5 90 81 91.9995 81 120.9890002SSR <- sum(examResult$SSRi)
SSR
# [1] 279.2282
我们看到SSR的结果为:279.2282
5.计算误差平方和(SSE)
(ŷi – yi)^2 = (71.69 – 68) ^2 = 13.63.
我们可以使用相同方法计算每个学生的误差平方和:
examResult <- examResult %>% mutate(SSEi = (yp-score)^2)
examResult# hours score yu yp SSTi SSRi SSEi
# 1 1 68 81 71.6919 169 86.6407256 13.63012561
# 2 2 77 81 76.7688 16 17.9030534 0.05345344
# 3 2 81 81 76.7688 0 17.9030534 17.90305344
# 4 3 82 81 81.8457 1 0.7152085 0.02380849
# 5 4 88 81 86.9226 49 35.0771908 1.16079076
# 6 5 90 81 91.9995 81 120.9890002 3.99800025SSE <- sum(examResult$SSEi)
SSE
# [1] 36.76923
我们可以验证公式:SST = SSR + SSE
- SST = SSR + SSE
- 316 = 279.23 + 36.77
6.计算R-squared
上面已经计算出来SST/SSR ,下面我们计算回归模型的R-squared:
- R-squared = SSR / SST
- R-squared = 279.23 / 316
- R-squared = 0.8836
这表示88.36%的考试分数(score)能够被学习时间变量(hours)解释。
线性回归模型的度量参数1- SST SSR SSE R-Squared相关推荐
- 证明SST=SSR+SSE
- 线性回归模型的评估方法
线性回归模型常见的评估方法 (残差估计) 误差平方和: ∑ i = 1 n ( y ^ i − y i ) 2 \sum_{i=1}^{n}(\hat y_{i}-y_{i})^2 ∑i=1n(y^ ...
- 【超详细】多元线性回归模型statsmodels_ols
多元线性模型的主要作用:(主要进行预测) 通过建模来拟合我们所提供的或是收集到的这些因变量和自变量的数据,收集到的数据拟合之后来进行参数估计.参数估计的目的主要是来估计出模型的偏回归系数的值.估计出来 ...
- 机器学习10—多元线性回归模型
多元线性回归模型statsmodelsols 前言 什么是多元线性回归分析预测法 一.多元线性回归 二.多元线性回归模型求解 2.1最小二乘法实现参数估计-估计自变量X的系数 2.2决定系数:R² 与 ...
- 总离差平方和公式_在多元线性回归模型中,回归平方和与总离差平方和的比值称为( )_学小易找答案...
[单选题]参数 的估计量 具备有效性是指( ) [多选题]关于多重判定系数 的公式正确的有( ) [多选题]不满足OLS基本假定的情况,主要包括( ) [单选题]在多元回归分析中,F检验是用来检验( ...
- 线性回归模型度量参数2- Multiple R R-Squared adjusted R-squared
本文解释线性回归模型的一些度量参数及其之间的关系,并通过示例说明其计算过程. 模型度量参数概述 当我们使用回归模型时,通常在输出包括一些度量拟合程度的参数. Multiple R 多个变量之间多重相关 ...
- 【机器学习】拟合优度度量和梯度下降(红酒数据集的线性回归模型sklearnRidge)
文章目录 一.拟合优度度量(可决系数) 1.1总离差平方和的分解 1.2 TSS=ESS+RSS 1.3 红酒数据集实例R2_score实现代码 二. 梯度下降 2.1 损失函数直观图(单特征/变量举 ...
- (二十二)用RANSAC算法来求线性回归模型的参数
线性回归模型 一.什么是线性回归? 举个例子, 某商品的利润在售价为2 元. 5 元. 10 元时分别为 4 元. 11 元. 20 元, 我们很容易得出商品的利润与售价的关系符合直线:y=2x. 在 ...
- 【统计学习系列】多元线性回归模型(五)——参数与模型的显著性检验:t检验与F检验
文章目录 1. 前文回顾 2. 单参数显著性检验--t检验 2.1 问题的提出 2.2 检验统计量--t统计量的构造 2.3 拒绝域的构造 2.4 浅谈p值 3. 回归方程显著性检验--F检验 3.1 ...
最新文章
- MyEclipse扩展功能设置(Eclipse代码提示功能)
- iPhone 6c配置和5s相近 4寸屏基本确定
- 案例驱动python编程入门-python ddt数据驱动实例代码分享
- Django models文件模型变更注意事项(表结构的修改)
- linux格式化大于2t硬盘分区,linux下大于2tb硬盘格式化及挂载,linux下大于2t的分区方法,linux gpt分区表 管理 自动挂载分区...
- Scala与Java差异(五)之Map与Tuple
- Ten years of pedestrian Detection-论文整理
- python3发送邮件
- python中dict对象和字符串string对象互相转换
- Go实现 爬虫v0.2
- Linux性能优化之内存优化(二)
- 人只会看到他想看的,不想看的视而不见
- OFDM子载波正交特性matlab,OFDM的正交性(转)
- linux系统scsi硬盘,Linux系统中SCSI硬盘的热拔插
- c语言中local status6,2016年12月英语六级听力真题及答案:第2套
- Cryengine5.3
- hdu 2036 改革春风吹满地(叉积求多边形面积)
- python详细安装教程-Pycharm及python安装详细教程(图解)
- 项目管理:如何制作项目进度计划表?
- 在线网址URL生成二维码的API接口
热门文章
- JS基础—移动端网页特效
- [ 数通面试 ] 奇安信技术支持工程师 面试分享
- 信息系统分析与设计 第九章 系统设计概述
- UEditorPlus v2.6.0发布 编辑器草稿功能,操作体验优化
- 中科院最新通告:弃用影响因子!将替以「期刊超越指数」发布期刊分区表......
- 5个小组,只有一个女黑客,他们居然要模仿妲己?
- 【笔记】html 图片映射 usemap(vue环境下、map、area、coords)
- Audiority Effects Plugin Bundle 2022.3 CE-win 效果器插件合集包
- OGRE的安装与配置
- 谷歌浏览器(Chrome)查看http报文headers信息