【回归分析】一文读懂岭回归,附案例教学
1、作用
岭回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。
2、输入输出描述
输入:自变量X至少一项或以上的定量变量或二分类定类变量,因变量Y要求为定量变量(若为定类变量,请使用逻辑回归)。
输出:模型检验优度的结果,自变量对因变量的线性关系等等。
3、学习网站
SPSSPRO-免费专业的在线数据分析平台
4、案例示例
案例:通过自变量(房间面积、楼层高度、房子单价、是否有电梯、周围学校数量、距地铁站位置)拟合预测因变量(房价),现在发现房子单价与楼层高度之间有着很强的共线性,VIF值高于20;不能使用常见的最小二乘法OLS回归分析,需要使用岭回归模型。
5、案例数据
岭回归案例数据
6、案例操作
Step1:新建分析;
Step2:上传数据;
Step3:选择对应数据打开后进行预览,确认无误后点击开始分析;
step4:选择【岭回归(Ridge)】;
step5:查看对应的数据数据格式,【岭回归(Ridge)】要求自变量X至少一项或以上的定量变量或二分类定类变量,因变量Y要求为定量变量。
step6:点击【开始分析】,完成全部操作。
7、输出结果分析
输出结果1:岭迹图
图表说明: 通过岭迹图,确定K值。K值的选择原则是各个自变量的标准化回归系数趋于稳定时的最小K值。但通过岭迹图分析方法确定的岭参数 k 在一定程度上存在主观人为性,psspro采用方差扩大因子法自动确定K=0.162。
输出结果2:岭回归分析结果
*p<0.05,**p<0.01,***p<0.001
图表说明:岭回归的结果显示:基于字段面积、楼层、单价、周围学校数量(1km)、距地铁站距离(km)、配套电梯回归模型显著性 值为0.000***,水平上呈现显著性,拒绝原假设,表明自变量与因变量之间存在着回归关系。同时,模型的拟合优度 ²为0.956,模型表现为较为较为优秀,因此模型基本满足要求。
模型的公式:
总价=-64.72+0.987 × 面积-0.043 × 楼层+0.008 × 单价-0.447 × 周围学校数量(1km)-4.198 × 距地铁站距离(km)-3.674 × 配套电梯r/&gt;<br/>输出结果3:模型路径图
图表说明:上图以路径图形式展示了本次模型结果,主要包括模型的系数,用于分析模型的公式。
输出结果4:模型结果图
图表说明:上图以可视化的形式展示了本次模型的原始数据图、模型拟合值。
8、注意事项
- 一般在做岭回归之前,先采用线性回归(最小二乘法回归),如果发现自变量VIF(共线性)过大,如超过10,才使用岭回归;
- SPSSPRO采用方差扩大因子法来自动寻找K值;
- 选取 k值的一般原则是:
- 各回归系数的岭估计基本稳定
- 用最小二乘法估计的符号不合理的回归系数,其岭估计的符号变得合理
- 回归系数没有不合乎经济意义的绝对值
- 残差平方和增加不太多
9、模型理论
岭回归(Ridge Regression)是回归方法的一种,属于统计方法。在机器学习中也称作权重衰减。也有人称之为Tikhonov正则化。岭回归主要解决的问题是两种:一是当预测变量的数量超过观测变量的数量的时候(预测变量相当于特征,观测变量相当于标签),二是数据集之间具有多重共线性,即预测变量之间具有相关性。
一般的,回归分析的(矩阵)形式如下:
一般情况下,使用最小二乘法求解上述回归问题的目标是最小化如下的式子:
岭回归就是要在上述最小化目标中加上一个惩罚项:
这里的λ也是待求参数。也就是说,岭回归是带二范数惩罚的最小二乘回归。
10、参考文献
[1] 刘超,回归分析——方法、数据与R的应用,高等教育出版社,2019
【回归分析】一文读懂岭回归,附案例教学相关推荐
- 独家 | 一文读懂语音识别(附学习资源)
原标题:独家 | 一文读懂语音识别(附学习资源) 一.前言 6月27日,美国权威科技杂志<MIT科技评论>公布2017全球最聪明50家公司榜单.科大讯飞名列中国第一.全球第六.全世界排在科 ...
- 独家 | 一文读懂神经网络(附解读案例)
作者:Matthew Stewart 翻译:车前子 校对:陈丹 本文约5500字,建议阅读12分钟. 本文的知识将提供一个强有力的基础,带你入门神经网络的性能,应用于深度学习应用. "你的大 ...
- 一文读懂神经网络(附解读案例)
"你的大脑并不产生思想.你的思想塑造了神经网络."--Deepak Chopra 引文 J. Nocedal y S. Wright, "Numerical optimi ...
- 独家 | 一文读懂最大似然估计(附R代码)
作者:阿尼·辛格 翻译: 陈之炎 校对:丁楠雅 本文约4200字,建议阅读10+分钟. 本文将研究MLE是如何工作的,以及它如何用于确定具有任何分布的模型的系数. 简介 解释模型如何工作是数据科学中最 ...
- 一文读懂伪回归、协整、格兰杰
一.什么叫做伪回归 若是所建立的回归模型在经济意义上没有因果关系,那么这个就是伪回归,例如路边小树年增长率和国民经济年增长率之间存在很大的相关系数,但是建立的模型却是伪回归.如果你直接用数据回归,那肯 ...
- 一文读懂逻辑回归(Logistic Regression)
逻辑回归其实是是一种广义的线性回归,虽然说是回归函数,但是它其实是处理分类问题,我们从其背景,损失函数两方面说清楚. 背景 参考周志华教授的<机器学习>和吴恩达大神的深度学习中的讲解,逻辑 ...
- python随机森林变量重要性_推荐 :一文读懂随机森林的解释和实现(附python代码)...
原标题:推荐 :一文读懂随机森林的解释和实现(附python代码) 作者:WilliamKoehrsen:翻译:和中华:校对:李润嘉 本文约6000字,建议阅读15分钟. 本文从单棵决策树讲起,然后逐 ...
- | 一文读懂迁移学习(附学习工具包)
当一个CNN用于另一个领域,就使用到了迁移学习.迁移学习是一种用于模型领域泛化和扩展的工具. 文章链接:独家 | 一文读懂迁移学习(附学习工具包) 参考:当深度学习成为过去,迁移学习才是真正的未来? ...
- 一文读懂无线充电技术(附方案选型及原理分析)
一文读懂无线充电技术(附方案选型及原理分析) 标签: 无线充电 技术 电子 解决方案 2017年09月02日 10:27:12 5807人阅读 评论(1) 收藏 举报 (function () { ...
最新文章
- cocos2dx中的用户数据的管理
- 整理计算机网络参考模型知识
- VTK:可视化之BoxClipUnstructuredGrid
- Oracle-(if/case/以及模拟注册登录)练习-20131015
- mysql union 与 union all 语法及用法
- mall-applet小程序项目是一套电商系统
- 电磁工程计算机辅助设计,《ANSYS工程应用教程-热与电磁学篇》
- CSS + jQuery 实现的超 Sexy 下拉菜单
- SQL Server 2012 T-SQL 新特性
- Ubuntu快速设置指南
- Windows绘图基础
- mysql仓库管理软件破解版_Max(TM)仓库管理软件|Max(TM)仓库管理系统下载_v2.0.5.1 MySQL网络版_9号软件下载...
- 为驾驶安全护航,基于目标检测模型实现驾驶疲劳检测
- Figma常用快捷键(Mac版)
- java邮件发送代码报错_javamail发送附件不通过也不报错
- 开发者百度地图的使用,做一个小demo,ak秘钥,
- 软考中级软件设计师---系统开发基础
- 林奕含《房思琪的初恋乐园》全文/原文
- HTML Help Workshop(chm生成工具)的使用
- C语言求本利之和,新手上路,求各位多多指正。
热门文章
- MSSQLSERVER订阅发布闭坑指南
- 改变border-bottom的长度
- 用Python画九宫格图(n宫格图)的脚本
- 姿态估计之2D人体姿态估计 - (OpenPose) Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
- C#如何通过显示一次子窗体,判断返回的DialogResult的具体值
- “承认脆弱,让我们更强大” | TED史上最受欢迎的演讲之一
- scrapy爬虫项目实例三(起点图书信息万条数据)
- proxy_set_header Host $host $proxy_port $http_host
- C#开发ActiveX控件并应用于网页
- 自古真情留不住,只有套路得人心,你的正直和坦诚有用吗?