最小二乘法、相关系数、决定系数的区别与联系
目录
- 1、最小二乘法
- 2、相关系数与决定系数
- 1)相关系数
- 2)决定系数
- 3)相关系数与决定系数的区别
- 4)相关系数平方r2r^{2}r2与决定系数R2R^{2}R2相等
yyy和 xxx之间是一种相关关系,即当自变量变化时,因变量大体按某种规律变化,两者之间的关系不能直观的看出来,需要用统计学的方法加以确定,回归分析就是研究随机现象中某种变量间关系的一种数理统计方法,相关关系存在着某种程度的不确定性。例如,身高与体重,分析化学制备标准工作曲线中,浓度与吸光度间的关系。
1、最小二乘法
求回归方程的方法,通常是用最小二乘法,其基本思想就是从并不完全成一条直线的各点中用数理统计的方法找出一条直线,使各数据点到该直线的距离的总和相对其他任何线来说最小,记各点到回归线的差分和为最小,简称最小二乘法。
针对一元线性方程,假设有实验点(x1,y1x_{1},y_{1}x1,y1),(x2,y2x_{2},y_{2}x2,y2),…\dots…,(xn,ynx_{n},y_{n}xn,yn),满足如下回归方程:
y=a+bxy=a+bxy=a+bx
其中,bbb为斜率,aaa为截距。
则每个实验点相对于回归方程的误差为:
δi=yi−(a+bxi),i=1,2,…,n\delta_{i}=y_{i}-(a+bx_{i}),i = 1,2,\dots,nδi=yi−(a+bxi),i=1,2,…,n
求误差平方和最小值:
令QQQ代表各实验点误差平方和,有
Q=∑i=1nδ2=∑i=1n(yi−(a+bxi))2Q=\sum_{i=1}^{n}\delta^{2}=\sum_{i=1}^{n}(y_{i}-(a+bx_{i}))^{2}Q=i=1∑nδ2=i=1∑n(yi−(a+bxi))2
使QQQ值最小,只需将上式对 a,ba,ba,b 求偏微分,并令其为零,有
∂Q∂a=−2∑i=1n(yi−(a+bxi))=0,∂Q∂b=−2∑i=1n(yi−(a+bxi))xi=0\frac{\partial Q}{\partial a}=-2\sum_{i=1}^{n}(y_{i}-(a+bx_{i}))=0 ,\\ \frac{\partial Q}{\partial b}=-2\sum_{i=1}^{n}(y_{i}-(a+bx_{i}))x_{i}=0∂a∂Q=−2i=1∑n(yi−(a+bxi))=0,∂b∂Q=−2i=1∑n(yi−(a+bxi))xi=0
将上两式求解并简化即可求出 a,ba,ba,b,得
b=∑i=1n(xi−x‾)(yi−y‾)∑i=1n(xi−x‾)2,a=y‾−bx‾b=\frac{\sum_{i=1}^{n}(x_{i}- \overline x)(y_{i}- \overline y)}{\sum_{i=1}^{n}(x_{i}- \overline x)^{2}},a= \overline y-b \overline xb=∑i=1n(xi−x)2∑i=1n(xi−x)(yi−y),a=y−bx
可见回归方程必经过点 (x‾,y‾)( \overline x, \overline y)(x,y),其中,x‾\overline xx 和 y‾\overline yy 分别为和的平均值。
2、相关系数与决定系数
1)相关系数
著名统计学家卡尔·皮尔逊设计了统计指标—相关系数。相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。
依据相关现象之间的不同特征,其统计指标的名称有所不同。如将反映两变量间线性相关关系的统计指标称为相关系数;将反映两变量间曲线相关关系的统计指标称为非线性相关系数、非线性判定系数;将反映多元线性相关关系的统计指标称为复相关系数、复判定系数等。
相关系数是度量两个变量之间的相关程度,最终结果介于-1到1之间。其结果为两个变量之间的协方差与标准差的商。
相关系数计算公式:
r=cov(X,Y)σXσY=∑i=1n(Xi−X‾)(Yi−Y‾)∑i=1n(Xi−X‾)2∑i=1n(Yi−Y‾)2r=\frac{cov(X,Y)}{\sigma X\sigma Y}=\frac{\sum_{i=1}^{n}(X_{i}- \overline X)(Y_{i}- \overline Y)}{\sqrt{\sum_{i=1}^{n}(X_{i}- \overline X)^{2}}\sqrt{\sum_{i=1}^{n}(Y_{i}- \overline Y)^{2}}}r=σXσYcov(X,Y)=∑i=1n(Xi−X)2∑i=1n(Yi−Y)2∑i=1n(Xi−X)(Yi−Y)
其中,
协方差公式
cov(X,Y)=∑i=1n(Xi−X‾)(Yi−Y‾)ncov(X,Y)=\frac{\sum_{i=1}^{n}(X_{i}- \overline X)(Y_{i}- \overline Y)}{n}cov(X,Y)=n∑i=1n(Xi−X)(Yi−Y)
协方差的意义:如果结果为正值(当 XiX_{i}Xi 大于(小于) X‾\overline XX 并且 YiY_{i}Yi 大于(小于) Y‾\overline YY ),则说明 XXX 和 YYY 是正相关,如果为负则说明负相关,如果为0则说明两者之间没有关联,相互独立。
标准差公式
σX=∑i=1n(Xi−X‾)2n,σY=∑i=1n(Yi−Y‾)2n\sigma X= \sqrt{\frac {\sum_{i=1}^{n}(X_{i}- \overline X)^{2}}{n}},\\ \sigma Y= \sqrt{\frac {\sum_{i=1}^{n}(Y_{i}- \overline Y)^{2}}{n}}σX=n∑i=1n(Xi−X)2,σY=n∑i=1n(Yi−Y)2
除以标准差的意义:即消除了 XXX 和 YYY 自身变化的影响,只讨论两者之间关系。
上述公式中,X,YX,YX,Y 为两个变量集合,cov(X,Y)cov(X,Y)cov(X,Y) 为 XXX 、YYY 之间的协方差,σX\sigma XσX 为 XXX 的标准差。
缺点:需要指出的是,相关系数有一个明显的缺点,即它接近于1的程度与数据组数 nnn 相关,这容易给人一种假象。因为,当 nnn 较小时,相关系数的波动较大,对有些样本相关系数的绝对值易接近于1;当 nnn 较大时,相关系数的绝对值容易偏小。特别是当 n=2n=2n=2 时,相关系数的绝对值总为1。因此在样本容量 nnn 较小时,仅凭相关系数较大就判定变量 XXX 与 YYY 之间有密切的线性关系是不妥当的。
2)决定系数
度量拟合优度的统计量是决定系数(亦称可决系数、确定系数、判定系数、相关指数)R2R^{2}R2,最大值为1。拟合优度(Goodness of Fit)是指回归曲线对观测值的拟合程度。这里的拟合可以是线性的,也可以是非线性的,即使线性的也不一定要用最小二乘法来拟合。
规则:R2R^{2}R2 的值越接近1,说明回归曲线对观测值的拟合程度越好;反之,R2R^{2}R2 的值越小,说明回归曲线对观测值的拟合程度越差。总而言之,拟合优度是用于度量拟合曲线对于原始数据拟合效果的好坏,拟合优度 R2R^{2}R2 越接近1说明拟合优度越好,一般来说,拟合优度到达0.8以上就可以说拟合效果不错了。
令 yyy 为待拟合(真实)数据,y‾\overline yy 为待拟合数据平均值, y^\hat yy^ 为拟合结果数据,如下给出决定系数的定义:
- 总平方和(total sum of squares)
SST=∑i=1n(yi−y‾)2SST=\sum_{i=1}^{n}(y_{i}-\overline y)^{2}SST=i=1∑n(yi−y)2 - 解释(回归)平方和(regression sum of squares)
SSR=∑i=1n(y^i−y‾)2SSR=\sum_{i=1}^{n}(\hat y_{i}-\overline y)^{2}SSR=i=1∑n(y^i−y)2 - 残差平方和(error sum of squares)
SSE=∑i=1n(yi−y^)2SSE=\sum_{i=1}^{n}(y_{i}-\hat y)^{2}SSE=i=1∑n(yi−y^)2
决定系数:
R2=SSRSST=1−SSESSTR^{2} = \frac{SSR}{SST}=1-\frac{SSE}{SST}R2=SSTSSR=1−SSTSSE
3)相关系数与决定系数的区别
- 意义不同
相关系数意义:用以反映变量之间相关关系密切程度的统计指标。按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。
决定系数意义:拟合优度越大,自变量对因变量的解释程度越高,自变量引起的变动占总变动的百分比高。观察点在回归曲线附近越密集。 - 应用不同
相关系数:说明两变量间的相关关系;
决定系数:说明两变量间依存变化的数量关系。
4)相关系数平方r2r^{2}r2与决定系数R2R^{2}R2相等
对于线性回归,其相关系数的平方 r2r^{2}r2 与决定系数 R2R^{2}R2 相等
证明:
R2=SSRSST=∑i=1n(y^i−y‾)2∑i=1n(yi−y‾)2=∑i=1n(bxi−bx‾)2∑i=1n(yi−y‾)2R^{2}=\frac {SSR}{SST}= \frac {\sum_{i=1}^{n}(\hat y_{i}-\overline y)^{2}}{\sum_{i=1}^{n}(y_{i}-\overline y)^{2}}=\frac {\sum_{i=1}^{n}(b x_{i}-b\overline x)^{2}}{\sum_{i=1}^{n}(y_{i}-\overline y)^{2}}R2=SSTSSR=∑i=1n(yi−y)2∑i=1n(y^i−y)2=∑i=1n(yi−y)2∑i=1n(bxi−bx)2=b2⋅Sy2Sx2=(r⋅SySx)2⋅Sx2Sy2=r2⋅Sy2Sx2⋅Sx2Sy2=r2=b^{2}\cdot\frac{S_{y}^{2}}{S_{x}^{2}}=\left(r\cdot\frac{S_{y}}{S_{x}}\right)^{2}\cdot\frac{S_{x}^{2}}{S_{y}^{2}}=r^{2}\cdot\frac{S_{y}^{2}}{S_{x}^{2}}\cdot\frac{S_{x}^{2}}{S_{y}^{2}}=r^{2}=b2⋅Sx2Sy2=(r⋅SxSy)2⋅Sy2Sx2=r2⋅Sx2Sy2⋅Sy2Sx2=r2
根据第一节介绍的最小二乘法
b=SxySxx=SxySxxSyy⋅SyySxx=r⋅SySxb=\frac{S_{xy}}{S_{xx}}=\frac{S_{xy}}{\sqrt {S_{xx}S_{yy}}}\cdot\sqrt {\frac{S_{yy}}{S_{xx}}}=r\cdot\frac{S_{y}}{S_{x}}b=SxxSxy=SxxSyySxy⋅SxxSyy=r⋅SxSy
其中
Sxy=∑i=1n(xi−x‾)(yi−y‾)n−1,S_{xy}=\frac{\sum_{i=1}^{n}(x_{i}- \overline x)(y_{i}- \overline y)}{n-1},Sxy=n−1∑i=1n(xi−x)(yi−y),Sxx=∑i=1n(xi−x‾)2n−1,S_{xx}=\frac{\sum_{i=1}^{n}(x_{i}- \overline x)^{2}}{n-1},Sxx=n−1∑i=1n(xi−x)2,Syy=∑i=1n(yi−y‾)2n−1,S_{yy}=\frac{\sum_{i=1}^{n}(y_{i}- \overline y)^{2}}{n-1},Syy=n−1∑i=1n(yi−y)2,r=SxySxxSyy,r=\frac{S_{xy}}{\sqrt {S_{xx} S_{yy}}},r=SxxSyySxy,Sx=∑i=1n(xi−x‾)2n−1,S_{x}=\sqrt{\frac {\sum_{i=1}^{n}(x_{i}- \overline x)^{2}}{n-1}},Sx=n−1∑i=1n(xi−x)2,Sy=∑i=1n(yi−y‾)2n−1S_{y}= \sqrt{\frac {\sum_{i=1}^{n}(y_{i}- \overline y)^{2}}{n-1}}Sy=n−1∑i=1n(yi−y)2
可以得出一元线性回归(或拟合)时,相关系数的平方 r2r^{2}r2 与决定系数 R2R^{2}R2 相同,如果交换自变量和因变量顺序后再进行拟合,由于它们的相关系数相同,所以交换顺序后它们的决定系数也是相同的。
最小二乘法、相关系数、决定系数的区别与联系相关推荐
- 一元线性回归,代价函数,相关系数/决定系数
回归 最早由英国科学家弗朗西斯高尔顿提出,生物学家,他发现一个现象,虽然有一个趋势"父母高,儿女也高:父母矮,儿女也矮",但给定父母的身高,儿女的身高却趋向于(回归于)全体人口的平 ...
- 数值计算方法第五章—曲线拟合的最小二乘法
曲线拟合的最小二乘法 本文参考书为马东升著<数值计算方法> 最小二乘法 与插值法的区别:只需"逼近" f(x)f(x)f(x) ,而不用满足插值原则(即经过插值节点) ...
- 我愿称之为史上最全的深度学习面经总结(附答案详解)
作者丨马东什么@知乎(已授权) 来源丨https://zhuanlan.zhihu.com/p/391954665 编辑丨极市平台 最近参加社招,面试基本是问项目,然后问项目里的算法所以这里还是按照实 ...
- 史上最全的深度学习面经总结(附答案详解)
以下文章来源于:马东什么@知乎 作者:马东什么 原文链接:https://zhuanlan.zhihu.com/p/391954665 本文仅用于学术分享,如有侵权,请联系后台作删文处理 导读 本文很 ...
- c++多元线性回归_五种优化算法实现多元线性回归
实现多元线性回归的要求及假设条件: '''线性回归的假设条件:1.样本独立,即每个预测样本之间没有依赖关系:2.残差e要服从正态分布,即y_true-y_pred的残差需要服从高斯分布:3.特征之间独 ...
- mysql 李天生_笔记:《零基础搞定机器学习及深度学习(覃秉丰)》
引自:<零基础搞定机器学习及机器学习>(网易云课堂 - 覃秉丰) 线性回归 回归分析最典型的例子就是"房价预测". 代价函数 相关系数 决定系数 y为真实值,加 - 表 ...
- 点云处理算法整理(超详细教程)
点云处理算法整理(超详细教程) 目录 一. 线性回归_最小二乘法.梯度下降法 二. 线性回归_最小二乘法.RANSAC算法 三. 最近点迭代_ICP算法 四. 常见三角网格划分_voronoi图和De ...
- 统计相关系数r与r2的区别_什么是相关系数? 统计解释中的r值
统计相关系数r与r2的区别 Correlations are a great tool for learning about how one thing changes with another. A ...
- matlab距离平方和公式推导,lstopt 非线性拟合:相关系数之平方(R^2)和决定系数(DC)计算公式是?...
本帖最后由 老姜 于 2013-12-11 03:30 编辑 我做了个非线性拟合,结果发现:相关系数之平方(R^2) 不等于决定系数(DC),自己采用1-SSE/SST计算后得到DC值,想知道lsto ...
最新文章
- Perl Debug error: SetConsoleMode failed, LastError=|6|
- 如何在同一台电脑上同时运行2个tomcat
- webstorm里stylus代码报错_发生甚莫事了?我的程序为啥又报错了!
- java 序列化 clone_利用java序列化进行对象深Clone
- 十五天精通WCF——第十一天 如何对wcf进行全程监控
- 【jzoj】2018.1.31 NOIP普及组——D组模拟赛
- 前端学习(486):css选择器上
- 计算机指令就是一串开关吗,什么是非法关机?常按计算机开关,还是直接拔掉电源插头才算啊?...
- WordPress 插件开发实例 – 详细注释的 Widget 开发例子
- Dnsmasq安装与配置-搭建本地DNS服务器 更干净更快无广告DNS解析
- 累斗累---走出软件作坊:三五个人十来条枪 如何成为开发正规军(二十)
- python c/s模式下的内存监控模拟代码
- 麦咖啡企业版McAfee VirusScan Enterprise v8.8授权版
- 遥感原理与应用总结——第一章:遥感原理的基本概念
- 23位子网掩码是多少_无敌子网掩码(IP地址)计算方法(完全心算法)
- 京东发力团购欲摘桃 团购市场继续动荡
- linux常见维护命令报错,Linux系统维护命令小结.ppt
- spring cloud 微服务之间添加自定义的header头
- MegaCli的简易使用(命令总结)
- 程序猿生存指南-22 分手快乐
热门文章
- cruise纯电动汽车仿真输入模板,个人整理,共8个表单,包含校核清单,整车参数
- 学习 Linux_kernel_exploits 小记
- 转载 汉字转拼音,比Excel的 VBA强,Excel出来的结果还有错的。
- echarts地图显示图例对应地点去除标识小圆点
- 车牌分割python_OpencvPython实现车牌字符分割
- document.getElementById(id)的用法
- 学习使用turtlebot2——turtlebot2上使用Hokuyo激光雷达(型号UST-10LX)
- exit()函数、_exit()函数 和 _Exit()函数
- VSOMEIP双机通信
- 2021年施工升降机司机(建筑特殊工种)考试资料及施工升降机司机(建筑特殊工种)证考试