机器学习数学基础九:回归分析
目录
一,回归分析概述
二,一元线性回归分析
三,误差
四,最小二乘法的推导和求解
最小二乘法推导:
利用回归直线进行估计与预测:
估计标准差:
影响区间宽度的因素:
五,回归直线的拟合优度
判定系数:
六,显著性检验:
1,显著性检验包括两方面:
1)线性关系检验
2)回归系数检验
2,线性关系检验与回归系数检验的区别:
七,多元线性回归
八,曲线回归分析
九,多重共线性
1,多重共线性带来的问题有:
2,多重共线性检验的主要方法:
3,容忍度
4,方差膨胀因子
一,回归分析概述
残差==误差项
相关分析是研究两个或两个以上的变量之间相关程度及大小的一种统计方法
回归分析是寻找存在相关关系的变量间的数学表达式,并进行统计推断的一种统计方法
在对回归分析进行分类时,主要有两种分类方式:
●根据变量的数目,可以分类一元回归、多元回归
●根据自变量与因变量的表现形式,分为线性与非线性
所以,回归分析包括四个方向:一 元线性回归分析、多元线性回归分析、一元非线性回归分析、多元非线性回归分析。
二,一元线性回归分析
●因变量(dependent variable): 被预测或被解释的变量,用y表示
●自变量(independent variable):预测或解释因变量的一一个或多个变量,用x表示
●对于具有线性关系的两个变量,可以用一个方程来表示它们之间的线性关系
●描述因变量y如何依赖于自变量x和误差项8的方程称为回归模型。对于只涉及一个自变量的一元线性回归模型可表示为:
回归方程:
三,误差
高斯分布:银行可能会多给,也可能会少给,但是绝大多数情况下这个浮动不会太大,极小情况下浮动会比较大,符合正常情况
四,最小二乘法的推导和求解
最小二乘法推导:
利用回归直线进行估计与预测:
点估计:利用估计的回归方程,对于x的某一个特定的值,求出y的一个估计值就是点估计
区间估计:利用估计的回归方程,对于x的一个特定值,求出y的一个估计值的区间就是区间估计
估计标准差:
为了度量回归方程的可靠性,通常计算估计标准误差。它度量观察值回绕着回归直线的变化程度或分散程度。
●公式中根号内的分母是n-2,而不是n,因而自由度为n-2。
●估计标准误差越大,则数据点围绕回归直线的分散程度就越大,回归方程的代表性越小。
●估计标准误差越小,则数据点围绕回归直线的分散程度越小,回归方程的代表愈大,其可靠性越高。
自由度就是一个系统在不违反任何限制条件下,可以自由变化的维度。
影响区间宽度的因素:
●置信水平(1 -a),区间宽度随置信水平的增大而增大
●数据的离散程度Se,区间宽度随离程度的增大而增大样本容量,区间宽度随样本容量的增大而减小
●X0与X均值之间的差异,随着差异程度的增大而增大
五,回归直线的拟合优度
回归直线与各观测点的接近程度称为回归直线对数据的拟合优度
总平方和可以分解为回归平方和、残差平方和两部分: SST= SSR+SSE
●总平方和(SST),反映因变量的n个观察值与其均值的总离差
●回归平方和SSR反映了y的总变差中,由于x与y之间的线性关系引起的y的变化部分
●残差平方和SSE反映了除了x对y的线性影响之外的其他因素对y变差的作用,是不能由回归直线来解释的y的变差部分
判定系数:
回归平方和占总平方和的比例,用R^2表示,其值在0到1之间。
●R^2== 0: 说明y的变化与x无关,x完全无助于解释y的变差
●R^2== 1:说明残差平方和为0,拟合是完全的,y的变化只与x有关
六,显著性检验:
显著性检验的主要目的是根据所建立的估计方程用自变量x来估计或预测因变量y的取值。当建立了估计方程后,还不能马上进行估计或预测,因为该估计方程是根据样本数据得到的,它是否真实的反映了变量x和y之间的关系,则需要通过检验后才能证实。
根据样本数据拟合回归方程时,实际上就已经假定变量x与y之间存在着线性关系,并假定误差项是一个服从正态分布的随机变量,且具有相同的方差。但这些假设是否成立需要检验
1,显著性检验包括两方面:
1)线性关系检验
线性关系检验是检验自变量x和因变量y之间的线性关系是否显著,或者说,它们之间能否用一个线性模型来表示。
将均方回归(MSR)同均方残差(MSE)加以比较,应用F检验来分析二者之间的差别是否显著。
●均方回归:回归平方和SSR除以相应的自由度(自变量的个数K)
●均方残差:残差平方和SSE除以相应的自由度(n-k-1)
H0: β1=0 所有回归系数与零无显著差异,y与全体x的线性关系不显著
2)回归系数检验
回归系数显著性检验的目的是通过检验回归系数β的值与0是否有显著性差异,来判断Y与X之间是否有显著的线性关系.若B=0,则总体回归方程中不含X项(即Y不随X变动而变动),因此,变量Y与X之间并不存在线性关系;若β≠0,说明变量Y与X之间存在显著的线性关系。
2,线性关系检验与回归系数检验的区别:
线性关系的检验是检验自变量与因变量是否可以用线性来表达,而回归系数的检验是对样本数据计算的回归系数检验总体中回归系数是否为0
●在一元线性回归中,自变量只有一个,线性关系检验与回归系数检验是等价的
●多元回归分析中,这两种检验的意义是不同的。线性关系检验只能用来检验总体回归关系的显著性,而回归系数检验可以对各个回归系数分别进行检验
七,多元线性回归
经常会遇到某一现象的发展和变化取决于几个影响因素的情况,也就是一个因变量和几个自变量有依存关系的情况,这时需用多元线性回归分析。
多元线性回归分析预测法,是指通过对两上或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测和控制的方法
八,曲线回归分析
直线关系是两变量间最简单的一种关系,曲线回归分析的基本任务是通过两个相关变量x与y的实际观测数据建立曲线回归方程,以揭示x与y间的曲线联系的形式。
曲线回归分析最困难和首要的工作是确定自变量与因变量间的曲线关系的类型,曲线回归分析的基本过程:
1)先将x或y进行变量转换
2)对新变量进行直线回归分析、建立直线回归方程并进行显著性检验和区间估计
3)将新变量还原为原变量,由新变量的直线回归方程和置信区间得出原变量的曲线回归方程和置信区间.
由于曲线回归模型种类繁多,所以没有通用的回归方程可直接使用。但是对于某些特殊的回归模型,可以通过变量代换、取对数等方法将其线性化,然后使用标准方程求解参数,再将参数带回原方程就是所求。
例子:
九,多重共线性
回归模型中两个或两个以上的自变量彼此相关的现象
1,多重共线性带来的问题有:
1)回归系数估计值的不稳定性增强
2)回归系数假设检验的结果不显著等
2,多重共线性检验的主要方法:
1)容忍度
2)方差膨胀因子(VIF)
3,容忍度
●Ri是解释变量xi与方程中其他解释变量间的复相关系数;
●容忍度在0~1之间,越接近于0,表示多重共线性越强,越接近于1,表示多重共线性越弱。
4,方差膨胀因子
方差膨胀因子是容忍度的倒数
●VIFi越大,特别是大于等于10,说明解释变量xi与方程中其他解释变量之间有严重的多重共线性;
●VIFi越接近1,表明解释变量xi和其他解释变量之间的多重共线性越弱。
机器学习数学基础九:回归分析相关推荐
- 基于Spark的机器学习实践 (九) - 聚类算法
0 相关源码 1 k-平均算法(k-means clustering)概述 1.1 回顾无监督学习 ◆ 分类.回归都属于监督学习 ◆ 无监督学习是不需要用户去指定标签的 ◆ 而我们看到的分类.回归算法 ...
- 【本站作品】机器学习数学基础专辑
本文推荐一份机器学习数学基础专辑,在线阅读地址:(数学基础专辑), 同时文末提供下载. 机器学习,需要一定的数学基础,也需要一定的代码能力.机器学习从业者数学基础不扎实,只会用一些工具和框架,相当于某 ...
- 机器学习(九)决策树,随机森林
机器学习(九)决策树,随机森林 文章目录 机器学习(九)决策树,随机森林 一.决策树 1.1 如何理解决策树 1.2 信息论的一些基础 1.3 信息论与决策树的关系 1.3.1 信息增益 1.4 常见 ...
- 视频教程-机器学习数学基础--概率论与数理统计视频教学-机器学习
机器学习数学基础--概率论与数理统计视频教学 北京大学计算机技术及应用专业,从事IT行业十几年,主要从事java.Linux.手机应用开发.人工智能神经网络方面的工作.曾在中国数码集团.厦门三五互联集 ...
- 学会python需要数学吗_机器学习数学基础:学习线性代数,千万不要误入歧途!推荐一个正确学习路线...
机器学习数学基础:学习线性代数,千万不要误入歧途!推荐一个正确学习路线 序言 写完<机器学习深度研究:机器学习中的高等数学/微积分及Python实现>,觉得十分对不起读者,写的自己都不满意 ...
- 机器学习:线性回归分析女性身高与体重之间的关系
机器学习:线性回归分析女性身高与体重之间的关系 作者:i阿极 作者简介:Python领域新星作者.多项比赛获奖者:博主个人首页
- 机器学习数学基础学习笔记
机器学习数学基础学习笔记 1. 微积分 1.1 导数 一阶导数,是函数 的切线斜率 二阶导数,是切线斜率的变化速度,即曲线的弯曲程度,也称为"曲率"(curvature) 1.2 ...
- 机器学习数学基础--凸优化
机器学习数学基础--凸优化 1.计算几何是研究什么的? 2.计算几何理论中(或凸集中)过两点的一条直线的表达式,是如何描述的?与初中数学中那些直线方程有什么差异?有什么好处? **在计算几何理论中(或 ...
- 机器学习数学基础之Python矩阵运算
机器学习数学基础之Python矩阵运算 1.在Jupyter中写下Python矩阵基本运算学习记录 1.1 python矩阵操作 1.1.1 首先打开jupyter,引入numpy 1.1.2 创建一 ...
最新文章
- 中兴f477v2超级管理员_中兴F650光猫修复
- java微信oppo,OPPO实现全球首次5G微信视频通话,国产手机满分操作
- 正则表达式加golang爬虫爬取经典案例豆瓣top250
- shu函数php,【函数分享】每日PHP函数分享(2021-3-3)
- LeetCode 88. 合并两个有序数组 golang
- python读取图像矩阵文件并转换为向量
- 18春东大计算机在线作业3,东大18春学期《计算机辅助数控编程》在线作业3.docx...
- Learn OpenGL(五)——定义自己的着色器
- 超强免解压看图片压缩包工具(Made in Korea)
- Linux下终端的快捷键及建立打开终端的快捷键
- 【知识点总结】电路原理 第一讲
- Ubuntu 16.04 笔记本双显卡安装 CUDA9.0
- 为什么一打电话就显示服务器故障,手机打电话黑屏怎么回事?手机打电话时出现黑屏情况的解决办法介绍...
- excel表格打印每页都有表头_Excel打印表格不再手忙脚乱
- 北上资金 python_股票数据抓取——北上基金持股数据(selenium抓取数据),爬取,之,北向,资金,通过...
- android网络转圈,网络请求时显示正在请求转圈
- 故事要从我白嫖了一个阿里云服务器说起
- 初识安全设备-防火墙
- 弱口令审计-工具用法大全
- Linux下Oracle 11g安装(1)—— 系统安装篇
热门文章
- 非投机性的 Web3 用例
- 大数据技术原理与应用 第一篇 大数据基础
- junit-vintage-engine和junit-jupiter-engine之间的区别?
- 绿联扩展坞拆解_用过才知道,华为P30搭配绿联扩展坞可实现众多有趣玩法
- python-机器学习-随机森林算法
- 【基于stm32 FreeRtos的智能台灯控制】
- linux串口驱动安装 RPM,Devart数据库工具【教程】:在Linux(DEB / RPM)上安装和配置ODBC驱动程序...
- 《Molecular Plant》新思路:比较转录组+比较基因组研究小麦高效氮利用分子机制
- 单片机两大延时方法总结
- 关于Invoke、InvokeRepeating、StartCoroutine调用规则释义