线性回归是利用梳理统计学中的回归分析来确定两种或两种以上变量之间相互依赖的定量关系的一种统计分析方法。

线性回归简介

线性回归是一种有监督算法,通常被用于响应预测、分类划分。线性回归的针对的是目标变量是区间型变量的问题。

线性回归是描述目标变量Y是如何随着一组自变量X1、X2…的变化而变化的模型。其中Y的变化分为两部分,一部分是系统性变化,也就是由自变量引起的变化;一部分是随机变化,也就是自变量不能解释的残差。

线性回归优势

  • 通俗易懂。输入变量的系数与权重挂钩,很容易解释每个输入变量对目标变量预测值的贡献大小;
  • 速度快,效率高。相对来说计算速度是最快的;
  • 可以作为查找异常值的有效方法。那些与线性回归方程预测值相差较大的观察值一般都值得进一步考虑。

原理概述

线性回归包括一元线性回归和多元线性回归,实际中最常用的是多元线性回归。但一元线性回归可以帮助我们更好的理解线性回归的原理。

一元线性回归的表达形式为:Y=aX+b+e。

系统性变化:aX+b

随机变化:e,e为误差服从均值为0的正态分布。e不是一个定值,每一组x和y都对应一个e。

假设现在有一个输入变量x和一个目标变量y,把他们映射到二维坐标系中,这个时候可以用一条线把所有散点连接起来,这条线可以用一个一元函数y=ax+b表示,而在引入误差e之后其实就是一个线性回归的模型y=ax+b+e。这种从大量的函数结果和自变量反推会函数表达式的过程就是回归。而把一系列样本点用一条光滑的曲线连接起来的过程就叫做拟合。

而当有两个输入变量时,就需要把样本点映射到三维的空间中,进而拟合出一个平面,而这个平面代表的函数就是我们得到的线性回归模型。

随着输入变量和目标变量的增多,同样可以在更高维的空间拟合出对应的多元线性回归模型,这就是线性回归的基本思路。

系数求解方法

那么如何确定线性回归模型的系数呢?通常用的是最小二乘法,即找出一组参数使得目标变量Y的实际观察值与回归方程的预测值之间总的方差最小。或者说在线性回归中,最小二乘法就是找到一条直线(一元线性回归模型时)使所有样本到直线上的欧式距离之和最小。

线性回归模型检验

模型的解释程度,也叫拟合度检验。通常用R平方表示拟合度的优劣;

总体显著性检验。主要是检验目标变量与输入变量之间的线性关系是否显著,也就是输入变量的系数是否不全为0。通常用F检验完成;

系数显著性验证。需要对每个系数分别检验。如果某个系数对应的P值小于理论显著性水平α,则认为在显著性水平α下,该回归系数是显著的。

显著性表示得以相互区别的能力。在统计假设检验中,公认的小概率事件的概率值被称为统计假设检验的显著性水平,对同一量,进行多次计量,然后算出平均值。对于偏离平均值的正负差值,就是其不确定度。其差值越大,则计量的不确定度就越大,对于具有特定的发生概率的随机变量,其特定的价值区间,即一个确定的数值范围(“一个区间”)就越大。

应用注意事项

  • 算法对噪声和异常值比较敏感。
  • 只适合处理线性关系。如果是非线性关系则不适合,可以尝试先对自变量进行转换。
  • 输入变量是确定的变量而不是随机变量,且自变量之间没有线性关系。
  • 随机误差项具有均值为0的等方差性;随机误差呈正态分布。

回归预测值预测区间_机器学习之线性回归概述相关推荐

  1. python 线性回归回归 缺失值 忽略_机器学习 第3篇:数据预处理(使用插补法处理缺失值)...

    插补法可以在一定程度上减少偏差,常用的插补法是热卡插补.拟合插补和多重插补.拟合插补,要求变量间存在强的相关性:多重插补(MCMC法),是在高缺失率下的首选插补方法,优点是考虑了缺失值的不确定性. 一 ...

  2. logit回归模型假设_机器学习基础---逻辑回归(假设函数与线性回归不同)

    一:分类 (一)分类基础 在分类问题中,你要预测的变量y是离散的值,我们将学习一种叫做逻辑回归 (Logistic Regression) 的算法,这是目前最流行使用最广泛的一种学习算法. 在分类问题 ...

  3. 曲线 线性回归_机器学习笔记 线性回归

    一.线性回归找到最佳拟合直线 1. 定义 线性回归是通过现有数据,让训练模型生成一个拟合公式,从而计算目标数据的预测值. 在统计学中,线性回归(Linear Regression)是利用称为" ...

  4. 机器学习线性回归算法实验报告_机器学习笔记 线性回归

    一.线性回归找到最佳拟合直线 1. 定义 线性回归是通过现有数据,让训练模型生成一个拟合公式,从而计算目标数据的预测值. 在统计学中,线性回归(Linear Regression)是利用称为" ...

  5. 机器学习回归模型精度_机器学习模型实施精度召回和概率截止。

    机器学习回归模型精度 Congratulations on completing your Machine Learning (ML) pipeline! In the second part of ...

  6. 机器学习线性回归_机器学习实例--线性回归

    一.问题引入 1.首先明确几个概念 目前三大最常见的机器学习任务: 1.回归问题 2.分类问题 3.聚类问题 Machine learning机器学习是Artificial inteligence的核 ...

  7. opencv机器学习线性回归_机器学习(线性回归(二))

    Lasso与岭回归的同和异 Lasso.岭回归都可以预防模型过拟合 Lasso回归惩罚项为L1正则,岭回归为L2正则 Lasso回归可用来特征选择,岭回归则不能 Lasso回归用坐标下降法求解,岭回归 ...

  8. python 最小二乘回归 高斯核_机器学习技法6-(支持向量回归)

    一.核岭回归 线性分类模型加入了L2正则化以后,最佳解是w关于z的线性组合,因此带有L2正则化的线性分类模型能引入核函数,也就是把线性模型变成核函数的形式. 在线性回归模型中,损失函数为: 当给线性回 ...

  9. 用python做逻辑回归梯度上升_机器学习实例---4.1、Logistic回归基础篇之梯度上升算法...

    一 前言 本文从Logistic回归的原理开始讲起,补充了书上省略的数学推导.本文可能会略显枯燥,理论居多,Sklearn实战内容会放在下一篇文章.自己慢慢推导完公式,还是蛮开心的一件事. 二 Log ...

最新文章

  1. ​用 Python 动态可视化,看看比特币这几年
  2. 小白学python买什么书-小白如何高效率学习python?真心建议(附教程)
  3. zt:缓存一致性(Cache Coherency)入门 cach coherency
  4. Reddit热议:为什么PyTorch比TensorFlow更快?
  5. AY写给国人的教程- VS2017 Live Unit Testing[1/2]-C#人爱学不学-aaronyang技术分享
  6. oracle 体系结构及内存管理 15_存储结构
  7. c语言扩展欧几里得算法编程实现,C语言实现欧几里得算法与扩展欧几里得算法.doc...
  8. Navicat连接失败
  9. java求正方形的面积周长_三角形正方形 圆和正五边形的周长和面积计算 java实现.doc...
  10. 兔子生兔子java_用Java编程计算兔子生兔子的问题
  11. 【2020最新,无错误!】python实现百度API---地址转经纬度(地理编码)/经纬度转地址(逆地理编码),含源码
  12. 计算机写配器音乐谱子,《电脑音乐配器与制作》教学思路及教材编写
  13. 电脑上总显示宽带连接服务器怎么办啊,电脑显示宽带已连接网页打不开怎么办...
  14. 内存管理(15)——UI(20)——DeleteObject
  15. 微信小程序详细图文教程-10分钟完成微信小程序开发部署发布
  16. [C++实现 设计模式(14)] : 门面模式
  17. jmeter接口测试3-正则表达式提取器的使用
  18. [Python]numpy数据分析练习[21~30]
  19. Lenovo G470 Yosemite 10.10.5 双系统 原版镜像安装
  20. GitLab权限角色详解,摘自gitLab权限说明文档

热门文章

  1. 多语言跨平台远程过程调用【Avro】
  2. 在IIS8添加WCF服务支持
  3. JavaEye站长对OpenSocial与Facebook平台的比较
  4. 读书:《从零到百亿-Facebook创业故事》
  5. Asp.Net Forums研究文章集合(收藏)
  6. [转] Android实时抓包分析 : 善用adb调试桥
  7. Python学习笔记_文件读写,目录遍历类封装
  8. 字符编码乱码问题(servlet底层 编码大揭秘)
  9. 算法(三):图解广度优先搜索算法
  10. 大数据之-Hadoop3.x_MapReduce_WordCount案例集群运行---大数据之hadoop3.x工作笔记0093