回归分析

变量之间X,Y之间存在某种密切的联系,但并非严格的函数关系(非确定性关系)

回归:回归是处理两个或两个以上变量之间互相依赖的定量关系的一种统计方法和技术,变量之间的关系并非确定的函数关系,通过一定的概率分布来描述

回归的分类

线性与非线性

线性的严格定义是一种映射关系,其映射关系满足可加性和其次性。通俗理解就是两个变量(因变量和自变量)之间存在一次方函数关系,在平面坐标系中表现为一条直线。

不满足线性即为非线性。

线性回归

线性回归:在回归分析中,如果自变量和因变量之间存在着线性关系,则被称作线性回归。

如果只有一个因变量一个自变量,则被称作一元线性回归,如果一个因变量多个自变量,则被称为多元回归

回归模型

回归模型的一般形式:y = f(x1,x2,x3,...,xp) + E

f(x1,x2,x3,...,xp)确定性关系

E随机误差(扰乱项):1.影响因素缺失,2.观测/测量误差,3.其他随机误差

建立回归模型的流程

  1. 需求分析明确变量

    了解实际需求,明确场景,清楚需要解释的指标(因变量),并根据相关业务知识选取与之相关的变量作为解释变量(自变量)。

  2. 数据加工处理

    根据上一步分析得到的解释变量,去收集相关的数据(时序数据、截面数据等),对得到的数据进行清洗、加工,并根据数据情况调整解释变量,并判断是否满足基本假设

    核查数据情况是否满足基本假设中和解释变量相关的部分:

    • 解释变量是非随机变量,其观测值是常数
    • 解释变量之间不存在精确的线性关系
    • 样本个数要多于解释变量的个数
    • 随机误差:零均值、同方差、不相关、正态
  3. 确定回归模型

    了解数据集,使用绘图工具绘制变量样本散点图或使用其他分析工具分析变量间的关系,根据结果选择回归模型,如:线性回归模型,指数形式的回归模型等。

  4. 模型参数估计

    模型确定后,基于收集、整理的样本数据,估计模型中的相关参数。最常用的方法是最小二乘法,在不满足基本假设的情况下还会采取岭回归、主成分回归、偏最小二乘法等。

    • 最小二乘法:也叫最小平方法,通过最小化误差的平方和寻找数据的最佳函数匹配的方法。
  5. 模型检验优化

    参数确定后,得到模型。此时需要对模型进行统计意义上的检验,包括对回归方程的显著性检验、回归系数的显著检验、拟合优化检验、异方差检验、剁成共线性检验等。还需要结合实际场景,判断该模型是否具有实际意义。

  6. 模型部署应用

    模型检验通过后,可以使用模型进行相关的分析、应用,包括因素分析、控制、预测等。

回归模型的特点

回归模型在很多领域都有广泛的应用,具有以下优点:

  • 模型简单,建模和应用都比较容易
  • 有坚实的统计理论支撑
  • 定量分析个变量之间的关系
  • 模型预测结果可以通过误差分析精确了解

存在一些缺点:

  • 假设条件比较多且相对严格(前提假设条件过多,使用之前需要进行验证,验证是否满足条件)
  • 变量选择对模型影响较大(对结果产生影响的因素很多,如何选择合适的因素作为自变量)

总结

  1. 了解线性回归的特点及使用场景
  2. 了解线性回归的建模方法
    • 六个步骤,步骤是否符和基本假设
  3. 了解线性回归的优点和缺点

一元线性回归

纲要

  1. 一元线性回归的参数估计
  2. 一元线性回归的显著性校验
  3. 一元线性回归的残差分析
  4. 一元线性回归模型的应用

目标

  1. 使用MLE(最大似然 估计),OLS(普通最小二乘法)进行参数估计
  2. 能使用假设检验对回归模型进行检验
  3. 理解并能进行回归模型的残差分析
  4. 使用线性回归模型进行预测和控制

一元线性回归模型

在研究某一现象时,主要关心与影响该现象最主要因素关系时,两者有密切关系,但并非一个变量唯一确定另一个变量,可以使用一元线性回归模型。

一元线性回归方程y = β0 +β1x

回归方程从平均意义上表达了变量y与x的统计规律性。

回归分析的主要任务就是通过n组样本的观察值,对β0、β1 进行估计,得到最终方程。

参数估计:最小二乘估计

根据观察数据,寻找参数β0、β1的估计值β0、β1,使观察值和回归预测值的离差平方和达到极小,估计值β0、β1称作回归参数β0、β1的最小二乘估计。

已知两组数据x,y,使用一元线性回归模型拟合二者之间得关系:y = β0 + β1x。采用最小二乘估计回归方程中的系数β0、β1,得到最终的回归方程。

参数估计:最大似然估计

利用总体的分布密度或概率分布的表达式及其样本所提供的信息求未知参数估计量的一种方法。

最大似然估计基本思路:已知样本符合某种分布,但分布的具体参数未知,通过实验,估算分布的参数。估算的思想为:已知某组参数能使当前样本出现的概率最大,就认为u该参数为最终的估计值

最大似然估计解决的是”模型已定,参数未知“的问题。即用一直样本的结果,去反推既定模型中的参数最可能的取值。

参数估计:有偏估计与无偏估计

无偏估计:用样本统计量来估计总体参数时的一种无偏估计,估计量的数学期望等于估计量的真实值。换言之,在对某量进行估计时,针对不同的样本,估计结果对真实值来说有的偏大有的偏小,反复多次,”平均“来说,和真实值得偏差为0。反之,即为有偏估计。

无偏估计无系统性偏差,有偏估计有系统性偏差。

回归模型的显著性检验

回归系数是否显著:t检验

因变量y与自变量x之间是否存在线性关系,即β1是否等于0,使用t检验进行 判断。

**确定假设:**我们搜集数据是为了找到不达标的证据,即原假设H0:β1 = 0,备选假设 H1:β1 ≠0

确定检验水平:采取常用的α=0.05

构造统计量

比较p值和α值

得到结论:p值若大于α值,不能拒绝原假设。即通过本次采样得到的样本数据,并不能证明原假设成立。需要重新建模。

回归分析——基本内容相关推荐

  1. 用excel做logistic回归分析_怎样用SPSS做二项Logistic回归分析?结果如何解释?

    使用Logistic模型前,需判断是否满足以下七个研究假设:假设1:因变量即结局是二分类变量. 假设2:有至少1个自变量,自变量可以是连续变量,也可以是分类变量. 假设3:每条观测间相互独立.分类变量 ...

  2. 高尔顿与回归分析的起源

    高尔顿与回归分析的起源 "回归"是由英国著名生物学家兼统计学家高尔顿(Francis Galton,1822-1911.生物学家达尔文的表弟)在研究人类遗传问题时提出来的.为了研究 ...

  3. matlab多元回归模型分析,matlab多元回归工具箱 Excel数据分析工具进行多元回归分析.doc...

    matlab多元回归工具箱 Excel数据分析工具进行多元回归分析.doc matlab多元回归工具箱 Excel数据分析工具进行多元回归分析 导读:就爱阅读网友为您分享以下"Excel数据 ...

  4. Excel做 “回归分析”,你可能都没玩儿过!

    点击上方蓝色字关注- 来源:大数据分析和人工智能 网站分析中专业的工具除了Google Analytics, Adobe Sitecatalyst, Webtrends, 腾讯分析和百度统计等外,我想 ...

  5. 多元回归求解 机器学习_机器学习——算法第一课:回归分析

    关键词:线性回归 逻辑回归 回归模型评估 阅读时间:15 分钟 一.回归分析的定义与分类 回归分析的定义: 利用数据统计原理,对大量统计数据进行数学处理,并确定因变量与某些自变量的相关关系,建立一个相 ...

  6. u=q k 的交通流模型图 matlab,数学建模回归分析matlab版.ppt

    <数学建模回归分析matlab版.ppt>由会员分享,可在线阅读,更多相关<数学建模回归分析matlab版.ppt(51页珍藏版)>请在装配图网上搜索. 1.2020/11/2 ...

  7. 回归分析法一元线性回归操作和解释

    用Excel做回归分析的详细步骤 一.什么是回归分析法 "回归分析"是解析"注目变量"和"因于变量"并明确两者关系的统计方法.此时,我们把因 ...

  8. Speex回声消除原理深度解析

    这里假设读者具有自适应滤波器的基础知识.Speex的AEC是以NLMS为基础,用MDF频域实现,最终推导出最优步长估计:残余回声与误差之比.最优步长等于残余回声方差与误差信号方差之比,这个结论可以记下 ...

  9. 机器学习线性回归算法实验报告_从零实现机器学习算法(九)线性回归

    1. 回归简介 在客观世界中普遍存在着变量与变量之间的关系.变量之间的关系一般可以分为确定关系和不确定关系.确定关系是指变量之间的关系可以通过函数关系来表达.非确定关系即所谓的相关关系.而回归分析是研 ...

最新文章

  1. 58集团技术委员会主席:斗胆谈一谈,我是如何做到年薪百万的!!!
  2. No resource identifier found for attribute 'showAsAction' in package 'android'
  3. Function Two
  4. 2018年 第09届 蓝桥杯 Java B组 决赛真题详解及小结
  5. eclipse定制化配置调优、初始化配置指南、可以解决启动慢等问题
  6. (Python)零起步数学+神经网络入门
  7. TableStore发布多元索引功能,打造统一的在线数据平台
  8. 太原市中考计算机考试系统,太原中考报名系统
  9. LeetCode 12. Integer to Roman
  10. python股票技术指标计算_通达信指标python都实现,python计算macd等技术指标,有什么包吗...
  11. Django讲课笔记03:创建Django项目
  12. 平常代码练习报错问题解决
  13. Google 是如何成为巨头的?
  14. Week12(11月28日)
  15. OpenCV C++ 常用功能
  16. struts2 Unable to load configuration
  17. 在html中实现word中打批注的功能
  18. 基于DS18B20温度控制系统
  19. 计算机与不确定性原理,傅里叶变换和不确定性原理
  20. 基于mpvue创建微信小程序项目

热门文章

  1. 吃豆人,一个小游戏,使用第三方图形库EasyX
  2. android sdk抓包 https,Android7 https 抓包
  3. 41、流量统计--代码实现
  4. 计算机excl知识题,计算机excel考试试题「附答案」
  5. oracle 列转行sql函数
  6. 小路绫只会做料理 (ayaya)
  7. SysDVR Switch 串流到笔记本
  8. Ubuntu + nvidia驱动+ cuda安装教程以及重装问题
  9. CentOS 7 更改 任务栏 高度
  10. 如何获取全国各省市区的地理区域位置(地图-JSON-点位-行政区域)