模型一般形式

统计模型的一般形式是Y=m(X)+e。其中Y为输出变量、响应变量、因变量、被解释变量;m为均值;e为不可控因子,可以理解为噪声。故模型等式右边是用X组成的函数去描述Y的均值,即模型是在平均的意义下去描述自变量与因变量间的关系,所以在解读模型的时候,我不会将模型说死

模型中不同形式的m(X)会幻化为不同的模型体系,一般可以将模型分为两大类:

  • m(X)可以幻化为数学公式,即公式模型,一般比较成熟的都是公式模型,例如回归模型的理论与底蕴就比较完善,模型的假定都是可以进行检验的;
  • m(X)过于复杂,用公式无法描述,需要用算法去描述,即算法模型,例如决策树模型

其实,建模的作用就是将看上去不太可能的事情联系到一起,同时又能将事情的来龙去脉解释清楚。模型构建之前都有假定,模型构建的好不好、是否合适都取决于模型是否符合假定,当然更核心的还是要关注模型在业务场景的应用,这才是建模的最主要的目的。

                                                                         回归的基本思路

在模型领域,解释性较好的模型毋庸置疑就是回归。回归模型主要能做两件事情,一是用模型去体现事物间的关系,即解释模型变量间的关系;二是用模型进行预测

如下图所示,回归建模的工作流程即 将客观现实转化为数据后进行建模,终极目标是用数学模型将事物的来龙去脉解释清楚,作为数据分析师,讲故事的能力真的非常重要。

                                                                           回归模型里的坑

构建回归模型时经常需要对变量进行变换,在调整量纲的过程中不怕数据长度发生变化的是数据的相对长度发生变化,因为眼睛能看到的空间为欧式空间,欧式空间的弱点是数据很容易受到量纲的影响,所以在构建模型进行数据变换的时候并不能随心所欲的变换。

数据变换过程中我经常会使用BOX-COX变换,这种变换的方法为:

  • λ不等于0的时候, 
  • λ等于0的时候, 

这种BOX-COX的数据变换方式有几个特点:

  • 这种变换可以改变分布形状,使数据成为对称甚至正态分布,至少,这种变换能将数据分布往正态分布方向拉一拉
  • 这种变换能保持原数据的大小次序;
  • 这种变换对变换结果有比较好的解释。例如:

λ=2的时候变换变为了,可以叫做平方变换;

λ=1的时候变换变为了,可以叫做恒等变换;

λ=0.5的时候变换变为,可以叫做平方根变换;

λ=0的时候可以叫做对数变换;

λ=-0.5的时候,y可以叫做平方根倒数变换;

  • 变换需要y的最大值和y的最小值的比值要大于2,即原始数据Y的最大值和最小值的变化范围不能太小使用BOX-COX变换才是有效的,如果变化范围过小则数据不敏感。但是实际工作中我还没有遇到过比值小于2的情况

                                                                         怎样衡量模型好坏

建模过程中首先应该考虑检验能否通过,如果检验通过,则需要考虑模型好不好、行不行,即必须要进行模型诊断,任何一个模型都有一个正常、期待的样子,即假定,模型建好后都应该看下模型拟合的结果是否符合假定,建模不是很难的过程,困难的点在于数据是否符合假定的衡量。

                                                                     简单线性回归模型的假定

简单线性回归模型有下面几个假定:

  • 线性假定

所谓线性假定指构建模型时需将模型构建成线性的模式,例如Y=b0+b1x2+e,虽然是x2的形式,但可将x2的整体看做X。即在进行参数估计的时候,自变量X可以采用任何形式,但是模型整体需要保证是类线性的模式;

  • 正交假定

X和e之间不相关;

  • 独立同分布

残差间相互独立,方差需齐性,即相等;

  • Y服从正态分布

一般直接检验因变量Y是不是正态分布比较麻烦,实际检验的是残差。

                                                                单变量线性回归模型SAS示例

单变量线性回归模型一般形式为:Y=b0+b1X1+e。其中Y为因变量,X为自变量或预测变量,e为扰动项,b为模型的系数。如下示例建模背景为针对消费与收入构建单变量线性回归模型,下面为SAS实现代码以及我对模型结果的解读思路:

PROC REG DATA=XUHUI PLOTS(ONLY)=ALL;

Linear_Regression_Model: MODEL cost=income/dw spec;

OUTPUT OUT=result

PREDICTED=predicted_cost

RESIDUAL=residual_cost

STUDENT=student_cost

RSTUDENT=rstudent_cost;

RUN;QUIT;

结果解读:

  • 看F检验结果与调整R方:

       F检验,如果P值小则为合理;调整R方,这里调整R方过小,说明这个一元回归模型可能仅仅一个自变量是不够的;

  • 看DW与spc:

       DW为自相关衡量指标,靠近2没有自相关,靠近4和0有自相关,这里DW为1.42有点靠近未判定区。一般,DW只能检验一阶自相关,更复杂的情况无法检验;spc为异方差检验指标,即怀特检验,即下方第一和第二距制定的检验,P值小表明没有异方差。

其实,DW检验也好、怀特检验也好,都属于弱检验,他们的检验结果的可靠性和实用性不大,只能作为参考,一般实际中我还是会去看残差图再次进行检验。

  • 分布,类似钟型,如果不是钟型可以对Y做Box-Cox变换。

  • 利用预测值残差图查看模型是否符合假定

如果模型符合假定,那么模型的残差均值为0、方差为常数,图形中方差用范围去体现,比较期望的状态应该是以均值为中心、区间保持稳定。这里残差图的形态说明出现了异方差,即消费越大花钱的方差越大,需要进行变换,这个地方我不太喜欢用最小二乘的方法进行处理,一般我会想去用合适的方法对变量进行变换。

  • 拟合诊断图

第一列图形用于判断数据是否是正态,右上角的四张图用于判断强影响点。

我的公众号:Data Analyst

个人网站:https://www.datanalyst.net/

单变量线性回归模型与结果解读相关推荐

  1. R使用lm构建单变量线性回归模型

    R使用lm构建单变量线性回归模型 回归分析是一种应用非常广泛的统计工具,用来建立两个变量之间的关系模型(单变量回归分析).其中一个变量被称为预测变量(predictor variable),它的值是通 ...

  2. 单变量线性回归模型_了解如何为单变量模型选择效果最好的线性回归

    单变量线性回归模型 by Björn Hartmann 比约恩·哈特曼(BjörnHartmann) 找出哪种线性回归模型最适合您的数据 (Find out which linear regressi ...

  3. 吴恩达机器学习(第二章)——单变量线性回归

    第二章-单变量线性回归 文章目录 第二章-单变量线性回归 模型描述 代价函数 梯度下降 梯度下降的思想 梯度下降算法的公式 梯度下降的运动方式 线性回归的梯度下降 模型描述 在监督学习中我们有一个数据 ...

  4. 吴恩达《机器学习》学习笔记四——单变量线性回归(梯度下降法)代码

    吴恩达<机器学习>学习笔记四--单变量线性回归(梯度下降法)代码 一.问题介绍 二.解决过程及代码讲解 三.函数解释 1. pandas.read_csv()函数 2. DataFrame ...

  5. 吴恩达机器学习之单变量线性回归实现部分

    C++实现 代码实现 "linear_regression.h" //单变量线性回归模型 struct elem_var1 {double x, y; //训练集元素数据:自变量. ...

  6. 吴恩达机器学习之单变量线性回归理论部分

    理论部分 1.方程形式 在进行数据处理过程中,有时数据图像可拟合成单变量线性函数,即 2.如何拟合 此时,我们虽知道拟合函数的形式,但如何拟合仍是个问题,怎样拟合可以最接近实际数据情况呢? 最小二乘法 ...

  7. 机器学习_吴恩达_week1(机器学习分类+单变量线性回归)

    目录 一.绪论 1.1 欢迎 1.2 机器学习是什么? 1.3 监督学习 1.4 非监督学习 二.单变量线性回归 2.1 模型表示 2.2 代价函数 2.3 代价函数的直观理解I 2.4 代价函数的直 ...

  8. 吴恩达机器学习笔记(2)——单变量线性回归(Univariate linear regression)

    一.模型描述 上一章已经通过卖房价格的模型简单介绍了什么是回归:我们尝试将变量映射到某一个连续函数上. 这章我们将这个问题简单地量化为单变量线性回归模型(Univariate linear regre ...

  9. Tensorflow 笔记 Ⅱ——单变量线性回归

    文章目录 核心步骤 (1)数据准备 (2)构建模型 (3)训练模型 (4)模型预测 单变量线性回归原理 监督式机器学习 迭代训练原理图 损失与损失函数 与损失函数相关的其中一个词汇叫收敛 与损失函数相 ...

最新文章

  1. 语言运行速度的一次测试
  2. axios的简单封装和http请求实践
  3. mysql主从从配置详解_MySQL主从配置详解
  4. 视图函数的基本理解 django
  5. VMware16虚拟机:下载和安装教程
  6. 计算机在教育中的应用利与弊,多媒体教学的利与弊
  7. 计算机毕业设计ssm+vue基本微信小程序的购物商城系统
  8. IT业十大热门职位介绍 (转)
  9. AWS 吹走了私有云天空中最后一片乌云
  10. python脚本--批量下载GNSS数据
  11. 免费网店系统下载地址
  12. 详解Unity中的导入3D模型
  13. Linux实用操作sed、crontab、awk等(有实例说明)
  14. 工作-iview的Tooltip+render函数
  15. 2017年6月大学英语六级真题(第一套)汉译英(每日一摸)
  16. PMP考试从报名到取证一条龙流程都在这里!文末有免费资料~
  17. Python的线程17 Condition类,田径赛场上的主裁判
  18. 案例借鉴 | 某通讯巨头的IT建设方案
  19. a: link visited active hover的使用顺序
  20. 国网新疆电力:将基于区块链交易共享平台推动数据资产增值变现

热门文章

  1. 《高级无线网络—4G技术》——2.6 MIMO信道和空时编码
  2. 4步提升快消品一线销售代表的终端销售业绩
  3. USB3.0转HDMI故障
  4. 对当下金融危机发生可能性的判断
  5. cat linux日志,Linux日志查看命令
  6. A054_Linux本地部署_华为云远程部署
  7. 简单两步找回忘记的WiFi密码
  8. Linux拷贝U盘文件(命令行)
  9. ccf-csp 2018春季真题题解
  10. 插入排序算法(Java代码实现)