前言

1.“回归”一词的由来

我们不必在“回归”一词上费太多脑筋。英国著名统计学家弗朗西斯·高尔顿(Francis Galton,1822—1911)是最先应用统计方法研究两个变量之间关系问题的人。“回归”一词就是由他引入的。他对父母身高与儿女身高之间的关系很感兴趣,并致力于此方面的研究。高尔顿发现,虽然有一个趋势:父母高,儿女也高;父母矮,儿女也矮,但从平均意义上说,给定父母的身高,儿女的身高却趋同于或者说回归于总人口的平均身高。换句话说,尽管父母双亲都异常高或异常矮,儿女身高并非也普遍地异常高或异常矮,而是具有回归于人口总平均高的趋势。更直观地解释,父辈高的群体,儿辈的平均身高低于父辈的身高;父辈矮的群体,儿辈的平均身高高于其父辈的身高。用高尔顿的话说,儿辈身高的“回归”到中等身高。这就是回归一词的最初由来。

回归一词的现代解释是非常简洁的:回归时研究因变量对自变量的依赖关系的一种统计分析方法,目的是通过自变量的给定值来估计或预测因变量的均值。它可用于预测、时间序列建模以及发现各种变量之间的因果关系。

使用回归分析的益处良多,具体如下:

1) 指示自变量和因变量之间的显著关系;

2) 指示多个自变量对一个因变量的影响强度。

回归分析还可以用于比较那些通过不同计量测得的变量之间的相互影响,如价格变动与促销活动数量之间的联系。这些益处有利于市场研究人员,数据分析人员以及数据科学家排除和衡量出一组最佳的变量,用以构建预测模型。

2.为什么使用回归分析

1)更好地了解

对某一现象建模,以更好地了解该现象并有可能基于对该现象的了解来影响政策的制定以及决定采取何种相应措施。基本目标是测量一个或多个变量的变化对另一变量变化的影响程度。示例:了解某些特定濒危鸟类的主要栖息地特征(例如:降水、食物源、植被、天敌),以协助通过立法来保护该物种。

2)建模预测

对某种现象建模以预测其他地点或其他时间的数值。基本目标是构建一个持续、准确的预测模型。示例:如果已知人口增长情况和典型的天气状况,那么明年的用电量将会是多少?

3)探索检验假设

还可以使用回归分析来深入探索某些假设情况。假设您正在对住宅区的犯罪活动进行建模,以更好地了解犯罪活动并希望实施可能阻止犯罪活动的策略。开始分析时,您很可能有很多问题或想要检验的假设情况。

回归分析的作用主要有以下几点:

1)挑选与因变量相关的自变量;

2)描述因变量与自变量之间的关系强度;

3)生成模型,通过自变量来预测因变量;

4)根据模型,通过因变量,来控制自变量。

回归分析方法

现在有各种各样的回归技术可用于预测,这些技术主要包含三个度量:自变量的个数、因变量的类型以及回归线的形状。

1.回归分析方法

1)线性回归

线性回归它是最为人熟知的建模技术之一。线性回归通常是人们在学习预测模型时首选的少数几种技术之一。在该技术中,因变量是连续的,自变量(单个或多个)可以是连续的也可以是离散的,回归线的性质是线性的。线性回归使用最佳的拟合直线(也就是回归线)建立因变量 (Y) 和一个或多个自变量 (X) 之间的联系。用一个等式来表示它,即:

Y=a+b*X + e

其中a 表示截距,b 表示直线的倾斜率,e 是误差项。这个等式可以根据给定的单个或多个预测变量来预测目标变量的值。

一元线性回归和多元线性回归的区别在于,多元线性回归有一个以上的自变量,而一元线性回归通常只有一个自变量。

线性回归要点:

1)自变量与因变量之间必须有线性关系;

2)多元回归存在多重共线性,自相关性和异方差性;

3)线性回归对异常值非常敏感。它会严重影响回归线,最终影响预测值;

4)多重共线性会增加系数估计值的方差,使得估计值对于模型的轻微变化异常敏感,结果就是系数估计值不稳定;

5)在存在多个自变量的情况下,我们可以使用向前选择法,向后剔除法和逐步筛选法来选择最重要的自变量。

2)Logistic回归

Logistic回归可用于发现 “事件=成功”和“事件=失败”的概率。当因变量的类型属于二元(1 / 0、真/假、是/否)变量时,我们就应该使用逻辑回归。这里,Y 的取值范围是从 0 到 1,它可以用下面的等式表示:

odds= p/ (1-p) = 某事件发生的概率/ 某事件不发生的概率

ln(odds) = ln(p/(1-p))

logit(p) = ln(p/(1-p)) =b0+b1X1+b2X2+b3X3....+bkXk

如上,p表述具有某个特征的概率。在这里我们使用的是的二项分布(因变量),我们需要选择一个最适用于这种分布的连结函数。它就是Logit 函数。在上述等式中,通过观测样本的极大似然估计值来选择参数,而不是最小化平方和误差(如在普通回归使用的)。

Logistic要点:

1)Logistic回归广泛用于分类问题;

2)Logistic回归不要求自变量和因变量存在线性关系。它可以处理多种类型的关系,因为它对预测的相对风险指数使用了一个非线性的 log 转换;

3)为了避免过拟合和欠拟合,我们应该包括所有重要的变量。有一个很好的方法来确保这种情况,就是使用逐步筛选方法来估计Logistic回归;

4)Logistic回归需要较大的样本量,因为在样本数量较少的情况下,极大似然估计的效果比普通的最小二乘法差;

5)自变量之间应该互不相关,即不存在多重共线性。然而,在分析和建模中,我们可以选择包含分类变量相互作用的影响;

6)如果因变量的值是定序变量,则称它为序Logistic回归;

7)如果因变量是多类的话,则称它为多元Logistic回归。

3)Cox回归

Cox回归的因变量就有些特殊,它不经考虑结果而且考虑结果出现时间的回归模型。它用一个或多个自变量预测一个事件(死亡、失败或旧病复发)发生的时间。Cox回归的主要作用发现风险因素并用于探讨风险因素的强弱。但它的因变量必须同时有2个,一个代表状态,必须是分类变量,一个代表时间,应该是连续变量。只有同时具有这两个变量,才能用Cox回归分析。Cox回归主要用于生存资料的分析,生存资料至少有两个结局变量,一是死亡状态,是活着还是死亡;二是死亡时间,如果死亡,什么时间死亡?如果活着,从开始观察到结束时有多久了?所以有了这两个变量,就可以考虑用Cox回归分析。

4)poisson回归

通常,如果能用Logistic回归,通常也可以用poission回归,poisson回归的因变量是个数,也就是观察一段时间后,发病了多少人或是死亡了多少人等等。其实跟Logistic回归差不多,因为logistic回归的结局是是否发病,是否死亡,也需要用到发病例数、死亡例数。

5)Probit回归

Probit回归意思是“概率回归”。用于因变量为分类变量数据的统计分析,与Logistic回归近似。也存在因变量为二分、多分与有序的情况。目前最常用的为二分。医学研究中常见的半数致死剂量、半数有效浓度等剂量反应关系的统计指标,现在标准做法就是调用Pribit过程进行统计分析。

6)负二项回归

所谓负二项指的是一种分布,其实跟poission回归、logistic回归有点类似,poission回归用于服从poission分布的资料,logistic回归用于服从二项分布的资料,负二项回归用于服从负二项分布的资料。如果简单点理解,二项分布可以认为就是二分类数据,poission分布就可以认为是计数资料,也就是个数,而不是像身高等可能有小数点,个数是不可能有小数点的。负二项分布,也是个数,只不过比poission分布更苛刻,如果结局是个数,而且结局可能具有聚集性,那可能就是负二项分布。简单举例,如果调查流感的影响因素,结局当然是流感的例数,如果调查的人有的在同一个家庭里,由于流感具有传染性,那么同一个家里如果一个人得流感,那其他人可能也被传染,因此也得了流感,那这就是具有聚集性,这样的数据尽管结果是个数,但由于具有聚集性,因此用poission回归不一定合适,就可以考虑用负二项回归。

7)weibull回归

中文有时音译为威布尔回归。关于生存资料的分析常用的是cox回归,这种回归几乎统治了整个生存分析。但其实夹缝中还有几个方法在顽强生存着,而且其实很有生命力。weibull回归就是其中之一。cox回归受欢迎的原因是它简单,用的时候不用考虑条件(除了等比例条件之外),大多数生存数据都可以用。而weibull回归则有条件限制,用的时候数据必须符合weibull分布。如果数据符合weibull分布,那么直接套用weibull回归自然是最理想的选择,它可以给出最合理的估计。如果数据不符合weibull分布,那如果还用weibull回归,那就套用错误,结果也就会缺乏可信度。weibull回归就像是量体裁衣,把体形看做数据,衣服看做模型,weibull回归就是根据某人实际的体形做衣服,做出来的也就合身,对其他人就不一定合身了。cox回归,就像是到商场去买衣服,衣服对很多人都合适,但是对每个人都不是正合适,只能说是大致合适。至于到底是选择麻烦的方式量体裁衣,还是选择简单到商场直接去买现成的,那就根据个人倾向,也根据具体对自己体形的了解程度,如果非常熟悉,自然选择量体裁衣更合适。如果不大了解,那就直接去商场买大众化衣服相对更方便些。

8)主成分回归

主成分回归是一种合成的方法,相当于主成分分析与线性回归的合成。主要用于解决自变量之间存在高度相关的情况。这在现实中不算少见。比如要分析的自变量中同时有血压值和血糖值,这两个指标可能有一定的相关性,如果同时放入模型,会影响模型的稳定,有时也会造成严重后果,比如结果跟实际严重不符。当然解决方法很多,最简单的就是剔除掉其中一个,但如果实在舍不得,觉得删了太可惜,那就可以考虑用主成分回归,相当于把这两个变量所包含的信息用一个变量来表示,这个变量我们称它叫主成分,所以就叫主成分回归。当然,用一个变量代替两个变量,肯定不可能完全包含他们的信息,能包含80%或90%就不错了。但有时候我们必须做出抉择,你是要100%的信息,但是变量非常多的模型?还是要90%的信息,但是只有1个或2个变量的模型?打个比方,你要诊断感冒,是不是必须把所有跟感冒有关的症状以及检查结果都做完?还是简单根据几个症状就大致判断呢?我想根据几个症状大致能确定90%是感冒了,不用非得100%的信息不是吗?模型也是一样,模型是用于实际的,不是空中楼阁。既然要用于实际,那就要做到简单。对于一种疾病,如果30个指标能够100%确诊,而3个指标可以诊断80%,我想大家会选择3个指标的模型。这就是主成分回归存在的基础,用几个简单的变量把多个指标的信息综合一下,这样几个简单的主成分可能就包含了原来很多自变量的大部分信息。这就是主成分回归的原理。

9)岭回归

当数据之间存在多重共线性(自变量高度相关)时,就需要使用岭回归分析。在存在多重共线性时,尽管最小二乘法(OLS)测得的估计值不存在偏差,它们的方差也会很大,从而使得观测值与真实值相差甚远。岭回归通过给回归估计值添加一个偏差值,来降低标准误差。

上面,我们看到了线性回归等式:

y=a+ b*x

这个等式也有一个误差项。完整的等式是:

y=a+b*x+e (误差项), [误差项是用以纠正观测值与预测值之间预测误差的值]

=> y=a+y= a+ b1x1+ b2x2+....+e, 针对包含多个自变量的情形。

在线性等式中,预测误差可以划分为 2 个分量,一个是偏差造成的,一个是方差造成的。预测误差可能会由这两者或两者中的任何一个造成。在这里,我们将讨论由方差所造成的误差。岭回归通过收缩参数 λ(lambda)解决多重共线性问题。请看下面的等式:

在这个等式中,有两个组成部分。第一个是最小二乘项,另一个是 β2(β-平方)和的 λ 倍,其中 β 是相关系数。λ 被添加到最小二乘项中用以缩小参数值,从而降低方差值。

岭回归要点:

1)除常数项以外,岭回归的假设与最小二乘回归相同;

2)它收缩了相关系数的值,但没有达到零,这表明它不具有特征选择功能;

3)这是一个正则化方法,并且使用的是 L2 正则化。

10)偏最小二乘回归

偏最小二乘回归也可以用于解决自变量之间高度相关的问题。但比主成分回归和岭回归更好的一个优点是,偏最小二乘回归可以用于例数很少的情形,甚至例数比自变量个数还少的情形。所以,如果自变量之间高度相关、例数又特别少、而自变量又很多,那就用偏最小二乘回归就可以了。它的原理其实跟主成分回归有点像,也是提取自变量的部分信息,损失一定的精度,但保证模型更符合实际。因此这种方法不是直接用因变量和自变量分析,而是用反映因变量和自变量部分信息的新的综合变量来分析,所以它不需要例数一定比自变量多。偏最小二乘回归还有一个很大的优点,那就是可以用于多个因变量的情形,普通的线性回归都是只有一个因变量,而偏最小二乘回归可用于多个因...

回归分析结果表格怎么填_excel回归分析结果解读相关推荐

  1. 回归分析结果表格怎么填_Excel回归分析结果的详细阐释

    内容来自用户:jasonboy95 利用Excel的数据分析进行回归,可以得到一系列的统计参量.下面以连续10年积雪深度和灌e69da5e887aa32313133353236313431303231 ...

  2. 回归分析结果表格怎么填_spss回归分析结果图,帮忙看一下,麻烦详细地解释解释...

    优质回答 回答者:jayjay R平方就是拟合优度指标,代表了回归平方和(方差分析表中的0.244)占总平方和(方差分析表中的0.256)的比例,也称为决定系数.你的R平方值为0.951,表示X可以解 ...

  3. 回归分析结果表格怎么填_回归分析表怎么看懂?

    展开全部 我给你解读一份stata的回归表格吧,应该有标准表格的所有内容了,因为你没有给范62616964757a686964616fe4b893e5b19e31333332643336例,--不过我 ...

  4. 回归分析结果表格怎么填_手把手教绘制回归分析结果的森林图GraphPad Prism和Excel...

    在之前的内容中,我们讲到通过展示森林图,可以更加直观的将回归分析结果可视化.详见:一文带你玩转森林图!在本期内容中,我们来实际操练一下,介绍几款常用的软件,教大家绘制出高质量的森林图.下面我们以201 ...

  5. 回归分析(二)—— 一元线性回归分析

    主要内容 回归分析概述 一元线性回归分析 多元线性回归 逻辑回归 其他回归分析 二.一元线性回归分析 (一)一元线性回归方法 随机误差反映了除x和y之间的线性关系之外的随机因素对y的影响. 分析预测房 ...

  6. 计算机进行回归分析,excel表格数据分析回归的模型是-excel数据分析线性回归中MS,SS,F,DF分别是什么意思...

    excel回归结果的每个值 都是什么含义,都是怎么来的? SS表示均值偏差的平方和和数据的总变化量. F是F的值,F是方差分析得到的统计量,用来检验回归方程是否显著. DF表示自由度,自由度是在计算某 ...

  7. spss非线性回归分析步骤_SPSS与简单线性回归分析

    对数据进行简单线性回归分析常按照以下步骤: 1根据研究目的确定因变量和自变量 现研究某服装店销售额和客流量的关系,销售额为因变量,客流量为自变量,共计36条数据. 2 判断有无异常值 判断方法:⑴通过 ...

  8. 用qss 来控制qlabel显示字体的位置_Word表格总填不好,这些技巧轻松来拯救

    文/金金 一周进步签约作者 01. 引言 在生活中,我们会遇到许多需要填写并提交电子版的表格.相信很多人都和我有同样的感受--制表人这样排版,实在是太不方便填写了! 他们干了以下让人抓心挠肝的事情: ...

  9. 表格列求和_excel表格制作,Excel表格的基本操作,包含制作一个表格10方面的知识...

    创建表格,插入与删除一行一列或多行多行,一次移动一行一列或多行多列,拆分与合并单元格,单元格内换行,表格求和与求平均值是Excel表格的基本操作:除此之外,Excel表格的基本操作还包括调整行高列宽. ...

  10. 表格列求和_Excel表格的基本操作,包含制作一个表格10方面的知识

    创建表格,插入与删除一行一列或多行多行,一次移动一行一列或多行多列,拆分与合并单元格,单元格内换行,表格求和与求平均值是Excel表格的基本操作:除此之外,Excel表格的基本操作还包括调整行高列宽. ...

最新文章

  1. resin安装与配置
  2. UA MATH636 信息论5 信道编码定理的证明
  3. mysql修改密码的注意点
  4. c# 如何抓微信把柄_C#微信公众号开发--微信事件交互
  5. 如何爬取ajax实时加载多个ts文件的视频
  6. 电脑桌面出现透明条图标“复制”“刷新”解决方法
  7. Springboot之添加本地模块依赖
  8. memset 函数使用
  9. RN开发关闭所有黄色警告弹出(console.warn())
  10. meanshift算法图解
  11. 商空间的理解(Quotient space)
  12. pc端怎么发微信朋友圈(有照片的)?
  13. 【笔记】openwrt - full cone NAT(全锥NAT)、解决“arp_cache: neighbor table overflow!”
  14. HTML - CSS - JavaScript
  15. 开源AI迷你版apache
  16. 257套工业机器人SW设计3D图纸焊接机械手/发那科ABB安川臂模型
  17. android activity pause,关于android:onPause()和onStop()在Activity中
  18. MAC系统看图绝佳利器LilyView,附1.22破解版
  19. win10关闭F1~F12功能键
  20. 源码分析如何注解使用AOP

热门文章

  1. BurpSuite工具-HTTP协议详解部分(不懂就查系列)
  2. 消费金融公司可开展哪些业务类型?
  3. Ubuntu20.04中的Firefox缺少Flash插件无法播放视频
  4. 小程序 怎样判断数据的类型
  5. 攻防世界逆向入门题之logmein
  6. 【支付】中国银联作为收单机构的支付流程分析
  7. 如何解决 zsh: event not found: e]st1问题
  8. 无线专题 WAN口和LAN口、WLAN和WiFi区别
  9. MySQL数据库维护手册
  10. 《iPhone-电脑文件导入苹果手机》