参考资料:连享会《平方项 = 倒U型 ?》(文章链接)
该文章为自学总结,大佬请忽视

1. 什么情况下要研究x与y的非线性关系?

  1. 假设我们要研究:喝水越多身体越健康吗?
  2. 在这里,喝水量为自变量,身体健康度(假设有该指标)为因变量。
  3. 常识告诉我们,适当喝水有益于身体健康,但是一旦饮水过度,反而会导致水中毒,损害身体健康。
  4. 所以,喝水量(x)对身体健康度(y)的影响并不是线性的,而是呈倒“U”状:随着x的增加,y先增加后减少。
  5. 综上,便是我们为什么在一些回归模型中看到某个自变量 x x x和 x 2 x^2 x2同时出现:
    y = a + b x + c x 2 ( 1 ) y = a + bx + cx^2 (1) y=a+bx+cx2(1)
    一句话来说——这种情况通常是要研究 x x x与 y y y的非线性关系

2. 自变量平方项显著并不意味着x与y呈U型关系

  1. 公式1中平方项系数c显著,并不能断言x与y呈U型关系( c > 0 c>0 c>0)或倒U型关系( c < 0 c<0 c<0)
  2. 在现实问题的研究中,我们必须考虑自变量x的取值范围。如研究年龄与收入的非线性关系,自变量年龄则不能为负,在该问题中甚至需要大于18岁。
  3. 基于第2点,再考虑x的取值范围与U型曲线拐点的位置,很可能我们研究的问题只处在U型曲线的一侧,此时,x与y的关系还是单调的,只是x对y的边际影响在递增或递减。

3. 对于包含自变量及其二次项的回归模型的解读

  1. 仍以收入与食物消费的关系为例,假设二者回归模型为:
    y ^ = 0.910 + 0.122 x − 0.006 x 2 ( 2 ) \hat{y}=0.910+0.122x-0.006x^2(2) y^​=0.910+0.122x−0.006x2(2)
  2. 公式2中0.122是线性关系系数,0.006是非线性关系系数
  3. 线性关系系数为正,说明随着x的增加,y也随之增加
  4. 二次项系数为负。说明随着x的增加,y又会随之减少
  5. 对两个系数取绝对值,由于一次项系数0.122大于二次项系数0.006,所以当x较小时,线性关系占主导作用,此时y随x增加而增加
  6. 但是,当x比较大的时候,受到平方项的加持,平方项系数会开始占主导,此时y随x的增加而减小

4. 关于拐点的注意事项

  1. 由公式1可知,当x与y呈U型关系时,存在拐点: x = − b 2 c ( 3 ) x=-\frac b{2c}(3) x=−2cb​(3)
  2. 需要注意:
    拐点是否在x的取值范围中;
    拐点两侧是否存在足够多的样本,若没有的话,x与y仍处于单调关系。

5. 分析x对y的边际影响

  1. 假定模型: y = β 0 + β 1 x + β 2 x 2 + μ ( 4 ) y=\beta_0+\beta_1x+\beta_2x^2+\mu(4) y=β0​+β1​x+β2​x2+μ(4)
  2. 使用OLS进行估计,y的拟合值表示如下: y ^ = β 0 ^ + β 1 ^ x + β 2 ^ x 2 ( 5 ) \hat y=\hat {\beta_0}+\hat {\beta_1}x+\hat {\beta_2}x^2(5) y^​=β0​^​+β1​^​x+β2​^​x2(5)
  3. x对y的边际影响: Δ y ^ Δ x = β 1 + 2 β 2 ^ x ( 6 ) \frac {\Delta {\hat y}}{\Delta x}={\beta_1}+2\hat {\beta_2}x(6) ΔxΔy^​​=β1​+2β2​^​x(6)
  4. 由公式6可以看到x对y的边际影响随x的变化而变化
  5. 若要对y进行预测,使用公式5即可
  6. 若要研究x对y的影响,需要使用公式6,通常的做法是将有意义的x取值带入公式6,如均值、中位数、上下四分位数等。

6. 一次项系数与二次项系数同号怎么解读?

  1. 通常我们研究x与y的U型关系,会得到一次项系数与二次项系数符号相反的结果,以公式5为例, β 1 ^ > 0 且 β 2 ^ < 0 , 倒 U \hat {\beta_1}>0且\hat {\beta_2}<0,倒U β1​^​>0且β2​^​<0,倒U, β 1 ^ < 0 且 β 2 ^ > 0 , U \hat {\beta_1}<0且\hat {\beta_2}>0,U β1​^​<0且β2​^​>0,U。
  2. 若出现一次项与二次项系数同号的情况,则说明x对y的影响是单调正向(>0)或单调负向的(<0)

7. 多重共线性问题

  1. 某个自变量与其二次项共同加入模型后,很可能会出现多重共线性问题。
  2. 多重共线性—>方差膨胀—>估计量的方差增大—>回归系数显著性下降
  3. 是否加入二次项?需要在遗漏变量偏差与多重共线性间权衡
  4. 可以对回归方程进行回归方程设定误差检验(Ramsey’s RESET 检验,即 Regression Equation Specification Error Test),检验是否需要加入二次项:
    设 : y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 1 2 + β 4 x 1 x 2 + β 5 x 2 2 + μ ( 7 ) 设:y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_1^2+\beta_4x_1x_2+\beta_5x_2^2+\mu(7) 设:y=β0​+β1​x1​+β2​x2​+β3​x12​+β4​x1​x2​+β5​x22​+μ(7)
    原 假 设 : H 0 : β 3 = β 4 = β 5 = 0 原假设:H_0:\beta_3=\beta_4=\beta_5=0 原假设:H0​:β3​=β4​=β5​=0
    对公式7进行F检验,若拒绝原假设,则应该加入二次项;若支持原假设,则不需要加入二次项。
  5. 除了回归方程设定误差检验外,还可以采用稳健型检验的形式之一:先检验不含二次项的简单莫模型,再检验包含二次项的复杂模型。对于目标变量,若两次检验的显著性与符号不受影响,则万事大吉。
  6. 继续第5点,若两次模型检验结果中目标变量显著性与符号差异大,则可能存在的问题还是遗漏变量偏差与多重共线性,此时若已经知道是遗漏变量偏差问题导致的不一致,则模型应该选择加入二次项的复杂模型。
  7. 对于许多微观面板数据来说(上市公司数据、劳动力调查数据等),多重共线性不会造成太严重的威胁。

【x与y的非线性关系】回归,自变量,自变量的平方项,自变量的二次项相关推荐

  1. matlab中函数的公式计算,MATLAB怎样定义函数(入门) 有一函数 f(x,y)=x^2+sinxy+2y , 写一程序, 输入自变量的值,输出函数值....

    (x,y)=x+y(x>=0&y>=0)f(x,y)=x+y*y(x>= 由热心网友提供的答案1: 对于函数Sa(t)=sin(x)/x,其中x∈[-10π,10π],mat ...

  2. -y表示自动安装,不需要每项手动确认输入 Yes

  3. 数学建模-分类模型(基于logistic回归)

    基于logistic回归的分类模型: 对于二分类模型,采用基础逻辑回归(logistic regression) 对于多分类模型,采用多分类逻辑回归 模型要求(针对01 logistic) 假设1:因 ...

  4. 数据分析 | 岭回归与LASSO回归

    根据线性回归模型的参数估计公式 β=(X′X)−1X′y\beta=(X'X)^{-1}X'yβ=(X′X)−1X′y 可知,得到 β\betaβ 的前提是 (X′X)−1(X'X)^{-1}(X′X ...

  5. lecture 8:OLS回归模型

    先学习这个资料: OLS自编算法,不调用函数 重要的英文参考资料: Using Python for Introductory Econometrics kevinsheppard讲授Python做计 ...

  6. 【python计量】statsmodels进行OLS回归——以伍德里奇数据为例

    伍德里奇的<计量经济学导论>,是目前国内外最经典的计量经济学教材,非常适合新手入门学习.本文将围绕伍德里奇<计量经济学导论>的案例,探讨如何用python实现. 一.获取伍德里 ...

  7. sklearn中的线性回归大家族

    1 概述 1.1 线性回归大家族 回归是一种应用广泛的预测建模技术,这种技术的核心在于预测的结果是连续型变量.决策树.随机森林.支持向量机的分类器等分类算法的预测标签是分类变量,多以{0,1}来表示, ...

  8. 【研究生本科】最全论文写作要点及实证研究诀窍,你知道多少?

    一.论文结构 首先要找出论文的一个核心的.有创意的贡献.用一段话表述这个贡献.这一段和整个文章一样,都必须具体.不要写出这样的抽象句子"我分析了企业经理薪酬数据,发现了许多有趣的结果&quo ...

  9. 使用sklearn学习多项式回归(三)

    目录 1,什么是线性 1.1,变量之间的线性关系 1.2,数据间的线性与非线性 1.3,线性模型与非线性模型 1.4,使用分箱处理非线性问题 2,多项式回归PolynomialFeatures 2.1 ...

最新文章

  1. SAX解析XML文件
  2. linux 线程--内核线程、用户线程实现方法
  3. titanium开发教程-03-02自定义tab group
  4. P3702-[SDOI2017]序列计数【矩阵乘法】
  5. LeetCode 302. 包含全部黑色像素的最小矩形(BFS)
  6. python是什么 自学-为什么自学python总是坚持不下去,这篇文章给你解答!
  7. dell笔记本怎么开启虚拟化_高颜值轻薄笔记本推荐2020-异形篇
  8. LaTeX引用参考文献——BibTex参考文献格式大全
  9. Fiddler 抓取手机数据包,代理连接成功,但是手机无法上网
  10. Redis的使用场景及其介绍
  11. oracle select ora-16000,ORA-00604, ORA-16000: 打开数据库以进行只读访问
  12. zblog插件-zblog搜狗推送插件
  13. 计算机网络笔记1 计算机网络概述
  14. 洗礼灵魂,修炼python(80)--全栈项目实战篇(8)—— 计算器
  15. ifstream fin
  16. 正确设置 php-fpm子进程用户 提高网站安全性 防止被挂木马
  17. 两分钟永久搞定Github加速问题!!!
  18. mysql++裸盘_记一次裸迁 MySQL 经历
  19. 干货 | ImageNet 历届冠军架构最新评析:哪个深度学习网络最适合你(转)
  20. PTA提交注意(JAVA语言)

热门文章

  1. h5逻辑_H5+app 混合开发
  2. 中英翻译《The number thirteen数字13》
  3. 如何将CSDN博客下载为PDF文件
  4. Shiro视频-佟刚-专题视频课程
  5. python大赛对名_用100行Python爬虫代码抓取公开的足球数据玩(一)
  6. 【Linux】_面试题之权限、ACL、磁盘空间管理、VDO、SELinux、逻辑卷、服务管理、防火墙策略、故障修复i
  7. 八、Echart图表 之 series盒须图(箱体图)基本使用与配置大全
  8. tableau:盒须图
  9. 西游记中神兽谛听的能力 这款小程序也有
  10. 神经网络的输入稀疏矩阵,神经网络中的矩阵运算