学习笔记
参考书籍:《计量经济学》-李子奈;《统计学:从数据到结论》-吴喜之;


虚拟变量模型

许多变量是可以定量度量的,如需求量、价格等,但也有一些因素无法定量度量,如职业、性别。为了能够在模型中反映这些因素的影响,并提高模型的精度,需要将它们’量化’,这种’量化’通常是通过引入虚拟变量来完成的。根据这些因素的属性类型,构造取’0’或’1’的人工变量。通常称为虚拟变量,记为D。

例如:反映性别的虚拟变量可取为:
D={1,man0,womanD=\begin{cases}1, man \\0, woman\end{cases} D={1,man0,woman​
一般地,在虚拟变量的设置中,基础类型和肯定类型取值为1; 比较类型和否定类型取值为0。同时含有一般解释变量与虚拟变量的模型称为虚拟变量模型

  • 加法模型

若我们以员工薪金YYY作为因变量,工龄XXX作为一般解释变量,性别DDD作为虚拟变量构造虚拟变量模型,则在模型中可以将虚拟变量DDD以相加的形式引入模型,则该加法模型为:
Yi=β0+β1Xi+β2D+μiY_i=\beta_0+\beta_1 X_i + \beta_2D +\mu_i Yi​=β0​+β1​Xi​+β2​D+μi​

  • 乘法模型

若在模型中将虚拟变量DDD以相乘的形式引入模型,则该乘法模型为:
Yi=β0+β1Xi+β2DXi+μiY_i=\beta_0+\beta_1 X_i + \beta_2D X_i +\mu_i Yi​=β0​+β1​Xi​+β2​DXi​+μi​

  • 混合模型(自己起的名字)

我们也可以将虚拟变量DDD同时以相加和相乘的形式引入模型:

Yi=β0+β1Xi+β2D+β3DXi+μiY_i=\beta_0 + \beta_1 X_i + \beta_2 D + \beta_3 D X_i +\mu_i Yi​=β0​+β1​Xi​+β2​D+β3​DXi​+μi​

R语言实现

在个例子中,我们模拟一系列数据,再用虚拟变量模型去拟合。

模拟数据:

set.seed(1234)
x <- c(-19:20)
y1 <- 2*x + rnorm(40, 0, 2)
y2 <- -x +rnorm(40, 3, 2)df1 <- data.frame(x = x, y = y1, c = rep('A', 40))
df2 <- data.frame(x = x, y = y2, c = rep('B', 40))
df <- rbind(df1, df2)plot(df$x, df$y, col = df$c, main = "散点图", xlab = 'x', ylab = 'y')

图像:

回归:

lm01 <- lm(y ~ x*c, data = df)
summary(lm01)

控制台输出:

Call:
lm(formula = y ~ x * c, data = df)Residuals:Min      1Q  Median      3Q     Max
-4.3410 -1.2588 -0.3353  0.8964  5.6449 Coefficients:Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.81327    0.31223  -2.605   0.0111 *
x            1.97107    0.02702  72.941  < 2e-16 ***
cB           3.63159    0.44156   8.225 4.09e-12 ***
x:cB        -2.92208    0.03822 -76.462  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1Residual standard error: 1.973 on 76 degrees of freedom
Multiple R-squared:  0.9886,    Adjusted R-squared:  0.9881
F-statistic:  2194 on 3 and 76 DF,  p-value: < 2.2e-16

此时,各个回归系数均通过显著性检验,则被估计的虚拟变量模型为:
Yi^=−0.81+1.97Xi+3.63D−2.92DXi\hat{Y_i}=-0.81 + 1.97 X_i + 3.63 D -2.92 D X_i Yi​^​=−0.81+1.97Xi​+3.63D−2.92DXi​
注意!此时的虚拟变量DDD取为:
D={1,B0,AD=\begin{cases}1, B \\0, A\end{cases} D={1,B0,A​

R语言与虚拟变量模型相关推荐

  1. R语言使用虚拟变量(Dummy Variables) 回归分析工资影响因素

    最近我们被客户要求撰写关于虚拟变量(Dummy Variables) 回归的研究报告,包括一些图形和统计输出. 简介 本文与以下两个问题有关.你应该如何添加虚拟变量?你应该如何解释结果? 如果使用一个 ...

  2. R语言广义加性模型GAMs:可视化每个变量的样条函数、样条函数与变量与目标变量之间的平滑曲线比较、并进行多变量的归一化比较、测试广义线性加性模型GAMs在测试集上的表现(防止过拟合)

    R语言广义加性模型GAMs:可视化每个变量的样条函数.样条函数与变量与目标变量之间的平滑曲线比较.并进行多变量的归一化比较.测试广义线性加性模型GAMs在测试集上的表现(防止过拟合) 目录

  3. R语言构建多元线性回归模型

    R语言构建多元线性回归模型 对比一元线性回归,多元线性回归是用来确定2个或2个以上变量间关系的统计分析方法.多元线性回归的基本的分析方法与一元线性回归方法是类似的,我们首先需要对选取多元数据集并定义数 ...

  4. 用R语言建立logistic回归模型

    用R语言建立logistic回归模型 公式:fm<-glm(formula,family=binomial(link=logit),data=data.frame) 其中:link=logit可 ...

  5. R语言的Copula变量相关性分析

    在工程.水文和金融等各学科的研究中,总是会遇到很多变量,研究这些相互纠缠的变量间的相关关系是各学科的研究的重点.虽然皮尔逊相关.秩相关等相关系数提供了变量间相关关系的粗略结果,但这些系数都存在着无法克 ...

  6. R语言随机波动率(SV)模型、MCMC的Metropolis-Hastings算法金融应用:预测标准普尔SP500指数...

    原文链接:http://tecdat.cn/?p=23991 在这个例子中,我们考虑随机波动率模型 SV0 的应用,例如在金融领域. 统计模型 随机波动率模型定义如下 并为 其中 yt 是因变量,xt ...

  7. 分类变量回归: R语言中哑变量编码本质

    本篇描述分类变量如何进行回归(翻译自http://www.sthda.com/english/articles/40-regression-analysis/163-regression-with-c ...

  8. R语言构建文本分类模型:文本数据预处理、构建词袋模型(bag of words)、构建xgboost文本分类模型、基于自定义函数构建xgboost文本分类模型

    R语言构建文本分类模型:文本数据预处理.构建词袋模型(bag of words).构建xgboost文本分类模型.基于自定义函数构建xgboost文本分类模型 目录

  9. R语言构建随机森林模型randomForest分类模型并评估模型在测试集和训练集上的效果(accuray、F1、偏差Deviance):随机森林在Bagging算法的基础上加入了列采样(分枝特征随机)

    R语言构建随机森林模型randomForest分类模型并评估模型在测试集和训练集上的效果(accuray.F1.偏差Deviance):随机森林在Bagging算法的基础上加入了列采样(分枝特征随机) ...

最新文章

  1. MySQL 语句整理 2019-5-3
  2. 如何将mysql卸载干净
  3. 申请了团队blog,不知道能否给开通
  4. matlab 按钮组设置,MATLAB中的单选按钮和按钮组
  5. jquery 获取系统默认年份_你没有看错,爬网页数据,C# 也可以像 Jquery 那样
  6. android rn 和webview,RN Webview与Web的通信与调试
  7. pandas数据聚合与分组
  8. [转]C#和C++结构体Socket通信
  9. Centos系统创建用户oracle后,用该用户登陆系统,页面加载报错GConf error
  10. Android Context简单说明
  11. Hex Editor Neo(十六进制编辑器)官方正式版V6.54.1.6478 | 二进制编辑器hex下载 | 非hexeditor汉化版
  12. coolpad手机量身打造的刷机工具--下载助手_V2.2.4(Mini_AD_Coolpad)
  13. 【Verilog基础】二进制码与格雷码之间的相互转换
  14. 有关微信小程序接入腾讯云IM即时通讯内容
  15. 面试过程中应注意的问题与禁忌
  16. 有了AI智能绘画,我也可以成为绘画大师——全球最大规模中文跨模态生成模型ERNIE-ViLG
  17. AI人工智能入门—知识地图
  18. 工作中常见的网络设备图片
  19. c ajax 500,Ajax和jQuery中的C:\ fakepath \ *。*
  20. 北京联通dns服务器位置,ipv6北京联通dns服务器地址

热门文章

  1. 5-3 神经网络算法预测销量高低(改进版,消除了一些warning)
  2. java 通用方法_java – 类型的通用方法
  3. Ubuntu使用技巧(一)
  4. 自定义按键_DNF手游:策划宣布新增自定义按键布局,期待手游新版本的到来
  5. IP地址的简单说明---Linux学习笔记
  6. How to DEBUG a trigger or procedure
  7. Yii 2.0高级版 下拉框预设值、默认值
  8. 中文乱码解决方案(Qt4.8.3 + Qt Creator)
  9. MySQL在线DDL工具pt-osc
  10. shell学习三十四天----printf详解