虚拟变量是什么

实际场景中,有很多现象不能单纯的进行定量描述,只能用例如“出现”“不出现”这样的形式进行描述,这种情况下就需要引入虚拟变量。例如即将到来的女生节,每年的这个时候毛绒玩具的销量都会上升,说明女生节对毛绒玩具的销量产生了一定影响,但是这个影响程度又很难界定,这时只能定义一个虚拟变量去描述事情“发生”与“不发生”了。

   虚拟变量指的是:用成对数据如0和1 分别表示具备某种属性和不具备该种属性的变量,也叫作二进制变量、二分变量、分类变量以及哑变量。模型中引入了虚拟变量,虽然模型看似变的略显复杂,但实际上模型变的更具有可描述性

例如如下的虚拟变量:

  • 1表示男生,则0表示女生;
  • 1表示蒙古族,则0表示非蒙古族;
  • 1表示清明节前,则0表示清明节后。

                                                                   虚拟变量该怎样设置 

构建模型时,可以利用虚拟变量进行变量区间划分。例如:

  • 构建居民存款影响因素模型时,可将年龄作为自变量引入模型,将年龄变量划分为“35岁前”与“35岁后”两个区间;
  • 构建消费影响因素模型时,可将历史时期作为自变量引入模型,将历史时期变量划分为“改革开放以前”与“改革开放以后”两个区间;
  • 构建公司员工绩效模型时,可将打卡时间作为自变量引入模型,将打卡时间变量划分为“准时”与“不准时”两个区间。

一般,对于只有两种特征的因素,用一个虚拟变量即可将两种特征完全表达出来。例如:天气因素有晴天、多云与下雨三种特征,可以设置两个虚拟变量来描绘这三种特征,即:

  • 特征A=1表示晴天、特征A=0表示其他;
  • 特征B=1表示多云、特征B=0表示其他。

这样就可以用两个特征描述出天气变量全部的特征。也就是:

  • 特征A=1特征B=0表示晴天;

  • 特征A=0特征B=1表示多云;

  • 特征A=0特征B=0表示下雨

需要注意的是,m种特征的因素,一般情况下只需引入m-1个虚拟变量,否则会出现局部多重共线性

                                                                  建模数据不符合假定怎么办

构建回归模型时,如果数据不符合假定,一般我首先考虑的是数据变换,如果无法找到合适的变换方式,则需要构建分段模型,即用虚拟变量表示模型中解释变量的不同区间,但分段点的划分还是要依赖经验的累积。

                                                                         回归模型的解读

回归模型可以简单这样理解:

  • 如果模型为

    log(wage)=x0+x1*edu+u的形式,则可以简单理解为:X每变化一个单位,则Y变化的百分点数;

  • 如果模型为

    log(wage)=x0+x1*log(edu)+u的形式,则可以简单理解为:X每变化一个百分点,则Y变化的百分点数。

                                                                 我很少单独使回归模型

回归模型我很少单独使用,一般会配合逻辑回归使用,即常说的两步法建模。例如购物场景中,买与不买可以构建逻辑回归模型,至于买多少则需要构建普通回归模型了。

我的公众号:Data Analyst

个人网站:https://www.datanalyst.net/

虚拟变量在模型中的作用相关推荐

  1. r语言 分类变量 虚拟变量_R语言中的变量

    r语言 分类变量 虚拟变量 R语言| 变数 (R Language | Variables) In the previous tutorial, we have come across the bas ...

  2. 变量在linux中的作用是什么意思,浅谈linux变量

    1.什么是变量 一句话:变量即在程序运行过程中它的值是允许改变的量. 2.变量作用 1数据的存储格式 2参与的运算 3表示的数据范围 3.变量命名规则 1 命名要见名知意(命名的时候一定要注意,不能随 ...

  3. 虚拟现实和增强现实技术_增强现实和虚拟现实在NBA中的作用

    虚拟现实和增强现实技术 App builders that are looking to achieve a greater level of success will often look to a ...

  4. R语言与虚拟变量模型

    学习笔记 参考书籍:<计量经济学>-李子奈:<统计学:从数据到结论>-吴喜之: 虚拟变量模型 许多变量是可以定量度量的,如需求量.价格等,但也有一些因素无法定量度量,如职业.性 ...

  5. stata 模型设定专题【计量经济系列(六)】(遗漏变量、无关变量、多重共线性、leverage、虚拟变量、线性插值......)

    stata 模型设定专题[计量经济系列(六)] 文章目录 1. 遗漏变量 与 无关变量 1.1 遗漏变量 1.2无关变量 2. 解释变量的权衡标准 3. 检验函数形式 4. 多重共线性 4.1 检验多 ...

  6. 《计量经济学》学习笔记之虚拟变量及滞后变量模型

    导航 上一章:放款基本假定的模型 文章目录 导航 经典单方程计量 经济学模型:专门问题 5.1虚拟变量模型 一.虚拟变量的引入 二.虚拟变量的设置原则 5.2滞后变量模型 一.滞后变量模型 二.分布滞 ...

  7. 【计量经济学导论】13. 虚拟变量与双重差分

    文章目录 虚拟变量与双重差分 虚拟变量的模型设定 虚拟变量的回归分析 虚拟变量的综合应用 结构变化分析 交互效应分析 双重差分模型 双重差分模型的优点 虚拟变量与双重差分 虚拟变量的模型设定 首先我们 ...

  8. R语言计量经济学:虚拟变量(哑变量)在线性回归模型中的应用

    最近我们被客户要求撰写关于线性回归的研究报告,包括一些图形和统计输出. 为什么需要虚拟变量? 大多数数据都可以用数字来衡量,如身高和体重.然而,诸如性别.季节.地点等变量则不能用数字来衡量.相反,我们 ...

  9. LASSO与Item Response Theory模型中的隐变量选择

    LASSO与Item Response Theory模型中的隐变量选择 Item Response Theory简介 统计模型 Latent Traits Selection 两参数模型的LASSO ...

最新文章

  1. 如何搭建mysql的学习环境_Mysql学习笔记【一、环境安装配置】
  2. sa执行命令方法总结
  3. [转载]C# PropertyGrid控件应用心得
  4. 对 Jquery 表单插件 Form.js 2.12 的调整
  5. javascript基础 (2)
  6. 网页制作技术革新:《HTML5 网站大观》系列文章导航
  7. php 中 excel表格判断,PHPexcel自动判断excel类型并读取excel所有sheet内容
  8. linux挂载硬盘作用,Linux(挂载) mount umount作用
  9. python命令行模式怎么输入_python获得命令行输入的参数的两种方式
  10. python中依次输出字符_Python如何输出某关键字符并输出完整字符串
  11. 【C++】运算符重载关于const的分析(超详细)
  12. 基于单片机的超市储物柜设计_毕业设计论-单片机储物柜
  13. 返回顶部的几种方法总结
  14. 外网访问群晖设置ddns教程
  15. Python配置CPLEX
  16. 自己动手搭建一个简单的基于Hadoop的离线分析系统之一——网络爬虫
  17. JACTF misc wp
  18. 智慧城市专题视频课程 附教案
  19. Hbase 内置过滤器
  20. 华为设备ACL配置命令

热门文章

  1. 机器学习中的无监督学习是什么?
  2. MongoDB的可视化工具Robo 3T安装
  3. MySQL大厂优化方案轻松应对高并发!真牛!
  4. IKAnalyzer 添加扩展词库和自定义词
  5. csdn首篇笔记——关于笔记本身
  6. 想必这篇秋招面试贴会帮助你
  7. OpenGL ES之离屏渲染的帧缓冲区对象FBO的说明和使用
  8. je学习笔记一:jsp页面
  9. Java枚举类与注解
  10. SyntaxError :invalid syntax错误解决办法