在数据分析过程中,我们通常关心一个区间而非具体某个点的情况,如年龄对工资的影响,显然35岁与36岁没有本质区别。因此我们需要将年龄分组,比如0-20岁、20-30岁等,此时就要将年龄转换为类别变量。

group

  • 等分数据
  • 必须先对数据进行排序
gen g_pri = group(price)


recode

  • 指定分界点
  • 前开后闭区间
 recode price (min/5000 = 1) (5000/8000 = 2) (8000/max = 3), gen(g_price)


irecode

  • 函数,同recode
  • 命令更简洁
gen ig_pri = irecode(price, 5000, 8000)


cond

  • 条件函数,和三目运算差不多
  • 语法:cond(x, a, b),满足x返回a否则返回b
  • 将数据分为两组时可用
gen c_price = cond(price > 8000, 1, 0)

Stata | 连续变量to类别变量相关推荐

  1. Stata: 因变量是类别变量时采用什么方法估计?

    Stata连享会   计量专题 || 精品课程 || 简书推文 || 公众号合集   连享会计量方法专题--,https://gitee.com/arlionn/Course   问题背景 多数情况下 ...

  2. 连续变量离散化类别变量

    R内置函数实现数组变量转为因子变量有:cut.split.quantile.bincode,本文主要介绍ggplot提供的几个分组函数. *cut_interval()*按照相同范围分为n组:, cu ...

  3. 【数据竞赛】Kaggle实战之单类别变量特征工程总结!

    作者:尘沙杰少.樱落.新峰.DOTA.谢嘉嘉 特征工程--类别变量完结篇! 前 言 这是一个系列篇,后续我们会按照我们第一章中的框架进行更新,因为大家平时都较忙,不会定期更新,如有兴趣欢迎长期关注我们 ...

  4. Python下数值型与字符型类别变量独热编码(One-hot Encoding)实现

    1 OneHotEncoder 2 pd.get_dummies   在数据处理与分析领域,数值型与字符型类别变量的编码是不可或缺的预处理操作.本文基于Python下OneHotEncoder与pd. ...

  5. 机器学习常见问题 - 类别变量处理

    类别变量类型: Nominal: 红,黄,蓝 Ordinal,高,中,低 连续变量:1.1,2.1,1.3,1.4 类别变量问题的一些挑战 类别数量很多,但是每个类别的样本不多,例如"城市& ...

  6. 【机器学习基础】机器学习中类别变量的编码方法总结

    机器学习 Author:louwill Machine Learning Lab 在做结构化数据训练时,类别特征是一个非常常见的变量类型.机器学习中有多种类别变量编码方式,各种编码方法都有各自的适用场 ...

  7. toarray方法_机器学习中类别变量的编码方法总结

    作者:louwill:转载自:机器学习实验室 在做结构化数据训练时,类别特征是一个非常常见的变量类型.机器学习中有多种类别变量编码方式,各种编码方法都有各自的适用场景和特点.本文就对机器学习中常见的类 ...

  8. 机器学习中类别变量的编码方法总结

    机器学习 Author:louwill Machine Learning Lab 在做结构化数据训练时,类别特征是一个非常常见的变量类型.机器学习中有多种类别变量编码方式,各种编码方法都有各自的适用场 ...

  9. python数据类型有序无序,python数据类型有序无序_python中的有序和无序类别变量...

    类别变量转化为数字,需要区分是否是有序类别,如 male和female,就是无序的,应该转化成(1,0)和(0,1),但衣服大小,M,L,XL,则应转化为1,2,3 若将无序属性连续化,则会不恰当的引 ...

  10. Python类别变量处理

    Python类别变量处理 Categorical Encoding Methods   categorical feature(类别变量)是在数据分析中十分常见的特征变量,但是在进行建模时,pytho ...

最新文章

  1. JAVA查找事件侦听代码_Java自定义事件处理程序和侦听器
  2. JIRA7.10迁移
  3. linux c socket编程详解,Linux c 网络socket编程
  4. python中一些特殊方法的作用
  5. MySQL的复制:MySQL系列之十三
  6. 基于mpvue的toast组件
  7. 解决Android SDK Manager更新、下载速度慢
  8. 如何防止用户重复提交数据
  9. 计算机网络原理(谢希仁第八版)第五章课后习题答案
  10. excel因为文件格式或文件扩展名无效,请确定文件未损坏(Excel文件格式或文件扩展名无效)...
  11. 全国哀悼日 灰色CSS滤镜
  12. 机器学习算法----KNN K邻近 (K值的选择) (学习笔记)
  13. 2015年秋季腾讯校园招聘开发岗笔试题二
  14. linux:awk之RS、ORS与FS、OFS
  15. Jetpack 系列之AppSearch
  16. 共好:为管理者提供指南(肯·布兰佳)
  17. 影响GPS定位精度的基本概念
  18. A5M2数据库工具下载
  19. 怎么取名都不队-DevOps
  20. 巨富笔记:上者劳人,中者劳智,下者劳力

热门文章

  1. 裸眼 3D 技术是什么原理?
  2. PHP语言对用户输入的身份证信息进行实名认证(阿里云身份证实名认证接口API)
  3. chm文件打不开,已取消到该网页的导航
  4. jq 获取本地ip地址
  5. Windows下批量合并文本文件
  6. 移动4g手机信号测试软件,中移动4G网络测试:网速快但信号不稳
  7. 实时渲染学习(十)渲染加速算法总结
  8. vscode中的maven_在VSCode中使用Maven进行JUnit测试
  9. Nginx区分PC或手机访问不同网站
  10. Linguist for Mac(mac菜单栏语言翻译工具)