Stata | 连续变量to类别变量
在数据分析过程中,我们通常关心一个区间而非具体某个点的情况,如年龄对工资的影响,显然35岁与36岁没有本质区别。因此我们需要将年龄分组,比如0-20岁、20-30岁等,此时就要将年龄转换为类别变量。
group
- 等分数据
- 必须先对数据进行排序
gen g_pri = group(price)
recode
- 指定分界点
- 前开后闭区间
recode price (min/5000 = 1) (5000/8000 = 2) (8000/max = 3), gen(g_price)
irecode
- 函数,同recode
- 命令更简洁
gen ig_pri = irecode(price, 5000, 8000)
cond
- 条件函数,和三目运算差不多
- 语法:cond(x, a, b),满足x返回a否则返回b
- 将数据分为两组时可用
gen c_price = cond(price > 8000, 1, 0)
Stata | 连续变量to类别变量相关推荐
- Stata: 因变量是类别变量时采用什么方法估计?
Stata连享会 计量专题 || 精品课程 || 简书推文 || 公众号合集 连享会计量方法专题--,https://gitee.com/arlionn/Course 问题背景 多数情况下 ...
- 连续变量离散化类别变量
R内置函数实现数组变量转为因子变量有:cut.split.quantile.bincode,本文主要介绍ggplot提供的几个分组函数. *cut_interval()*按照相同范围分为n组:, cu ...
- 【数据竞赛】Kaggle实战之单类别变量特征工程总结!
作者:尘沙杰少.樱落.新峰.DOTA.谢嘉嘉 特征工程--类别变量完结篇! 前 言 这是一个系列篇,后续我们会按照我们第一章中的框架进行更新,因为大家平时都较忙,不会定期更新,如有兴趣欢迎长期关注我们 ...
- Python下数值型与字符型类别变量独热编码(One-hot Encoding)实现
1 OneHotEncoder 2 pd.get_dummies 在数据处理与分析领域,数值型与字符型类别变量的编码是不可或缺的预处理操作.本文基于Python下OneHotEncoder与pd. ...
- 机器学习常见问题 - 类别变量处理
类别变量类型: Nominal: 红,黄,蓝 Ordinal,高,中,低 连续变量:1.1,2.1,1.3,1.4 类别变量问题的一些挑战 类别数量很多,但是每个类别的样本不多,例如"城市& ...
- 【机器学习基础】机器学习中类别变量的编码方法总结
机器学习 Author:louwill Machine Learning Lab 在做结构化数据训练时,类别特征是一个非常常见的变量类型.机器学习中有多种类别变量编码方式,各种编码方法都有各自的适用场 ...
- toarray方法_机器学习中类别变量的编码方法总结
作者:louwill:转载自:机器学习实验室 在做结构化数据训练时,类别特征是一个非常常见的变量类型.机器学习中有多种类别变量编码方式,各种编码方法都有各自的适用场景和特点.本文就对机器学习中常见的类 ...
- 机器学习中类别变量的编码方法总结
机器学习 Author:louwill Machine Learning Lab 在做结构化数据训练时,类别特征是一个非常常见的变量类型.机器学习中有多种类别变量编码方式,各种编码方法都有各自的适用场 ...
- python数据类型有序无序,python数据类型有序无序_python中的有序和无序类别变量...
类别变量转化为数字,需要区分是否是有序类别,如 male和female,就是无序的,应该转化成(1,0)和(0,1),但衣服大小,M,L,XL,则应转化为1,2,3 若将无序属性连续化,则会不恰当的引 ...
- Python类别变量处理
Python类别变量处理 Categorical Encoding Methods categorical feature(类别变量)是在数据分析中十分常见的特征变量,但是在进行建模时,pytho ...
最新文章
- JAVA查找事件侦听代码_Java自定义事件处理程序和侦听器
- JIRA7.10迁移
- linux c socket编程详解,Linux c 网络socket编程
- python中一些特殊方法的作用
- MySQL的复制:MySQL系列之十三
- 基于mpvue的toast组件
- 解决Android SDK Manager更新、下载速度慢
- 如何防止用户重复提交数据
- 计算机网络原理(谢希仁第八版)第五章课后习题答案
- excel因为文件格式或文件扩展名无效,请确定文件未损坏(Excel文件格式或文件扩展名无效)...
- 全国哀悼日 灰色CSS滤镜
- 机器学习算法----KNN K邻近 (K值的选择) (学习笔记)
- 2015年秋季腾讯校园招聘开发岗笔试题二
- linux:awk之RS、ORS与FS、OFS
- Jetpack 系列之AppSearch
- 共好:为管理者提供指南(肯·布兰佳)
- 影响GPS定位精度的基本概念
- A5M2数据库工具下载
- 怎么取名都不队-DevOps
- 巨富笔记:上者劳人,中者劳智,下者劳力