python 分类变量转为哑变量_Python中的虚拟变量(dummyvariables)
虚拟变量(dummy variables)
虚拟变量,也叫哑变量和离散特征编码,可用来表示分类变量、非数量因素可能产生的影响。
① 离散特征的取值之间有大小的意义
例如:尺寸(L、XL、XXL)
离散特征的取值有大小意义的处理函数map
pandas.Series.map(dict)
参数 dict:映射的字典
② 离散特征的取值之间没有大小的意义
pandas.get_dummies
例如:颜色(Red,Blue,Green)
处理函数:
get_dummies(data,prefix=None,prefix_sep="_",dummy_na=False,columns=None,drop_first=False)
① data 要处理的DataFrame
② prefix 列名的前缀,在多个列有相同的离散项时候使用
③ prefix_sep 前缀和离散值的分隔符,默认为下划线,默认即可
④ dummy_na 是否把NA值,作为一个离散值进行处理,默认为不处理
⑤ columns 要处理的列名,如果不指定该列,那么默认处理所有列
⑥ drop_first 是否从备选项中删除第一个,建模的时候为避免共线性使用# -*- coding: utf-8 -*-
import pandas
data = pandas.read_csv(
'D:\PDA\4.18\data.csv',
encoding='utf8'
)
data['Education Level'].drop_duplicates()
"""
博士后 Post-Doc
博士 Doctorate
硕士 Master's Degree
学士 Bachelor's Degree
副学士 Associate's Degree
专业院校 Some College
职业学校 Trade School
高中 High School
小学 Grade School
"""
educationLevelDict = {
'Post-Doc': 9,
'Doctorate': 8,
'Master's Degree': 7,
'Bachelor's Degree': 6,
'Associate's Degree': 5,
'Some College': 4,
'Trade School': 3,
'High School': 2,
'Grade School': 1
}
data['Education Level Map'] = data[
'Education Level'
].map(
educationLevelDict
)
data['Gender'].drop_duplicates()
dummies = pandas.get_dummies(
data,
columns=['Gender'],
prefix=['Gender'],
prefix_sep="_",
dummy_na=False,
drop_first=False
)
dummies['Gender'] = data['Gender']
python 分类变量转为哑变量_Python中的虚拟变量(dummyvariables)相关推荐
- python变量需要声明吗_python中可以声明变量类型吗
变量(variable)是Python语言中一个非常重要的概念.变量的主要作用就是为Python程序中的某个值起一个名字.类似于"张三"."李四"." ...
- python分类下取得所有子类_Python中所有的异常类都是( ) 的子类。_学小易找答案...
[单选题]在完整的异常语句中,语句出现的顺序正确的是( ). [单选题]下列语句打开文件的位置应该在( ). f = open('itheima.txt', 'w') [单选题]打开一个可读写的文件, ...
- Python之pandas:pandas的get_dummies函数简介(将分类变量转为哑变量)及其使用方法之详细攻略
Python之pandas:pandas的get_dummies函数简介(将分类变量转为哑变量)及其使用方法之详细攻略 目录 pandas的get_dummies函数简介 pandas.get_dum ...
- Python基础_第3章_Python中的循环结构
Python基础_第3章_Python中的循环结构 文章目录 Python基础_第3章_Python中的循环结构 Python中的循环结构 一.回顾分支练习题 1.判断是否为一个合法三角形 2.求世界 ...
- Python基础_第5章_Python中的数据序列
Python基础_第5章_Python中的数据序列 文章目录 Python基础_第5章_Python中的数据序列 Python中的数据序列 一.字典--Python中的==查询==神器 1.为什么需要 ...
- matlab静态变量怎样分配内存,matlab中的静态变量
persistent X Y Z 将X,Y,Z定义为在其声明处的函数的局部变量.然而,这些变量的值在函数调用期间在内存中保存(应该是堆区).Persistent 变量和global(全局)变量相似,因 ...
- linux中设置环境变量_如何在Linux中设置环境变量
linux中设置环境变量 Wondering how to set environment variables in Linux? This is exactly what we'll be doin ...
- python 分类变量转为哑变量_Logistic回归中在什么情况下需要定义分类协变量(哑变量)...
我也在做这方面的工作.结论,如果协变量为01变量,定义分类变量与不定义分类变量与结果没有差别. 比如,我原始数据中汉族为1,,非汉为0,如果在操作中将其定义为分类协变量,则spss在分析过程中将其改为 ...
- python 分类变量转为哑变量_机器学习笔记——哑变量处理
在机器学习的特征处理环节,免不了需要用到类别型特征,这类特征进入模型的方式与一般数值型变量有所不同. 通常根据模型的需要,类别型特征需要进行哑变量处理,即按照特征类别进行编码,一般一个类别为k的特征需 ...
最新文章
- Ubuntu 查看隐藏的文件
- IDEA和Eclipse工程结构的区别
- PhpExcel中文帮助手册|PhpExcel基本使用方法及常见问题解答
- linux硬链接不能创建目录,为什么硬链接不允许用于目录?
- java开发简易计算器
- CentOS 7下安装jdk1.8
- 嵌入式Linux基础学习笔记-文件IO编程-文件锁(2)
- Opengl 好的文章和博客地址
- 解决岛屿类问题(网格)通用解法DFS(附题)
- Addrss already in user 解决方案 (linux)
- jrtplib的使用
- 09.大数据技术之Spark
- 团队作业——项目验收与总结博客
- ftp木马病毒photo.scr,Video.scr,AV.scr文件处理方法(windows服务器)
- 旧金山第二天: OOW 开始
- L1-002 打印沙漏 (20分)
- Android Framework 包管理子系统(03)应用安装
- 互联网大佬吸引天使的“上帝之手”
- 【jQuery基础语法】上
- 数据库性能指标QPS和TPS计算
热门文章
- 2019经济寒冬,软件定制开发公司的竞争力在哪里??
- 收到服务器发来的配置信息同步命令,Microsoft Exchange ActiveSync 和第三方设备的当前问题...
- 大连市金州区石河计算机学校,2021大连市金州区安全教育平台登录入口网址【最新】...
- android开发过程中遇到的问题
- 安司密信服务器维护,安司密信好用吗?安司密信使用教程[多图]
- 产品宣传数据投放广告指标
- linux文件夹缩略图不显示,在Linux终端中使用lsix显示缩略图图像
- OJ链接(持续更新)
- html实现好看的照片墙
- html5新年动画祝福,canvas动画效果新年祝福话语