虚拟变量(dummy variables)

虚拟变量,也叫哑变量和离散特征编码,可用来表示分类变量、非数量因素可能产生的影响。

① 离散特征的取值之间有大小的意义

例如:尺寸(L、XL、XXL)

离散特征的取值有大小意义的处理函数map

pandas.Series.map(dict)

参数 dict:映射的字典

② 离散特征的取值之间没有大小的意义

pandas.get_dummies

例如:颜色(Red,Blue,Green)

处理函数:

get_dummies(data,prefix=None,prefix_sep="_",dummy_na=False,columns=None,drop_first=False)

① data 要处理的DataFrame

② prefix 列名的前缀,在多个列有相同的离散项时候使用

③ prefix_sep 前缀和离散值的分隔符,默认为下划线,默认即可

④ dummy_na 是否把NA值,作为一个离散值进行处理,默认为不处理

⑤ columns 要处理的列名,如果不指定该列,那么默认处理所有列

⑥ drop_first 是否从备选项中删除第一个,建模的时候为避免共线性使用# -*- coding: utf-8 -*-

import pandas

data = pandas.read_csv(

'D:\PDA\4.18\data.csv',

encoding='utf8'

)

data['Education Level'].drop_duplicates()

"""

博士后 Post-Doc

博士 Doctorate

硕士 Master's Degree

学士 Bachelor's Degree

副学士 Associate's Degree

专业院校 Some College

职业学校 Trade School

高中 High School

小学 Grade School

"""

educationLevelDict = {

'Post-Doc': 9,

'Doctorate': 8,

'Master's Degree': 7,

'Bachelor's Degree': 6,

'Associate's Degree': 5,

'Some College': 4,

'Trade School': 3,

'High School': 2,

'Grade School': 1

}

data['Education Level Map'] = data[

'Education Level'

].map(

educationLevelDict

)

data['Gender'].drop_duplicates()

dummies = pandas.get_dummies(

data,

columns=['Gender'],

prefix=['Gender'],

prefix_sep="_",

dummy_na=False,

drop_first=False

)

dummies['Gender'] = data['Gender']

python 分类变量转为哑变量_Python中的虚拟变量(dummyvariables)相关推荐

  1. python变量需要声明吗_python中可以声明变量类型吗

    变量(variable)是Python语言中一个非常重要的概念.变量的主要作用就是为Python程序中的某个值起一个名字.类似于"张三"."李四"." ...

  2. python分类下取得所有子类_Python中所有的异常类都是( ) 的子类。_学小易找答案...

    [单选题]在完整的异常语句中,语句出现的顺序正确的是( ). [单选题]下列语句打开文件的位置应该在( ). f = open('itheima.txt', 'w') [单选题]打开一个可读写的文件, ...

  3. Python之pandas:pandas的get_dummies函数简介(将分类变量转为哑变量)及其使用方法之详细攻略

    Python之pandas:pandas的get_dummies函数简介(将分类变量转为哑变量)及其使用方法之详细攻略 目录 pandas的get_dummies函数简介 pandas.get_dum ...

  4. Python基础_第3章_Python中的循环结构

    Python基础_第3章_Python中的循环结构 文章目录 Python基础_第3章_Python中的循环结构 Python中的循环结构 一.回顾分支练习题 1.判断是否为一个合法三角形 2.求世界 ...

  5. Python基础_第5章_Python中的数据序列

    Python基础_第5章_Python中的数据序列 文章目录 Python基础_第5章_Python中的数据序列 Python中的数据序列 一.字典--Python中的==查询==神器 1.为什么需要 ...

  6. matlab静态变量怎样分配内存,matlab中的静态变量

    persistent X Y Z 将X,Y,Z定义为在其声明处的函数的局部变量.然而,这些变量的值在函数调用期间在内存中保存(应该是堆区).Persistent 变量和global(全局)变量相似,因 ...

  7. linux中设置环境变量_如何在Linux中设置环境变量

    linux中设置环境变量 Wondering how to set environment variables in Linux? This is exactly what we'll be doin ...

  8. python 分类变量转为哑变量_Logistic回归中在什么情况下需要定义分类协变量(哑变量)...

    我也在做这方面的工作.结论,如果协变量为01变量,定义分类变量与不定义分类变量与结果没有差别. 比如,我原始数据中汉族为1,,非汉为0,如果在操作中将其定义为分类协变量,则spss在分析过程中将其改为 ...

  9. python 分类变量转为哑变量_机器学习笔记——哑变量处理

    在机器学习的特征处理环节,免不了需要用到类别型特征,这类特征进入模型的方式与一般数值型变量有所不同. 通常根据模型的需要,类别型特征需要进行哑变量处理,即按照特征类别进行编码,一般一个类别为k的特征需 ...

最新文章

  1. Ubuntu 查看隐藏的文件
  2. IDEA和Eclipse工程结构的区别
  3. PhpExcel中文帮助手册|PhpExcel基本使用方法及常见问题解答
  4. linux硬链接不能创建目录,为什么硬链接不允许用于目录?
  5. java开发简易计算器
  6. CentOS 7下安装jdk1.8
  7. 嵌入式Linux基础学习笔记-文件IO编程-文件锁(2)
  8. Opengl 好的文章和博客地址
  9. 解决岛屿类问题(网格)通用解法DFS(附题)
  10. Addrss already in user 解决方案 (linux)
  11. jrtplib的使用
  12. 09.大数据技术之Spark
  13. 团队作业——项目验收与总结博客
  14. ftp木马病毒photo.scr,Video.scr,AV.scr文件处理方法(windows服务器)
  15. 旧金山第二天: OOW 开始
  16. L1-002 打印沙漏 (20分)
  17. Android Framework 包管理子系统(03)应用安装
  18. 互联网大佬吸引天使的“上帝之手”
  19. 【jQuery基础语法】上
  20. 数据库性能指标QPS和TPS计算

热门文章

  1. 2019经济寒冬,软件定制开发公司的竞争力在哪里??
  2. 收到服务器发来的配置信息同步命令,Microsoft Exchange ActiveSync 和第三方设备的当前问题...
  3. 大连市金州区石河计算机学校,2021大连市金州区安全教育平台登录入口网址【最新】...
  4. android开发过程中遇到的问题
  5. 安司密信服务器维护,安司密信好用吗?安司密信使用教程[多图]
  6. 产品宣传数据投放广告指标
  7. linux文件夹缩略图不显示,在Linux终端中使用lsix显示缩略图图像
  8. OJ链接(持续更新)
  9. html实现好看的照片墙
  10. html5新年动画祝福,canvas动画效果新年祝福话语