虚拟变量(dummy variables)

虚拟变量,也叫哑变量和离散特征编码,可用来表示分类变量、非数量因素可能产生的影响。

① 离散特征的取值之间有大小的意义
例如:尺寸(L、XL、XXL)
离散特征的取值有大小意义的处理函数map
pandas.Series.map(dict)
参数 dict:映射的字典

② 离散特征的取值之间没有大小的意义

pandas.get_dummies

例如:颜色(Red,Blue,Green)

处理函数:

get_dummies(data,prefix=None,prefix_sep="_",dummy_na=False,columns=None,drop_first=False)

① data   要处理的DataFrame
② prefix 列名的前缀,在多个列有相同的离散项时候使用
③ prefix_sep 前缀和离散值的分隔符,默认为下划线,默认即可
④ dummy_na 是否把NA值,作为一个离散值进行处理,默认为不处理
⑤ columns 要处理的列名,如果不指定该列,那么默认处理所有列
⑥ drop_first 是否从备选项中删除第一个,建模的时候为避免共线性使用

# -*- coding: utf-8 -*-
import pandasdata = pandas.read_csv('D:\\PDA\\4.18\\data.csv', encoding='utf8'
)data['Education Level'].drop_duplicates()"""
博士后    Post-Doc
博士      Doctorate
硕士      Master's Degree
学士      Bachelor's Degree
副学士    Associate's Degree
专业院校  Some College
职业学校  Trade School
高中      High School
小学      Grade School
"""
educationLevelDict = {'Post-Doc': 9,'Doctorate': 8,'Master\'s Degree': 7,'Bachelor\'s Degree': 6,'Associate\'s Degree': 5,'Some College': 4,'Trade School': 3,'High School': 2,'Grade School': 1
}data['Education Level Map'] = data['Education Level'
].map(educationLevelDict
)data['Gender'].drop_duplicates()dummies = pandas.get_dummies(data, columns=['Gender'],prefix=['Gender'],prefix_sep="_",dummy_na=False,drop_first=False
)dummies['Gender'] = data['Gender']

Python中的虚拟变量(dummy variables)相关推荐

  1. R语言使用虚拟变量(Dummy Variables) 回归分析工资影响因素

    最近我们被客户要求撰写关于虚拟变量(Dummy Variables) 回归的研究报告,包括一些图形和统计输出. 简介 本文与以下两个问题有关.你应该如何添加虚拟变量?你应该如何解释结果? 如果使用一个 ...

  2. python 分类变量转为哑变量_Python中的虚拟变量(dummyvariables)

    虚拟变量(dummy variables) 虚拟变量,也叫哑变量和离散特征编码,可用来表示分类变量.非数量因素可能产生的影响. ① 离散特征的取值之间有大小的意义 例如:尺寸(L.XL.XXL) 离散 ...

  3. 给属性赋值_赋值方法:虚拟变量 Dummy Coding

    点击上方蓝色字体,关注我们 选择实验法获得的数据属于离散变量,因而使用离散选择模型进行分析,常见的是Logit模型.在使用中需要对获得数据进行处理,其中一个处理方式就是虚拟变量(Dummy Varia ...

  4. python下列合法的变量名是什么,python中的合法变量名有什么规则-Python教程

    python中非法变量名的规定有:一.能够由字母.数字.下划线组成,同时,不克不及以数字扫尾:二.不克不及是python要害字,但能够蕴含要害字:三.不克不及蕴含空格.例如:[a1c_x2z]. Py ...

  5. python中的class怎么用_对python 中class与变量的使用方法详解

    python中的变量定义是很灵活的,很容易搞混淆,特别是对于class的变量的定义,如何定义使用类里的变量是我们维护代码和保证代码稳定性的关键. #!/usr/bin/python #encoding ...

  6. python是什么语言、即变量不需要显示声明数据类型-python中可以声明变量类型吗...

    变量(variable)是Python语言中一个非常重要的概念.变量的主要作用就是为Python程序中的某个值起一个名字.类似于"张三"."李四"." ...

  7. 为什么python中不需要变量名和变量类型声明?

    python是解释型语言,python的变量不需要声明,但是需要初始化,python解释器会为每个出现的对象分配内存,哪怕他们的值完全相等(注意是相等不是相同),其中变量其实通过一个标记调用内存中的值 ...

  8. python中class变量_对python 中class与变量的使用方法详解

    python中的变量定义是很灵活的,很容易搞混淆,特别是对于class的变量的定义,如何定义使用类里的变量是我们维护代码和保证代码稳定性的关键. #!/usr/bin/python #encoding ...

  9. python静态变量计数器_如何在Python中使用静态变量在计数

    今天,在用Python写一个统计一个文件下有多少文件的小标本时,遇到了一个很棘手的问题.如何在Python中使用静态变量来计数.然后,就在网上一通查找,找的方法都是利用类的方法来实现静态变量.说实话没 ...

最新文章

  1. R语言ggplot2可视化分面图(facet_grid)、自定义缩小分面图标签栏的高度、但是不改变标签栏标签文本的大小、通过element_text函数的margin参数设置实现
  2. 分享一首诗歌关于人生 时间 成就 得失的
  3. matlab 度分秒转换成度_如何利用matlab统一处理照片亮度对比度
  4. 为计算机系的学生建立视图,数据库及其应用2010年1月真题
  5. BZOJ3862Little Devil I——树链剖分+线段树
  6. 构建基本脚本(转)*****好文章*****
  7. (并查集) Wireless Network --POJ --2236
  8. Redis performance --- delete 100 records at maximum
  9. hadoop安装和基本知识
  10. Halcon深度学习总结
  11. Cisco Packet Tracer Student思科命令
  12. 如何利用python下载电影_一篇文章教会你利用Python网络爬虫获取电影天堂视频下载链接...
  13. anguarjs 图片预览_一键精准提取图片文字,这么高效的app确定不盘一下嘛
  14. Visio 2010导入中UML2.2模板说明
  15. CTP程序化交易入门系列之五:现手、增仓、开平、对手盘计算
  16. 各种光纤接口类型介绍
  17. leedcode每日一题:860. 柠檬水找零
  18. [翼灵物联网工作室例会分享]
  19. 百度网盘不能绑定QQ
  20. Rpgmakermv(24 )yep_coreengine

热门文章

  1. HDU (多校) Kejin Player HDU 6656
  2. mathtype免费版下载及序列号获取地址
  3. Technical Artist 的不归路 —— 场景构图中的物件
  4. memcache的优点与缺点
  5. python优点以及缺点
  6. 小学生图片_2020中秋节对家人的祝福语 送手抄报小学生图片大全简单又漂亮
  7. linux版retroarch游戏,RetroArch下载
  8. java获得日期去掉横杠,python怎么去掉日期中的横杠?
  9. 32位程序在64位系统上运行
  10. FPGA和eeprom通信