1 虚拟变量

也叫作哑变量和离散特征编码,可用来表示分类变量、非数量因素可能产生的影响

2 category数据类型

category是pandas的一种数据类型,对应着被通缉的变量。Categoricals是由固定且有限数量的变量组成的,比如:性别、社会阶层、血型、国籍、观察时段、赞美程度。

与其它被统计的变量相比,categorical 类型的数据可以具有特定的顺序——比如:按程度来设定,“强烈同意”与“同意”,“首次观察”与“二次观察”,但是不能做按数值来进行排序操作(比如:sort_by 之类的,换句话说,categorical 的顺序是创建时手工设定的,是静态的)

3  get_dummies()

pandas.get_dummies(data,prefix = None,prefix_sep ='_',dummy_na = False,columns = None,sparse = False,drop_first = False,dtype = None )

data : array-like,Series或DataFrame
prefix:string,字符串列表或字符串dict,默认为None ,用于追加DataFrame列名的字符串。在DataFrame上调用get_dummies时,传递一个长度等于列数的列表。或者,前缀 可以是将列名称映射到前缀的字典。

prefix_sep:string,默认为'_'

如果附加前缀,分隔符/分隔符要使用。或者像前缀一样传递列表或字典。

dummy_na:bool,默认为False

如果忽略False NaN,则添加一列以指示NaN。

列:类似列表,默认无

要编码的DataFrame中的列名称。如果列是None,那么所有与列 对象或类别 D型细胞将被转换。

稀疏:bool,默认为False

虚拟列是否应该稀疏。如果数据是Series或者包含所有列,则返回SparseDataFrame 。否则返回带有一些SparseBlocks的DataFrame。

drop_first:bool,默认为False

是否通过删除第一级别从k分类级别获得k-1个假人。

版本0.18.0中的新功能。

D型:D型,默认np.uint8

新列的数据类型。只允许一个dtype。

版本0.23.0中的新功能。

4 代码案例


import pandas data=pandas.read_csv('D:\\DATA\\pycase\\number2\\6.1\\data2.csv')data['症状']=data['症状'].astype('category')dummiesDate=pandas.get_dummies(data,columns=['症状'],prefix=['症状'],prefix_sep="_")newdata=pandas.read_csv('D:\\DATA\\pycase\\number2\\6.1\\data2new.csv')# 把已有的属性标签贴到现在表里newdata['症状']=data['症状'].astype('category',categories=data['症状'].cat.categories)dummiesnewDate=pandas.get_dummies(newdata,columns=['症状'],prefix=['症状'],prefix_sep="_")

14 python虚拟变量的数据量化处理相关推荐

  1. 大数据的python基础_大数据量化之路之python基础

    一.计算机运行基本原理及python基础 在了解计算机运行基本原理之上,理解python程序运行基本原理.做好数据分析准备工作. 安装好Anaconda做好相应变量配置,下载cmd工具Conemu,利 ...

  2. Python毕业设计 机器学习股票数据量化分析与预测系统 - python 大数据

    文章目录 0 前言 1 课题背景 2 实现效果 UI界面设计 web预测界面 RSRS选股界面 3 软件架构 4 工具介绍 Flask框架 MySQL数据库 LSTM 0 前言

  3. Python 之 变量进阶(理解)

    变量进阶(理解) 目标 变量的引用 可变和不可变类型 局部变量和全局变量 01. 变量的引用 变量 和 数据 都是保存在 内存 中的 在 Python 中 函数 的 参数传递 以及 返回值 都是靠 引 ...

  4. python创建变量_python创建变量

    广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 创建: 当python变量'赋值'时,根据值类型创建变量,如:a=1引用: 当参 ...

  5. python随机森林筛选变量_如何使用虚拟变量来表示python scikit-learn随机森林中的分类数据...

    我正在为scikit-learn的随机森林分类器生成特征向量.特征向量代表9个蛋白质氨基酸残基的名称.有20个可能的残留名称.所以,我使用20个虚拟变量来表示一个残基名称,对于9个残基,我有180个虚 ...

  6. 『R语言Python』建模前的准备:连续型与离散型变量探索,离散型变量转为虚拟变量

    在建立模型之前,我们常要先对数据的类型作出判断,连续型数据可以不做处理,而离散型数据则可能需要转为虚拟变量.下文使用R语言中的经典数据集 mtcarsmtcarsmtcars 进行演示 Python: ...

  7. 虚拟变量的方法介绍及python实现方式

    虚拟变量的定义作用 计量经济学中对虚拟变量给出了定义.作用及使用场景,进一步的深入了解可以系统性学习. 定义:虚拟变量 ( Dummy Variables) ,用以反映无法定量度量的因素,譬如性别对收 ...

  8. python平稳性检验_时间序列预测基础教程系列(14)_如何判断时间序列数据是否是平稳的(Python)...

    时间序列预测基础教程系列(14)_如何判断时间序列数据是否是平稳的(Python) 发布时间:2019-01-10 00:02, 浏览次数:620 , 标签: Python 导读: 本文介绍了数据平稳 ...

  9. R语言定量方法:回归,虚拟变量和交互项,假设检验:F 检验、AIC 和 BIC分析学生成绩数据带自测题

    最近我们被客户要求撰写关于学生成绩的研究报告,包括一些图形和统计输出. 回归假设 省略变量偏差 如果真实模型包括X 1 和X 2 ,但我们忘记了X 2,那么 - 在某些情况下 - 对X的估计将会有偏差 ...

最新文章

  1. iptables工具__过滤包—命令
  2. 如何在 bash 中使用索引数组
  3. java新建常量_【Java】常量 - 每日坚果的个人空间 - OSCHINA - 中文开源技术交流社区...
  4. 网站SEO优化中导入链接有哪些作用?
  5. image.helper.php,image.php
  6. python爬取音乐并保存_python3 实现爬取TOP500的音乐信息并存储到mongoDB数据库中
  7. Java设计模式之适配器模式在jdk中的应用
  8. python正则表达式排除字符_利用正则表达式排除特定字符串
  9. layUI 日期组件单独使用 并且放大
  10. UNICODE字符集
  11. win7让任务管理器pid显示出来的方法
  12. linux 添加路由_在 Linux 上使用开源软件创建 SDN | Linux 中国
  13. Java面试题详解一:面向对象三大特性
  14. [转载] Python日历模块| 使用示例的weekday()方法
  15. Atitit 提升团队开发效率项目进度的一些大的流程方向attilax总结
  16. OpenCV-图像处理(11、形态学操作)
  17. 指数函数用计算机怎么计算器,万能计算器怎么使用 使用科学计算器方法
  18. 安装ANSYS、SolidWorks、MATLAB等软件出错解决办法汇总(此大乘佛法可解决99.9%的问题)
  19. vue结合elmentui实现前端分页
  20. Unity:骨骼动画

热门文章

  1. 牛客-判断一个链表是否为回文结构
  2. 说说CAP 理论是什么?
  3. cgroup使用举例和linux内核源码详解
  4. 禁止查看网络计算机方法,Win10系统如何禁止某个软件联网?Win10阻止某个程序联网的方法...
  5. c语言考研复试一般考什么,考研复试考什么
  6. Hi3516D V300功能介绍
  7. 同步锁 (synchronized)
  8. 如何7周成为数据分析师
  9. Anaconda下载以及创建自己的环境
  10. 【解决】Expanding invalid MinMaxAABB