14 python虚拟变量的数据量化处理
1 虚拟变量
也叫作哑变量和离散特征编码,可用来表示分类变量、非数量因素可能产生的影响
2 category数据类型
category是pandas的一种数据类型,对应着被通缉的变量。Categoricals是由固定且有限数量的变量组成的,比如:性别、社会阶层、血型、国籍、观察时段、赞美程度。
与其它被统计的变量相比,categorical 类型的数据可以具有特定的顺序——比如:按程度来设定,“强烈同意”与“同意”,“首次观察”与“二次观察”,但是不能做按数值来进行排序操作(比如:sort_by 之类的,换句话说,categorical 的顺序是创建时手工设定的,是静态的)
3 get_dummies()
pandas.get_dummies(data,prefix = None,prefix_sep ='_',dummy_na = False,columns = None,sparse = False,drop_first = False,dtype = None )
data : array-like,Series或DataFrame
prefix:string,字符串列表或字符串dict,默认为None ,用于追加DataFrame列名的字符串。在DataFrame上调用get_dummies时,传递一个长度等于列数的列表。或者,前缀 可以是将列名称映射到前缀的字典。
prefix_sep:string,默认为'_'
如果附加前缀,分隔符/分隔符要使用。或者像前缀一样传递列表或字典。
dummy_na:bool,默认为False
如果忽略False NaN,则添加一列以指示NaN。
列:类似列表,默认无
要编码的DataFrame中的列名称。如果列是None,那么所有与列 对象或类别 D型细胞将被转换。
稀疏:bool,默认为False
虚拟列是否应该稀疏。如果数据是Series或者包含所有列,则返回SparseDataFrame 。否则返回带有一些SparseBlocks的DataFrame。
drop_first:bool,默认为False
是否通过删除第一级别从k分类级别获得k-1个假人。
版本0.18.0中的新功能。
D型:D型,默认np.uint8
新列的数据类型。只允许一个dtype。
版本0.23.0中的新功能。
4 代码案例
import pandas data=pandas.read_csv('D:\\DATA\\pycase\\number2\\6.1\\data2.csv')data['症状']=data['症状'].astype('category')dummiesDate=pandas.get_dummies(data,columns=['症状'],prefix=['症状'],prefix_sep="_")newdata=pandas.read_csv('D:\\DATA\\pycase\\number2\\6.1\\data2new.csv')# 把已有的属性标签贴到现在表里newdata['症状']=data['症状'].astype('category',categories=data['症状'].cat.categories)dummiesnewDate=pandas.get_dummies(newdata,columns=['症状'],prefix=['症状'],prefix_sep="_")
14 python虚拟变量的数据量化处理相关推荐
- 大数据的python基础_大数据量化之路之python基础
一.计算机运行基本原理及python基础 在了解计算机运行基本原理之上,理解python程序运行基本原理.做好数据分析准备工作. 安装好Anaconda做好相应变量配置,下载cmd工具Conemu,利 ...
- Python毕业设计 机器学习股票数据量化分析与预测系统 - python 大数据
文章目录 0 前言 1 课题背景 2 实现效果 UI界面设计 web预测界面 RSRS选股界面 3 软件架构 4 工具介绍 Flask框架 MySQL数据库 LSTM 0 前言
- Python 之 变量进阶(理解)
变量进阶(理解) 目标 变量的引用 可变和不可变类型 局部变量和全局变量 01. 变量的引用 变量 和 数据 都是保存在 内存 中的 在 Python 中 函数 的 参数传递 以及 返回值 都是靠 引 ...
- python创建变量_python创建变量
广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 创建: 当python变量'赋值'时,根据值类型创建变量,如:a=1引用: 当参 ...
- python随机森林筛选变量_如何使用虚拟变量来表示python scikit-learn随机森林中的分类数据...
我正在为scikit-learn的随机森林分类器生成特征向量.特征向量代表9个蛋白质氨基酸残基的名称.有20个可能的残留名称.所以,我使用20个虚拟变量来表示一个残基名称,对于9个残基,我有180个虚 ...
- 『R语言Python』建模前的准备:连续型与离散型变量探索,离散型变量转为虚拟变量
在建立模型之前,我们常要先对数据的类型作出判断,连续型数据可以不做处理,而离散型数据则可能需要转为虚拟变量.下文使用R语言中的经典数据集 mtcarsmtcarsmtcars 进行演示 Python: ...
- 虚拟变量的方法介绍及python实现方式
虚拟变量的定义作用 计量经济学中对虚拟变量给出了定义.作用及使用场景,进一步的深入了解可以系统性学习. 定义:虚拟变量 ( Dummy Variables) ,用以反映无法定量度量的因素,譬如性别对收 ...
- python平稳性检验_时间序列预测基础教程系列(14)_如何判断时间序列数据是否是平稳的(Python)...
时间序列预测基础教程系列(14)_如何判断时间序列数据是否是平稳的(Python) 发布时间:2019-01-10 00:02, 浏览次数:620 , 标签: Python 导读: 本文介绍了数据平稳 ...
- R语言定量方法:回归,虚拟变量和交互项,假设检验:F 检验、AIC 和 BIC分析学生成绩数据带自测题
最近我们被客户要求撰写关于学生成绩的研究报告,包括一些图形和统计输出. 回归假设 省略变量偏差 如果真实模型包括X 1 和X 2 ,但我们忘记了X 2,那么 - 在某些情况下 - 对X的估计将会有偏差 ...
最新文章
- iptables工具__过滤包—命令
- 如何在 bash 中使用索引数组
- java新建常量_【Java】常量 - 每日坚果的个人空间 - OSCHINA - 中文开源技术交流社区...
- 网站SEO优化中导入链接有哪些作用?
- image.helper.php,image.php
- python爬取音乐并保存_python3 实现爬取TOP500的音乐信息并存储到mongoDB数据库中
- Java设计模式之适配器模式在jdk中的应用
- python正则表达式排除字符_利用正则表达式排除特定字符串
- layUI 日期组件单独使用 并且放大
- UNICODE字符集
- win7让任务管理器pid显示出来的方法
- linux 添加路由_在 Linux 上使用开源软件创建 SDN | Linux 中国
- Java面试题详解一:面向对象三大特性
- [转载] Python日历模块| 使用示例的weekday()方法
- Atitit 提升团队开发效率项目进度的一些大的流程方向attilax总结
- OpenCV-图像处理(11、形态学操作)
- 指数函数用计算机怎么计算器,万能计算器怎么使用 使用科学计算器方法
- 安装ANSYS、SolidWorks、MATLAB等软件出错解决办法汇总(此大乘佛法可解决99.9%的问题)
- vue结合elmentui实现前端分页
- Unity:骨骼动画