快速进行OneHot编码——get_dummies()函数
当我们的数据中出现的离散的类别信息时,我们通常将其转化为onehot编码形式,以便于对于我们的模型能有更好的效果。
此处主要介绍的是pandas库中的一个函数——get_dummies(),它能直接将我们需要转换的列直接进行转换,下面来具体介绍:
1.参数说明
pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False)
data:array-like, Series, or DataFrame
用来获得虚拟指标的数据。
prefix:str, list of str, or dict of str, default None
添加DataFrame列名的字符串。在DataFrame上调用get_dummies函数时,传递一个长度等于列数的列表。或者,前缀可以是一个将列名映射到前缀的字典。
prefix_sep:str, default ‘_’
如果附加前缀,分隔符/分隔符使用。或者像前缀一样传递列表或字典。
dummy_na:bool, default False
如果忽略False NaNs,则添加一列来指示 NaNs。
columns:list-like, default None
要编码的DataFrame中的列名。如果columns为None,那么所有具有对象或类别dtype的列将被转换。
sparse:bool, default False
伪编码列是否应该由(True)或常规NumPy数组支持(False)
drop_first:bool, default False
是否通过删除第一个级别将k-1个假人从k个分类级别中移除。
dtype:dtype, default np.uint8
新列的数据类型。只允许一个dtype。
Returns DataFrame
Dummy-coded data.
以上对参数的解释均来自padnas官方文档
2.实例代码说明
数据集如下:
可以看到里面的season、holiday、workingday、weather都为离散的数据,故在此处进行OneHot编码:
# 选取我们所需要的列名
column = ['season','holiday','workingday','weather']
# 一个一个的进行处理,并连接到数据集的后面
for i in column:x =pd.get_dummies(data[i],prefix= i)data=pd.concat([data,x],axis=1)
# 显示转换后的数据
data.head()
运行结果:
(此处我并未将转换前的数据进行删除)
快速进行OneHot编码——get_dummies()函数相关推荐
- [Python中pandas实现独热编码][pd.get_dummies()函数]
快速理解 独热编码前,存在1列x3行的数据: 1列的列名称为: 动物名称 3行中第1行的值为: 猫 3行中第2行的值为: 狗 3行中第3行的值为: 猫 独热编码后,变为2 ...
- pandas使用get_dummies进行one-hot编码
官网:http://pandas.pydata.org/pandas-docs/stable/generated/pandas.get_dummies.html pandas.get_dummies( ...
- python 数据处理之使用get_dummies进行one-hot编码
使用方法df = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'b']}) print(df) dummies = pd.get_dummies(df ...
- python get dummies_pandas使用get_dummies进行one-hot编码的方法
离散特征的编码分为两种情况: 1.离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码 2.离散特征的取值有大小的意义,比如size:[X,XL,XXL ...
- 关于one-hot编码
hi各位大佬好,我是探花小明哥,之前的博文中提及的one-hot可能与常见的one-hot不太一样,针对叶子节点中的one-hot,这个肯定是多个0,1的组合,最终的结果就是直接LabelEncode ...
- pandas.get_dummies函数用法详细解答(实践)
pandas.get_dummies函数用法详细解答(实践) pandas.get_dummies函数用法详细解答(实践)_skywf的博客-CSDN博客 one-hot encoding one-h ...
- PyTorch之对类别张量进行one-hot编码
PyTorch之对类别张量进行one-hot编码 本文已授权极市平台, 并首发于极市平台公众号. 未经允许不得二次转载. 原始文档:https://www.yuque.com/lart/ugkv9f/ ...
- Python对离散变量处理:哑变量编码和one-hot编码
在数据进行建模分析,无法直接把类别变量放入模型中去分析,因此,需要对类别变量进行处理.最常见的方法是对类别变量做哑变量编码或one-hot编码,所以运用最近的业务数据进行了尝试.哑变量编码和one-h ...
- dummies、factorize进行one-hot编码的区别
在机器学习的分类任务中,经常存在一个特征有多个分类变量值,需要对离散型数据进行one-hot编码处理. one-hot 常见的处理方法有两种: pandas:使用pandas库中的函数pd.dummi ...
最新文章
- 性能堪比GPT-3,但参数量仅为0.1%,LMU团队推出NLP最强文本生成模型
- Unity Dotween官方案例学习
- SQL server 行转列 列转行
- 中国定制家具行业消费规模与发展形势分析报告2022版
- 设计模式使用率排行榜
- 数据结构与算法理论概述
- 关于https工程的nginx简单配置
- JavaTPoint Python 中文教程【翻译完成】
- SpringBoot使用netty
- 小麦颗粒数目matlab,求关于matlab中rice.png图像中的米粒数目的算法
- c++builder读取系统时间Now函数
- Java工程师 数据结构与算法 数组面试题(Day40)
- peoplesoft笔记
- VM未能关闭虚拟机电源
- 数学工具-desmos 图形曲线
- 免费在线汉字简体繁体转换工具
- 【Jupyter Notebook】slides演示小技巧
- 张宏 :移动机器人全局定位技术与方法是啥?道翰天琼认知智能机器人平台API接口大脑为您揭秘。
- 安装win8的坎坷经历
- 学习线程安全队列ConcurrentQueue