离散特征的编码分为两种情况:

1、离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码

2、离散特征的取值有大小的意义,比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3}

使用pandas可以很方便的对离散型特征进行one-hot编码

import pandas as pd

df = pd.DataFrame([

['green', 'M', 10.1, 'class1'],

['red', 'L', 13.5, 'class2'],

['blue', 'XL', 15.3, 'class1']])

df.columns = ['color', 'size', 'prize', 'class label']

size_mapping = {

'XL': 3,

'L': 2,

'M': 1}

df['size'] = df['size'].map(size_mapping)

class_mapping = {label:idx for idx,label in enumerate(set(df['class label']))}

df['class label'] = df['class label'].map(class_mapping)

说明:对于有大小意义的离散特征,直接使用映射就可以了,{'XL':3,'L':2,'M':1}

Using the get_dummies will create a new column for every unique string in a certain column:使用get_dummies进行one-hot编码

pd.get_dummies(df)

以上这篇pandas使用get_dummies进行one-hot编码的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持我们。

本文标题: pandas使用get_dummies进行one-hot编码的方法

本文地址: http://www.cppcns.com/jiaoben/python/232508.html

python get dummies_pandas使用get_dummies进行one-hot编码的方法相关推荐

  1. python连接数据库设置编码格式_Python连接mssql数据库编码问题解决方法

    python一直对中文支持的不好,最近老遇到编码问题,而且几乎没有通用的方案来解决这个问题,但是对常见的方法都试过之后,发现还是可以解决的,下面总结了常用的支持中文的编码问题(这些方法中可能其中一个就 ...

  2. python 文件流转base64_详解Python中使用base64模块来处理base64编码的方法

    base64模块是用来作base64编码解码的.这种编码方式在电子邮件中是很常见的. 它可以把不能作为文本显示的二进制数据编码为可显示的文本信息.编码后的文本大小会增大1/3. 闲话不说了,base6 ...

  3. python utf-8编码转换中文_python实现unicode转中文及转换默认编码的方法

    本文实例讲述了python实现unicode转中文及转换默认编码的方法.分享给大家供大家参考,具体如下: 一.在爬虫抓取网页信息时常需要将类似"\u4eba\u751f\u82e6\u77e ...

  4. python文件编码转换工具_python实现unicode转中文及转换默认编码的方法

    本文实例讲述了python实现unicode转中文及转换默认编码的方法.分享给大家供大家参考,具体如下: 一.在爬虫抓取网页信息时常需要将类似"\u4eba\u751f\u82e6\u77e ...

  5. python unicode码转换_python实现unicode转中文及转换默认编码的方法

    本文实例讲述了python实现unicode转中文及转换默认编码的方法.分享给大家供大家参考,具体如下: 一.在爬虫抓取网页信息时常需要将类似"\u4eba\u751f\u82e6\u77e ...

  6. python unicode编码转换中文_python实现unicode转中文及转换默认编码的方法

    本文实例讲述了python实现unicode转中文及转换默认编码的方法.分享给大家供大家参考,具体如下: 一.在爬虫抓取网页信息时常需要将类似"\u4eba\u751f\u82e6\u77e ...

  7. python 中文转unicode编码_python实现unicode转中文及转换默认编码的方法

    本文实例讲述了python实现unicode转中文及转换默认编码的方法.分享给大家供大家参考,具体如下: 一.在爬虫抓取网页信息时常需要将类似"\u4eba\u751f\u82e6\u77e ...

  8. Python 炫技操作:合并字典的七种方法

    来源 | Python编程时光(ID: Cool-Python) Python 语言里有许多(而且是越来越多)的高级特性,是 Python 发烧友们非常喜欢的.在这些人的眼里,能够写出那些一般开发者看 ...

  9. php判断网页编码,python判断网页编码的方法

    在web开发的时候我们经常会遇到网页抓取和分析,各种语言都可以完成这个功能.我喜欢用python实现,因为python提供了很多成熟的模块,可以很方便的实现网页抓取. 但是在抓取过程中会遇到编码的问题 ...

最新文章

  1. thinkphp整合极验滑动验证码源码演示下载
  2. 信息学奥赛一本通(C++)在线评测系统——基础(一)C++语言—— 1045:收集瓶盖赢大奖
  3. .NetCore如何使用ImageSharp进行图片的生成
  4. 推荐几款热门的敏捷开发工具
  5. (pytorch-深度学习系列)pytorch实现线性回归
  6. 谷歌浏览器调用本地exe_无需修改前端和后端代码本地跨域开发设置
  7. 最近在InfoQ上翻译的几篇文章
  8. Jni C 与 Java 互调
  9. 介绍KMP算法思想(例题:ACWING 831 kmp字符串)
  10. 如果发现头目玩阴谋,要小心
  11. Flutter尝鲜:跨平台移动应用开发
  12. CSAPP第九章家庭作业参考答案
  13. php 360全景,HTML5 Canvas实现360度全景方法
  14. 羊驼笔记:清算bot
  15. 如何在Excel表格中给某一列添加固定筛选项
  16. FFMpeg 实现视频编码、解码
  17. 三瞬属性matlab,MATLAB GUI与中学物理匀变速直线运动可视化教学的应用
  18. python循环语句和跳出语句详解
  19. DHCP 实现动态 IP 上网简析
  20. 雷军微博晒晨练照片,暗示其已用上小米新机

热门文章

  1. nginx证书报错: error:2006D080:BIO routines:BIO_new_file:no such file
  2. 报考通信考试有条件吗?要怎么样的条件才能报考通信考试?
  3. 浅谈for循环在语法设计上的必要性
  4. 为什么装一键GHOST恢复,开机没有启动选项?
  5. Mcafee virusScan Enterprise 8.5.0i 与 javaMail 问题
  6. 连接数_北京移动物联网连接数突破5000万:超过个人用户数两倍
  7. Flutter学习之路(一)
  8. github免杀项目stager.dll测试
  9. python数据类型解读_Python最详细的数据类型解释
  10. 【对抗攻击论文】黑盒开篇:Practical Black-Box Attacks against Machine Learning