数据分析中常见的10种数据编码方式
目录
数值型数据编码
1 - 使用自定义函数 + 循环遍历
2 - 使用 map + 自定义函数
3 - 使用 apply + 匿名函数
4 - 使用cut
5 - 使用 sklearn 二值化
文本型数据编码
6 - 使用 replace
7 - 使用map
8 - 使用astype
9 - 使用 sklearn
10 - 使用factorize
在使用Python
进行机器学习时,很多算法都需要我们对分类特征进行转换(编码),即根据某一列的值,新增(修改)一列。
这个操作在pandas
中也有多种解决方案,本文就将介绍十种方法,代码拿走就用,希望你在遇到不同类型的数据时,可以灵活使用。
下面先创建用于示例的数据:
import pandas as pd
df = pd.DataFrame({"Sex": pd.Series(['Male','Female','Male','Male','Male','Female','Male','Male','Female','Female']),"Course Name": pd.Series(['Python','Java','C','Sql','Linux','Python','Python','Java','C','Php']),"Score":[95,85,75,65,55,95,75,65,55,85]})df
数值型数据编码
1 - 使用自定义函数 + 循环遍历
首先然是最简单,最笨的方法,自己写一个函数来转换数据,并用循环遍历,肯定就是一个def
加一个for
df1 = df.copy()def myfun(x):if x>90:return 'A'elif x>=80 and x<90:return 'B'elif x>=70 and x<80:return 'C'elif x>=60 and x<70:return 'D'else:return 'E'df1['Score_Label'] = None
for i in range(len(df1)):df1.iloc[i,3] = myfun(df1.iloc[i,2])df1
这段代码,相信所有人都能看懂,简单好想但比较麻烦
有没有更简单的办法呢?pandas
当然提供了很多高效的操作的函数,继续往下看。
2 - 使用 map + 自定义函数
现在,可以使用map
来干掉循环(虽然本质上也是循环)
df2 = df.copy()def mapfun(x):if x>90:return 'A'elif x>=80 and x<90:return 'B'elif x>=70 and x<80:return 'C'elif x>=60 and x<70:return 'D'else:return 'E'df2['Score_Label'] = df2['Score'].map(mapfun)
df2
3 - 使用 apply + 匿名函数
如果还想简洁代码,可以使用自定义函数+apply来干掉自定义函数(结果和上面是一致的,只不过这么写容易被打。)
df3 = df.copy()
df3['Score_Label'] = df3['Score'].apply(lambda x: 'A' if x > 90 else ('B' if 90 > x >= 80 else ('C' if 80 > x >= 70 else ('D' if 70 > x >= 60 else 'E'))))
df3
4 - 使用cut
现在,让我们继续了解更高级的pandas
函数,依旧是对 Score
进行编码,使用pd.cut
,并指定划分的区间后,可以直接帮你分好组
df4 = df.copy()
bins = [0, 59, 70, 80, 100]
df4['Score_Label'] = pd.cut(df4['Score'], bins)
df4
也可以直接使用labels
参数来修改对应组的名称,是不是方便多了
df4['Score_Label_new'] = pd.cut(df4['Score'], bins, labels=['low', 'middle', 'good', 'perfect'])
df4
5 - 使用 sklearn 二值化
既然是和机器学习相关,sklearn
肯定跑不掉,如果需要新增一列并判定成绩是否及格,就可以使用Binarizer
函数,代码也是简洁好懂
from sklearn.preprocessing import Binarizerdf5 = df.copy()
binerize = Binarizer(threshold = 60)
trans = binerize.fit_transform(np.array(df1['Score']).reshape(-1,1))
df5['Score_Label'] = transdf5
文本型数据编码
下面介绍更常见的,对文本数据进行转换打标签。例如新增一列,将性别男、女分别标记为0、1
6 - 使用 replace
首先介绍replace
,但要注意的是,上面说过的自定义函数相关方法依旧是可行的
df6 = df.copy()
df6['Sex_Label'] = df6['Sex'].replace(['Male','Female'],[0,1])
df6
上面是对性别操作,因为只有男女,所以可以手动指定0、1,但要是类别很多,也可以使用pd.value_counts()
来自动指定标签,例如对Course Name
列分组
df6 = df.copy()
value = df6['Course Name'].value_counts()
value_map = dict((v, i) for i,v in enumerate(value.index))
df6['Course Name_Label'] = df6.replace({'Course Name':value_map})['Course Name']
df6
7 - 使用map
额外强调的是,新增一列,一定要能够想到map
df7 = df.copy()
Map = {elem:index for index,elem in enumerate(set(df["Course Name"]))}
df7['Course Name_Label'] = df7['Course Name'].map(Map)
df7
8 - 使用astype
这个方法应该很多人不知道,这就属于上面提到的知乎问题,能实现的方法太多了
df8 = df.copy()
value = df8['Course Name'].astype('category')
df8['Course Name_Label'] = value.cat.codes
df8
9 - 使用 sklearn
同数值型一样,这种机器学习中的经典操作,sklearn
一定有办法,使用LabelEncoder
可以对分类数据进行编码
from sklearn.preprocessing import LabelEncoder
df9 = df.copy()
le = LabelEncoder()
le.fit(df9['Sex'])
df9['Sex_Label'] = le.transform(df9['Sex'])
le.fit(df9['Course Name'])
df9['Course Name_Label'] = le.transform(df9['Course Name'])
df9
一次性转换两列也是可以的
from sklearn.preprocessing import LabelEncoder
df9 = df.copy()
le = OrdinalEncoder()
le.fit(df9[['Sex','Course Name']])
df9[['Sex_Label','Course Name_Label']] = le.transform(df9[['Sex','Course Name']])df9
10 - 使用factorize
最后,再介绍一个小众但好用的pandas
方法,我们需要注意到,在上面的方法中,自动生成的Course Name_Label
列,虽然一个数据对应一个语言,因为避免写自定义函数或者字典,这样可以自动生成,所以大多是无序的。
如果我们希望它是有序的,也就是 Python
对应 0
,Java
对应1
,除了自己指定,还有什么优雅的办法?这时可以使用factorize
,它会根据出现顺序进行编码
df10 = df.copy()
df10['Course Name_Label'] = pd.factorize(df10['Course Name'])[0]
df10
结合匿名函数,我们可以做到对多列进行有序编码转换
df10 = df.copy()
cat_columns = df10.select_dtypes(['object']).columnsdf10[['Sex_Label', 'Course Name_Label']] = df10[cat_columns].apply(lambda x: pd.factorize(x)[0])
df10
以上就是数据分析中常用的10种编码方式,不同完全记住所有方法与细节,只需知道有这么个函数能完成这样操作,需要用时能想到,想到再来查就行
数据分析中常见的10种数据编码方式相关推荐
- PCBA加工中常见的两种焊接方式详解
PCBA加工中常见的两种焊接方式详解 PCBA加工,两种常见的焊接方式就是回流焊和波峰焊,与手动焊接技术相比,自动焊接技术具有减少人为因素的影响.提高效率.降低成本.提高质量等优势,在PCBA加工中, ...
- 攻防演练中常见的8种攻击方式及应对指南
俗话说:"讲百遍不如打一遍",网络安全实战攻防演练被视为检验组织机构安全防护和应急响应能力,提高综合防控水平最有效的手段之一.那么,对蓝队来说,如何在攻防实战进行有效防护应对呢? ...
- 学习笔记 --- 编码过程中常见的三种异步方式
实际的编码过程中, 凡是涉及到网络通信的代码, 异步都是决不可缺少的. 那么什么是异步呢? 异步就是子线程, 异步通过开辟子线程来实现, 所以一提到异步就应该想到子线程. 即使不涉及网络通信, 异步也 ...
- 深度学习中常见的10种激活函数(Activation Function)总结
目录 一:简介 二:为什么要用激活函数 三:激活函数的分类 四:常见的几种激活函数 4.1.Sigmoid函数 4.2.Tanh函数 4.3.ReLU函数 4.4.Leaky Relu函数 4.5.P ...
- php xml 四种,xml中常见的四种解析方式是什么?
xml解析方式有:1.DOM解析方法,可以对xml文档进行修改操作:2.SAX解析方法,解析速度快,占用内存少:3.JDOM解析方法,查找方便:4.DOM4J解析方法,解析XML的速度快. 在XML的 ...
- HTML+CSS中常见的几种居中方式
前言 在HTML+CSS网页制作开发中经常使用居中操作,实现方式更是多种多样,为了方便大家学习,文章将为大家介绍几种最常见的水平居中方式以及水平+垂直居中方式,比较适合初学者使用. 一.水平居中 方法 ...
- iOS中常见的6种传值方式,UIPageViewController
通过属性传值.方法传值.代理传值.Block传值.单例传值.通知传值6种方式进行不同视图之间的传值.不同方式只需要在AppDelegate中更改下UINavigationController的根控制器 ...
- r语言实现岭回归_数据分析中常见的七种回归分析以及R语言实现(五)
套索回归,这个回归模型有些新颖,要写个详细的介绍预计要写好长,受限于水平,就写个普及文,所以这里就稍微简答的介绍一下: 为什么我们老说多重共线性呢?那是,因为我们在研究数据的时候总会不行制止的泛起多维 ...
- 外贸中常见的十三种交货方式
工厂交货(EXW)本术语英文为"EX Works(- named place)", 即"工厂交货(--指定地点)".它指卖方负有在其所在地即车间.工厂.仓库等把 ...
- r语言岭回归参数选择_数据分析中常见的七种回归分析以及R语言实现(三)---岭回归...
在我们平时做回归的时候,大部分都是假定自变量和因变量是线性,但有时候自变量和因变量可能是非线性的,这时候我们就可能需要多项式回归了,多项式回归就是自变量和因变量是非线性所做的一个回归模型,其表达式: ...
最新文章
- 1-2 小程序适合做什么样的应用
- python3中类的继承
- linux应用系统使用率,Linux性能优化实战:系统CPU使用率高,但为啥找不到高的应用(06)...
- mysql弄丢初始密码_MySql密码丢失
- Spring Boot Oauth2安全性
- 软件测试面试题小结(一)
- 接口自动化测试中的用例编写问题总结
- 皮卡丘为什么不进化_神奇宝贝:为什么皮卡丘一直不愿意进化?原因竟然是这个!...
- Bug: tf.contrib.checkpoint.NoDependency object
- python开发环境规范——pycharm
- python导入栈包
- 下面程序段中带下划线的语句的执行次数的数量级是( )
- 毕业几年LINUX 驱动研发工作心得分享
- 概述-数据建模是什么?
- CDR无法启动此程序 因为计算机丢失,教您快速解决CorelDRAW X7因缺少VGCore.dll无法启动的难题...
- JS 面试问题: 手写 new
- 怎么把html图片改成jpg格式吗,怎样把照片变成JPG格式?
- 【ES系列】ES的数据结构与DSL语法
- 嘴哥有料系列-can工具1:CAN诊断浅谈 + 如何用CAN工具进行诊断
- 06-数据科学的基础:数据收集之市场调查_02 次级资料
热门文章
- Android开发:引入重复包报错Error:Execution failed for task ':app:transformDexArchiveWithExternalLibsDe...’解决方法
- python 断言方法
- 前后端ajax分离如何做seo,前后端分离 seo
- 分享一段Excel实用快捷键
- python窗口居中_Tkinter窗口在屏幕居中的问题
- ps删除图片中的文字
- ATX电源工作原理的学习
- 龙珠直播php,斗鱼、全民TV、龙珠等直播平台排行榜 看视频直播发展趋势
- matlab 脉冲压缩算法,雷达脉冲压缩matlab
- matlab 行 读取文件 跳过_matlab中textscan跳行使用