前言

根据数据的某列进行打标签这个操作在数据分析领域极度常用,对于一些较为复杂的打标签方法,Python 与 SQL 都能很好的实现,这篇针对 Python,主要用到 map,apply 与 transform 等函数,从初阶到高阶,体会方法的异同优劣。

实现效果

针对北京某地区房价数据进行数据分析过程中的打标签操作,增加可读性的同时也可以根据源数据集来增加一些本来没有的变量,并对并生成可能会对模型精度有提升效果的布尔变量。

源数据(一小部分)

需求:将地区列 dist 的拼音全部转换成对应的中文

生成一列每个地区各自的房价平均值,并与源数据的房价对比,看该地区的某一房价是在平均值之上还是平均值之下。

map 字典映射法

看图即可理解用法,dist 列的拼音全部变成了对应的中文。

apply 法

刚刚的 map 针对的是 “静态数据”,即为名义变量,“动态数据” 如 roomnum 房间数量列则为数值变量,既然是数值变量,那数目肯定非常多,像 AREA 面积列,分类后的唯一固定值太多了,不像地区那样就那么六个,这时候就可以祭出 apply 了。同样,作为必会且极度出名的 apply,使用方法也无须多言,直接上效果图。

需求:给房间数目 roomnum 分层1 ~ 2 个:少(0)

3 个或以上:多(1)

重点来了!如果刚才的操作都还算简单,那根据地区划分的平均房价变量呢,即每个地区某一房价与其所在地区的平均房价相比,听起来有点拗口。下面拆解流程

先探索性数据分析查看一下各地区的平均房价分布情况

分组求每个地区的房价平均值,并转化成字典

还有没有更能体现实力的方法呢?—— transform

transform 作用机理

python如何给某列数据打标签_Python map, apply, transform 打标签方法汇总(初阶到高阶)...相关推荐

  1. python怎么将两列数据比大小_python – 使用大pandas比较两列

    您可以使用 np.where.如果cond是一个布尔数组,并且A和B是数组,那么 C = np.where(cond, A, B) 定义C等于A,其中cond为True,而B为cond,则为False ...

  2. python读取excel某列数据

    文章目录 一.python读取excel某列数据 二.将读取的数据变为浮点数 一.python读取excel某列数据 import xlrdworksheet = xlrd.open_workbook ...

  3. xlsx表格怎么筛选重复数据_excel表格如何筛选重复数据 在Excel表格的两列数据中提取不重复值的四种方法...

    excel表格如何筛选重复数据 在Excel表格的两列数据中提取不重复值的四种方法,最近到了季度汇报的时候,掌握一手excel技能在此刻显得多么重要,为了是你的excel看起来更高大上,今天教大家设置 ...

  4. python对比excel两列数据_python 对比excel表格数据表-python实现两个excel表列数据对比若源表与目标表存......

    在数据分析方面,比起python,excel的局限性在哪 data3 = pandas.merge(data1, data2, on=['名称'], how='inner') inner:内连接,取交 ...

  5. Python pandas 计算行/列数据之和

    import pandas as pd import numpy as np df=pd.DataFrame(np.arange(16).reshape(4,4),columns=["sh& ...

  6. c++控制台应用每一列数据如何对齐_Python数据分析第五节 pandas入门

    这一节将开始学习python的一个核心数据分析支持库---pandas,它是python数据分析实践与实战的必备高级工具.对于使用 Python 进行数据分析来说,pandas 几乎是无人不知,无人不 ...

  7. python对100G以上的数据进行排序,都有什么好的方法呢

    学习 Pandas排序方法是开始或练习使用 Python进行基本数据分析的好方法.最常见的数据分析是使用电子表格.SQL或pandas 完成的.使用 Pandas 的一大优点是它可以处理大量数据并提供 ...

  8. R计算两列数据的相关系数_Python+pandas计算数据相关系数(person、Kendall、spearman)...

    pandas中DataFrame对象corr()方法的用法,该方法用来计算DataFrame对象中所有列之间的相关系数(包括pearson相关系数.Kendall Tau相关系数和spearman秩相 ...

  9. java dataframe agg_Pandas对DataFrame单列/多列进行运算(map, apply, transform, agg)

    1.单列运算 在Pandas中,DataFrame的一列就是一个Series, 可以通过map来对一列进行操作: df['col2'] = df['col1'].map(lambda x: x**2) ...

最新文章

  1. 隐秘的角落——一个CIO的惊魂72小时
  2. Linux文本过滤与处理命令
  3. TI CC2541 BLE协议栈蓝牙MAC 地址
  4. LeetCode 2 两数相加(链表)
  5. #035 大数阶乘 PTA题目6-10 阶乘计算升级版 (20 分)
  6. 第18课:项目实战——利用 PyTorch 构建 RNN 模型
  7. php strstartwith,PHP8新增的三个字符串函数 str_contains, str_starts_with, str_ends_with
  8. 质数环问题c语言,素数环问题
  9. react 数字转字符_深入浅出 React -- JSX
  10. 微软Silverlight,你应该知道的10件事
  11. python中typeerror_python – TypeError:ufunc subtract不能使用类型为dtype(‘
  12. ubuntu 编译android .img_全网可用交叉编译工具链大全
  13. MySQL/Mariadb基准测试工具-TPC,TPCC,TPMC(计算机性能衡量指标)
  14. 学生网页作业网站设计——中华美德(6页) HTML+CSS+JavaScript web大作业 静态网页
  15. 前端项目:基于Nodejs+vue开发实现高校学院网站系统
  16. oracle sql 的语句
  17. 数据结构与算法——广度和深度优先搜索
  18. iconfont.cn 选择图标生成 scriptUrl 链接
  19. H.266/VVC-VTM代码学习18-自适应QP设置(Adaptive QP)
  20. 从源头解决问题,而不是曲线救国

热门文章

  1. 京东拟申请在北京南六环试点:用无人机送快递
  2. 小程序地理位置接口wx.getLocation申请审核解决方法(详细说明及避坑)
  3. 2019年9月Leetcode每日训练日志
  4. 《App研发录》读书笔记
  5. 天下大事做于细,从零实施ERP
  6. Unity UGUI Rect
  7. 移动端 H5 开发指南 涉及html、css、js三大方向
  8. Visual Studio 2022 中的键盘快捷方式
  9. 控制 Egress 流量
  10. sqlitespy怎么打开.db数据库文件