此系列文章收录在公众号中:数据大宇宙 > 数据处理 > E-pd

转发本文并私信我"python",即可获得Python资料以及更多系列文章(持续更新的)

经常听别人说 Python 在数据领域有多厉害,结果学了很长时间,连数据处理都麻烦得要死。后来才发现,原来不是 Python 数据处理厉害,而是他有数据分析神器—— pandas

前言

Excel 中的 vlookup 函数有一个模糊查找选项,其内在原理为二分法查找,在 pandas 中同样有一样功能的方法。


场景

如下某物资取货记录:

  • 左表为取货登记,有登记时间和数量
  • 右表为批次库存数量
  • 出库规则为按批次从小到大优先出库,也就是说,批次1被取完,才会取批次2,以此类推
  • 现在希望把左表每个人取货记录标记是哪个批次

问题类似匹配查找,是一种模糊匹配,比如 30 不是直接匹配 30 对应的记录,而是匹配到高于30最近的点(批次表的第一个点50)


Excel解决方法

首先要知道每个人取货之前已经累计被拿了多少数量:

  • 通过简单的固定地址,直接使用 sum 函数即可
  • 第一行的记录比较特殊,这里简单处理,直接手工填充0(复杂处理就会sum公式变复杂一点)

同样道理,处理批次表:

  • 注意把公式写在表的左方,方便后续处理(别跟我说 vlookup 配合数组公式可以右往左匹配,非常讨厌无关逻辑嵌套一起的东西)

现在可以直接使用 vlookup 了:

  • 注意最后一个参数是1,模糊查找
  • 这里有个前提是,右表的数值列必须为升序,否则结果可能出乎意料

pandas解决方法

pandas 中的做法基本上每一句代码就对应 Excel 中的一个操作:

  • 行1、2:加载数据,不多说
  • 行4、5:对2个表排序。这其实是很关键一步,上面 Excel 操作中省去了这2个操作
  • 行7、8:对应 Excel 中的求出"累计列"的操作
  • 行10:pd.cut 相当于模糊查找的 vlookup 。但是这方法比 vlookup 麻烦,每个区间的分割点必需比区间要多1个数量(这符合数据分段逻辑,但不方便数据表操作)
  • 所以在参数 bins 里面,我们特意添加一个比较大的数 1000 上去
  • 参数 right=False ,是让边界值归左边界处理。比如数量50,是属于批次1,而不是批次2

针对上述说的 pd.cut 的缺点,我们可以自定义一个函数,简化操作:

  • 把数据源(参数 x)的总和添加到分段点(参数 bins)中即可
  • 为了让其行为默认与 Excel vlookup 一致,把参数 right 默认值设置为 False

现在调用就清晰很多了:

有没有想过直接往 pandas 库中添加一个属于自己的方法 vlookup 呢?真的可以做到,在我的 pandas 专栏后期将会详细讲解工程化扩展,想打造属于自己的 pandas 不是问题。

可自定义匹配规则查找控件_懂Excel轻松入门Python数据分析包pandas(二十八):二分法查找...相关推荐

  1. pandas 更改单元格的值_懂Excel轻松入门Python数据分析包pandas(二十四):连续区域...

    此系列文章收录在公众号中:数据大宇宙 > 数据处理 >E-pd 转发本文并私信我"python",即可获得Python资料以及更多系列文章(持续更新的) 经常听别人说 ...

  2. python怎么筛选excel数据_懂Excel也能轻松入门Python数据分析包pandas(二):高级筛选(上)-excel筛选...

    转发本文并私信我"python",即可获得Python资料以及各种心得(持续更新的) 系列文章: 前言 经常听别人说 Python 在数据领域有多厉害,结果学了很长时间,连数据处理 ...

  3. pandas 排序_懂Excel就能轻松入门Python数据分析包pandas(六):排序

    转发本文并私信我"python",即可获得Python资料以及各种心得(持续更新的) 经常听别人说 Python 在数据领域有多厉害,结果学了很长时间,连数据处理都麻烦得要死.后来 ...

  4. python excel处理重复行并统计个数_懂Excel就能轻松入门Python数据分析包pandas(五):重复值处理...

    经常听别人说 Python 在数据领域有多厉害,结果学了很长时间,连数据处理都麻烦得要死.后来才发现,原来不是 Python 数据处理厉害,而是他有数据分析神器-- pandas 前言 有时候数据中出 ...

  5. c++控制台应用每一列数据如何对齐_懂Excel就能轻松入门Python数据分析包pandas(十六):合并数据...

    此系列文章收录在公众号中:数据大宇宙 > 数据处理 >E-pd 转发本文并私信我"python",即可获得Python资料以及更多系列文章(持续更新的) 经常听别人说 ...

  6. excel处置4000行数据卡_懂Excel就能轻松入门Python数据分析包pandas(三):制作成绩条...

    系列文章: 经常听别人说 Python 在数据领域有多厉害,结果学了很长时间,连数据处理都麻烦得要死.后来才发现,原来不是 Python 数据处理厉害,而是他有数据分析神器-- pandas 前言 很 ...

  7. excel不能插入activex控件_用excel做下拉多选菜单

    先看视频: 下拉多选菜单https://www.zhihu.com/video/1070640311239249920 在日常工作中,有时候我们需要在单元格中输入多个固定内容的某几个项,手动输入很麻烦 ...

  8. easyui 动态设置单元格控件_比Excel还简单,实现动态报表原来只需要十分钟!

    做过报表的人,尤其是经常有报表需求的人,想必都会有这样一个困惑: 为什么同样是做报表,其他人的报表就能够得到领导的肯定,而自己的报表就会被老板丢掉一边? 这个问题其实很好回答,你想一想,如果你是老板, ...

  9. python tkinter选择路径控件_如何使用tkinter在Python中选择目录并存储位置

    我正在创建一个带有浏览按钮的GUI,我只想返回路径.我一直在使用下面的代码来查找解决方案. Tkinter.Button(subframe, text = "Browse", co ...

最新文章

  1. mysql被拖垮_说几个拖垮系统的小细节!
  2. 太有缘!和同专业师兄同名同姓同年同月同日生还是同导师是什么体验?
  3. 霍尔开关YS1382检测速度 以及对 智能车竞赛节能组的影响
  4. 手持发光棒的结构解析
  5. python【蓝桥杯vip练习题库】ALGO-236大小写转换
  6. Java并发工具包( java.util.concurrent)
  7. ORBSLAM2在Ubuntu14.04上详细配置流程
  8. 浪潮I9000革新传统刀片 解决基础架构统一难题
  9. Mysql分页加pagebean_Spring+MyBatis+SpringMvc+Mysql+Druid+PageHelper分页实现
  10. python爬知识星球付费数据_用python爬取知识星球
  11. pytorch回归_PyTorch:用岭回归检查泰坦尼克号下沉
  12. 6D位姿估计算法Densefusion代码阅读
  13. FPGA学习笔记---3种乘法器的比较
  14. 138. 复制带随机指针的链表
  15. python自动登录百度_Python实现自动登录百度空间的方法
  16. Espresso unit test的输入法问题
  17. c++程序设计语言第四版pdf_寒假攻略 | 开启C语言自学模式
  18. matlab软件安装码,Matlab2017a软件安装包以及安装教程
  19. 安装Python解释器【图文集合 - 详细流程】
  20. php怎么画五星红旗,php基于GD库画五星红旗的方法_php技巧

热门文章

  1. BI的需求调研的方法分类
  2. 《VMware虚拟机实用宝典》繁体中文版封面
  3. 一步一步学Silverlight 2系列(27):使用Brush进行填充
  4. 程序员的身价取决于手中产品
  5. JavaScript常见笔试题分析
  6. 操作系统实验报告-系统调用
  7. 看unix高级编程时遇到apue.h找不到的问题
  8. NSNtification 在多线程中的运用
  9. 新手学appium-Appium for Windows说明(中文翻译)
  10. JQUERY1.9学习笔记 之内容过滤器(三) has选择器