我尝试了两个df的模糊比较,就我的研究而言,没有快速的方法来做。使用4fuzz方法也会降低脚本的速度。一种方法是使用'工艺提取酮()`并创建一个函数:from fuzzywuzzy import process

def fw_process(row_df1):

# Select the addresses from df2 with same postal_code

df2_select_add = df2['address'][df2['postal_code'] == row_df1['postal_code']]

ad_1 = row_df1['address']

# Find the best match for ad_1 in df2_select_add and get the ratio with [1]

# for the name of df2_select_add , use [0]

if process.extractOne(ad_1, df2_select_add)[1] >= 80:

return 'Y'

else:

return 'N'

然后要在df1中创建列标志,请执行以下操作:

^{pr2}$

注意:名称df2不是作为函数的参数调用的,这不是一种更干净的方式,但是如果在代码中使用这个名称定义它,它就可以工作了。在

如果您想保留4fuzz方法,那么可以按照相同的想法创建函数:from fuzzywuzzy import fuzz

def fw_fuzz ( row_df1):

# Select the addresses from df2 with same postal_code

df2_select_add = df2['address'][df2['postal_code'] == row_df1['postal_code']]

ad_1 = row_df1['address']

# Get the max of the max of the 4 fuzz comparison between ad_1 and df2_select_add

if max (df2_select_add.apply(lambda x: max(fuzz.ratio(ad_1, x), fuzz.partial_ratio(ad_1, x),

fuzz.token_sort_ratio(ad_1, x),fuzz.token_set_ratio(ad_1, x)))) >= 80:

return 'Y'

else:

return 'N'

然后:df1['flag'] = df1.apply(fw_fuzz, axis=1)

python数据模糊匹配,使用python中两个数据集的模糊匹配创建标志相关推荐

  1. python双重直方图_Python 2.x中两幅图像的直方图匹配?

    我以前写过一个答案here解释如何在图像直方图上进行分段线性插值,以实现高光/中音/阴影的特定比率. 两幅图像之间histogram matching的基本原理相同.基本上,计算源图像和模板图像的累积 ...

  2. Python数据可视化学习(初学中...)

    Python数据可视化学习(初学中...) 1.使用Matplotlib生成数据图 1.1.安装Matplotlib包 1.2.Matplotlib数据图入门 1.2.1.折线图举例 1.2.2.图表 ...

  3. Python数据分析学习系列 十三 Python建模库介绍

    Python数据分析学习系列 十三 Python建模库介绍 资料转自(GitHub地址):https://github.com/wesm/pydata-book 有需要的朋友可以自行去github下载 ...

  4. python数据对比校验_Python对比数据库两张表是否一致

    工作中我们经常需要对比数据库中两张表的数据是否有差异,以下代码通过pymsql对两张表的数据进行简单对比,可以记录新旧表的数据总数,以及两张表中有差异的数据. 应用场景:旧表中数据迁移到新表 运行结果 ...

  5. python数据分析软件0代码,python数据分析软件开发

    大家好,小编为大家解答python数据分析软件0代码的问题.很多人还不知道python数据分析处理软件,现在让我们一起来看看吧! 1.sas和python的区别 sas和python的区别: 1.成本 ...

  6. 多个模糊匹配条件下对两个数据集的高效聚合方法(加权最近邻优化)及实例代码

    背景介绍: 现在某一社交软件,收集20W+的男女用户数据集包括:ID.性别.生日.身高系数.工资系数等信息. 其中,身高系数.工资系数为male和female各自性别集合里统计出来的标准化数据,例如分 ...

  7. 干货!小白入门Python数据科学全教程 Python大数据分析

    本文讲解了从零开始学习Python数据科学的全过程,涵盖各种工具和方法 你将会学习到如何使用python做基本的数据分析 你还可以了解机器学习算法的原理和使用 说明 先说一段题外话.我是一名数据工程师 ...

  8. python数据图表可视化GUI,python做可视化数据图表

    Python中数据可视化的两个库! 1. Matplotlib:是Python中众多数据可视化库的鼻祖,其设计风格与20世纪80年代的商业化程序语言MATLAB十分相似,具有很多强大且复杂的可视化功能 ...

  9. python数据可视化实现步骤,Python 代码轻松实现数据可视化的5 种使用方法

    散点图 散点图非常适合展示两个变量之间的关系,因为你可以直接看到数据的原始分布. 如下面第一张图所示的,你还可以通过对组进行简单地颜色编码来查看不同组数据的关系.想要可视化三个变量之间的关系? 没问题 ...

最新文章

  1. android列表实现置顶,Android利用RecyclerView实现全选、置顶和拖拽功能示例
  2. 周志华《机器学习》章节整理
  3. Excel表格快速将公式运用到一整列
  4. Linux系统简介 、 安装Linux系统 、 RHEL6基本操作
  5. Linux 配置JAVA_HOME
  6. linux chattr 无权限,从零开始学习Linux(二十八):文件权限之chattr权限
  7. Redis简单案例(三) 连续登陆活动的简单实现
  8. python基础入门第0天
  9. python爬虫安装了pycharm还要安装什么_Pycharm安装与使用
  10. wordpress中文路径出现404错误的解决办法
  11. excel提取文字拼音首字母
  12. nxlog windows安装部署
  13. 算法与数据结构1800题 图
  14. OK插件安装常见问题集锦(PowerPoint版)|OneKeyTools Lite安装说明
  15. 陕西国防学院计算机系网络教研室,陕西国防工业职业技术学院:全卫强副院长赴各院部调研教师发展工作...
  16. 正好在线炒股医美概念涨幅居前
  17. Mac如何读写NTFS硬盘,NTFSTool让Mac也可以轻松读写NTFS硬盘
  18. 获取post请求的几种常见方式
  19. SAP 选择屏幕下拉框实现
  20. LeetCode_715. Range Module

热门文章

  1. java 比较2个时间大小写_date - Java 8:计算两个LocalDateTime之间的差异
  2. python结果按行输出_Python实现读取字符串按列分配后按行输出示例
  3. php中的正则表达式相关例题,实例学习PHP中的正则表达式
  4. Java--对象复制
  5. cyyz: Day 4 网络流整理
  6. webpack教程(二)——webpack.config.js文件
  7. C#设计模式--工厂方法模式
  8. thymleaf th:if标签
  9. 记一次 nginx 504 Gateway Time-out
  10. vb.net机房收费系统之组合查询