参考链接：https://mp.weixin.qq.com/s/5qzPb7HOCfRRGJICYUsAOQ
FuzzyWuzzy一个简单易用的模糊字符串匹配工具包。让你轻松解决烦恼的匹配问题！

前言

在处理数据的过程中，难免会遇到下面类似的场景，自己手里头获得的是简化版的数据字段，但是要比对的或者要合并的却是完整版的数据（有时候也会反过来）

最常见的一个例子就是：在进行地理可视化中，自己收集的数据只保留的缩写，比如北京，广西，新疆，西藏等，但是待匹配的字段数据却是北京市，广西壮族自治区，新疆维吾尔自治区，西藏自治区等，如下。因此就需要有没有一种方式可以很快速便捷的直接进行对应字段的匹配并将结果单独生成一列，就可以用到FuzzyWuzzy库。

图片

FuzzyWuzzy库介绍

FuzzyWuzzy 是一个简单易用的模糊字符串匹配工具包。它依据 Levenshtein Distance 算法，计算两个序列之间的差异。

Levenshtein Distance算法，又叫 Edit Distance算法，是指两个字符串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大。

这里使用的是Anaconda下的jupyter notebook编程环境，因此在Anaconda的命令行中输入一下指令进行第三方库安装。

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple FuzzyWuzzy

2.1 fuzz模块

该模块下主要介绍四个函数（方法），分别为：简单匹配（Ratio）、非完全匹配（Partial Ratio）、忽略顺序匹配（Token Sort Ratio）和去重子集匹配（Token Set Ratio）

注意：如果直接导入这个模块的话，系统会提示warning，当然这不代表报错，程序依旧可以运行（使用的默认算法，执行速度较慢），可以按照系统的提示安装python-Levenshtein库进行辅助，这有利于提高计算的速度。

图片

2.1.1 简单匹配（Ratio）

简单的了解一下就行，这个不怎么精确，也不常用

fuzz.ratio(“河南省”, “河南省”)

100

fuzz.ratio(“河南”, “河南省”)

80

2.1.2 非完全匹配（Partial Ratio）

尽量使用非完全匹配，精度较高

fuzz.partial_ratio(“河南省”, “河南省”)

100

fuzz.partial_ratio(“河南”, “河南省”)

100

2.1.3 忽略顺序匹配（Token Sort Ratio）

原理在于：以空格为分隔符，小写化所有字母，无视空格外的其它标点符号

fuzz.ratio(“西藏自治区”, “自治区西藏”)

50
fuzz.ratio(‘I love YOU’,‘YOU LOVE I’)

30

fuzz.token_sort_ratio(“西藏自治区”, “自治区西藏”)

100
fuzz.token_sort_ratio(‘I love YOU’,‘YOU LOVE I’)

100

2.1.4 去重子集匹配（Token Set Ratio）

相当于比对之前有一个集合去重的过程，注意最后两个，可理解为该方法是在token_sort_ratio方法的基础上添加了集合去重的功能，下面三个匹配的都是倒序

fuzz.ratio(“西藏西藏自治区”, “自治区西藏”)

40

fuzz.token_sort_ratio(“西藏西藏自治区”, “自治区西藏”)

80

fuzz.token_set_ratio(“西藏西藏自治区”, “自治区西藏”)

100

fuzz这几个ratio()函数（方法）最后得到的结果都是数字，如果需要获得匹配度最高的字符串结果，还需要依旧自己的数据类型选择不同的函数，然后再进行结果提取，如果但看文本数据的匹配程度使用这种方式是可以量化的，但是对于我们要提取匹配的结果来说就不是很方便了，因此就有了process模块。

2.2 process模块

用于处理备选答案有限的情况，返回模糊匹配的字符串和相似度。

2.2.1 extract提取多条数据

类似于爬虫中select，返回的是列表，其中会包含很多匹配的数据

choices = [“河南省”, “郑州市”, “湖北省”, “武汉市”]
process.extract(“郑州”, choices, limit=2)

[(‘郑州市’, 90), (‘河南省’, 0)]

extract之后的数据类型是列表，即使limit=1，最后还是列表，注意和下面extractOne的区别

2.2.2 extractOne提取一条数据

如果要提取匹配度最大的结果，可以使用extractOne，注意这里返回的是元组类型，还有就是匹配度最大的结果不一定是我们想要的数据，可以通过下面的示例和两个实战应用体会一下

process.extractOne(“郑州”, choices)

(‘郑州市’, 90)

process.extractOne(“北京”, choices)

(‘湖北省’, 45)

实战应用

这里举两个实战应用的小例子，第一个是公司名称字段的模糊匹配，第二个是省市字段的模糊匹配

3.1 公司名称字段模糊匹配

数据及待匹配的数据样式如下：自己获取到的数据字段的名称很简洁，并不是公司的全称，因此需要进行两个字段的合并

图片

直接将代码封装为函数，主要是为了方便日后的调用，这里参数设置的比较详细，执行结果如下：

图片

3.1.1 参数讲解：

① 第一个参数df_1是自己获取的欲合并的左侧数据（这里是data变量）；

② 第二个参数df_2是待匹配的欲合并的右侧数据（这里是company变量）；

③ 第三个参数key1是df_1中要处理的字段名称（这里是data变量里的‘公司名称’字段）

④ 第四个参数key2是df_2中要匹配的字段名称（这里是company变量里的‘公司名称’字段）

⑤ 第五个参数threshold是设定提取结果匹配度的标准。注意这里就是对extractOne方法的完善，提取到的最大匹配度的结果并不一定是我们需要的，所以需要设定一个阈值来评判，这个值就为90，只有是大于等于90，这个匹配结果我们才可以接受

⑥ 第六个参数，默认参数就是只返回两个匹配成功的结果

⑦ 返回值：为df_1添加‘matches’字段后的新的DataFrame数据

3.1.2 核心代码讲解

第一部分代码如下，可以参考上面讲解process.extract方法，这里就是直接使用，所以返回的结果m就是列表中嵌套元祖的数据格式，样式为: [(‘郑州市’, 90), (‘河南省’, 0)]，因此第一次写入到’matches’字段中的数据也就是这种格式

注意，注意：元祖中的第一个是匹配成功的字符串，第二个就是设置的threshold参数比对的数字对象

s = df_2[key2].tolist()
m = df_1[key1].apply(lambda x: process.extract(x, s, limit=limit))
df_1[‘matches’] = m

第二部分的核心代码如下，有了上面的梳理，明确了‘matches’字段中的数据类型，然后就是进行数据的提取了，需要处理的部分有两点需要注意的：

① 提取匹配成功的字符串，并对阈值小于90的数据填充空值

② 最后把数据添加到‘matches’字段

m2 = df_1[‘matches’].apply(lambda x: [i[0] for i in x if i[1] >= threshold][0] if len([i[0] for i in x if i[1] >= threshold]) > 0 else ‘’)
#要理解第一个‘matches’字段返回的数据类型是什么样子的，就不难理解这行代码了
#参考一下这个格式：[(‘郑州市’, 90), (‘河南省’, 0)]
df_1[‘matches’] = m2

return df_1

3.2 省份字段模糊匹配

自己的数据和待匹配的数据背景介绍中已经有图片显示了，上面也已经封装了模糊匹配的函数，这里直接调用上面的函数，输入相应的参数即可，代码以及执行结果如下：

图片

数据处理完成，经过封装后的函数可以直接放在自己自定义的模块名文件下面，以后可以方便直接导入函数名即可，可以参考将自定义常用的一些函数封装成可以直接调用的模块方法。

全部函数代码

#模糊匹配

def fuzzy_merge(df_1, df_2, key1, key2, threshold=90, limit=2):
“”"
:param df_1: the left table to join
:param df_2: the right table to join
:param key1: key column of the left table
:param key2: key column of the right table
:param threshold: how close the matches should be to return a match, based on Levenshtein distance
:param limit: the amount of matches that will get returned, these are sorted high to low
:return: dataframe with boths keys and matches
“”"
s = df_2[key2].tolist()

m = df_1[key1].apply(lambda x: process.extract(x, s, limit=limit))
df_1['matches'] = mm2 = df_1['matches'].apply(lambda x: [i[0] for i in x if i[1] >= threshold][0] if len([i[0] for i in x if i[1] >= threshold]) > 0 else '')
df_1['matches'] = m2return df_1

from fuzzywuzzy import fuzz
from fuzzywuzzy import process

df = fuzzy_merge(data, company, ‘公司名称’, ‘公司名称’, threshold=90)
df

Python中实现模糊匹配的魔法库：FuzzyWuzzy相关推荐

不是python中用于开发用户界面的第三方库-模拟试卷C
原标题:模拟试卷C 一.单项选择题 1. 按照"后进先出"原则组织数据的数据结构是____ 队列栈双向链表二叉树 2. 以下选项的叙述中,正确的是循环队列有队头和队尾两个指 ...
Python中使用random随机函数与Matplotlib库绘制随机漫步图
Python中使用random随机函数与Matplotlib库绘制随机漫步图一.概述随机现象在我们的生活中并不少见,我们常见的一次抛硬币的正反面,股票的走势等等,都是随机事件.这些不确定性事件给我 ...
python中的正则匹配知识点
@author: fighter Python正则表达式知识点整理. 概述:在处理字符串时,经常会遇到查找符合某些复杂规则字符串的需求,正则表达式就是用于描述这些规则的工具. 首先,我们先掌握一下py ...
python编辑word书签_小伙发现了Python中编写word文档的库，编辑文字方便多了
新的一年,小编又和大家见面啦.十分开心又和大家分享干货了~ Word文档相信广大的办公室家族并不陌生吧?今天咱们聊聊Python中一个可以用来读写word文档的Python库,编辑文档分分钟的事情哦~ ...
小伙发现了Python中编写word文档的库，编辑文字方便多了
新的一年,小编又和大家见面啦.十分开心又和大家分享干货了~ Word文档相信广大的办公室家族并不陌生吧?今天咱们聊聊Python中一个可以用来读写word文档的Python库,编辑文档分分钟的事情哦~ ...
python中图片绘制和输出相关库的原理详解
Python在图片绘制和输出方面的发展历史可以追溯到20世纪90年代,当时的主要库是Python Imaging Library (PIL),用于处理图像文件和生成图像.PIL是Python中最早的图 ...
Python中的特殊成员和魔法方法
1.简介 Python中有大量类似__doc__这种以双下划线开头和结尾的特殊成员及"魔法方法",它们有着非常重要的地位和作用,也是Python语言独具特色的语法之一! __ini ...
不是python中用于开发用户界面的第三方库-python界面 | Tkinter图形界面开发库
0 写在前面未经允许,不得转载,谢谢~~ 毕设要在现有的基础上做一个可视化的界面,所以趁机也学习一波如何用python实现图形界面的开发. 本文主要学习并整理了: 简要介绍用于python图形界面开 ...
不是python中用于开发用户界面的第三方库-Python计算生态习题(50题)
1.Python网络爬虫方向的第三方库是 A. request B. jieba C.itchat D.time 答案:A 2.Python网络爬虫方向的第三方库是 A.numpy B.scrapy ...

Python中实现模糊匹配的魔法库：FuzzyWuzzy

extract之后的数据类型是列表，即使limit=1，最后还是列表，注意和下面extractOne的区别

Python中实现模糊匹配的魔法库：FuzzyWuzzy相关推荐

最新文章

热门文章