1、导语:

模糊匹配可以算是现代编辑器(如 Eclipse 等各种 IDE)的一个必备特性了,它所做的就是根据用户输入的部分内容,猜测用户想要的文件名,并提供一个推荐列表供用户选择。

样例如下:

Vim (Ctrl-P)

Sublime Text (Cmd-P)

‘模糊匹配’这是一个极为有用的特性,同时也非常易于实现。

2、问题分析:

我们有一堆字符串(文件名)集合,我们根据用户的输入不断进行过滤,用户的输入可能是字符串的一部分。我们就以下面的集合为例:

>>> collection = [‘django_migrations.py‘,

‘django_admin_log.py‘,

‘main_generator.py‘,

‘migrations.py‘,

‘api_user.doc‘,

‘user_group.doc‘,

‘accounts.txt‘,

]

当用户输入’djm‘字符串时,我们假定是匹配到’django_migrations.py’和’django_admin_log.py’,而最简单的实现方法就是使用正则表达式。

3、解决方案:

3.1 常规的正则匹配

将 "djm" 转换成 "d.*j.*m" 然后用这个正则尝试匹配集合中的每一个字符串,如果匹配到了就被列为候选。

>>> import re

>>> def fuzzyfinder(user_input, collection):

suggestions = []

pattern = ‘.*‘.join(user_input) # Converts ‘djm‘ to ‘d.*j.*m‘

regex = re.compile(pattern)     # Compiles a regex.

for item in collection:

match = regex.search(item)  # Checks if the current item matches the regex.

if match:

suggestions.append(item)

return suggestions

>>> print fuzzyfinder(‘djm‘, collection)

[‘django_migrations.py‘, ‘django_admin_log.py‘]

>>> print fuzzyfinder(‘mig‘, collection)

[‘django_migrations.py‘, ‘django_admin_log.py‘, ‘main_generator.py‘, ‘migrations.py‘]

这里根据用户的输入我们得到了一个推荐列表,但是推荐列表中的字符串是没有进行重要性区分的。有可能出现最合适的匹配项被放到了最后的情况。

实际上,还是这个例子,当用户输入’mig‘时,最佳选项’migrations.py’就被放到了最后。

3.2 带有rank排序的匹配列表

这里我们对匹配到的结果按照匹配内容第一次出现的起始位置来进行排序。

‘main_generator.py‘     - 0

‘migrations.py‘         - 0

‘django_migrations.py‘  - 7

‘django_admin_log.py‘   - 9

下面是相关代码:

>>> import re

>>> def fuzzyfinder(user_input, collection):

suggestions = []

pattern = ‘.*‘.join(user_input) # Converts ‘djm‘ to ‘d.*j.*m‘

regex = re.compile(pattern)     # Compiles a regex.

for item in collection:

match = regex.search(item)  # Checks if the current item matches the regex.

if match:

suggestions.append((match.start(), item))

return [x for _, x in sorted(suggestions)]

>>> print fuzzyfinder(‘mig‘, collection)

[‘main_generator.py‘, ‘migrations.py‘, ‘django_migrations.py‘, ‘django_admin_log.py‘]

这次我们生成了一个由二元 tuple 组成的列表,即列表中的每一个元素为一个二元tuple,而该二元tuple的第一个值为匹配到的起始位置、第二个值为对应的文件名,然后使用列表推导式按照匹配到的位置进行排序并返回文件名列表。

现在我们已经很接近最终的结果了,但还称不上完美——用户想要的是’migration.py’,但我们却把’main_generator.py’作为第一推荐。

3.3 根据匹配的紧凑程度进行排序

当用户开始输入一个字符串时,他们倾向于输入连续的字符以进行精确匹配。比如当用户输入’mig‘他们更倾向于找的是’migrations.py’或’django_migrations.py’,而不是’main_generator.py’,所以这里我们所做的改变就是查找匹配到的最紧凑的项目。

刚才提到的问题对于Python来说不算什么事,因为当我们使用正则表达式进行字符串匹配时,匹配到的字符串就已经被存放在了match.group()中了。下面假设输入为’mig’,对最初定义的’collection’的匹配结果如下:

regex = ‘(m.*i.*g)‘

‘main_generator.py‘    ->  ‘main_g‘

‘migrations.py‘        ->  ‘mig‘

‘django_migrations.py‘ ->  ‘mig‘

‘django_admin_log.py‘  ->  ‘min_log‘

这里我们将推荐列表做成了三元tuple的列表的形式,即推荐列表中的每一个元素为一个三元tuple,而该三元tuple的第一个值为匹配到的内容的长度、第二个值为匹配到的起始位置、第三个值为对应的文件名,然后按照匹配长度和起始位置进行排序并返回。

>>> import re

>>> def fuzzyfinder(user_input, collection):

suggestions = []

pattern = ‘.*‘.join(user_input) # Converts ‘djm‘ to ‘d.*j.*m‘

regex = re.compile(pattern)     # Compiles a regex.

for item in collection:

match = regex.search(item)  # Checks if the current item matches the regex.

if match:

suggestions.append((len(match.group()), match.start(), item))

return [x for _, _, x in sorted(suggestions)]

>>> print fuzzyfinder(‘mig‘, collection)

[‘migrations.py‘, ‘django_migrations.py‘, ‘main_generator.py‘, ‘django_admin_log.py‘]

针对我们的输入,这时候的匹配结果已经趋向于完美了,不过还没完。

3.4 非贪婪匹配

由 Daniel Rocco 发现了这一微妙的问题:当集合中有[‘api_user‘, ‘user_group‘]这两个元素存在,用户输入’user‘时,预期的匹配结果(相对顺序)应该为[‘user_group‘, ‘api_user‘],但实际上的结果为:

>>> print fuzzyfinder(‘user‘, collection)

[‘api_user.doc‘, ‘user_group.doc‘]

上面的测试结果中:’api_user’要排在’user_group’前面。深入一点,我们发现这是因为在搜索’user’时,正则被扩展成了’u.*s.*e.*r’,考虑到’user_group’有2个’r‘,因此该模式匹配到了’user_gr‘而不是我们预期的’user‘。更长的匹配导致在最后的匹配rank排序时名次下降这一违反直觉的结果,不过这问题也容易解决,将正则修改为’非贪婪匹配’即可。

>>> import re

>>> def fuzzyfinder(user_input, collection):

suggestions = []

pattern = ‘.*?‘.join(user_input)    # Converts ‘djm‘ to ‘d.*?j.*?m‘

regex = re.compile(pattern)         # Compiles a regex.

for item in collection:

match = regex.search(item)      # Checks if the current item matches the regex.

if match:

suggestions.append((len(match.group()), match.start(), item))

return [x for _, _, x in sorted(suggestions)]

>>> fuzzyfinder(‘user‘, collection)

[‘user_group.doc‘, ‘api_user.doc‘]

>>> print fuzzyfinder(‘mig‘, collection)

[‘migrations.py‘, ‘django_migrations.py‘, ‘main_generator.py‘, ‘django_admin_log.py‘]

现在,fuzzyfinder已经可以(在上面的情况中)正常工作了,而我们不过只写了10行代码就实现了一个 fuzzy finder。

3.5 结论:

以上就是我在我的 pgcli 项目(一个有自动补全功能的Postgresql命令行实现)中设计实现’fuzzy matching’的过程记录。

我已经将 fuzzyfinder 提取成一个独立的Python包,你可以使用命令’pip install fuzzyfinder’在你的项目中进行安装和使用。

如果你对这个感兴趣的话,你可以来 twitter 上找我。

4、结语:

当我第一次考虑用Python实现“fuzzy matching”的时候,我就知道一个叫做 fuzzywuzzy的优秀库,但是 fuzzywuzzy 的做法和这里的不太一样,它使用的是 “levenshtein distance”(编辑距离) 来从集合中找到最匹配的字符串。”levenshtein distance“是一个非常适合用来做自动更正拼写错误的技术,但在从部分子串匹配长文件名时表现的不太好(所以这里没有使用)。

python实现模糊搜索_Python 代码实现模糊查询相关推荐

  1. java模糊查询代码_Java模糊查询方法详解

    这篇文章主要为大家详细介绍了Java模糊查询方法的实现,实例教你如何用Java做模糊查询结果,感兴趣的小伙伴们可以参考一下 当我们需要开发一个方法用来查询数据库的时候,往往会遇到这样一个问题:就是不知 ...

  2. python中的mysql数据库like模糊查询

    近期工作在使用python语言开发项目,工作中遇到了一个python连接mysql的like查询. 因为%在python中三个特殊的符号,如%s.%d分别代表了字符串占位符和数字占位符. 大家知道.m ...

  3. Python 代码实现模糊查询

    一.概述 最近在做一个django项目,里面有一个字典数据非常大,虽然已经做了分页处理.但是用户想要找到指定的数据,还得一页页翻,非常繁琐. 字典的结构如下: file_list = [{" ...

  4. 可以查python题的_Python练习题4.9查询水果价格

    给定四种水果,分别是苹果(apple).梨(pear).桔子(orange).葡萄(grape),单价分别对应为3.00元/公斤.2.50元/公斤.4.10元/公斤.10.20元/公斤. 首先在屏幕上 ...

  5. Python操作Mysql实例代码教程(查询手册)

    2019独角兽企业重金招聘Python工程师标准>>> 本文介绍了Python操作MYSQL.执行SQL语句.获取结果集.遍历结果集.取得某个字段.获取表字段名.将图片插入数据库.执 ...

  6. python导出结果_Python连接Oracle数据查询导出结果

    python连接oracle,需用用到模块cx_oracle,可以直接pip安装,如网络不好,可下载离线后本地安装 本人由于工作需要,期望便捷查询所得结果,且固定输出某个格式 具体代码如下: #! c ...

  7. python实现模糊搜索_Python英文搜索引擎(模糊搜索)

    假设在C:\Record下面有若干个.txt文件,均为纯英文文档.以这些文档为内容,实现一个本地搜索引擎,当用户给出某个输入时,列出相关的搜索结果.可以自行决定改搜索引擎的功能强弱,并给出有关的说明文 ...

  8. python查天气预报_Python编写一个天气预报查询系统

    Python编写一个天气预报查询系统 学了Python这么久 可以用它来做许多好玩的小程序哦! 这里给 大家做了个查询天气预报的小程序! 可以查询未来几天的天气! 需要大家自己修改下代码即可! 首先我 ...

  9. 打包python程序发布_Python代码的打包与发布详解

    在python程序中,一个.py文件被当作一个模块,在各个模块中定义了不同的函数.当我们要使用某一个模块中的某一个函数时,首先须将这个模块导入,否则就会出现函数未定义的情况. 下面记录的是打包及安装包 ...

最新文章

  1. CTF-不一样的凯撒密码
  2. MySQL 5.7.10 免安装配置
  3. 在MyEclipse中更换或修改svn的用户名和密码
  4. Linq中Average,Sum等方法的使用解析
  5. 如何用MEF实现Asp.Net MVC框架
  6. python正则表达式思考_PYTHON 爬虫笔记四:正则表达式基础用法
  7. java中整数和字符串间的转换方法
  8. 易语言与python爬虫_022 Python爬虫原理与python爬虫实例大全
  9. c语言实现顺序表(详细代码)
  10. php网页设计课程设计dreamweaver8_Dreamweaver 8.0 多媒体网页制作教程
  11. 另类方法破解管理员密码
  12. 关于vue的@click传递
  13. tbc新服务器没消息,暴雪蓝贴官宣TBC怀旧服2021年内上线,所有服务器直升70级
  14. Android实践:基于聚合数据的手机号码归属地查询
  15. i9 9900es版,QQC0满载功耗测试
  16. 晨光计算机开n次方,【三名工程】晓之以理,导之以行,动之以情——郑标名师工作室第一次网络研修记录...
  17. C#屏蔽Alt+F4组合键
  18. sql查询条件有单引号
  19. 职场,社恐的终极噩梦
  20. Fortify扫描漏洞解决方案

热门文章

  1. 蜂鸟A20开发板刷 cubietruck 的 SD 卡固件
  2. css 30 常用选择选择器
  3. wsdl接口_DEBUG系列四:第三方接口debug
  4. python怎么切图片_Python切割图片成九宫格
  5. u8转完看不到菜单_填制凭证界面上的菜单看不见
  6. 代码阅读器 android,适用于Android的条形码/ Qr代码阅读器
  7. 如何查看linux系统的存储空间大小,linux 如何查看硬盘大小,存储空间大小等系统信息及硬件信息...
  8. python从指定文件夹导入模块_Python实现的在特定目录下导入模块功能分析
  9. 正月十五元宵节中国风海报PSD分层模板找灵感!
  10. 炫彩流行艺术海报,品味不止一点点