python自带比较相似度的模块,difflib。比较两个字符串的模块是difflib.SequenceMatcher,使用起来很简单:

import difflib
def string_similar(s1, s2):return difflib.SequenceMatcher(None, s1, s2).quick_ratio()print string_similar('爱尔眼科沪滨医院', '沪滨爱尔眼科医院')print string_similar('安定区妇幼保健站', '定西市安定区妇幼保健站')print string_similar('广州市医院', '广东省中医院')

运行结果:

1.0

0.842105263158

0.606060606061

最主要的是,python原生的模块的效率都比较好。其中None的位置是一个函数,用来去掉自己不想算在内的元素。比如我想把空格排除在外:

seq = difflib.SequenceMatcher(lambda x:x=" ", a, b)ratio = seq.ratio()

准备做一个小功能,需要计算字符串的相似度,提前做点功课。

算法

字符串相似度的算法以及有很多资料了。最常见的理解就是:把一个字符串通过插入、删除或替换这样的编辑操作,变成另外一个字符串ÿ

python比较字符串相似度相关推荐

  1. 【python】字符串相似度:编辑距离算法

    编辑距离算法 即MED(Minimum Edit Distance)算法,由俄罗斯的 Vladimir Levenshtein 在1965年提出,故又称Levenshtein距离. 所谓编辑距离,指的 ...

  2. python比较两个字符串相似度_详解Python 字符串相似性的几种度量方法

    字符串的相似性比较应用场合很多,像拼写纠错.文本去重.上下文相似性等. 评价字符串相似度最常见的办法就是:把一个字符串通过插入.删除或替换这样的编辑操作,变成另外一个字符串,所需要的最少编辑次数,这种 ...

  3. Python 连接MongoDB并比较两个字符串相似度的简单示例

    本文介绍一个示例:使用 pymongo 连接 MongoDB,查询MongoDB中的 字符串 记录,并比较字符串之间的相似度. 一,Python连接MongoDB 大致步骤:创建MongoClient ...

  4. python 字符串相似度判断详解

    1. 背景介绍 最近项目中要用到两个字符串相似度的求解算法,来矫正ocr文本识别的结果,进而提高识别的准确率,通过矫正(相当于模糊查询),识别准确率从65%上升到90%.其结果还是令人兴奋的,因此写博 ...

  5. python字符串相似度去重_Python 字符串相似性的几种度量方法

    字符串的相似性比较应用场合很多,像拼写纠错.文本去重.上下文相似性等. 评价字符串相似度最常见的办法就是:把一个字符串通过插入.删除或替换这样的编辑操作,变成另外一个字符串,所需要的最少编辑次数,这种 ...

  6. python字符串相似度去重_详解Python 字符串相似性的几种度量方法

    字符串的相似性比较应用场合很多,像拼写纠错.文本去重.上下文相似性等. 评价字符串相似度最常见的办法就是:把一个字符串通过插入.删除或替换这样的编辑操作,变成另外一个字符串,所需要的最少编辑次数,这种 ...

  7. python统计字符串个数_python字符串中字符出现次数(python获取字符串个数)

    原博文 2020-03-17 19:25 − 今天要说的是Python的字符串函数还是很方便的,只需要调用 count() 方法即可. 最近,我在一个网站上看到了一个自然语言处理课程.我详细解释了一些 ...

  8. Python | 深入浅出字符串

    本文授权转自极客时间专栏:(Python核心技术与实战) (2 天倒计时!扫码购买加微信返现 18 元) Python的程序中充满了字符串(string),在平常阅读代码时也屡见不鲜.字符串同样是Py ...

  9. python把字符串转化为字典_python 将字符串转换为字典

    在一般的工程处理中,需要将获取的字符串数据转换为字典,这样处理起来会非常方便. 我获取的是json数据: content = {"corpus_no":"64702772 ...

最新文章

  1. 让asp.net默认的上传组件支持进度条反映(转)
  2. [转]ROS2 源码解析与实践 - Node
  3. 【前端】JavaScript
  4. Mybaits插入记录返回主键值
  5. c+ +三角函数_C ++中的三角函数
  6. Go语言重新开始,Go Modules 的前世今生与基本使用
  7. 20行 Python 代码爬取王者荣耀全英雄皮肤 | 原力计划
  8. Access denied for user ‘ODBC‘@‘localhost‘ (using password: NO) 的解决方法
  9. discuz!net 的使用
  10. python fsolve说明_python fsolve说明_Python fsolve()抱怨形状.为什么?
  11. 批处理命令启动和关闭tomcat
  12. 如何使用Visual Studio 2017建立一个C语言项目
  13. 2010-2011年美国大学综合排名
  14. 转: 系统问题排查思路
  15. git lfs官网翻译
  16. 【语义分割】2021-PVT ICCV
  17. 命名实体识别的难点与现状
  18. python系统命令切换目录_Windows 命令行切换目录
  19. GoLand2021使用包依赖管理工具 Go Modules
  20. 常见的5种网站页面布局方式及特点分析

热门文章

  1. 青蛙 mysql_青蛙学Linux—MySQL常用命令(二)
  2. java getcolormodel_Java ColorModel.getTransparency方法代碼示例
  3. linux 5 防火墙,CentOS 5 Linux iptables防火墙的配置
  4. Design Pattern - Builder(C#)
  5. opengl模板测试实例
  6. 关于istringstream用法的一个坑
  7. 定向输出命令_Linux系统管理-输入输出
  8. 扬州智能机器人项目股票代码_特种智能机器人项目落户前湾新区
  9. 厉害的组件_企业级React UI组件库——React Suite
  10. android蓝牙python,Android蓝牙连接问题