目录

Jaccard相似度

Levenshtein距离


Jaccard相似度

1、jaccard index又称为jaccard similarity coefficient用于比较有限样本集之间的相似性和差异性

定义:

给定两个集合A,B jaccard 系数定义为A与B交集的大小与并集大小的比值,jaccard值越大说明相似度越高

Levenshtein距离

拿idf还得自己去算权重,而且不一定准确度高,一般做idf还得做词性归一化,把动词形容词什么全部转成名词,很麻烦。

Levenshtein.distance(str1,str2)

计算编辑距离(也称Levenshtein距离)。是描述由一个字串转化成另一个字串最少的操作次数,在其中的操作包括插入、删除、替换。如

例如将eeba转变成abac:

① eba(删除第一个e)

② aba(将剩下的e替换成a)

③ abac(在末尾插入c)

所以eeba和abac的编辑距离就是3

计算莱文斯坦比。计算公式  r = (sum - ldist) / sum, 其中sum是指str1 和 str2 字串的长度总和,ldist是类编辑距离

注意:这里的类编辑距离不是2中所说的编辑距离,2中三种操作中每个操作+1,而在此处,删除、插入依然+1,但是替换+2

这样设计的目的:ratio('a', 'c'),sum=2,按2中计算为(2-1)/2 = 0.5,’a','c'没有重合,显然不合算,但是替换操作+2,就可以解决这个问题。

Jaccard和Levenshtein相关推荐

  1. jaccard相似度_如何计算两个字符串之间的文本相似度?

    推荐阅读: 面试BAT 却被小小字符串秒杀?这13道题帮你一举击败字符串算法题 字节跳动秋招面经:后端开发工程师,已拿意向书 前言 平时的编码中,我们经常需要判断两个文本的相似性,不管是用来做文本纠错 ...

  2. 机器学习中的数学——距离定义(十三):杰卡德距离(Jaccard Distance)和杰卡德相似系数(Jaccard Similarity Coefficient)

    分类目录:<机器学习中的数学>总目录 相关文章: · 距离定义:基础知识 · 距离定义(一):欧几里得距离(Euclidean Distance) · 距离定义(二):曼哈顿距离(Manh ...

  3. 文本相识度算法(余弦相似性、简单共有词、编辑距离、SimHash、汉明距离、Jaccard相似性系数、欧几里得距离、曼哈顿距离 )

    文本相似度计算在信息检索.数据挖掘.机器翻译.文档复制检测等领域有着广泛的应用. 比如舆论控制,我们假设你开发了一个微博网站,并且已经把世界上骂人的句子都已经收录进了数据库,那么当一个用户发微博时会先 ...

  4. Levenshtein distance:算法整理 与 编辑操作推断 【回朔 + Python】

    本文讨论通过Levenshtein distance和单源最短路径搜索算法来推断两个字符串(句子)之间最佳的编辑操作序列.使用到的知识有:动态规划 和 单源最短路径搜索算法. Levenshtein ...

  5. Levenshtein distance 编辑距离算法

    这几天再看 virtrual-dom,关于两个列表的对比,讲到了 Levenshtein distance 距离,周末抽空做一下总结. Levenshtein Distance 介绍 在信息理论和计算 ...

  6. SAP Cloud for Customer客户主数据的重复检查-Levenshtein算法

    SAP C4C的客户主数据创建时的重复检查,基于底层HANA数据库的模糊查找功能,根据扫描数据库中已有的数据检测出当前正在创建的客户主数据是否和数据库中记录有重复. 在系统里开启重复检查的配置: 在此 ...

  7. Levenshtein 相似度算法——Levenshtein(编辑距离)

    https://www.iteye.com/blog/wdhdmx-1343856 原文讲的挺有道理的: 奇妙的地方就是将字符串的对比,转换为了数值之间的计算: 相似度算法--Levenshtein( ...

  8. R语言计算杰卡德相似系数(Jaccard Similarity)实战:自定义函数计算Jaccard相似度、对字符串向量计算Jaccard相似度、将Jaccard相似度转化为Jaccard距离

    R语言计算杰卡德相似系数(Jaccard Similarity)实战:自定义函数计算Jaccard相似度.对字符串向量计算Jaccard相似度.将Jaccard相似度转化为Jaccard距离 目录 R ...

  9. 聚类效果评估、内部指标(Jaccard系数、FM指数、Rand指数)、外部指标(DB指数、Dunn指数)、轮廓系数(Silhouette Coefficient)

    聚类效果评估.内部指标(Jaccard系数.FM指数.Rand指数).外部指标(DB指数.Dunn指数).轮廓系数(Silhouette Coefficient) 目录

最新文章

  1. 过分!高校实验动物被学生私自放走,实验兔刚缝完针,连线都没拆......
  2. Netflix海外市场交到好运 用户数量猛增
  3. [转]Android NDK几点回调方式
  4. Windows Containers 大冒险: 加速
  5. Soalris10下NDOUtils安装
  6. 程序无法启动ALL_BUILD 拒绝访问
  7. 【NOIP 2017】列队
  8. java中位数_java 计算中位数方法
  9. linux mysql 5.6.23_mysql 5.6.23 的安装
  10. android权威指南十三章,《Android编程权威指南》第30~32以及第34章读书笔记
  11. Yii2.0修改默认控制器
  12. CF429E Points and Segments
  13. 【高等数学】弧微分、渐近线、曲率和曲率半径
  14. win10设置计算机关机时间,教你windows10电脑怎么设置定时关机
  15. python四级是什么水平_四级能过的水平大概什么水平?
  16. Relative Orientation 与fundamental essential matrix
  17. linux脚本:每天晚上 12 点,打包站点目录/var/www/html 备份到/data 目录下
  18. 敏捷开发系列学习总结(8)——创业公司研发团队怎么建设
  19. Websphere远程代码执行-CVE-2015-7450
  20. Mac笔记本外接显示器竖屏设置

热门文章

  1. 如何使用GAF进行地图应用的定制开发
  2. KH7 根据身份证号码判断性别
  3. 股票历史数据-股票历史行情数据查询
  4. python pyz_Python pyzfp包_程序模块 - PyPI - Python中文网
  5. 讲座回顾丨5G的全新可能:基于Smart Edge Open和EdgeX构建5G MEC
  6. 数据北京研发中心CTO王东:如何打造有战斗力的团队
  7. Android studio隐藏app应用图标
  8. 智慧城市建设多面手 5G智慧灯杆成为关键桥梁
  9. 使用JavaScrip实现简单问卷星快速生成自定义数据
  10. php.ini 关闭输出缓冲,php 输出缓冲 Output Control用法实例详解