日前接到一个对名言警句这种短文本进行去重的小任务,下图是几个重复文本的示例:

很直观的结论就是重复度越高的文本,具有更多重复的词汇。一个最直接的去重思路可以描述为:将文本进行分词处理,统计各文本词汇的重合度。KShingle算法就是基于这样朴素的思想。

一、KShingle算法

对于一篇文档而言,K-shingle定义为文档中连续的K个词汇组成的词组,即:

对于一个包含

个词汇的文档

指定词组长度

(一)算法步骤

K-shingle算法通过将文档表示为K-shingle的集合,比较各文档K-shingle集合之间的相似性,来衡量文档的相似度。算法主要步骤如下:

1. 预处理:读取文档数据集,根据需求,对文档中的标点、空白、中英文、简繁体等字符进行清洗和整理。

2. 提取K-shingle:对清洗后的文档进行分词处理,指定shingle长度

,对每篇文档提取对应的K-shingle集合。

3. 统计特征向量:所有文档的K-shingle互异值构成一个大小为

的词组库。用one-hot的方式对每篇文档进行编码,得到一个长度为
的特征向量,当词组库中的第
个K-shingle在文档中出现时,该文档特征向量的第
个元素为1,否则为0。

4. 计算Jaccard相似度:对于集合

和集合
,Jaccard相似度定义为交集元素占并集元素的比例大小,即
,显然比例越大,集合越相似。对两篇文档的特征向量而言,分子指同位元素都为1的元素个数,分母指同位元素至少一个为1的元素个数。

5. 文本去重:基于文档相似度的结果,根据预定规则,舍弃重复文本。

(二)算法分析

关于K-shingle算法的几点分析如下:

1.超参数

算法需要指定的唯一超参数是shingle中包含的连续词汇的个数

。该参数主要有两方面的影响:

(1) Shingle对文档语义特征的捕捉能力。

越小,K-shingle对文档语义的捕捉能力越差。以英文为例,如果
,那么任何一篇文章的K-shingle都是由一个个英文单词构成的集合,因此即便内容完全不相关的文档,它们的Jaccard相似度也可能很高。随着
增大,不同词汇的组合能反应出越来越多的语义层面的特征。文本长度越长,
的取值越大。根据经验,短文本相似度通常取
,长文本相似度通常取

(2) Shingle对存储空间和计算效率的影响。

假设任一词汇

的存储空间为
,则文档
的存储空间为
,K-shingle的存储空间为
,当
时,文档D对应K-shingle的存储空间扩大至
倍。

此外,随着

增大,文档特征向量的维数也急剧增加。当
时,特征向量的维数即为文档集中互异词汇的个数;当
为文档集中最大的文本长度,即
时,由于重复的文本为少数,此时特征向量的维数接近于文档集中的文档个数。在海量文本,如互联网网页数据中,文档个数远远大于词汇个数。

进一步地,由于特征向量维数的增加,大大降低了特征向量之间距离的计算效率。

2.特征向量处理

文档特征向量是取值为范围为

的向量。如果用int存储,每一个元素占4个字节共32个bit;如果用二进制存储,每个元素只占1个bit。特征向量的交集和并集,对二进制向量来说,可以通过效率更高的位运算实现。因此用二进制来表示文档的特征向量,从时间和空间上都有更好的性能。

但不论以int还是bit来存储,得到的特征向量都是稀疏且高维的。如果能对特征向量进行降维,再计算相似度,可以提高计算效率,代表算法有minhash

3.相似度计算

假设文档集包含

个文档,两两比较需要计算
次,对海量文档集计算两两之间的Jaccard相似度是不现实的。如果能缩小两两比较的计算范围,也能提高计算效率,代表算法有

simhash

注:minhash和simhash都属于局部敏感哈希(Local Sensitive Hash)。一般的哈希算法对于相似文本的哈希结果可能差别非常大,局部敏感哈希在普通哈希的基础上保留了一定程度的相似性,即相似文本的哈希结果距离较小。

二、Minhash算法

对海量文本而言,K-shingle算法得到的特征向量是超高维的,导致该算法非常巨大的时间复杂度和空间复杂度。Minhash算法设计了一种最小哈希函数,将原始超高维的稀疏向量转化为低维的稠密向量,降低了计算的空间复杂度。同时,对转换后的稠密向量进行分段索引,缩小潜在相似文本范围,降低了计算的时间复杂度。

最小哈希函数:对一个列向量按行进行随机排列,重排后第一个非零元素的行号就是最小哈希函数值。直观上来说,如果两个文本完全重复,那么不论如何重排,两个文本对应的最小哈希函数值都应该是一样的。

(一)算法步骤

1. 提取K-shingle特征向量:执行K-shingle算法的1~3步,将每篇文档表示为01向量。

2. 计算Minhash特征向量:生成一个随机排列,对文档矩阵进行重排:如果每一列表示一个文档,那么对行进行重排;如果每一行表示一个文档,那么对列进行重排。假设每一列表示一个文档,对行进行重排后,取每一列第一个取值为1的元素对应的行号,作为该列对应文档在此次随机排列后的最小哈希值。重复上述过程

次后,即可为每个文档生成一个
维的Minhash特征向量。

3. 建立分段索引,提取潜在相似文本对:将

维特征向量进行分段后,建立倒排索引。不难理解,

当分段数足够大时,两个相似文本有极大概率在某一段取值一样,极端情况下,每一个元素作为一段,两个重复的文本,必然每一段取值都一样。因此,可以将同一索引值下的文本两两组合,作为潜在相似文本对。

4. 计算潜在相似文本对的相似性:两个Minhash向量对应位置元素相等的比例,即为这两个文本的相似度

。当相似度大于指定阈值时,可认为两个文本为重复文本。

(二)算法分析

1. 两个集合最小哈希值相等的概率等于两个集合的Jaccard相似度,即:

关于这个结论,非严格的论证如下:

,即集合
中同时存在的元素
,即只存在于集合
中或只存在于集合
中的元素
,即集合
中都不存在的元素

由于

对集合
的相似性没有影响,因此可以忽略。由于排列是完全随机的,因此任一行为
类元素的概率为
,即集合
的Jaccard相似度。

2. 当分段数足够大时,两个相似文本有极大概率在某一段取值一样。

假设将

维的Minhash特征向量分成
段,每一段长度为
,即
,记
,则集合
的Minhash值 和
的Minhash值至少有一段相同的概率为:
。当
固定时,
单调递增。

,代入公式计算的概率为
,这表明两个Jaccard相似度为0.4的集合,各自300维的Minhash特征向量分100段后,在至少一段内冲撞的概率达到了99.9%。

3. 最小哈希方案

方案一是每次重排后,取第一个非零元素下标,重复

次,得到
维向量

方案二是一次重排后,随机取

个非零元素下标,得到
维向量

方案二比方案一的计算效率更高。

三、Simhash算法

KShingle算法和Minhash算法都需要生成一个庞大的Shingle词组库,当文本数量和文本长度很大时,计算这个词组库需要耗费巨大的时间和空间资源,且各文档的特征向量计算都依赖这个共同的词组库,因此计算特征向量的过程很难完全地并行化。Simhash算法仅基于文档中包含的词汇生成文档的特征向量,极大提高了计算效率。

(一)算法步骤

1. 预处理:读取文档数据集,根据需求,对文档中的标点、空白、中英文、简繁体等字符进行清洗和整理。

2. 分词后计算词汇哈希:对文档进行分词处理,统计各词汇的词频,以字典形式表示即为

。通过

哈希函数,将词汇从字符串形式转换为长度为

的01形式的向量,以字典形式表示即为

3. 计算Simhash特征向量:将词汇哈希中的

映射为
,然后与词频按位相乘,得到的词汇特征向量集可以表示为
。设文档共有
个词汇,将这
个词汇的
维特征向量按行拼接,,则得到一个
的矩阵。对这个矩阵按列进行求和,得到一个
维行向量,再对这个行向量按位进行
变换,即正数映射为1,负数映射为0,最后的结果就是这个文档的simhash特征向量。

4. 建立分段索引,提取潜在相似文本对:Simhash采用Hamming距离衡量文本相似度,Hamming距离小于等于

的文本对,认为是重复文本。

根据抽屉原理,若将Simhash分为

段,则重复文本必有一段取值相同

。与Minhash类似,可以将同一索引值下的文本两两组合,作为潜在相似文本对。

5. 计算潜在相似文本对的Hamming距离:两个Simhash向量按位异或之后取值为1的个数即为两个文本的距离

。当距离小于等于指定阈值时,可认为两个文本为重复文本。

(二)算法分析

1. 哈希函数

这里的哈希函数是指将词汇哈希为01向量的函数。个人认为这个哈希函数应该具有两个特征:

一是哈希结果中的0和1尽量均匀地分布,否则在分段索引时,很容易造成某一段文本数量爆炸的情况。例如将词汇哈希为64维01向量时,采用高(低)位补零的策略,就会导致分段后高(低)位全为0的这个索引下有几乎全量的文本,无法达到缩小潜在相似文本范围的目的。

二是哈希结果最好能使相似词汇具有相近的哈希值,如果能做到那也是一个局部敏感哈希。

2. Simhash准确率低于Minhash

一是Simhash对文本进行分词处理并统计词频,可以认为是一个词袋模型,并没有考虑词汇的先后顺序。Minhash采用滑动窗口提取词组,加入了词汇次序信息。

二是Simhash对词汇特征向量按列求和再做符号映射,丢失了文本特征信息。

四、KSentence算法

KSentence算法基于一个朴素的假设:两个重复文本中,最长的K个句子应该是完全一样的。

(一)算法步骤

1.预处理:读取文档数据集,根据需求,对文档中的中英文、简繁体等字符进行清洗和整理。

2.提取语句:根据标点、换行符等划分语句,统计语句长度

3.计算指纹:拼接最长的

个语句,计算MD5值作为文本指纹

4.文本去重:根据文本指纹,过滤重复文本

(二)算法分析

关于KSentence算法的几点注解如下:

1.KSentence算法的假设很严格,实验结果显示,KSentence算法准确率较高,召回率低于Minhash和Simhash。

2.算法实现简单,计算效率高,很容易并行化。算法对于具有固定格式的模板类文档具有很好的辨识能力,但对于抄袭后进行部分修改的文本识别度较低。

五、总结

1. 算法步骤

四类算法步骤对比

2. 算法评估

实验对比Minhash、Simhash、KSentence的性能,结果如下:

运行速度:KSentence > Simhash > Minhash

准确率:KSentence > Minhash > Simhash

召回率:Simhash > Minhash > KSentence

工程应用上,海量文本用Simhash,短文本用Minhash,追求速度用KSentence。

minhash算法检索相似文本_文本去重算法:Minhash/Simhash/Klongsent相关推荐

  1. minhash算法检索相似文本_文本相似度算法之-minhash

    在做文本去重任务时其实有很多中方法可供选择,譬如,对文章分词,两两对比词集合的jaccard系数,但是当遇到大规模文本去重时,这种方法的效率就太低了,接下来介绍一种大规模文本去重算法minhash. ...

  2. 算法工程师面试问答_文本分类

    [关于 文本分类]那些你不知道的事 一. 抽象命题 1.1 分类任务有哪些类别?它们都有什么特征? 分类任务是机器学习中最常见的监督学习任务之一.以文本分类为例,情感分类,新闻分类,主题分类.问答匹配 ...

  3. 网页去重||SimHash(高效的文本相似度去重算法)——适合大批量文档的相似度计算

    网页去重 之前我们对下载的url地址进行了去重操作,避免同样的url下载多次.其实不光url需要去重,我们对下载的内容也需要去重. 在网上我们可以找到许多内容相似的文章.但是实际我们只需要其中一个即可 ...

  4. 基于dijsktra算法的最短路径求解_基于dijkstra算法的AGV路径规划(含C++代码)

    文字&代码来源: @Wasabi喵喵喵 基于dijkstra算法的AGV路径规划 dijkstra算法的路径规划 经典Dijkstra算法是一种贪心算法,根据路径长度递增次序找到最短路径,通常 ...

  5. 国密算法java源码_国密算法SM2证书制作

    前段时间将系统的RSA算法全部升级为SM2国密算法,密码机和UKey硬件设备大都同时支持RSA和SM2算法,只是应用系统的加解密签名验证需要修改,这个更改底层调用的加密动态库来,原来RSA用的对称加密 ...

  6. 国密算法sm3java软实现_国密算法实现

    国密算法实现 一.国产密码算法介绍 国产密码算法(国密算法)是指国家密码局认定的国产商用密码算法,在金融领域目前主要使用公开的SM2.SM3.SM4三类算法,分别是非对称算法.哈希算法和对称算法. 1 ...

  7. python推荐系统算法朴素贝叶斯_机器学习经典算法之朴素贝叶斯分类

    很多人都听说过贝叶斯原理,在哪听说过?基本上是在学概率统计的时候知道的.有些人可能会说,我记不住这些概率论的公式,没关系,我尽量用通俗易懂的语言进行讲解. 贝叶斯原理是英国数学家托马斯·贝叶斯提出的. ...

  8. 蓄水池采样算法的python实现_蓄水池抽样算法(Reservoir Sampling)

    蓄水池抽样算法(Reservoir Sampling) 许多年以后,当听说蓄水池抽样算法时,邱simple将会想起,那个小学数学老师带他做"小明对水池边加水边放水,求何时能加满水" ...

  9. zuc算法代码详解_最短路算法-dijkstra代码与案例详解

    引言 在研究路径选择和流量分配等交通问题时,常常会用到最短路算法.用最短路算法解决交通问题存在两个难点: 一.算法的选择和程序的编写.最短路算法有很多种改进算法和启发式算法,这些算法的效率不同,适用的 ...

最新文章

  1. bzoj1055 [HAOI2008]玩具取名 区间DP
  2. 由 go orm 引发的探索
  3. 众人帮蚂蚁帮任务平台修复版源码
  4. 经验分享:正则表达式生成器java
  5. 学习《Python核心编程》做一下知识点提要,方便复习(二)
  6. 【luogu3368】模板 树状数组 2
  7. 2021-2027全球与中国铂金芯片温度传感器市场现状及未来发展趋势
  8. html设置ie兼容性视图,如何用脚本配置IE兼容性视图设置
  9. 地铁WIFI值28亿?运营商终于不用背锅了
  10. 推荐系统:CTR模型学习总结--LR、FM、FFM、Wide and Deep、DeepFM
  11. Spark Core (TopN、mysql写入、读取文件通过RDD结合数据库中的表)练习3套
  12. 三行代码爬取京东数据
  13. 训练数据出现TypeError: 'numpy.float64' object cannot be interpreted as an integer错误
  14. 设置高德地图在Fragment中显示
  15. 广州大学学生实验报告,数据结构实验,二叉树的操作与实现
  16. vue实现组件隔代通信(在孙组件调用爷组件的方法)
  17. 相关性系数替代模型预测得分
  18. shader 雪 顶点位移_游戏雪天效果·积雪的厚度
  19. 开放接口API安全性
  20. 第一章 学习Java的建议

热门文章

  1. R语言ggplot2可视化为组合图添加综合图例实战:使用ggpubr包ggarrange函数实现综合图例、使用patchwork包实现综合图例
  2. sklearn使用pipeline、ParameterGrid以及GridSearchCV进行超参数调优
  3. 保证计算机网络的稳定运行,厦门大学校园网管理保证网络稳定运行
  4. TensorFlow基础11-(小批量梯度下降法和梯度下降法的优化)
  5. angular6 mysql_angular6之路由
  6. electron窗口自适应_Go 限流器系列(3)自适应限流
  7. 多表查询事务DCL权限管理
  8. 【node】Sequelize常用操作、基本增删改查
  9. 目标定位--Deep Self-Taught Learning for Weakly Supervised Object Localization
  10. keras和tensorflow使用 fit_generator 批次训练