1. 文本指纹介绍

互联网网页存在大量的重复内容网页,无论对于搜索引擎的网页去重和过滤、新闻小说等内容网站的内容反盗版和追踪、还是社交媒体等文本去重和聚类,都需要对网页或者文本进行去重和过滤。

最简单的文本相似性计算方法可以利用空间向量模型,计算分词后的文本的特征向量的相似性,这种方法存在效率的严重弊端,无法针对海量的文本进行两两的相似性判断。模仿生物学指纹的特点,对每个文本构造一个指纹,来作为该文本的标识,从形式上来看指纹一般为固定长度较短的字符串,相同指纹的文本可以认为是相同文本。

最简单的指纹构造方式就是计算文本的md5或者sha哈希值,除非输入相同的文本,否则会发生“雪崩效应”,极小的文本差异通过md5或者sha计算出来的指纹就会不同(发生冲撞的概率极低),那么对于稍加改动的文本,计算出来的指纹也是不一样。

因此,一个好的指纹应该具备如下特点:

  1. 指纹是确定性的,相同的文本的指纹是相同的;
  2. 指纹越相似,文本相似性就越高;
  3. 指纹生成和匹配效率高。

业界关于文本指纹去重的算法众多,如k-shingle算法、google提出的simhash算法、Minhash算法、top k最长句子签名算法等等,本文接下来将简单介绍各个算法以及达观指纹系统的基本架构和思路。

2. 常用的指纹算法

2.1 k-shingle算法

shingle在英文中表示相互覆盖的瓦片。对于一段文本,分词向量为[w1, w2, w3, w4, … wn], 设k=3,那么该文本的shingle向量表示为[(w1,w2,w3), (w2,w3,w4), (w3,w4,w5), …… (wn-2,wn-1,wn)],计算两个文本的shingle向量的相似度(jarccard系数)来判断文本是否重复。由于k-shingle算法的shingle向量空间巨大(特别是k特别大时),相比vsm更加耗费资源,一般业界很少采用这类算法。

2.2 Simhash算法

Simhash是google用来处理海量文本去重的算法,同时也是一种基于LSH(locality sensitive hashing)的算法。简单来说,和md5和sha哈希算法所不同,局部敏感哈希可以将相似的字符串hash得到相似的hash值,使得相似项会比不相似项更可能的hash到一个桶中,hash到同一个桶中的文档间成为候选对。这样就可以以接近线性的时间去解决相似性判断和去重问题。

simhash算法通过计算每个特征(关键词)的哈希值,并最终合并成一个特征值即指纹。

simhash算法流程

  1. 首先基于传统的IR方法,将文章转换为一组加权的特征值构成的向量。
  2. 初始化一个f维的向量V,其中每一个元素初始值为0。
  3. 对于文章的特征向量集中的每一个特征,做如下计算:

    a) 利用传统的hash算法映射到一个f-bit(一般设成32位或者64位)的签名。对于这个f- bit的签名,如果签名的第i位上为1,则对向量V中第i维加上这个特征的权值,否则对向量的第i维减去该特征的权值;

    b) 整个特征向量集合迭代上述运算后,根据V中每一维向量的符号来确定生成的f-bit指纹的值,如果V的第i维为正数,则生成f-bit指纹的第i维为1,否则为0。

图1 simhash算法示意图

Simhash指纹匹配过程经过simhash指纹生成算法生成的指纹是一个f位的二进制字符串,如一个32位的指纹,‘101001111100011010100011011011’。对于两个文本的f位0-1字符串,simhash算法采用hamming distance来计算两个指纹之间的相似度,但是对于海量文本,如何从千万级别(甚至更多)的指纹集合中,找出最多只有k位不同的指纹呢?

一个简单的思想就是以空间换时间,对于一个32位的指纹来说,将该指纹划分成4段,即4个区间,每个区间8位,如果两个指纹至多存在3(设k=3)位差异,那么至少有一段的8位是完全相同的,因此可以考虑利用分段来建立索引,来减少需要匹配的候选指纹数量。

Simhash指纹匹配算法

  1. 首先对于指纹集合Q构建多个表T1,T2…Tt,每一个表都是采用对应的置换函数π(i)将32-bit的fingerprint中的某p(i)位序列置换换到整个序列的最前面。即每个表存储都是整个Q的fingerprint的复制置换;
  2. 对于给定的F,在每个Ti中进行匹配,寻找所有前pi位与F经过π(i)置换后的前pi位相同的fingerprint。
  3. 对于所有在上一步中匹配到的置换后的fingerprint,计算其是否与π(i)(F)至多有k-bit不同。

Simhash算法比较高效,比较适用于对于长文本。

2.3Minhash算法

Minhash也是一种LSH算法,同时也是一种降维的方法。Minhash算法的基本思想是使用一个随机的hash函数h(x)对集合A和B中的每个元素进行hash,hmin(A)、hmin(B)分别表示hash后集合A和集合B的最小值,那么P(hmin(A) == hmin(B)) = Jaccard(A, B)。这是minhash算法的核心,其中hmin(A)为哈希函数h(x)对集合A的最小哈希值。

图2: 最小签名矩阵生成示意图

Minhash算法采用最小哈希函数族(一组随机的最小哈希函数)来构建文档的最小哈希签名。文档的最小哈希签名矩阵是对原始特征矩阵降维的结果。应用过程中,可以使用k个最小函数分别计算出集合的哈希最小值。设hi表示第i个最小hash函数,最小签名矩阵中列向量为样本si的最小签名向量,其中wij表示第j个最小hash函数对样本i的最小哈希值。

当k小于原始集合的长度(k << n)时,就相当于对数据降维,类比PCA等降维方法,minhash避免了复杂的矩阵运算。由于最小签名矩阵中,样本i,j的某一行或某几行的子向量的相似度于样本i,j的jarcarrd距离相等,因此可以对最小签名矩阵运行行条化策略,经矩阵平均分为b个行条,每个行条由r条组成,当两个样本在任意一个行条中的向量相等,即是一个相似性候选对,并检查文档是否真正相似或者相等。

关于minhash的原理和推导,以及在大量文本及高维特征下如何快速进行最小签名矩阵的构建操作可以参考 https://en.wikipedia.org/wiki/MinHash 及《大数据 互联网大规模数据挖掘与分布式处理》,数学的奥妙就在于此。

经过minhash降维后的文本向量,从概率上保证了两个向量的相似度和降维前是一样的,结合LSH技术构建候选对可以大大减少空间规模,加快查找速度。

3.内容型网页文本指纹算法

本节将给出我们在对内容型网页(小说、新闻等)去重任务中总结出来的算法和实践经验,特别在当前内容版权日益受到重视和保护的背景下,对于内容版权方来说,如何从网络上发现和追踪侵权和盗版行为日益重要。

从前文可以看出,指纹识别算法是实现指纹识别的关键,它直接决定了识别率的高低,是指纹识别技术的核心。特别是类似新闻类、小说类网页在转载或者盗版过程中,文字的个数、顺序上一般都保持一致,当然不排除个别字错误或者少一个字的情况。

指纹生成的过程主要包括将文本全部转换成拼音、截取每个字拼音的首字母、统计该粒度内字母的频率分布、通过和参考系比较,将结果进行归一化、按字母序,将数字表征转换成数字。

图3 指纹生成算法

算法描述:

  1. 转拼音:可以解决字符集编码不一致的问题,可以利用成熟的英文指纹算法,减小分布空间,同时可以解决同音字替代问题;
  2. 截取拼音首字:减小存储长度和分布空间(26个字母);
  3. 提取首字母频率:选择多少字来计算指纹,统计频率分布。需要设置颗粒度的大小(分段大小)以及重叠率。

    大粒度容错性高,但是匹配率低;小粒度容错性低,但是误报率高且敏感度高。

    重叠率是设置指纹计算片段移动的窗口大小:

    假设拼音内容长为2n,颗粒长度为n,重叠率为50%,则需要计算的指纹片段分别为[1-n],[n/2,3*n/2],[n,2n]

  4. 减去参考系:频率减去参考系
  5. 归一化:将每个字母的数字特征归一化到一个闭区间内,如[0,9],按照字母顺序连接数字特征,变成一个数字,即指纹。
    • 若空间为[0,9],即一个20位的整数,2^64,需要 8 byte
    • 若空间为[0,7],可用一个20位的8进制数,8^20,需要 8 byte
    • 若空间为[0,3],只需要 4^20, 共40 bit, 5 byte
    • 若空间为[0,1],需要2^20,20 bit,3 byte

归一化过程的算法步骤如下,假设颗粒长度为m:

输入:片段频率集合S:[s1,s2,s3,…sn]参数:指纹集合dnas:[]
计算基数radix:=pow(2, log(m)/log(2) )
FOR 片段频率s IN S修正频率,每个频率值:=max(频率,基数)指纹dna:=空串
FOR tmp IN s[m-5:m]将tmp转换成整数,基数为radix将tmp转换成字符串,基数为radixdna:=dna连接tmpdnas:=dnas添加dna
END
输出:指纹集合dnas

4. 达观指纹系统结构

4.1 基本架构

达观指纹追踪系统主要由爬虫系统、指纹生成系统、指纹存储、指纹查询和比对、数据分析、后台管理系统等几个主要模块构成,如图4所示。其中存储层包括匹配结果信息库、网页库以及指纹库。

图4 指纹追踪系统模块图

A. 爬虫系统

爬虫系统从目的上看主要在于抓取互联网上的特定领域的网页(如新闻类网页),爬虫系统是原始数据的唯一来源,只有通过爬虫系统才能从浩瀚的互联网中抓取相似的网页内容。爬虫系统需要拥有较高的抓取能力和反爬取能力,为整个系统提供大量的待检测页面。

B. 指纹存储模块

指纹存储模块计算母体(海量文本)的指纹,指纹可以理解为一行文本的向量表示,本系统的指纹存储系统采用mongo DB进行存储。

C. 指纹生成模块

指纹生成模块的输入是一行文本,其输出为该文本的指纹表示,为了达到较高的对比准确率,一个好的指纹生成系统至关重要。

D. 指纹查询和比对模块

指纹库中存储着大量的母体指纹,对于某一文本,指纹查询和比对模块要快速的判断该文本是否在母体库中存在重复。

E. 数据分析

数据分析系统需要对大量的文本及其对比结果进行统计数据分析。

F. 后台管理平台

提供数据分析的展示,并提供用户使用查询和输出分析报告等。

数据存储模块

A. 网页库

主要存放爬虫系统抓取的网页信息、站点信息,本系统网页库采用mongo DB。

B. 指纹库

主要存放母体指纹,本系统采用mongo DB存放指纹。为了加快指纹的查询和比对,本系统采用redis来对指纹建立索引,加快匹配速度。

C. 匹配信息库

存储指纹匹配结果, 包括待匹配的两个指纹, 原始网页id, 匹配相似度等。

4.2 系统架构

图5 系统架构图

4.3 系统处理流程

本系统的处理流程如图6所示,系统支持每天自动化从母体库中调度新的任务进行去重操作。

图6 系统流程图

5 总结

对于网页去重、内容盗版追踪、内容聚类等应用来说,指纹模块都是极其重要的模块。本文介绍了一些比较常用的指纹算法,包括k-shingle、simhash、minhash;同时介绍了达观数据自主开发的指纹追踪系统及其关键算法,没有最好的算法,只有合适的算法,在实际的使用过程中,需要根据具体业务场景,确定架构和算法。

转自:http://www.tuicool.com/wx/veumYvq?from=timeline&isappinstalled=1

[039]文本去重、过滤——文本指纹相关推荐

  1. minhash算法检索相似文本_文本去重算法:Minhash/Simhash/Klongsent

    日前接到一个对名言警句这种短文本进行去重的小任务,下图是几个重复文本的示例: 很直观的结论就是重复度越高的文本,具有更多重复的词汇.一个最直接的去重思路可以描述为:将文本进行分词处理,统计各文本词汇的 ...

  2. 路由器距离向量算法计算举例_文本去重算法:Minhash/Simhash/Klongsent

    日前接到一个对名言警句这种短文本进行去重的小任务,下图是几个重复文本的示例: 很直观的结论就是重复度越高的文本,具有更多重复的词汇.一个最直接的去重思路可以描述为:将文本进行分词处理,统计各文本词汇的 ...

  3. hashset去重原理_基于simhash的文本去重原理

    互联网网页存在着大量重复内容,必须有一套高效的去重算法,否则爬虫将做非常多的无用功,工作时效性无法得到保证,更重要的是用户体验也不好.业界关于文本指纹去重的算法众多,如 k-shingle 算法.go ...

  4. ueditor富文本编辑器过滤了代码,如何取消?

    后台UEditor富文本编辑器,编辑的代码被强制过滤,并被强制修改成<p>标签?导致前台页面效果不对? ueditor富文本编辑器,虽然好用,但是很多时候,如果没有足够的使用经验,一般是很 ...

  5. 在线文本去重统计工具

    在线文本去重统计工具 在线文本去重统计工具 本工具支持对以回车换行分隔的字符串进行数据项重复检查和去重操作,可以分析重复出现2次及以上的数据项,并且整理一份没有重复数据项的数据列表,数据纯客户端实时计 ...

  6. 使用 powershell 的 grep 过滤文本

      使用 powershell 的 grep 过滤文本 有个log文件,大小在4M左右,要求找出里面耗时超过100s 的记录.首先想到了强大的 grep ,那么就搞起. 先在网上找一下资料,这篇文章, ...

  7. 一款可以对文本去重对比去重单去重查重的好用软件介绍文本综合处理软件教程

    文本综合处理软件是一款专门用于重复类型处理文本的软件 (1)可以对比去重,比如文本A和文本B,B中含有A的就去除 (2)可以对单个文本去重 (3)可以查找文本A和文本B相同的文本 (4)可以对文本A和 ...

  8. java 大数据文本去重_python实现文本去重且不打乱原本顺序

    摘要:这篇Python开发技术栏目下的"python实现文本去重且不打乱原本顺序",介绍的技术点是"Python实现.Python.文本去重.去重.顺序.文本" ...

  9. Python之文本去重(最终版)

    import re readdir="C:\\Users\\user\\Desktop\\sql.txt" #readdir为已写好的sql文件位置,后缀必须为txt writed ...

最新文章

  1. 使用JMeter压力测试
  2. gedit用圖形界面修改背景顏色
  3. java double方法_Java Double类compare()方法与示例
  4. 如何在不跳转的情况下实现用户登录
  5. 不同公式等号对齐_数学公式编辑器“制作amp;套用公式模板”和“文本对齐问题”的完美解决方案...
  6. 梯度投影算法 matlab,梯度投影法及其Matlab实现
  7. 第四章Python数值计算工具 ——Numpy
  8. 网络环境未能通过安全验证,请稍后再试
  9. c语言大赛评分用数组,C语言大赛现场评分系统
  10. 画二元函数即三维图像的函数及matlab代码
  11. oracle的dmp文件导入mysql_Oracle 数据库导入导出 dmp文件
  12. 安庆集团-冲刺日志(第六天)
  13. 相机标定中的相机焦距
  14. 倍福Twincat 3.0软件的EAP通讯(补充)
  15. onenote for windows 10 部分内容不能同步解决方法
  16. 爬虫修正:裁判文书网20200901更新增加登录系统
  17. php处理psd 获取图层,怎么在PHP中利用Imagick对PSD文件进行操作
  18. JAVA开发规范随笔
  19. sql查询字段重复的数据 并且修改数据某个字段
  20. python中取反是什么意思_20191031:Python取反运算详解

热门文章

  1. CCF ONI WC2017 冬假令营 面基(姬)记
  2. 光纤通信工程-光隔离器和光衰减器介绍(五)
  3. 春运车票还没抢 钱就被骗走了 这些诈骗手段你得留个心
  4. Java读取txt文件和写入txt文件
  5. 基于微信小程序的校园二手交易平台小程序
  6. 脱机运行用到Halcon18的vs2017exe应用程序
  7. 基于组合特征和SVM的视频序列的人体行为识别算法
  8. Navicat Premium 15 完全卸载的方法(Windows10)
  9. 电力线通信PLC的Power Noise测试
  10. Adversarial Detection methods