文章目录

1、背景
2、向量化
3、距离度量
- 3.1 欧式距离
4、相似度度量
- 4.1 余弦相似度
5、欧式距离和余弦相似度
6、大规模文本相似
7、SimHash
8、降维比较
9、SimHash 的利弊

孙玄：毕业于浙江大学，现任转转公司首席架构师，技术委员会主席，大中后台技术负责人（交易平台、基础服务、智能客服、基础架构、智能运维、数据库、安全、IT
等方向）；前58集团技术委员会主席，高级系统架构师；前百度资深研发工程师；

【架构之美】微信公众号作者 ；擅长系统架构设计，大数据，运维、机器学习等技术领域；代表公司多次在业界顶级技术大会 CIO
峰会、Artificial、Intelligence、Conference、A2M、QCon、ArchSummit、SACC、SDCC、CCTC、DTCC、Top100、Strata
+、Hadoop World、WOT、GITC、GIAC、TID等发表演讲，并为《程序员》杂志撰稿 2 篇。

1、背景

在数据分析和挖掘领域，我们经常需要知道个体间差异大小，从而计算个体相似性。如今互联网内容爆发时代，针对海量文本的相似识别拥有极大需求。本文将通过识别两段文本是否相似，来看看常见的相似算法，及线上落地方案。

2、向量化

一般情况下，我们会将数据进行向量化，将问题抽象为数学问题。比如两个样本X、Y，X=（x1, x2, x3, … xn），Y=（y1, y2, y3, … yn）表示N维向量空间的两个样本，分析差异主要有距离度量和相似度度量。

文本向量化有很多方法，切词、ngram 是最常用方法。一般的，分词加预处理能更好的表达语义，我们通过预处理，过滤掉无效字符及停用词。

对 “组装衣柜，刚买不久” 和 “组装鞋柜，全新” 向量化。

分词：
X=(组装、衣柜、刚、买不、久)
Y=(组装、鞋柜、全新)

定义一个向量空间（组装、衣柜、鞋柜、刚、买不、久、全新）

向量结果:

X=(1,1,0,1,1,1)
Y=(1,0,1,0,0,0,1)

3、距离度量

距离（Distance）用于衡量样本在空间上的距离，距离越大，差异越大。

3.1 欧式距离

欧氏距离是最容易直观理解的距离度量方法，我们认知中两个点在空间中的距离就是欧氏距离。扩展到高维空间中，欧式距离的计算公式，如图 1：

欧式距离因为计算是基于各维度特征的绝对数值，所以欧氏度量需要保证各维度指标在相同的刻度级别，当不同维度单位不同将使距离失去意义。

4、相似度度量

相似度度量（Similarity），即计算个体间的相似程度，与距离度量相反，相似度度量的值越小，说明个体间相似度越小，差异越大。

4.1 余弦相似度

余弦相似度用向量空间中两个向量夹角余弦值作为衡量两个个体间差异的大小。余弦相似度更加注重两个向量在方向上的差异，而非距离或长度。公式如图 2：

5、欧式距离和余弦相似度

通过三维坐标系可以很直观的看到两者的区别，如图 3 所示：

欧氏距离和余弦相似度各自的计算方式和衡量特征，分别适用于不同的数据分析模型：欧式距离适应于需要从维度大小中体现差异的场景，余弦相似度更多的是方向上的差异。如果我们分词后，将每个词赋予一定的权重，那么可以使用欧氏距离。更多情况下，我们采用余弦相似度来计算两文本之间相似度。

6、大规模文本相似

上面的相似算法，适用于小量样本，两两计算。那么在大规模样本下，给定新的样本怎么找到相似的样本呢？
下面我们将引入 SimHash 算法。

7、SimHash

SimHash 是 Google 在 2007 年发表的一种指纹生成算法或者叫指纹提取算法（如图 4），其主要思想是降维。

算法主要原理分为这几步：

对文档分词及对应的权重；
对特征进行hash，生成对应的hash值；
hash值加权：对特征hash值的每一位做循环处理：如果该位值为1，则用weight代替，否则，用-weight代替；
求和：将特征hash加权后的结果，按位求和，然后将结果按位二值化：大于0则为1，否则为0，即得到最后的SimHash值。

大家可能存在疑问：生成一串二进制需要这么麻烦吗？直接用hash函数生成0和1的不是更简单。比如：md5 和 hashcode 等。

我们做个测试：
“组装衣柜，刚买不久，上面可以放很多箱子，搬新家急需处理” “组装衣柜，刚买不久，上面可以放很多箱子，搬新家急需卖掉”

通过 simhash 计算结果为：
0010001000100001000010110111010001000111000011100110110110001111
0010001000100001000010110111011001000111000011110110111110001111

通过 hashcode 计算为：
1110100100010111000110011101100011101001000101110001100111011000
0011100111001100100001001011000100111001110011001000010010110001
可以看得出来，相似两个文本，simhash局部变化而普通的hashcode却天壤之别。文本转换为SimHash后，我们通过海明距离（Hamming distance）计算两个SimHash是否相似。

可以看得出来，相似两个文本，simhash 局部变化而普通的 hashcode 却天壤之别。文本转换为 SimHash 后，我们通过海明距离（Hamming distance）计算两个SimHash 是否相似。

如果向量空间中的元素 a 和 b 之间的汉明距离等于它们汉明重量的差 a-b。汉明重量分析在包括信息论、编码理论、密码学等领域都有应用。

8、降维比较

Google的论文给出的数据中，64位的签名，在汉明距离为3的情况下，可认为两篇文档是相似。

给定场景：给出一个 64 位的 SimHash 集合 F 和一个 SimHash f，找出 F 中是否存在与 f 只有 3 位差异的 SimHash。

为了查询相似，我们依然需要两两比较。但汉明距离算法给了我们降维的捷径。

可以证明，汉明距离小于3情况下，将hash code等分为4份，则必有一份完全相同。

基于上述特点，我们设计一个MySQL存储索引方案来实现，如图5所示。

将simhash等分4份，每份16位，为subCode
将sub_code存储到mysql
对于新SimHash，等分4份subCode，通过subCode查询集合
遍历结果，计算最终汉明距离

9、SimHash 的利弊

优点：

速度快，效率高。通过分割鸽笼的方式能将相似的数据快速定位在某个区域内，减少 99% 数据的相似对比。
通过大量测试，SimHash 用于比较大文本，效果很好，距离小于 3 的基本都是相似，误判率也比较低。

缺点:

对短文本召回效果不太好。
在测试短文本的时候看起来相似的一些文本海明距离达到了 10，导致较多的漏召回。

关注【架构之美】，与孙玄老师探讨更多深层次架构知识

孙玄：人工智能时代，你需要掌握的经典大规模文本相似识别架构和算法相关推荐

人工智能时代，你需要掌握的经典大规模文本相似识别架构和算法
1 背景在数据分析和挖掘领域,我们经常需要知道个体间差异大小,从而计算个体相似性.如今互联网内容爆发时代,针对海量文本的相似识别拥有极大需求.本文将通过识别两段文本是否相似,来看看常见的相似算法,及 ...
2021世界人工智能大会：站在人工智能时代的门槛
7月8日,时隔一年,2021世界人工智能大会(WAIC)如约而至. 三年,四届,从2018年的"赋能新时代".2019年的"无限可能"到2020年的" ...
李开复：人工智能时代的科学家创业
在GMIC 2017第一天的领袖峰会上,创新工场董事长兼CEO李开复针对"人工智能时代的科学家创业"谈到了自己的看法.李开复认为,在现如今的时代,科学创业是一个有史以来最好的时机, ...
人工智能时代，程序员要不要精通算法？
1.如何入门算法?需要学习哪些基础知识,请分享你的经验与建议. 入门算法其实很简单,拿生活中的很多现实问题来解决就可以了.比如商场打折问题(是打折划算还是满减划算),百钱买百鸡.猴子分桃.鸡兔同笼等有 ...
FPGA在人工智能时代的独特优势
来源 | 老石谈芯作者 | 老石,博士毕业于伦敦帝国理工大学电子工程系,现任某知名半导体公司高级FPGA研发工程师,深耕于FPGA的数据中心网络加速.网络功能虚拟化.高速有线网络通信等领域的研发和创 ...
人工智能时代，开发者是逆袭还是走向末日？
去年,由美国人工智能协会(American Association for Artificial Intelligence)组织的AAAI大会上,在2571篇投稿论文中,中国的投稿数量占到31%.虽然 ...
无数学不华为？人工智能时代的数学家还将走得更远
进驻欧亚大陆之北,俄罗斯联邦共和国--1996 年一无所获,1997 年一无所获,1998 年依然一无所获,1999 年勉强接到第一笔买单--38 美元. 尽管折戟多年,一家中国公司却于此地招募数十位 ...
清华思客 | 蓝志勇：人工智能时代公共治理创新迫在眉睫
来源:清华大学藤影荷声本文约5200字,建议阅读10+分钟人工智能技术来势凶猛,给我们留下的时间不多了. 一场关于人工智能的有趣对话在2019年世界人工智能大会上,有一个饶有意思的对话.阿里巴巴 ...
人工智能时代，中国或是唯一能够和美国竞争的国家！
https://www.toutiao.com/a6659267807043125764/ 不可否认,现在人工智能已经成为新一代信息技术的新动力了,并且甚至成为了很多国家的共识并写入发展战略里面了. ...
人工智能时代的“认知劳动”
https://www.toutiao.com/a6641311763126026765/ 2019-01-01 08:01:32 随着人工智能的发展,很多经济学家.技术专家和未来学家都对人类未来的工 ...

孙玄：人工智能时代，你需要掌握的经典大规模文本相似识别架构和算法