1 背景

在数据分析和挖掘领域,我们经常需要知道个体间差异大小,从而计算个体相似性。如今互联网内容爆发时代,针对海量文本的相似识别拥有极大需求。本文将通过识别两段文本是否相似,来看看常见的相似算法,及线上落地方案。

2 向量化

一般情况下,我们会将数据进行向量化,将问题抽象为数学问题。比如两个样本X、Y,X=(x1, x2, x3, … xn),Y=(y1, y2, y3, … yn)表示N维向量空间的两个样本,分析差异主要有距离度量和相似度度量。

文本向量化有很多方法,切词、ngram是最常用方法。一般的,分词加预处理能更好的表达语义,我们通过预处理,过滤掉无效字符及停用词。

对"组装衣柜,刚买不久" 和 "组装鞋柜,全新"向量化

分词:

X=(组装、衣柜、刚、买不、久)
Y=(组装、鞋柜、全新)

定义一个向量空间(组装、衣柜、鞋柜、刚、买不、久、全新)
向量结果:

X=(1,1,0,1,1,1)
Y=(1,0,1,0,0,0,1)

3 距离度量

距离(Distance)用于衡量样本在空间上的距离,距离越大,差异越大。

3.1 欧式距离

欧氏距离是最容易直观理解的距离度量方法,我们认知中两个点在空间中的距离就是欧氏距离。扩展到高维空间中,欧式距离的计算公式如图1:

图1 欧氏距离

欧式距离因为计算是基于各维度特征的绝对数值,所以欧氏度量需要保证各维度指标在相同的刻度级别,当不同维度单位不同将使距离失去意义。

4 相似度度量

相似度度量(Similarity),即计算个体间的相似程度,与距离度量相反,相似度度量的值越小,说明个体间相似度越小,差异越大。

4.1 余弦相似度

余弦相似度用向量空间中两个向量夹角余弦值作为衡量两个个体间差异的大小。余弦相似度更加注重两个向量在方向上的差异,而非距离或长度。公式如图2:

图2 余弦相似度

5 欧式距离和余弦相似度

通过三维坐标系可以很直观的看到两者的区别,如图3所示:

图3 欧式距离和余弦相似度区别

欧氏距离和余弦相似度各自的计算方式和衡量特征,分别适用于不同的数据分析模型:欧式距离适应于需要从维度大小中体现差异的场景,余弦相似度更多的是方向上的差异。如果我们分词后,将每个词赋予一定的权重,那么可以使用欧氏距离。更多情况下,我们采用余弦相似度来计算两文本之间相似度。

6 大规模文本相似

上面的相似算法,适用于小量样本,两两计算。那么在大规模样本下,给定新的样本怎么找到相似的样本呢?
下面我们将引入 SimHash 算法。

7 SimHash

SimHash是Google在2007年发表的一种指纹生成算法或者叫指纹提取算法(如图4),其主要思想是降维。

图4 SimHash算法

算法主要原理分为这几步:

  • 对文档分词及对应的权重;

  • 对特征进行hash,生成对应的hash值;

  • hash值加权:对特征hash值的每一位做循环处理:如果该位值为1,则用weight代替,否则,用-weight代替;

  • 求和:将特征hash加权后的结果,按位求和,然后将结果按位二值化:大于0则为1,否则为0,即得到最后的SimHash值。

大家可能存在疑问:生成一串二进制需要这么麻烦吗?直接用hash函数生成0和1的不是更简单。比如:md5和hashcode等。

我们做个测试:
“组装衣柜,刚买不久,上面可以放很多箱子,搬新家急需处理”
“组装衣柜,刚买不久,上面可以放很多箱子,搬新家急需卖掉”
通过simhash计算结果为:
0010001000100001000010110111010001000111000011100110110110001111
0010001000100001000010110111011001000111000011110110111110001111
通过 hashcode计算为:
1110100100010111000110011101100011101001000101110001100111011000
0011100111001100100001001011000100111001110011001000010010110001

可以看得出来,相似两个文本,simhash局部变化而普通的hashcode却天壤之别。文本转换为SimHash后,我们通过海明距离(Hamming distance)计算两个SimHash是否相似。

如果向量空间中的元素a和b之间的汉明距离等于它们汉明重量的差a-b。
汉明重量分析在包括信息论、编码理论、密码学等领域都有应用。

8 降维比较

Google的论文给出的数据中,64位的签名,在汉明距离为3的情况下, 可认为两篇文档是相似。

给定场景:给出一个64位的SimHash集合F和一个SimHash f,找出F中是否存在与f只有3位差异的SimHash

为了查询相似,我们依然需要两两比较。但汉明距离算法给了我们降维的捷径。

可以证明,汉明距离小于3情况下,将hash code等分为4份,则必有一份完全相同。

基于上述特点,我们设计一个MySQL存储索引方案来实现,如图5所示。

图5 MySQL存储索引方案

  • 将simhash等分4份,每份16位,为subCode

  • 将sub_code存储到mysql

  • 对于新SimHash,等分4份subCode,通过subCode查询集合

  • 遍历结果,计算最终汉明距离

9 SimHash的利弊

  • 优点:

    • 速度快,效率高。通过分割鸽笼的方式能将相似的数据快速定位在某个区域内,减少99%数据的相似对比。

    • 通过大量测试,SimHash用于比较大文本,效果很好,距离小于3的基本都是相似,误判率也比较低。

  • 缺点: 

    • 对短文本召回效果不太好。

    • 在测试短文本的时候看起来相似的一些文本海明距离达到了10,导致较多的漏召回。


人工智能时代,你需要掌握的经典大规模文本相似识别架构和算法相关推荐

  1. 文献翻译__人工智能时代医学图像重建中的凸优化算法(第4、5、6章)

    文章下载–我的Gitee Convex optimization algorithms in medical image reconstruction-in the age of AI 人工智能时代医 ...

  2. AIGC 未来已来——迈向通用人工智能时代

    AIGC的各大门派是谁?典型技术都有什么? AIGC为什么在绘画领域先破圈?ChatGPT的有哪些局限性? 为何科技企业争相推出大模型? 人类的创新能力会被AIGC取代吗-- 诸如此类的这些话题呈现爆 ...

  3. FPGA在人工智能时代的独特优势

    来源 | 老石谈芯 作者 | 老石,博士毕业于伦敦帝国理工大学电子工程系,现任某知名半导体公司高级FPGA研发工程师,深耕于FPGA的数据中心网络加速.网络功能虚拟化.高速有线网络通信等领域的研发和创 ...

  4. 人工智能时代,开发者是逆袭还是走向末日?

    去年,由美国人工智能协会(American Association for Artificial Intelligence)组织的AAAI大会上,在2571篇投稿论文中,中国的投稿数量占到31%.虽然 ...

  5. 无数学不华为?人工智能时代的数学家还将走得更远

    进驻欧亚大陆之北,俄罗斯联邦共和国--1996 年一无所获,1997 年一无所获,1998 年依然一无所获,1999 年勉强接到第一笔买单--38 美元. 尽管折戟多年,一家中国公司却于此地招募数十位 ...

  6. 清华思客 | 蓝志勇:人工智能时代公共治理创新迫在眉睫

    来源:清华大学藤影荷声 本文约5200字,建议阅读10+分钟 人工智能技术来势凶猛,给我们留下的时间不多了. 一场关于人工智能的有趣对话 在2019年世界人工智能大会上,有一个饶有意思的对话.阿里巴巴 ...

  7. Python将是人工智能时代的最佳编程语言

    移动互联网取代PC互联网领跑在互联网时代的最前沿,Android和iOS一度成为移动互联网应用平台的两大霸主,成为移动开发者首选的两门技术,HTML5以其跨平台的优势在移动互联网应用平台占据重要位置, ...

  8. 人工智能时代来临,还需要那么多人吗?

    导读 2016年AlphaGo横空出世,大败人类顶级棋手.这不仅使公众对人工智能有了全新认知,更是多了一重人类与机器命运的深刻思考.人工智能会发展到什么程度?人工智能时代,还需要那么多人吗? 我们认为 ...

  9. 大数据和人工智能时代下的运筹学

    首发于[运筹帷幄]大数据和人工智能时代下的运筹学 大话"人工智能.数据科学.机器学习"--综述 1 2 个月前 作者系美国克莱姆森大学运筹学硕士,Ph.D. Candidate,师 ...

最新文章

  1. 徐文尚计算机控制系统,【计算机控制系统 徐文尚】_计算机控制系统 徐文尚参考资料-毕业论文范文网...
  2. AWS论剑Azure:安全组之争
  3. 平方的观测值表概率_茆诗松的概率论与数理统计(第六章)
  4. android 实现微信分享多张图片的功能
  5. 印度电工,真牛!上天入海,无所不能...
  6. Android之Fatal Exception: org.greenrobot.greendao.DaoException: Could not init DAOConfig
  7. ajax数据交互代码,Django中使用jquery的ajax进行数据交互的实例代码
  8. TreeView的基本使用 1205
  9. [Erlang07] Erlang 做图形化编程的尝试:纯Erlang做2048游戏
  10. ViewGroup 事件分发
  11. leetcode948. Bag of Tokens
  12. Python的permutations和combinations的区别
  13. 魅族Flyme5系统内置原生铃声免费下载
  14. 【2012百度之星资格赛】F:百科蝌蚪团
  15. java计算101~200之间的素数
  16. 在鹅厂工作的广西表妹教我用Python生成会跳舞的美女~
  17. Mysql——》三星索引
  18. Canvas实用库收藏
  19. 为什么数据库不适用于容器
  20. IDE中使用package打包出现java.lang.TypeNotPresentException: Type org.springframework.boot.maven.RepackageMoj

热门文章

  1. Corgi_Engine_----_2D_25D_Platformer_5.4 最新版本
  2. 计算机网络实验之路由器配置(子网划分)
  3. 前端作品-奥迪汽车响应式网站
  4. 【论文翻译】Mask R-CNN
  5. ORACLE游标详解
  6. C语言实现简单的飞机大战
  7. 计算机玩游戏时卡一会,细说电脑散热,散热不好电脑就卡!再强的性能也得憋着...
  8. 链表的基本概念以及java实现单链表-循环链表-双向链表
  9. 费波纳奇数c语言,费波纳奇数列
  10. 股​票​投​资​5​0​本​经​典​书​籍