抽屉原理:把多余N个物体反倒N个抽屉, 至少有一个抽屉里的物体数不少于两件。

simhash:如果两个输入(文档)越相似,其哈希值越相近。具体哈希算法,可以百度一下,也比较简单。

那么抽屉原理和simhash有什么关系呢?

他俩一般组合起来用,通常用于文档判重上。最著名的当然是google用于网页判重上。

定义两个文档相似为两个文档simhash值海明距离(二进制数不同的位数)小与3。

给定上亿的文档,如何计算新来一个文档有没有重复呢?

这时候就要用到抽屉原理了。我们可以将文档sim哈希值分成四段,那么根据抽屉原理,如果两个文档详细,那么至少有一段内容完全相同!

我们可以通过先将文档根据simhash值分4块,再按每块进行聚类(分组)。新来一个文档,将其simhash值也分成4块,再针对每块查找hash值完全相同的分组,就可以知道跟哪些文档相似了。

抽屉原理与Simhash相关推荐

  1. Algorithm:C++语言实现之SimHash和倒排索引算法相关(抽屉原理、倒排索、建立查找树、处理Hash冲突、Hash查找)

    Algorithm:C++语言实现之SimHash和倒排索引算法相关(抽屉原理.倒排索.建立查找树.处理Hash冲突.Hash查找) 目录 一.SimHash算法 1.SimHash算法五个步骤 2. ...

  2. poj2356(抽屉原理)

    题意:从输入的N个元素中找出是N的倍数的元素并且输出: 因为这个要求的是连续的数之和,先用sum数组求和:sum[1],sum[1]+sum[2],--,sum[1]+sum[2]+--+sum[n] ...

  3. 牛客算法周周练2 B Music Problem(DP,抽屉原理,二进制拆分)

    链接:https://ac.nowcoder.com/acm/contest/5203/B 来源:牛客网 题目描述 Listening to the music is relax, but for o ...

  4. POJ 2356 Find a multiple (抽屉原理)

    感觉这个题很不错,至少开始真的没想道可以用抽屉原理推出一个结论,然后把这题秒掉.... 已知有n个元素,sum[i]表示从1到i所有数的和...sum[i]%n可以得到一个剩余系,如果出现0,那么结果 ...

  5. 鸽巢原理(抽屉原理)的详解

    抽屉原理 百科名片 桌上有十个苹果,要把这十个苹果放到九个抽屉里,无论怎样放,我们会发现至少会有一个抽屉里面放两个苹果.这一现象就是我们所说的"抽屉原理". 抽屉原理的一般含义为: ...

  6. POJ 2356 (抽屉原理)

    题目中说:随便输出一组.抽屉原理可以求出取出的数连续的情况. #include <iostream> #include<cstdio> using namespace std; ...

  7. 14. 不修改数组找出重复的数字【难度: 一般 / 知识点: 抽屉原理 二分】

    第一种方法: 开了map计数,多用了空间,map: logn,时间复杂度O(nlogn) class Solution {public:int duplicateInArray(vector<i ...

  8. hdu 3303(线段树+抽屉原理)

    解题思路:这题利用了抽屉原理,即1-M之间的所有数与M+1的模都不相同.那么可以利用它将要查找所有区间分成[1,Y-1],[Y,2*Y-1],[2*Y,3*Y-1].........一直下去,直到所有 ...

  9. N的倍数(抽屉原理)

    一个长度为N的数组A,从A中选出若干个数,使得这些数的和是N的倍数. 例如:N = 8,数组A包括:2 5 6 3 18 7 11 19,可以选2 6,因为2 + 6 = 8,是8的倍数. Input ...

最新文章

  1. [20150710]11G谓词推入问题2.txt
  2. 贪心算法--多处最优服务次序问题
  3. ByteCTF 2021(Crypto部分)
  4. 智能搜索推荐一体化营收增长解决方案
  5. Science上发表的超赞聚类算法
  6. 【网站开发】搭建一个属于自己的网站
  7. asp.net core 从 3.1 到 5.0
  8. 素数环(dfsamp;amp;STL做法)HDU - 1016
  9. glassfish上部署firstcup-war
  10. 易到用车:服务器遭到连续攻击 被索要巨额比特币
  11. 乐源机器人优点跟缺点_桁架上下料机械手与上下料机器人一样吗?
  12. html5通讯录模板,[应用模板]HTML5+Phonegap通讯录
  13. python 中文编码乱码问题原理分析及解决思路
  14. C语言:房贷计算器(等额本息与等额本金对比计算器)
  15. python网络爬虫之淘宝订单提取
  16. Adobe Flash Player / 功能
  17. Maven学习(一) --------- Maven 简介
  18. Canon MF113W激光打印机双面打印方法
  19. 百度ueditor编辑器如何使用自定义的高大上高亮皮肤?
  20. 网络变压器在以太网中的作用

热门文章

  1. 计算机毕业设计之微信小程序的快递取件及上门服务系统的论文
  2. 四信5G工业智能网关加速5G全连接智慧工厂落地 抢占生产“智”高点
  3. OOV问题-论文笔记《Neural Machine Translation of Rare Words with Subwords Units》- ACL2016
  4. EAM系统对企业的价值
  5. 高级软件工程第五次作业:“希希敬敬对”团队作业-2
  6. Aspectj some problems
  7. kaggle数据挖掘竞赛--信用卡违约风险评估模型
  8. 天下数据浅谈大数据和大规模数据的区别
  9. 用SpringBoot简单实现登录注册功能
  10. Apache Kylin在百度地图的实践