抽屉原理与Simhash
抽屉原理:把多余N个物体反倒N个抽屉, 至少有一个抽屉里的物体数不少于两件。
simhash:如果两个输入(文档)越相似,其哈希值越相近。具体哈希算法,可以百度一下,也比较简单。
那么抽屉原理和simhash有什么关系呢?
他俩一般组合起来用,通常用于文档判重上。最著名的当然是google用于网页判重上。
定义两个文档相似为两个文档simhash值海明距离(二进制数不同的位数)小与3。
给定上亿的文档,如何计算新来一个文档有没有重复呢?
这时候就要用到抽屉原理了。我们可以将文档sim哈希值分成四段,那么根据抽屉原理,如果两个文档详细,那么至少有一段内容完全相同!
我们可以通过先将文档根据simhash值分4块,再按每块进行聚类(分组)。新来一个文档,将其simhash值也分成4块,再针对每块查找hash值完全相同的分组,就可以知道跟哪些文档相似了。
抽屉原理与Simhash相关推荐
- Algorithm:C++语言实现之SimHash和倒排索引算法相关(抽屉原理、倒排索、建立查找树、处理Hash冲突、Hash查找)
Algorithm:C++语言实现之SimHash和倒排索引算法相关(抽屉原理.倒排索.建立查找树.处理Hash冲突.Hash查找) 目录 一.SimHash算法 1.SimHash算法五个步骤 2. ...
- poj2356(抽屉原理)
题意:从输入的N个元素中找出是N的倍数的元素并且输出: 因为这个要求的是连续的数之和,先用sum数组求和:sum[1],sum[1]+sum[2],--,sum[1]+sum[2]+--+sum[n] ...
- 牛客算法周周练2 B Music Problem(DP,抽屉原理,二进制拆分)
链接:https://ac.nowcoder.com/acm/contest/5203/B 来源:牛客网 题目描述 Listening to the music is relax, but for o ...
- POJ 2356 Find a multiple (抽屉原理)
感觉这个题很不错,至少开始真的没想道可以用抽屉原理推出一个结论,然后把这题秒掉.... 已知有n个元素,sum[i]表示从1到i所有数的和...sum[i]%n可以得到一个剩余系,如果出现0,那么结果 ...
- 鸽巢原理(抽屉原理)的详解
抽屉原理 百科名片 桌上有十个苹果,要把这十个苹果放到九个抽屉里,无论怎样放,我们会发现至少会有一个抽屉里面放两个苹果.这一现象就是我们所说的"抽屉原理". 抽屉原理的一般含义为: ...
- POJ 2356 (抽屉原理)
题目中说:随便输出一组.抽屉原理可以求出取出的数连续的情况. #include <iostream> #include<cstdio> using namespace std; ...
- 14. 不修改数组找出重复的数字【难度: 一般 / 知识点: 抽屉原理 二分】
第一种方法: 开了map计数,多用了空间,map: logn,时间复杂度O(nlogn) class Solution {public:int duplicateInArray(vector<i ...
- hdu 3303(线段树+抽屉原理)
解题思路:这题利用了抽屉原理,即1-M之间的所有数与M+1的模都不相同.那么可以利用它将要查找所有区间分成[1,Y-1],[Y,2*Y-1],[2*Y,3*Y-1].........一直下去,直到所有 ...
- N的倍数(抽屉原理)
一个长度为N的数组A,从A中选出若干个数,使得这些数的和是N的倍数. 例如:N = 8,数组A包括:2 5 6 3 18 7 11 19,可以选2 6,因为2 + 6 = 8,是8的倍数. Input ...
最新文章
- [20150710]11G谓词推入问题2.txt
- 贪心算法--多处最优服务次序问题
- ByteCTF 2021(Crypto部分)
- 智能搜索推荐一体化营收增长解决方案
- Science上发表的超赞聚类算法
- 【网站开发】搭建一个属于自己的网站
- asp.net core 从 3.1 到 5.0
- 素数环(dfsamp;amp;STL做法)HDU - 1016
- glassfish上部署firstcup-war
- 易到用车:服务器遭到连续攻击 被索要巨额比特币
- 乐源机器人优点跟缺点_桁架上下料机械手与上下料机器人一样吗?
- html5通讯录模板,[应用模板]HTML5+Phonegap通讯录
- python 中文编码乱码问题原理分析及解决思路
- C语言:房贷计算器(等额本息与等额本金对比计算器)
- python网络爬虫之淘宝订单提取
- Adobe Flash Player / 功能
- Maven学习(一) --------- Maven 简介
- Canon MF113W激光打印机双面打印方法
- 百度ueditor编辑器如何使用自定义的高大上高亮皮肤?
- 网络变压器在以太网中的作用
热门文章
- 计算机毕业设计之微信小程序的快递取件及上门服务系统的论文
- 四信5G工业智能网关加速5G全连接智慧工厂落地 抢占生产“智”高点
- OOV问题-论文笔记《Neural Machine Translation of Rare Words with Subwords Units》- ACL2016
- EAM系统对企业的价值
- 高级软件工程第五次作业:“希希敬敬对”团队作业-2
- Aspectj some problems
- kaggle数据挖掘竞赛--信用卡违约风险评估模型
- 天下数据浅谈大数据和大规模数据的区别
- 用SpringBoot简单实现登录注册功能
- Apache Kylin在百度地图的实践