Locality Sensitive Hashing,LSH

1. 基本思想

局部敏感(Locality Senstitive):即空间中距离较近的点映射后发生冲突的概率高,空间中距离较远的点映射后发生冲突的概率低。

局部敏感哈希的基本思想类似于一种空间域转换思想,LSH算法基于一个假设:

如果两个文本在原有的数据空间是相似的,那么分别经过哈希函数转换以后的它们也具有很高的相似度;

相反,如果它们本身是不相似的,那么经过转换后它们应仍不具有相似性。

假设一个局部敏感哈希函数具有10个不同的输出值,而现在我们具有11个完全没有相似度的数据,那么它们经过这个哈希函数必然至少存在两个不相似的数据变为了相似数据。从这个假设中,我们应该意识到局部敏感哈希是相对的,而且我们所说的保持数据的相似度不是说保持100%的相似度,而是保持最大可能的相似度。

对于局部敏感哈希保持最大可能的相似度的这一点,我们也可以从数据降维的角度去考虑。数据对应的维度越高,信息量也就越大,相反,如果数据进行了降维,那么毫无疑问数据所反映的信息必然会有损失。哈希函数从本质上来看就是一直在扮演数据降维的角色。

局部敏感哈希(Locality Sensitive Hashing,LSH)相关推荐

  1. 局部敏感哈希-Locality Sensitive Hashing

    局部敏感哈希 转载请注明http://blog.csdn.net/stdcoutzyx/article/details/44456679  在检索技术中,索引一直需要研究的核心技术.当下,索引技术主要 ...

  2. 局部敏感哈希Locality Sensitive Hashing归总

    最近发邮件讨论Semantic Hashing的同学和同事很多,推荐李老师的文献列表供大家参阅:http://cs.nju.edu.cn/lwj/L2H.html 说到Hash,大家都很熟悉,是一种典 ...

  3. 局部敏感哈希(Locality sensitive hash) [3]—— 代码篇

    我们在之前的文章中Locality Sensitive Hashing(局部敏感哈希)中已经详细的说了这个算法的基本核心思想,现在我们就来一点一点的把这个算法的每一步都来实现了. 首先我们至少得构建出 ...

  4. 局部敏感哈希算法(Locality Sensitive Hashing)

    from:https://www.cnblogs.com/maybe2030/p/4953039.html 阅读目录 1. 基本思想 2. 局部敏感哈希LSH 3. 文档相似度计算 局部敏感哈希(Lo ...

  5. R语言实现︱局部敏感哈希算法(LSH)解决文本机械相似性的问题(一,基本原理)

    每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 私认为,文本的相似性可以分为两类:一类是机械相 ...

  6. Locality Sensitive Hashing(局部敏感哈希)

    文章目录 Background运用背景 Big pitcture 整体架构 定义 Surprising Property References # 写在前面的话 酱酱,又到了程序媛拯救世界的时间,程序 ...

  7. 【时序】Reformer:局部敏感哈希(LSH)实现高效 Transformer 论文笔记

    论文名称:Reformer: The Efficient Transformer 论文下载:https://arxiv.org/abs/2001.04451 论文年份:ICLR2020 论文被引:70 ...

  8. 基于特征选择的局部敏感哈希位选择算法

    点击上方蓝字关注我们 基于特征选择的局部敏感哈希位选择算法 周文桦, 刘华文, 李恩慧 浙江师范大学数学与计算机科学学院,浙江 金华 321001 摘要:作为主流的信息检索方法,局部敏感哈希往往需要生 ...

  9. 推荐系统局部敏感哈希解决Embedding最近邻搜索问题

    文章目录 快速Embedding最近邻搜索问题 聚类.索引搜索最近邻 聚类搜索最近邻 索引搜索最近邻 局部敏感哈希及多桶策略 局部敏感哈希的基本原理 局部敏感哈希的多桶策略 局部敏感哈希代码实现 快速 ...

  10. 最近邻和K近邻及其优化算法LSH(局部敏感哈希,Locality Sensitive Hashing) Kd-Tree

    引言 在处理大量高维数据时,如何快速地找到最相似的数据是一个比较难的问题.如果是低维的小量数据,线性查找(Linear Search)就可以解决,但面对海量的高维数据集如果采用线性查找将会非常耗时.因 ...

最新文章

  1. au加载默认的输入和输出设备失败_Mac OS X的音频输入输出时如何调整音量
  2. 计算机视觉顶会CVPR2020接收论文列表已公布,1470篇上榜, 你的paper中了吗?
  3. 干货丨各种机器学习任务的顶级结果(论文)汇总
  4. Websocket总结
  5. Linux查看端口、进程情况及kill进程
  6. Android开机自启动 .
  7. [转载]建立团队沟通协作工作方式
  8. 可爱圣诞节手绘手帐素材,增添情趣
  9. python接口自动化(八)--发送post请求的接口(详解)
  10. 在Windows Server 2008 R2上安装Ftp服务
  11. Python搭建投票分类器模型来进行机器学习实验
  12. nunito字体_外贸网站设计中字体有多重要?
  13. Linux /usr、/usr/share、/etc介绍
  14. 通过 ANE(Adobe Native Extension) 启动Andriod服务 推送消息(三)
  15. Dart Isolate
  16. How to recognise a good programmer
  17. 首届SD-WAN实战特训营
  18. 微信小程序开发 | 小程序开发框架
  19. usb hub芯片GL850G创惟
  20. (附源码)小程序+spring boot校园二手交易平台 毕业设计 191637

热门文章

  1. oracle 退出循环 使变量清空,[转]Oracle 清除incident和trace -- ADRCI用法
  2. SOA概念的三个比喻
  3. 【直播预告】云栖社区特邀专家蒋泽银:Jpom一款低侵入式Java运维、监控软件...
  4. 深入理解Python中赋值、深拷贝(deepcopy)、浅拷贝(copy)
  5. 一个拨号上网的批处理文件
  6. ubuntu 安装ssh 服务
  7. Candy leetcode java
  8. 分享PHP获取客户端IP的几种不同方式
  9. Why need to use 【com.opensymphony.xwork2.Preparable】
  10. 命令行方式添加打印机是比较简单的,现在我的问题是这样的,