学习总结

(1)上一个task我们提到用embedding召回,快速过滤商品,缩小候选集。但是embedding相似度如果都用余弦计算,当数据量很大时计算量很大。所以提出用【局部敏感哈希LSH】解决高维空间下,embedding最近邻问题。在每个桶内点的数量接近时,LSH最近邻查找embedding的时间复杂度为常数级别。
(2)还可以用【多桶策略】提高搜索效率和召回率:
1)基于“且”操作的多桶策略能够进一步减少候选集规模,增加计算效率,
2)基于“或”操作的多桶策略则能够提高召回率,减少漏掉最近邻点的可能性。

(3)LSH的取值(注意:一切工程问题都是取舍的问题。):

  • 点数越多,我们越应该增加每个分桶函数中桶的个数;相反,点数越少,我们越应该减少桶的个数;
  • Embedding 向量的维度越大,我们越应该增加哈希函数的数量,尽量采用且的方式作为多桶策略;相反,Embedding 向量维度越小,我们越应该减少哈希函数的数量,多采用或的方式作为分桶策略。

(4)其实LSH也有缺点:数据量太大的时候,hash的个数不好选择,另外存在hash冲突,容易降低召回率。同基于树的,基于量化的,基于的图的方法来比&#

【王喆-推荐系统】线上服务篇-(task4)局部敏感哈希相关推荐

  1. 【王喆-推荐系统】线上服务篇-(task5)部署离线模型

    学习总结 (1)业界主流的模型服务方法有 4 种,分别是预存推荐结果或 Embeding 结果.预训练 Embeding+ 轻量级线上模型.利用 PMML 转换和部署模型以及 TensorFlow S ...

  2. 【王喆-推荐系统】线上服务篇-(task3)召回层

    学习总结 (1)学习推荐系统中召回层的功能特点(要快速准确地过滤出相关物品,缩小候选集)和实现召回层的三个技术方案:简单快速的单策略召回.业界主流的多路召回.深度学习推荐系统中最常用的 Embeddi ...

  3. 【王喆-推荐系统】线上服务篇-(task1)线上高并发的推荐服务

    学习总结 (1)"造火箭":工业级推荐服务器的具体功能,以及实现工业级高并发推荐服务的主要机制.其中,推荐服务器的具体功能主要有:模型服务.数据库接口.推荐模块逻辑.补充业务逻辑等 ...

  4. 局部敏感哈希(Locality Sensitive Hashing)二三问[2]

    #写在前面的话 今天的这一章有几个目的,一是回答一下各位网友在各大博客上提出的问题,然后其他博主没有回答的问题.二是纠正一些别人在写局部敏感哈希时候出现的错误.就是这么贴心有没有. #假装自己是正文的 ...

  5. 线上服务的FGC问题排查,看这篇就够了!

    线上服务的GC问题,是Java程序非常典型的一类问题,非常考验工程师排查问题的能力.同时,几乎是面试必考题,但是能真正答好此题的人并不多,要么原理没吃透,要么缺乏实战经验. 过去半年时间里,我们的广告 ...

  6. 【转】线上服务的FGC问题排查,看这篇就够了!

    线上服务的GC问题,是Java程序非常典型的一类问题,非常考验工程师排查问题的能力.同时,几乎是面试必考题,但是能真正答好此题的人并不多,要么原理没吃透,要么缺乏实战经验. 过去半年时间里,我们的广告 ...

  7. 分页缓冲池占用很高怎么解决_一次线上服务高 CPU 占用优化实践

    线上有一个非常繁忙的服务的 JVM 进程 CPU 经常跑到 100% 以上,下面写了一下排查的过程.通过阅读这篇文章你会了解到下面这些知识. Java 程序 CPU 占用高的排查思路 可能造成线上服务 ...

  8. java河南口腔医疗机构线上服务系统计算机毕业设计MyBatis+系统+LW文档+源码+调试部署

    java河南口腔医疗机构线上服务系统计算机毕业设计MyBatis+系统+LW文档+源码+调试部署 java河南口腔医疗机构线上服务系统计算机毕业设计MyBatis+系统+LW文档+源码+调试部署 本源 ...

  9. AI+音视频双引擎驱动,保司线上服务能力全面升级 | 爱分析报告

    报告编委 张扬 爱分析联合创始人&首席分析师 孙文瑞 爱分析高级分析师 廖耘加 爱分析分析师 外部专家(按姓氏拼音排序) 段磊 容联云音视频负责人 徐靖辰 声网数字化转型政企行业总监 特别鸣谢 ...

最新文章

  1. 目标检测中特征融合技术(YOLO v4)(上)
  2. git pull出现There is no tracking information for the current branch
  3. python多个日志模块怎么隔离_在多个模块中使用Python日志logging
  4. 如何设置TextView textStyle,例如粗体,斜体
  5. 如何在MySQL中进行FULL OUTER JOIN?
  6. python3 hasattr getattr setattr delattr 对象属性 反射
  7. Python dataframe修改列顺序(pandas学习)
  8. 处理字符串_1_生成自增值
  9. Java笔记13-兄弟连在线考试系统
  10. Chemical table CFR500 div2D(并查集)
  11. Atitit 图像处理 halcon类库的使用  范例边缘检测 attilax总结
  12. postgresql 修改表字段的长度
  13. python实现多人脸识别
  14. DCMI 接口DMA 传送数据问题
  15. c语言乘法口诀表的流程图_C语言实现“乘法口诀表”
  16. MP4视频转换器怎么样将FLV转MP4
  17. linux怎么打开ppt文件格式,PPT 文件扩展名: 它是什么以及如何打开它?
  18. mysql查询每个部门的最高和最低工资_SQL数据库 计算出每个部门的平均工资 最高工资和最低工资 语法怎么写?...
  19. [历年IT笔试题]2014京东校园招聘软件开发类笔试试题
  20. 日常记录:java JMX获取MBean从而获取目标应用的pid

热门文章

  1. PMP备考战术:题海战术
  2. 世界6大信用卡组织,你知道哪几个?
  3. 浅谈kruskal重构树
  4. 一张表格分成两页打印_一个表格在Word文档里被分成两页,要怎么合并为一页...
  5. PIC单片机ISP下载外围链接电路
  6. html重启手机,华为怎样重启手机(手机强制重启操作措施)
  7. 一文正确理解 分层架构系统 的接入层设计,以及接入层设计常见的问题和解决方案(雪崩、降级、限流、熔断)
  8. 强势反击:换名字,改 logo,搞得安卓药丸一样!
  9. s7200液位控制程序_基于s7-200的液位控制系统系统设计及plc控制程序.doc
  10. MAVEN 用Tamcat插件启动