2020-05-02 17:15:38

一个完整的搜索引擎往往包含了比较多的复杂模块,每个模块相互作用、兜底组成了我们使用的搜索引擎。抽象起来,召回和相关性是搜索系统里最重要的两个功能。本文首先介绍一下召回问题。

召回是对于输入query,能够高效的获取query相关的候选doc集合。召回对于搜索引擎起着致命性的作用。因为一旦相关的doc不能够被召回,即使后面的相关性排序做好的再好,也是徒劳。尤其在doc资源不是很丰富的搜索场景下,召回更是一个比较明显的问题。

首先面临的问题是索引粒度问题。我们知道召回是通过倒排索引求交得到的,当以词为粒度,粒度较细,召回的文章的数目较多,但也可能由于倒排过长把一些相关的结果误截断;当以更大的phrase粒度,粒度较粗,召回的文章相对更相关,但也容易造成召回的结果过少。

其次召回要能够保证有一定的召回文章数。query大部分模块都是为了解决召回问题,比如非必留,同义词,纠错。这是因为query和doc往往会存在描述不一致的问题。比如query是“如何考取广大的研究生?”,但大部分doc都是讲广州大学的研究生。因此需要将广大同义成广州大学才能正确的召回一些相关文章。用户query也会存在一些错误query,比如刘德花,这时系统需要将query纠错成“刘德华”,才能正确的召回一些相关文章。用户query也会存在和doc不是完全匹配的情况,尤其是对于长query,比如“无问西东电影的主演是谁?”,如果要求原搜索串完全命中,可能导致召回结果数过少或零结果。这里分析“电影”是一个冗余的信息,“是谁”是一个不重要的词,其参不参与倒排的求交并不影响召回doc的相关性,这时召回时可以直接把这2个词直接丢掉。

最后召回要保证结果的多样性。尤其是对于短query。因为相比于长query,短query往往是一些实体,召回doc数往往不是关键问题,用户也希望有一些惊喜的结果,避免搜索结构都是一些类似或重复结果。query事件扩展,query改写都是为了解决召回的多样性问题。比如当用户输入“武汉大学”,如果只是返回一些武汉大学的百科、高考录取信息,可能对用户并没有什么吸引力。这是如果能将武汉大学能和最近比较热的“武汉大学 樱花”、“武汉大学 和服”关联起来,可能会有侧重召回扩展内容相关的doc,增加结果多样性。

前面讲的召回还主要都是基于字面召回,深度学习的发展使得语义召回是现在研究的热点和流行的方法。其思路是分为将query和doc表示成embedding,然后基于embedding计算得到一些相似的doc。这种召回方式虽然能够召回一些相关doc,但其不能保证一些最相关的文章被一定会被召回回来。一方面语义会漂移,另一方面embedding模型往往是黑盒模型,很难debug。

召回问题不仅在搜索里至关重要,在推荐,广告中同样是一个关键问题。并且不同应用的侧重点不太一样,比如搜索中更侧重召回doc的数量,推荐中更侧重召回结果的多样性。因此做好召回是保证后续模块的第一步。

原文转自:https://mp.weixin.qq.com/s?__biz=MzU2OTQyOTMxOQ==&mid=2247483883&idx=1&sn=2dee1b5f92e1553436a40848cfb1fde4&chksm=fcff9dc3cb8814d5d8e4aaae302fa0e1e37723a0ff0c51a26b1d3f1a1790eae753c7e1ce80be&scene=21#wechat_redirect

搜索引擎的两大问题(1) - 召回相关推荐

  1. 搜索引擎的两大问题(2) - 相关性

    2020-05-02 17:16:25 一个完整的搜索引擎往往包含了比较多的复杂模块,每个模块相互作用.兜底组成了我们使用的搜索引擎.抽象起来,召回和相关性是搜索系统里最重要的两个功能.本文主要介绍一 ...

  2. 无人驾驶急需解决:规划控制和传感器价格高两大问题(附Apollo算法)

    作者 | Mavis 出品 | AI科技大本营(公众号ID:rgznai100) [AI 科技大本营按]2017 年百度 AI 开发者大会上,现场视频连线了正乘坐无人驾驶汽车行驶在五环上朝会场赶来的李 ...

  3. 无人驾驶急需解决:规划控制和传感器价格高两大问题

    来源:AI科技大本营  作者 :Mavis 2017 年百度 AI 开发者大会上,现场视频连线了正乘坐无人驾驶汽车行驶在五环上朝会场赶来的李彦宏,他坐在副驾驶上解说,身边司机的双手并没有触碰方向盘,也 ...

  4. Poly-YOLO:更快,更精确的检测(主要解决Yolov3两大问题,附源代码)

    点击上方"计算机视觉工坊",选择"星标" 干货第一时间送达 作者丨Edison_G 来源丨计算机视觉研究院 论文地址:https://arxiv.org/pdf ...

  5. ios11更新提示信任_iOS13.6.1正式版更新,主要修复两大问题

    8月13日凌晨,苹果正式发布了iOS 13.6.1正式版.想要更新至最新系统的小伙伴只需要打开设置-通用-软件更新,下拉刷新即可收到iOS 13.6.1正式版的更新推送. 本次更新的版本号为:17G8 ...

  6. 深入理解搜索引擎——基于DPSR的个性化召回模型

    DPSR是京东发表于SIGIR2020 的paper,是京东在搜索推荐系统领域的实践经验总结,京东自2019年起就开始部署DPSR搜索推荐系统框架,总体网络结构如下: 从整体看,离线模型是一个双塔模型 ...

  7. “头移植模型”论文称换头术可行 业内疑两大问题未解

    来源:澎湃新闻 概要:11月21日,"换头术"的倡导者.哈尔滨医科大学教授任晓平在一场见面会上称,团队在科学领域取得重大突破, "完成了人类第一例头移植外科实验模型&qu ...

  8. 无锁数据结构三:无锁数据结构的两大问题

    实现无锁数据结构最困难的两个问题是ABA问题和内存回收问题.它们之间存在着一定的关联:一般内存回收问题的解决方案,可以作为解决ABA问题的一种只需很少开销或者根本不需额外开销的方法,但也存在一些情况并 ...

  9. 打开catia界面全是白色怎么办_CAD如何批量打印?图纸看不清怎么办?这两大问题如何解决?...

    学习就是一个不断解开迷惑的过程,对于自学CAD的小伙伴来说,肯定会遇到各种各样的问题,小编也经常收到各种疑问,其中个最常见的两个问题就是:CAD能不能批量打印?打印出来的图纸看不清怎么办?别急别急!小 ...

最新文章

  1. 2_2 递归与分治策略(分治法的基本思想)
  2. linux配置4g网络命令_Linux网络基本配置命令
  3. Error during job, obtaining debugging information... FAILED: Execution Error, return code 2 from org
  4. 现实世界 机器学习_公司沟通分析简介现实世界的机器学习方法
  5. C语言中的正负数及其输出
  6. android中的add方法,Android中Fragment怎么addView?
  7. 厦门大学数学专业考研试题参考解答
  8. SQL数据库不用SQL语句能显示全表的内容_Sql性能优化看这一篇就够了
  9. cursor-spacing 软键盘和input的距离
  10. HTML5---offline application(application cache)
  11. 安装java正在使用中_如何安装java,安装JDK,JAVA SE正在使用中,安装不了
  12. 高质量程序好文分享之王垠《编程的智慧》
  13. 水经注全国离线地图都有哪些地图数据?
  14. httd及其ab测试工具
  15. 论文解读《使用支持向量机和PSSM谱预测蛋白质中的RNA结合位点》
  16. 对比7种分布式事务方案,还是偏爱阿里开源的Seata,真香!(原理+实战)
  17. duet太香啦啦啦啦啦啦啦啦啦啦
  18. 5G/NR 标识详解之5G-GUTI
  19. 基于C++的Qt网络编程——基于 IP 多播的网络会议程序
  20. Python绘制股票K线图

热门文章

  1. arrays must all be same length
  2. 带有BERT模型代码的BILSTM+BERT+CRF
  3. 问答系统的搭建与财报知识图谱关系比较密切 问题相似度方面
  4. 深度学习中的线代基础
  5. 关肇直 automation lingjunrenwu
  6. 修改oracle数据库默认时间格式
  7. 智源「高能对撞粒子分类挑战赛」开启,品鉴宇宙粒子的独特味道
  8. starGAN原理代码分析
  9. MoviePy - 中文文档4-MoviePy实战案例-把多个clip放置在一个画面中(超美)
  10. AI手语主播通过朱广权魔鬼面试,残影级手速无惧贯口,今已正式上岗助力冰雪盛会...