简介:多路召回就是指采用不同的策略、特征或者简单模型,分别召回一部分候选集,然后再把这些候选集混合在一起后供后续排序模型使用的策略,本文将介绍开放搜索平台上的多路召回技术是如何深度提升搜索效果的~

背景

所谓的“多路召回”就是指采用不同的策略、特征或者简单模型,分别召回一部分候选集,然后再把这些候选集混合在一起后供后续排序模型使用的策略。

阿里云开放搜索(OpenSearch)是基于阿里巴巴自主研发的大规模分布式搜索引擎搭建的一站式智能搜索业务开发平台,目前为包括淘宝、天猫在内的阿里集团核心业务提供搜索服务支持。目前开放搜索提供文本检索,通过对文本query进行分词加上一些查询分析处理,对query进行改写后再查询引擎,大大提高了搜索的效果。但是对于一些对搜索效果要求较高的场景,例如:教育搜题场景,教育拍照搜题相比传统的网页或者电商的搜索存在明显的差异,第一点是搜索的Query特别长,第二点是搜索的Query由拍照OCR识别之后得到的文本,其中关键TERM识别错误的话,就会严重影响召回排序。针对这些问题的解决方法,一种方案是继续优化QP,增强QP对文本处理的能力。另一种方案是引入向量召回,通过计算向量空间的距离来召回文档,作为对文本召回的一种补充。

功能价值

在长Query、长尾Query、Query不规范等场景时,如果基于文本检索出现召回不准确、结果不足等问题,补充向量召回可以有效地提高召回文本的效果,同时也可以提供扩召回的能力。

开放搜索提供多路召回的算法工程能力,赋予不同行业的用户定制不同的多路召回功能需求,并且已经产品化,在多个行业的用户中实践应用。其优点有以下几个方面:

1、提供灵活的算法能力,支持根据不同行业的特点对文本向量化进行技术优化,兼顾效果和性能

2、支持cava脚本,提供更加灵活的定制排序算分能力;

3、支持带模型的分析器和不带模型的分析器,分别对无算法能力的用户和有算法能力的用户提供向量召回功能

4、对比开源产品,开放搜索搜索准确性搜索延迟优势更加明显,搜索延迟从开源秒级降到几十ms。

多路召回架构图

多路查询

开放搜索(OpenSearch)支持多路查询功能。配置好查询策略,可以同时查询文本Query和向量Query。当然也支持只查询文本Query或只查询向量Query。如果配置了文本向量化功能,则文本查询的时候开放搜索会对文本向量化,生成向量Query,两路结果召回后排序。

向量分析器

开放搜索(OpenSearch)支持多种类型的向量分析器,主要是行业通用向量分析器行业定制向量分析器、以及通用的向量分析器(向量-64维、128维、256维通用)。其中通用的向量分析器需要用户自行将数据转化为向量,并以DOUBLE_ARRAY类型存储,这适用于算法能力较强的客户使用。

查询分析

赋予算法同学对不同行业的向量模型进行定制,根据以教育行业为例,

其中针对教育搜题做的特别优化有:

  • BERT模型采用达摩院自研的StructBERT,并针对教育行业定制模型
  • 向量检索引擎采用达摩院自研的proxima引擎,准确性和运行速度远超开源系统
  • 训练数据可以基于客户的搜索日志不断积累,效果持续提升
  • 改写出语义向量query, RANK上文本term, 只参与算分不参与召回,提升召回的top文本质量。

排序定制

开放搜索(OpenSearch)开放了两阶段排序:基础排序和业务排序,即粗排和精排。其中,精排支持cava脚本,更灵活地支持用户的排序需求。

多路召回流程中开放搜索最终会进行统一排序,目前支持内部排序和精排模型打分排序。内部排序直接根据多路召回的结果按照返回的分数从高到低排序。精排模型打分需要用户提供模型信息,对多路召回的结果根据模型打分排序。

多路召回实践案例

电商/零售搜索

社区论坛搜索

对比接入前后top title的不同效果


如有产品指导需求,可填写问卷获得专家指导>>https://survey.aliyun.com/apps/zhiliao/lKD_J8cRj

如果你想与更多开发者们进行交流、了解最前沿的搜索与推荐技术,可以钉钉扫码加入社群

原文链接:https://developer.aliyun.com/article/788235?

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

【新功能】开放搜索多路召回技术解读相关推荐

  1. 本号讯 | 微软小蜜新功能开放测试,图片中表格一键转成可编辑格式

    微软小蜜新功能开放测试--将图片中的表格一键转化成Office文档里可编辑表格格式. ☞ 测试通道,戳这里 6 月 22 日,微软宣布 Power BI 预览版现已收入 Visio 可视化功能. 用户 ...

  2. 谷歌新功能——即时搜索功能Google Instant

    北京时间9月9日早间消息,据国外媒体报道,谷歌周三发布了一项名为Google Instant的即时搜索功能,可以在用户输入关键词的同时显示即时搜索结果. 即时搜索 谷歌表示,这项新技术可以将每次网络搜 ...

  3. SharePoint 2013的100个新功能之搜索(一)

    一:新的搜索架构 SharePoint 2013中将最好的两个搜索引擎"SharePoint搜索"和"SharePoint FAST搜索服务"整合到了一个搜索引 ...

  4. 微信卡券新功能开放公告

    为了让更多商户能够使用微信卡券功能,更好适应商户的发券用券场景,公众平台现推出以下三项新能力. 一.开发者协助制券 开发者可协助其他合作商户制券,按照其他合作商户是否有公众号,分为有公众号模式和无公众 ...

  5. 京东搜索权重新规 京东搜索权重衰退模型解读

    商品无缘无故排名自动掉到第二页或者其他页面了,是权重衰退的模型在干扰,京东整体的综合得分是根据周期计算的,因为搜索反馈是一直累计的,限制搜索反馈是按照周期来计算.一起去了解一下吧! 庞大的搜索大数据, ...

  6. 算法专家解读 | 开放搜索教育搜题能力和实践

    简介:达摩院算法专家--徐光伟(昆卡)聚焦在线教育行业的拍照搜题场景,介绍如何应用开放搜索来构建更高搜索性能及搜题准确率的搜题系统,从而助力在线教育行业客户掌握更高层次用户体验的获客工具. 讲师:徐光 ...

  7. 业界分享 | 深度学习下的京东搜索召回技术

    作者 | 张菡 京东 算法工程师 整理 | DataFunTalk 搜索主要经历四个阶段:召回.粗排.精排和重排,最后呈现给用户最终的结果. 而召回的结果主要来自两个部分:倒排检索和语义召回.传统的倒 ...

  8. 深度学习下的京东搜索召回技术

    本文约5400字,建议阅读5分钟 本文想要和大家分享的是在深度学习背景下,京东基于语义的搜索召回技术和新的进展. 导读:搜索主要经历四个阶段:召回.粗排.精排和重排,最后呈现给用户最终的结果.而召回的 ...

  9. 开放搜索电商行业模版驱动业务增长实践

    讲师:徐希杰--阿里巴巴技术专家 视频地址:https://developer.aliyun.com/live/246673 电商行业模板介绍:https://www.aliyun.com/page- ...

最新文章

  1. 使用OpenCV加载TensorFlow2模型
  2. K - 迷宫问题 POJ - 3984
  3. jquery easyui datagrid 显示外键/子属性/二层属性的值的方法
  4. 通讯业2月网络广告投放环比增33% 联通居首位
  5. DDL与DML的区别
  6. java中,剩下的这两个内部类不太好理解!
  7. 在 IntelliJ IDEA 中部署应用到服务器(Eclipse)
  8. [原]sencha touch之表单(login demo)
  9. 2017年高频率的互联网校园招聘面试题
  10. Linux命令解释之yum
  11. [转载]基于TFS实践敏捷-Scrum模式运用
  12. DL实战(2):SiamFC - TensorFlow配置
  13. (详细带你分析错误):No property 属性名 found for type 类名,总结了其他解决办法
  14. java 代码打包_Java程序打包成jar包
  15. 校验一,两位小数0-999999.99,填写其他内容提示“成绩填写有误”
  16. 做好数据全生命周期管理,实现数据资产化
  17. C语言求最小公倍数和最大公约数三种算法(经典)----ACM
  18. 如何用python抓取qq音乐_手把手教你使用Python抓取QQ音乐数据
  19. 鸿蒙阴阳星辰塔,第1298章鸿蒙星辰塔的新能力
  20. nginx的安装和html部署问题

热门文章

  1. elasticsearch索引模板
  2. 做 SQL 性能优化真是让人干瞪眼
  3. Python 知识点大全,建议收藏留用!
  4. 你离黑客的距离,就差这20个神器了
  5. 7个Python特殊技巧,助力你的数据分析工作之路
  6. c语言程序设计字节,C语言程序设计-数据类型
  7. 同一个页面生成多个sessionid_web页面渲染(一)
  8. php中的getdate 函数,PHP getdate()函数与示例
  9. spark搭建和使用,处理massive文件
  10. Firewalld防火墙应用