前言

召回阶段作为互联网搜索、推荐、广告服务架构中的重要一环,是决定了系统整体服务质量的天花板。从召回算法技术发展的过程来看,大致经历了启发式规则方法及向量检索两代技术体系。阿里妈妈定向广告团队于2017年提出了新一代的深度树匹配技术,使得任意复杂模型都能应用于召回阶段来做全库最优检索。近年来,这一技术框架围绕着检索技术本身进行了一系列的迭代,逐步建立了一套基于Learning to Retrieve思想的方法论,实现了对超大规模匹配问题中模型、索引、检索过程三者联合的最优理论建模。接下来,本文将对这一技术体系的最新进展做详细介绍。

01背景

当前繁荣发展的互联网行业,不管是搜索、推荐还是广告业务,其本质都是实现了人和海量信息之间的高效连接,其核心是人和信息的匹配技术。其中,"人找信息"主要通过搜索技术来实现,而基于人和信息的关系实现"信息找人",则主要依赖推荐及广告技术。阿里作为全球领先的电商平台,成功地将海量的用户及海量的商品通过技术连接在了一起。从匹配这一核心技术出发,搜索、推荐和广告看似业务形态不同,其实技术组成却是非常相通的:搜索可以认为是一种带query相关性约束的匹配,而广告则是叠加了广告主营销意愿 ( 价格 ) 约束的匹配。所以,匹配技术的创新对推动搜索、推荐和广告业务、技术的整体发展具有基础性的作用。

就匹配技术而言,其核心问题是如何从大规模的候选集中精准地找到最优质的结果,如用户可能最感兴趣的一系列商品等。当前,大规模匹配、推荐技术的发展,由于受到算力及固有系统架构的局限,往往都是对不同技术方案的拼装或是对系统局部模块的技术升级,而没有从本质上接近匹配技术的终极目标,即如何在全库范围内,使用精准的模型

深度学习核心技术精讲100篇(四十二)-阿里妈妈深度树匹配技术演进:TDM->JTM->BSAT相关推荐

  1. 深度学习核心技术精讲100篇(十二)-DCGAN(对抗生成网络)算法应用及代码实现

    前言 一次偶然看到一个换脸的视频,觉得实在是很神奇,于是饶有兴致的去了解一下换脸算法.原来背后有一个极为有意思的算法思想--对抗生成. 随后各种各样的GAN算法以指数级增长的方式涌现出来,比如WGAN ...

  2. 深度学习核心技术精讲100篇(十九)--GBDT(梯度提升树) 和 Resnet (残差网络)的原理

    残差 残差在数理统计中是指实际观察值与估计值(拟合值)之间的差.在集成学习中可以通过基模型拟合残差,使得集成的模型变得更精确:在深度学习中也有人利用layer去拟合残差将深度神经网络的性能提高变强.这 ...

  3. 深度学习核心技术精讲100篇(十四)-一文带你看懂GPflow的前世今生

    什么是GPflow GPflow是一个高斯过程的工具包,接口部分由python实现,内部的部分计算则由Tensorflow实现. 主要特点有二个:一是使用变分推理作为近似方法,二是使用自动微分进行求导 ...

  4. 深度学习核心技术精讲100篇(十)-机器学习模型融合之Kaggle如何通过Stacking提升模型性能

    前言 之前的文章中谈到了机器学习项目中,要想使得使得机器学习模型进一步提升,我们必须使用到模型融合的技巧,今天我们就来谈谈模型融合中比较常见的一种方法--stacking.翻译成中文叫做模型堆叠,接下 ...

  5. 深度学习核心技术精讲100篇(十六)-搜索引擎Indri系列之如何建立索引 (Indexing)检索评价 (Evaluation)

    前言 在为文档集建立索引时,需要执行IndriBuildIndex path-to-to-index_parameter_file.这里的index_parameter_file是xml格式的参数文件 ...

  6. 深度学习核心技术精讲100篇(十五)-搜索引擎Indri系列之安装及使用

    前言 Indri是Lemur项目衍生的一个基于语言模型的新的搜索引擎,由University of Massachusetts和Carnegie Mellon University合作开发. 安装 下 ...

  7. 深度学习核心技术精讲100篇(十八)-巨量数据下美团是如何实现数据治理的?

    背景 大数据时代的到来,让越来越多的企业看到了数据资产的价值.将数据视为企业的重要资产,已经成为业界的一种共识,企业也在快速探索应用场景和商业模式,并开始建设技术平台. 但这里要特别强调一下,如果在大 ...

  8. 深度学习核心技术精讲100篇(二十四)-简单谈下深度学习在中文分词中的应用

    前言 随着深度学习的普及,有越来越多的研究应用新模型到中文分词上,让人直呼"手快有,手慢无".不过这些神经网络方法的真实水平如何?具体数值多少?以Sighan05中的PKU数据集为 ...

  9. 深度学习核心技术精讲100篇(四十三)-人工智能新技术-知识普及篇:一文带你深入认识下联邦学习的前世今生

    前言 联邦学习(Federated Learning)作为人工智能的一个新分支,为机器学习的新时代打开了大门. 本文为您解读: 1. 联邦学习为什么这么热? 2. 联邦学习能做什么? 3. 三合一速成 ...

最新文章

  1. 通过sessionid获取session php,php如何返回sessionID和如何通过sessionID获取相关的session...
  2. MSP430单片机输入与输出
  3. mui用ajax上拉加载更多,mui上拉加载更多的使用
  4. php 调用 perl,perl中如何调用R语言
  5. 如何将物理服务器转换成基于的Vmware ESXi虚拟服务器
  6. storm-基本概念
  7. uni app项目资讯列表展开与收起
  8. 新建Office文件丨默认模板文件
  9. XMPP即时通讯机制
  10. flashfxp中文破解版|flashfxp v5.4绿色破解版下载免注册码(强大的fxp/ftp客户端)
  11. 关键词作用和选择技巧
  12. plc控制可调节阀流程图_基于plc的电机控制系统设计.doc
  13. 170313-pyGUI爬虫和正则回溯陷阱
  14. Spring源码解析【完整版】--【bilibili地址:https://www.bilibili.com/video/BV1oW41167AV】
  15. 让我们愉快的切割吧 - 4:如何在无特定间隔符下拆分字母和数字
  16. android 跳转oppo应用中心_Android 遍历手机应用,跳转应用市场详情页面
  17. J-Link 安装和配置
  18. luoguP5108 仰望半月的夜空 [官方?]题解 后缀数组 / 后缀树 / 后缀自动机 + 线段树 / st表 + 二分...
  19. [精选]大学生实习报告怎么写?
  20. 智能手机是如何迭代的?消除鱼龙混杂珠虐待

热门文章

  1. (Mirage系列之十)Mirage经典案例之系统恢复
  2. 轻量级UIImageView分类缓存 库 AsyncImageView 使用
  3. DiscuzNT改造-远程内容自动采集-DNT2.5(定时采集、源码下载)
  4. 如何参与github上的开源项目?
  5. python知识点:上下文管理器[__enter__ 和 __exit__ ]
  6. PAT甲级1108 Finding Average :[C++题解]stof、字符串变成浮点数、try和catch捕获异常、C++语法题
  7. GRE核心词汇助记与精练-List12转
  8. 机器学习week3课后作业
  9. jmeter linux安装,Linux下安装Jmeter
  10. mysql pool not open_安装 MariaDb 时报错:Could not open mysql.plugin table