▐ 1. 摘要

图模型能够有效的挖掘数据中的关系信息来增强数据表示,在研究和工业领域都被广泛应用。阿里妈妈搜索广告技术团队于2019年开源了工业界首个支持大规模分布式的深度图学习平台Euler(https://github.com/alibaba/euler),被业界广泛使用(Github Star:2.7K)。基于Euler框架,我们进行了在不同算法模块的多版算法迭代升级,本文针对电商检索系统中海量用户行为以及多视图并存(如共同点击、共同竞买或文本相似等)带来的挑战,我们将介绍在搜索广告检索模块(ad retrieval)中的一种可扩展的多视图广告图匹配引擎(SMAD)。利用电商商品体系的类目树结构,我们提出了一种类目相关性约束下的图采样和分割算法,可以实现大规模图的分布式训练;同时,为了更好的捕捉多视图结构,我们提出了一种并行的多视图训练模型,可以将不同视图下的信息有机融合起来。在阿里搜索广告场景中,该方法在相关性、覆盖率和平台营收等指标上均取得了明显的效果。该项工作论文发表在 CIKM 2021 ,欢迎交流讨论。

▐ 2. 引言

在电商搜索平台中,用户通过搜索词(Query)来反映其意图,平台会给用户返回一系列产品,包括广告(Ad)和自然商品(Item)。为了平衡效率和效果,如图(1)左下所示,业界搜索系统通常采用多阶段的搜索架构:首先使用简单高效的模型从大规模的广告候选集中检索出更小规模的相关的广告(广告检索模块,ad retrieval),然后使用更加复杂精细的模型对检索出广告进行排序(排序模块,ad ranking)。在本文中,针对广告检索模块,我们提出使用图嵌入技术来得到 Query 和 Ad 的表征,并通过 ANN(Approximate Nearest Neighbor)来检索相关广告,保证计算效率的同时使用图模型的表征能力优势提升匹配效果。

图(1):淘宝搜索广告系统架构,包含了广告检索和广告排序两个阶段。在广告检索阶段,我们提出了SMAD检索算法,通过图学习的方式来学习用户搜索和广告之间的匹配关系。

然而,直接将传统的图嵌入方法[2, 4-8]应用于电商搜索广告中的检索任务,会遇到可扩展性和相关性下降的问题。考虑到工业场景下具有数十亿规模的节点(Query、Item 和 Ad),因此需要多台机器来存储图数据,从而产生较高的通信成本。此外,在全图上进行随机游走可能导致相关性下降,例如,一个 Query 节点“连衣裙”和一个连衣裙相关的Ad节点有共同点击连边,而后者与“毛衣”相关的商品也具有共同点击关系(例如,在同一个 Query “女装”下),现有的方法[3,7]因为没有限制从“连衣裙”到“毛衣”的随机游走路径从而无法保证相关性。此外,在类似淘宝的电商平台,在 Query 和 Item/Ad 之间有多种类型的关系,例如共同点击,文本相似等等,可以把每种关系将节点关联起来的图看成是一种“视图”(view),单独视图通常都是稀疏和有偏的,需要对多视图进行融合来实现互补。同时,淘宝上有数十种节点属性,包括类目、品牌、店铺等,充分利用这些信息可以提升模型的泛化能力。因此,我们希望设计一种方法能够有效利用丰富的节点属性和多视图信息来提升模型效果。

在本文,我们提出了一个新颖的广告检索框架,即可扩展的多视图广告检索(Scalable multi-view ad retrieval,SMAD),并已在淘宝广告的生产环境中部署。其创新之处包括以下三个方面:

首先,我们提出利用电商系统中的类目树以及图的聚集性来进行游走和采样。在电商平台中,每个节点(Query/Item/Ad)均会被分配到类目树中的某一个节点(如图(2)所示)。为了尊重用户的搜索意图,Query 和 Ad 应该在同一个子类目下进行匹配。具体地,SMAD 通过类目树的性质来进行子图内邻居搜索,这种简单有效的策略能显著提升通信和计算效率,同时能够增强 Query 和 Ad 之间的相关性。

图(2):类目树示例,搜索词”实木北欧床”隶属于“住宅家具”的子类“床类”的子类“实木床”

其次,我们提出了一个有效的并行深度神经网络(Parallel deep Neural Network,PNN)架构来从节点丰富的属性和节点间多视图关系中学习到节点表示信息。具体地,它对每个关系视图学习一个DNN表示,根据节点在不同视图中的特征和相关程度来学习特定视图下的节点表征,最后使用注意力机制将同一个节点的多个视图表征融合为一个更加鲁棒的表征。

最后,我们提出了一个高效的分布式模型部署方案,该模型将大规模图分解为多个较小的子图,并可以独立地在本地运行,从而实现训练的并行化。我们将 SMAD 部署在淘宝的无线广告搜索平台中,并通过离线和在线A/B测试来表明我们的系统可以显著提高广告检索性能以及提升平台收入和用户体验。

▐ 3. SMAD模型训练和应用

图(1)左上展示了 SMAD 在 Query 和 Ad 之间进行匹配的流程。它首先从用户的历史行为以及 Query 和 Item 的文本描述中构建一个多视图的 Query-Item-Ad 关系图,然后基于类目约束下的随机游走生成训练样本,最后应用 PNN 模型来学习图中每个节点的表示,并被用来进行最终的广告检索。下面将详细介绍 SMAD 的设计细节。

3.1 多视图构建

在 SMAD 中,Query-Item-Ad 图由三种类型的节点组成,包括Query、Item和Ad,每个节点都包含ID、类目、品牌、价格等特征。图中包含以下边类型:

1)点击关系边,给定在一个用户搜索请求下的点击序列,其中代表被点击的自然结果商品(item)或广告商品(ad)。我们在两个被点击的Item(或Ad)节点和之间建立共同点击边,以及在每个被点击节点与Query节点之间建立点击边。

2)文本相似关系边。由于电商系统中每天都会新建新的广告,我们需要依靠其文本属性进行冷启动。具体地,我们计算Query和Item/Ad标题之间的Jaccard相似性,并作为权重来建立文本相似边。

3)共同竞价关系边。在广告搜索平台中,广告主通常会为每个广告指定一组<竞价词,价格>,用来表达他们希望触达的流量和此广告被用户点击时支付的金额。如果两个广告至少有一个相同的竞价词,它们就会被建立一条共同竞价边。

3.2 类目树约束下的图采样

我们使用随机游走[3, 7]策略来生成训练样本。一方面,正如上文中所提到的,在游走过程中相关性会衰减;另一方面,大规模图训练的时间代价也很高。由于图的规模很大,无法装入单台机器的内存中,所以一般进行分布式图存储,使得在训练过程中需要在机器间进行大量的通信。为了解决这些问题,我们根据电商系统中的分层类目树结构,建立了一个有效的采样和图划分策略。具体地,在淘宝上,一个类目树包含了大约几万个类目,最多有5个级别,例如“圆领衫≤长袖针织衫≤毛衣≤上衣≤女装”。Query、Item和Ad节点都可以被分配至类目树中的某一个节点。

3.2.1 类目约束下的随机游走

我们提出了一种类目树约束下随机游走,要求游走路径需要遵守类目层次,也就是说,游走的路径必须是非递增的。通过进入更低级的子类目或者在同一子类目上停留更长时间更能够表达用户的真实意图,例如图(3)中的“

CIKM 2021 | 图模型在广告检索(Ad Retrieval)中的应用相关推荐

  1. CIKM 2021 | 基于异质图学习的搜索广告关键词推荐

    丨目录: - 摘要 - 背景 - 问题定义 - 方法 - 在离线实验 - 结语 - 相关文献 ▐ 摘要 近年来,在线广告在消费者侧的大量工作受到了广泛关注,对广告平台来说,广告主营销优化工作在广告系统 ...

  2. CIKM 2021 | 基于异质图学习的搜索广告关键词推荐模型及实践

    猜你喜欢 0.[免费下载]2021年11月热门报告盘点1.如何搭建一套个性化推荐系统?2.从零开始搭建创业公司后台技术栈3.全民K歌推荐系统算法.架构及后台实现4.微博推荐算法实践与机器学习平台演进5 ...

  3. 从二值检索到层次竞买图——让搜索广告关键词召回焕然新生

    丨目录: · 背景 · 广告改写的历史与新目标 · 从两阶段到一段式:二值海选 · 从一段式到联合召回:层次竞买图 · 关键词召回的业务思考 本文主要分享过去一年我们在搜索广告召回的传统领域--关键词 ...

  4. CIKM 2021 | AutoHERI: 基于层次表示自动聚合的 CVR 预估模型

    本文主要介绍阿里妈妈大外投广告算法团队在 CVR 预估模型与多任务学习方法上的一些探索.我们提出了一种基于层次表示自动聚合的 AutoHERI 模型(Automated Hierarchical Re ...

  5. 微信看一看强化学习推荐模型的知识蒸馏探索之路丨CIKM 2021

    猜你喜欢 0.[免费下载]2021年11月热门报告盘点&下载1.如何搭建一套个性化推荐系统?2.从零开始搭建创业公司后台技术栈3.全民K歌推荐系统算法.架构及后台实现4.微博推荐算法实践与机器 ...

  6. CIKM 2021 | Deep Retrieval:字节跳动深度召回模型论文精读

    ©作者 | 杰尼小子 单位 | 字节跳动 研究方向 | 推荐算法 文章动机/出发点 这是一篇字节跳动发表在 CIKM 2021 的论文,这一项工作在字节很多业务都上线了,效果很不错.但是这篇文章整体读 ...

  7. CIKM 2021 | 多场景下的星型CTR预估模型STAR

    ▐ 摘要 阿里妈妈展示广告需要为大量的场景提供广告排序能力,在业务场景数急剧膨胀的背景下,我们开始研究多场景联合建模.本篇文章主要介绍,我们在多场景建模下遇到的挑战.挑战背后的思考以及算法工程 co- ...

  8. CIKM 2021 | 淘宝多场景推荐排序模型ZEUS

    本文介绍大搜索算法团队发表于CIKM 2021 的论文 Self-Supervised Learning on Users' Spontaneous Behaviors for Multi-Scena ...

  9. CIKM 2021 | 基于池化结构搜索的图分类

    论文标题: Pooling Architecture Search for Graph Classification 论文地址: https://arxiv.org/abs/2108.10587 代码 ...

最新文章

  1. CAS、原子操作类的应用与浅析及Java8对其的优化
  2. PHP mysqli 扩展库(面向对象/数据库操作封装/事务控制/预编译)
  3. vm无法删除干净老版本,新版本无法安装解决
  4. c语言常用的字符串处理函数
  5. 使用ABAP事务码STAD分析Asynchronous RFC call性能
  6. 三瞬属性matlab,matlab:out of memory 1
  7. JAVA项目中找不到tomcat_Tomcat启动过程中找不到JAVA_HOME解决方法
  8. 拆分窗口QSplitter
  9. jackson java反序列化_使用Jackson JSON映射器序列化/反序列化java 8 java.time
  10. LeetCode 150. Evaluate Reverse Polish Notation
  11. JAVA Eclipse如何安装Swing
  12. linux系统堆栈内存分配,Linux中堆栈内存在物理上是连续的吗?
  13. 云迁移实践:VMware虚拟机迁移到移动云
  14. 对车辆路试数据集mtcars进一步分析_【案例】图解电磁阀及其故障诊断分析
  15. EUI学习之自定义皮肤
  16. CPU彪高分析及解决
  17. ansys matlab 温度场,ANSYS温度场分析步骤.pdf
  18. 云呐:固定资产清查盘点方案,固定资产清查范围是怎样的?
  19. 微信小程序开发文档——地图
  20. 天津室内设计培训班:成为一名合格的室内设计师需要掌握哪些知识

热门文章

  1. char un 数组printf_c语言中能不能用printf函数直接输出数组?如printf(%d,a[3][3]);
  2. python PIL 打开\显示\保存图像
  3. 神经计算棒 [Error 5] Toolkit Error: Stage Details Not Supported: Transpose
  4. php post防止hash攻击,MyBB editpost.php脚本'posthash' 参数SQL注入漏洞
  5. jeecgboot 弹出modal刷新主窗体_保利天汇|自然的温度,刷新园林美学天际/辽宁房产特刊...
  6. Failed to capture snapshot of output files for task ':UserAppModule:packagePreDebug' property 'outpu
  7. 计算机设计文献参考,优秀计算机设计论文参考文献 计算机设计论文参考文献数量是多少...
  8. python传输大文件_python之socket运用之传输大文件
  9. mongoDB 小练习
  10. 环境变量PATH、mv命令、cp命令、文档查看命令(cat、more、less、head、tail)