阿里妹导读:阿里搜索直通车广告业务有着巨大的体量和影响力,其技术工作具有非常高的挑战性。本次阿里妈妈在WWW 2018公开的新一代智能检索模型工作,是搜索直通车算法团队的同学一次从实践出发,将技术创新和业务诉求相结合的范例。

作者:闫肃,林伟,吴天舒,肖道锐,吴波,刘凯鹏

WWW大会(The International World Wide Web Conference),是一年一度关于互联网未来发展方向的首要国际学术会议,旨在聚集世界各地学术界和工业界的精英,一起进行关于网络演进、相关技术标准化等前沿话题的分享与讨论。

WWW 2018将于4月在法国里昂举办,其中阿里巴巴一篇介绍搜索直通车新一代智能广告检索模型的论文《Beyond Keywords and Relevance: A Personalized Ad Retrieval Framework in E-Commerce Sponsored Search》以其独特的原创性被大会收录,评委一致认为该方法是对传统搜索广告检索框架的重新定义。这篇论文将在会议上进行口头报告。

搜索直通车是阿里巴巴为淘宝和天猫卖家量身定制,按点击付费的效果营销工具,其承载的淘系搜索广告业务是阿里巴巴电商生态体系下的最重要业务之一,在创造整个集团主力营收的同时,也承担着重要的生态调节功能。本次阿里WWW 2018论文,是搜索直通车首次公开其自研的新一代智能检索模型,价值巨大。

阿里搜索直通车广告业务有着巨大的体量和影响力,其技术工作有着非常高的挑战性。面对淘系搜索广告业务场景中真实存在的各种痛点和挑战,阿里技术一线的同学们不断地进行技术探索,通过一次次的技术突破和创新,解决了大量的业务难题。本次阿里妈妈在WWW 2018公开的新一代智能检索模型工作,就是搜索直通车算法团队的同学一次从实践出发,将技术创新和业务诉求相结合的范例。

图1:“新一代”搜索广告智能检索框架

在论文中,阿里的技术同学突破了以“关键词”和“相关性”为核心的传统搜索广告检索框架,提出了新一代的搜索广告智能检索模型。新一代搜索广告智能检索模型引入用户行为异构图挖掘、机器学习等相关技术,通过模型学习的方式智能构建索引,解决了传统搜索广告检索系统不能解决的种种痛点,在搜索直通车业务线上取得了出色的效果,给广告商、用户和平台带来了三赢。

图2:搜索广告系统由三方参与:广告商、用户和系统平台

在搜索广告系统中,每一次搜索广告的展示、点击和转化都需要三个参与方(广告商、用户和平台)的密切合作。平台是用户搜索请求和广告商投放的广告之间的桥梁,进行着流量匹配、广告展现等工作。其中,广告检索模块负责理解用户的搜索意图,快速准确地从海量广告中检索出一个小规模的高质量广告候选集。广告检索模块需要兼顾系统的效果与效率,因此在算法工作中存在着巨大的技术挑战。

在传统的搜索广告系统中,广告商必须为自己的广告选择竞价关键词。平台进行广告检索时会受到竞价关键词的约束。如果广告商没有事先为广告购买相应的关键词,那么即使用户搜索请求与广告紧密相关,平台也不会检索回这些广告。但是,受限于市场信息的缺失和投放管理的巨大成本,广告商有时并不能及时准确地为自己的广告选择出最合适的关键词。在这种情况下,广告检索算法不能实现最优的流量匹配,给广告商、用户和平台三方均带来了损失。

此外,传统的搜索广告检索模型只关注于搜索请求与广告之间的相关性;这往往和平台的目标(RPM、CTR、GMV等)并不完全一致。如何在考虑相关性的同时,兼顾平台目标和用户体验,是广告检索模型需要解决的巨大难点。

近年来,越来越多的个性化信息被引入电商搜索广告系统,如用户在平台上的浏览、点击、交易等行为。一方面,这些个性化信息能够帮助广告检索模型更好地理解用户的搜索意图。但另一方面,个性化信息也给广告检索带了新的挑战:面对从各种复杂丰富的个性化信号通道检索回的广告,检索模型需要能够高效、准确地对其按照统一标准快速排序。这个问题,在目前已知的工作中,均没有得到有效地解决。

图3:用户行为异构图图示例。图中包含了三种节点:用户搜索信号、广告检索键和广告。用户搜索信号和广告检索键之间的边表示改写,广告检索键和广告之间的边表示广告海选。

面对上述传统搜索广告检索系统中存在的各种难题和挑战,阿里妈妈搜索直通车算法团队的同学提出了一种创新的搜索广告智能检索系统。新的智能检索系统首先使用用户在平台上的历史行为构建出一张庞大复杂的用户行为异构图。异构图中节点分别表示“用户搜索信号”、“广告检索键”和“广告”,边分别表示“用户搜索意图信号改写”关系和“广告召回”关系。接着,检索系统面向平台RPM、CTR等指标,学习异构图中边的权重,挖掘出重要的改写关系和广告召回关系。

这样,通过对异构图的深入挖掘,检索系统同时进行了“用户搜索意图信号改写”和“广告召回”两个检索子任务的统一联合学习。最后,检索系统根据模型的边挖掘结果,自动构建相应的“改写索引”和“广告召回索引”。通过两个模型智能构建的索引,检索系统将用户行为异构图和模型挖掘结果存储下来,实现了对线上搜索请求的高效检索。由于新的智能检索模型不再强制要求广告商购买关键词,所以新的检索系统使用OCPC策略,在保证广告商ROI的基础上,决定广告的点击收费。

图4:用户行为异构图庞大复杂,包含上百亿的节点和上千亿的边

图5:在考虑相关性的同时,模型智能构建的线上庞大索引兼顾了平台收益和用户体验

阿里妈妈搜索直通车业务有着巨大的体量和规模庞大的用户数据,因此新的智能广告检索模型在实际落地过程中,也面临着各种技术挑战。例如,在新的广告检索系统中,用户行为异构图庞大复杂,包含了上百亿的节点和上万亿的边,使得模型训练非常困难。为了兼顾检索系统的的效果和性能,阿里技术同学提出了多种异构图初始化方法,在尽量保留重要关系的前提下,实现了对异构图的剪枝,给模型的训练提供了良好的起点。

又例如,在搜索广告检索阶段,为了提高检索效率,模型无法获取足够多的信息或者使用过于复杂的特征。因此,在新的检索模型中,阿里技术同学有针对性地设计了两种“粒度”不同特征:稀疏特征和连续特征。前者是一种细粒度的特征,保证了模型效果;后者则是一种粗粒度特征,用于提高模型的覆盖能力和稳定性。

图5:离线模型效果

图6:出色的线上效果

新的智能搜索广告检索模型,在搜索直通车平台上取得了出色的效果,给广告商、用户和平台带来了三赢:新的检索模型通过OCPC的方式自动为广告出价,在保证了广告商的ROI前提下,把广告商从繁重的买词任务中解放了出来;通过引入丰富的个性化信号,新的检索模型能够更好地理解用户的搜索意图,达成更准确的流量匹配,提升了用户体验;新的检索模型不再单纯以相关性为目标,而是综合考虑平台的目标和用户的体验,提升了平台收益,也维护了平台的生态环境。

阿里妈妈在WWW 2018论文中公布的新一代搜索广告智能检索模型,不仅仅是国际一流的学术成果,更是搜索直通车算法团队的一线技术同学,以技术为驱动,服务广大淘宝、天猫用户和卖家的真实实践。

论文原文链接:https://arxiv.org/abs/1712.10110

阿里妈妈首次公开新一代自研智能检索模型 | WWW 2018论文解读相关推荐

  1. 基线系统需要受到更多关注:基于词向量的简单模型 | ACL 2018论文解读

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  2. ACL 2018论文解读 | 基于路径的实体图关系抽取模型

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  3. 脑洞大开的机器视觉多领域学习模型结构 | CVPR 2018论文解读

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  4. ICNet模型介绍 与论文解读

    ICNet模型介绍 Semantic Segmentation--ICNet for Real-Time Semantic Segmentation on High-Resolution Images ...

  5. AAAI 2018论文解读 | 基于文档级问答任务的新注意力模型

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  6. 模型剪枝经典论文解读:《Learning Efficient Convolutional Networks through Network Slimming》

    Learning Efficient Convolutional Networks through Network Slimming 摘要: CNN在落地中的部署,很大程度上受到其高计算成本的限制.在 ...

  7. 哈佛NLP组论文解读:基于隐变量的注意力模型 | 附开源代码

    作者丨邓云天 学校丨哈佛大学NLP组博士生 研究方向丨自然语言处理 摘要 Attention 注意力模型在神经网络中被广泛应用.在已有的工作中,Attention 机制一般是决定性的而非随机变量.我们 ...

  8. 论文解读 | 基于递归联合注意力的句子匹配模型

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  9. COLING 2018 最佳论文解读:序列标注经典模型复现

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

最新文章

  1. 捋一下测序后生信分析内容及其常用软件
  2. python能做游戏吗-python能做游戏吗
  3. jupyterlab debugger+显示图片
  4. 6. Leetcode 11. 盛最多水的容器 (数组-双向双指针)
  5. 光棍节程序员闯关秀过关全攻略
  6. ts自动编译声明文件_拥抱 TS:细数选择 TS 的 N 种理由
  7. 免费试用 | 多模 NoSQL 服务GeminiDB for Cassandra 全球首发
  8. uni-app 获取手机状态栏高度
  9. 桌面有u盘符计算机里没有了,教你电脑不显示u盘盘符怎么办
  10. 谷歌输入法/谷歌拼音输入法/WIN7好用的输入法
  11. win10资源管理器打开缓慢,自动搜索
  12. 无损数据压缩算法的历史
  13. CSC联合培养加拿大工签攻略
  14. 乐山市计算机学校灵异事件,我也来说个以前上学时候的灵异事件
  15. 中国居民身份证号码校验算法
  16. 关于偏度和峰度的解释(易错)
  17. 微信小程序云开发联表查询【聚合】
  18. 使用hutool工具导出Excel标题自定义顺序
  19. axure如何页面滑动时广告位上移_Axure实现滚动广告效果
  20. jenkins部署微服务项目

热门文章

  1. 神仙尬聊!哲学马云VS科技马斯克:生活就该每周工作12小时,开特斯拉玩遍三千城市...
  2. 利率计算中的套路!用 Python 告诉你究竟亏了多少!
  3. creo如何更改打开时显示方式_Creo4.0入门教程(3):设置工作目录和打开以及保存文件...
  4. python类加载器_利用Python反序列化运行加载器实现免杀
  5. invalid floating point operation什么意思_数据可视化有意思的小例子:Taylor Swift 歌词数据分析和可视化...
  6. 数据分析学习03-pandas
  7. linux sftp创建多用户,linux下SFTP多用户创建
  8. [TCP/IP] TCP如何实现流量控制和拥塞控制
  9. 组件 DataList 和 ObjectDataSource
  10. windows主机防护