丨目录：

· 摘要

· 背景

· 基础概念

· IL的行为分析

· 我们的方法

· 实验

· 总结

· 参考文献

▐ 摘要

在在线广告中，自动竞价已经成为广告主优化自身广告性能的必需工具，自动竞价允许广告主通过简单地设置计划目标以及相应约束来优化其关心的广告性能指标。之前的工作大多从单智能体的角度考虑自动竞价问题，少有考虑建模智能体之间的相互影响。本文从分布式多智能体系统的角度研究自动竞价智能体的设计问题，并提出了一个通用的多智能体自动竞价框架，称为MAAB（Multi-Agent Auto-bidding)，用以学习自动竞价策略。首先，我们研究自动竞价智能体之间的竞争与合作关系，并提出了一种基于温度调控的奖励分配机制来建立自动竞价智能体之间的混合协作竞争关系。通过调节竞价智能体之间的协作与竞争，从而达到了一种能够同时保证广告主自身效用和社会福利最大化的均衡状态。其次，我们观察到协作关系会引导智能体走向共谋出低价的行为模式，从而破坏平台生态。为了解决这个问题，我们引入了门槛智能体来为每一个自动竞价智能体设置一个个性化的竞价门槛。第三，为了将MAAB部署到拥有数百万广告主的大型广告系统中，我们提出了一种基于平均场方法，通过将目标相同的广告主分组为一个均值自动竞价智能体，广告主之间的复杂交互得以简化，从而使MAAB得以高效训练。在工业离线数据集以及阿里巴巴广告平台的实验表明，本文的方法在社会福利以及平台收入上能够超越基准算法。

论文下载：https://arxiv.org/pdf/2106.06224.pdf

▐ 背景

在线广告已经成为广告主提高其产品曝光机会的一种不可或缺的工具。在传统的广告拍卖中，广告主需要对每一次广告拍卖进行手动出价，然而这种细粒度的出价过程需要广告主对参竟环境有全面的了解。为减轻广告主的竞价优化负担，在线平台部署了各种类型的自动出价服务，例如谷歌的 AdWords 广告活动管理工具、百度的凤巢以及淘宝的超级推荐产品。这些服务使得广告主可以通过简单地表达其目标和约束，然后由自动出价智能体优化其广告效果。在线广告的自动出价的过程如下图所示：

其中自动出价智能体由广告平台负责设计，该智能体目标是在广告主设置的约束下，根据广告主设置的目标来优化其出价策略。在阿里妈妈超级推荐&引力魔方上存在多种诉求，大体可以分为三类：优化点击、优化成交和优化收藏加购。这些自动出价智能体之间存在相互竞争关系。为了学习自动竞价智能体的竞价策略，最自然的方式就是去为每一个自动竞价智能体求解一个独立的优化问题，而将其他智能体出价的影响隐式地建模为环境的一部分。然而这种方式忽略了拍卖机制本质上是一个多智能体系统，即最终的拍卖结果取决于所有智能体的出价，且任一智能体的策略的改变会影响到其他所有智能体的策略。因此若不做任何的协调，则所有智能体会处于一个无约束状态，进而降低系统的整体效果。因此我们希望构建一个多智能体框架，通过精心设计协作机制来引导智能体走向一个具有较好系统性能的均衡状态。然而这面临以下几个挑战：

智能体间复杂的竞争与合作关系使得联合优化个体效果和系统整体性能变得困难。一方面，在完全竞争的环境下，每个广告主的效用可以被极度优化，但预算充足或可接受成本更高的广告主将会以更加激进的出价方式以获得更多的曝光，导致流量的按需分配无法实现，进而导致对社会福利的负面影响。另一方面，在完全协作的优化范式中，尽管能够让所有广告主以最优化整体社会福利为目标进行出价，但这可能会牺牲单个广告主的效果，同时广告主可能学得“共谋”出低价的行为，导致平台受损。因此，为了平衡个体效果和整体社会福利，一个可能的方案是构建一个混合合作-竞争框架(MCC, mixed cooperative-competitive)，来使平台能够在社会福利和平台收入之间进行一个灵活的取舍。为实现混合合作-竞争，现有方案一般通过手动修改奖赏函数或改变与环境有关的参数来达到该目标，然而前者在拍卖场景下并没有一个确定的奖赏函数形式，而后者仅在模拟器中可行。
MCC中的合作关系可能会损害平台的收入，例如合作的出价智能体可能会共谋出低价。尽管保留价是一种保证平台收入的有效方法，但如何在MCC框架中优化保留价来减少对社会福利的影响仍是一个开放性问题。
MCC框架在工业界的实现也是一个巨大的挑战。理想情况下每个广告主对应一个智能体，但这个数量级过于巨大，且每个智能体得到的奖赏过于稀疏，导致难以学得一个较好的出价策略。

基于以上挑战，我们提出了合作-竞争多智能体自动出价框架(MAAB, Multi-Agent Auto-bidding)，其主要思想如下：

为了平衡出价智能体间的竞争和合作关系，我们提出了一种基于温度调控的奖励分配机制。即将一次拍卖中的奖赏根据softmax函数产出的权重分配给各方智能体。此外，softmax函数中引入的温度参数可以有效调控智能体之间的竞争与合作关系。
为了减少智能体合作共谋出价导致平台收入受损的问题，我们引入了门槛智能体来为每一个自动出价智能体设置一个个性化的竞价门槛。直觉上，门槛智能体的目标是通过提高竞价门槛来获取较高的平台收入，然而自动竞价智能体则具有一个相反的目标，即降低出价门槛使得可以以较低的成本获取流量。门槛智能体和出价智能体是通过一种对抗的方式进行联合训练，直到彼此策略达到某种均衡点。
我们提出一种类似平均场的方法来解决来自工业场景大规模多智能体系统的挑战。通过将同目标的智能体聚合为一个平均自动出价智能体，百万级别广告主之间复杂的交互可以被简化，使得在大规模多智能体系统中部署自动竞价服务变为可能。

▐ 基础概念

1. 自动出价模型

广告主诉求和约束多种多样，预算约束是最常见的一种约束形式。为了简化说明，我们以BCB计划为例介绍我们的机制设计。

对BCB计划来说，假设一段时间内(如一天)有T个参竟机会，日预算为的计划i对机会t出价。如果他出价最高则竞得该流量，并按照GSP进行扣费，消耗记为，并获得价值。BCB计划目标则是在总消耗小于预算的约束下，最大化其获得的价值，即：

其中表示是否竞得流量。

2. 马尔科夫过程

一个部分观测的马尔科夫过程可以表示为

402 Payment Required

。其中s是环境的真实状态，o是能够观测到的状态，观测函数为：。在任一时刻，任一智能体根据观测做出的动作为：。当所有智能体动作执行后，每个智能体可以得到一个奖赏，且环境状态变为s'，转移函数记为：。为折扣系数，每个智能体需要通过优化其策略最大化累计奖赏：我们采用马尔科夫过程建模自动出价中的多智能体系统。每个自动出价智能体i的动作为出价，其观测状态由三部分构成：，分别为剩余预算、流量价值和剩余竞价机会。出价受业务限制，一般存在上下界。奖赏为，竞得后通过二价算得扣费，则下一时刻的观测变量为

402 Payment Required

。每个智能体目标为优化竞得流量的价值总和：

3. 独立学习 (IL, Independent Learner)

在多智能体强化学习领域，最常用的训练方式是同时学习非中心化的价值函数和策略，比如Independent

WSDM 2022 | 一种用于在线广告自动竞价的协作竞争多智能体框架相关推荐

OIF-BSO：一种用于多模优化问题的头脑风暴优化的优化识别框架
OIF-BSO:一种用于多模优化问题的头脑风暴优化的优化识别框架参考文献 <An optima-identified framework with brain storm optimizati ...
【paper 1】2022 一种用于脑内出血血肿体积检测的鲁棒性深度学习分割方法-英文
A Robust Deep Learning Segmentation Method for Hematoma Volumetric Detection in Intracerebral Hemorr ...
组会汇报(本科)-在复杂楼层背景下，一种基于深度强化学习的目的楼层预约调度算法的多智能体电梯群控系统的研究
项目代码地址总体流程引入概念,说明问题,讲解论文,提出方案对综述的引用说明,在老师给的综述中,文献调研时间是2019,从技术的发展历程角度考虑,本文只作部分引用,更多地倚靠2020左右地文章,因 ...
【COMA】一种将团队回报拆分为独立回报的多智能体算法
文章目录 1. COMA 解决了什么问题(Motivation) 2. COMA 怎么解决独立回报分配问题(Method) 2.1 核心思想 counterfactual baseline 的提出 2 ...
随机样本一致性：一种用于图像分析和自动制图的模型拟合模型（1）--RANRAC
经典的参数估计技术,如最小二乘,(根据指定的目标函数)优化了函数描述(模型)对所有数据的拟合.这些技术没有检测和排除严重错误的内部机制.它们是基于假设(平滑假设)的平均技术,即任何数据与假设模型的最大 ...
随机样本一致性：一种用于图像分析和自动制图的模型拟合模型（6）--（计算共线矩阵T）
(一)计算共线矩阵T (注意:转置就是行变列) 例子: 具体可参考原论文:Martin A. Fischler & Robert C. Bolles (June 1981). "Ra ...
随机样本一致性：一种用于图像分析和自动制图的模型拟合模型（5）--（P4P的解析解）
(一)P4P问题的解析解条件:已知物平面和像平面中的四对同名像点:透视中心到像平面的距离(即摄影系统的焦距):像平面中主光点的位置(位置,也就是像平面中的坐标,该点是主光轴在像平面上的焦点): 求解 ...
随机样本一致性：一种用于图像分析和自动制图的模型拟合模型（4）--（计算透视中心的三维位置）
(一)计算透视中心的三维位置给出了透视四面体的三个控制点和三条腿的长度,透视中心的三维位置可以确定如下: (1)构造一个平面P1,它相对于平面P-ABL是正交的.这个平面的构造不需要知道透视中心L的 ...
随机样本一致性：一种用于图像分析和自动制图的模型拟合模型（3）--（P3P的迭代解）
(1)P3P问题的迭代解法(待理解) 求解P3P问题的解析解较为复杂,有时可以通过足够的迭代来求解P3P问题显得更加简便.下滑控制点三角形中的任意一点,寻找其它两个顶点位于各自腿上的三角形位置.如 ...

WSDM 2022 | 一种用于在线广告自动竞价的协作竞争多智能体框架

▐ 摘要

▐ 背景

▐ 基础概念

1. 自动出价模型

2. 马尔科夫过程

402 Payment Required

402 Payment Required

3. 独立学习 (IL, Independent Learner)

WSDM 2022 | 一种用于在线广告自动竞价的协作竞争多智能体框架相关推荐

最新文章

热门文章