WSDM 2022 | 基于元学习的多场景多任务商家建模

丨目录：

· 前言

· 背景

· 问题定义

· 算法建模

· 实验

· 总结展望

· 参考文献

· 关于我们

▐ 前言

面向淘系商家或广告主的商家理解与建模，是阿里妈妈客户生态建设的关键一环。有别于C端的用户增长与建模，在数据层面，商家端的客户意图与诉求、操作行为更加多样、复杂，而且数据稀疏；在目标层面上，商家建模的目标更加多样化，包括目标客户多样化以及预测指标的多样化；在应用场景层面上，随着淘系广告业态越来越丰富（比如搜索广告、信息流广告、品牌搜索广告、直播广告、互动广告等），商家建模也需要适应多场景的建模需求，可以快速响应不同场景的业务需求。

在本文中，我们提出了一种基于元网络的多场景多任务模型（M2M），服务于阿里妈妈横向增长的多种业务，模型具备多目标多场景的预测能力，可以快速赋能不同场景下新的业务需求。该项工作论文发表在 WSDM 2022，欢迎交流讨论。

论文下载：

http://arxiv.org/abs/2201.06814

▐ 背景

图一平台与广告主交互示意图

广告主在阿里妈妈平台体系中发挥着重要的作用，满足广告主的营销需求并促进广告主店铺的发展对于电商平台的长期繁荣至关重要。然而，无论是工业界还是学术界，目前的研究更加侧重于用户侧建模（如CTR预估），对于广告主建模的关注较少。和用户侧建模方式不同，广告主建模涉及了多种任务，比如广告主店铺的点击、消耗、平台活跃天数等。除了多任务的需求，广告主建模还需要考虑多场景问题。广告主进入阿里妈妈平台后，可以选择在不同的场景（产品线）进行投放。广告主建模是阿里妈妈平台与广告主交互的基础，交互形式如图一所示：首先广告主在单个/多个场景投放广告；然后模型给出多个场景多个任务下的预测结果；最后模型将预测结果和平台多样的产品/运营工具结合，对广告主产出定制化的任务/消息等，帮助广告主在平台留存以及成长。

图二解决思路示意图

在广告主建模过程中，我们需要建模多场景下的多种任务。在具体建模多任务多场景问题时，我们遇到了很多挑战。第一，模型可扩展性问题，常规解法可以对每个场景/任务分别建模，但是这种常规解法随着场景的增多需要建设&维护的模型也会随之增多，在工业界并不具备可扩展性；第二，样本稀疏问题，由于不同的场景建立时间、承接广告主数量等有所差异，导致在小场景或者新场景下模型会面临样本稀疏问题，模型的训练效果会受到影响；第三，场景关系复杂的问题，不同场景之间有着复杂的关联关系，场景的关联关系甚至会随着任务的不同而发生变化，模型需要在捕捉多个任务之间固有关联的基础上，捕捉不同场景下多个任务的动态关联。常规的MTL解法如图二(a)所示，底层结构为共享信息结构，通过gate（MMOE[1]/PLE[2]等）或者attention（MRAN[3]等）方式，得到特定任务下的信息表征，再通过特定任务的塔结构，最终得到特征任务的预测结果。但是在整个模型架构中没有显式的表征场景信息，无法学习复杂的场景关联。

模型的主要创新点有：

通过元网络Meta Unit显式的表征场景信息，Meta unit和底层MTL同步进行参数更新，使得模型具备可扩展性；
在元网络Meta Unit的输入信息中，我们引入了丰富的特定场景相关的先验信息，缓解了小场景或者新场景下样本稀疏的问题；
模型将元学习思想和多任务模型结合，元网络作为顶层网络，MMoE、PLE等多任务模型作为底层网络，使得模型在捕捉多个任务之间固有关联的基础上，还可以捕捉不同场景下多个任务的动态关联。

▐ 问题定义

广告主在与阿里妈妈平台交互的过程中会包含很多信息，归纳为4大类信息：场景属性信息，定义为，包含广告主的场景类型，以及相关的一些统计特征；广告主画像信息，定义为，包含店铺类型等基础属性信息；多类别行为序列信息，定义为，表示在时间窗口 T 内的多种类别的行为特征。具体的，通过表征广告主在时间点时发生的登录、操作等行为特征；多类别效果序列信息，定义为，表示在时间窗口内的效果特征。具体的，通过表征广告主在时间点时在平台产生的消耗、点击等效果特征。

给定场景属性信息，广告主画像信息 , 多类别行为序列信息 , 多类别效果序列信息 , 我们需要训练一个end-to-end模型，预测在未来天内的多种场景（直通车、超级推荐、极速推等）下的多类任务（店铺消耗、店铺点击、店铺在平台的活跃天数等），公式化如下：

其中，是我们需要学习的函数，预测的时间周期可以扩展为不同时间周期。

▐ 算法建模

图三模型框架图

模型整体的框架图如图三所示，主要包含两个网络：第一部分是主干网络，用来得到特征和任务的嵌入式表征；第二部分是元学习网络，主要包含三种结构：1）元学习单元：显式建模场景信息 2）Attention元网络：捕捉不同场景下多个任务的动态关联：3）tower元网络：增强特定场景的表征能力。其中Attention元网络和Tower元网络采取级联方式连接，Attention元网络的输出是Tower元网络的输入。以下对各子网络进行详细的介绍。

主干网络

主干网络的作用是对特征信息进行处理，得到特征信息的嵌入式表征，作为后面网络的输入。此部分最终得到的嵌入式表征有三种：Expert信息表征、任务信息表征和场景信息表征。

Expert信息表征

表示第个Expert信息表征，和表征序列信息，Dense表征连续型特征信息。在这里我们采用Transformer，函数对于序列信息进行提取。

任务信息表征

表示特定任务的任务信息表征，受到MRAN模型的启发，我们将不同类别的任务进行信息表征，和特征信息保持在同一维度。由于在测试集合中无法得到任务的表征信息，所以这里的任务信息表征是全局的而不是局部的。

场景信息表征

表示场景信息表征，在这里我们将场景信息和id类型信息拼接后，通过全连接层得到最终的场景信息表征。

元学习网络

图四元学习网络

元学习单元

元学习单元用来显式建模场景信息，和传统的建模方式（比如将场景相关信息作为输入特征加入到模型中）不同，为了更好的捕捉动态的场景关联关系，我们通过上节讲到的场景信息表征作为元学习单元的输入，元学习单元通过全连接层的方式将进行转化，为每个场景产出动态的网络weight和bias：

其中为场景信息表征，在经过全连接层后，再通过一个函数，最终得到weight matrix and bias vector 。通过这种方式最终得到特定场景的元表征后，每个场景动态的weight matrix and bias vector 会作为底层网络（Attention网络&Tower网络）的动态参数，参与到网络的学习以及替代底层网络进行梯度更新：

其中，是维度为的输入向量，是非线性的激活函数，可以是tanh、ReLU等等，是元学习单元的最终输出。我们把元学习单元的整个处理过程定义为函数。

Attention元网络

传统的alignment attention结构可以建模任务和特征之间的关联关系，但是忽略了动态的场景因素的影响。因此，我们设计了Attention元网络，可以在计算attention权重系数的时候引入场景信息，从而可以在不同场景下产出动态的attention权重系数：

其中，是维度为的Expert表征，是维度为的Task表征。是一个转换向量，得到权重系数。最终，通过对所有的加权求和，我们得到了对于特定任务的表征。

Tower元网络

在得到特定任务的表征之后，每个任务会通过Tower Layer，输出每个任务的预测结果。为了进一步增强特定场景的表征能力，和Attention元网络类似，我们在Tower Layer中引入了元学习单元：

模型训练

考虑到我们的多类别任务都属于回归任务，且反应变量Y近似符合泊松分布，我们采用Possion Loss作为损失函数，最终的优化目标为：

其中，等式右边的第一项表示对特定任务下loss的加权求和，第二项表示对顶层元网络和底层多任务结构的参数L2正则化处理，表征惩罚系数。对于每一个特定任务loss，计算公式为：

▐ 实验

离线实验

对于回归问题来说，通常使用MAPE（Mean Absolute Percentage Error）评测指标衡量模型的微平均效果，使用NMAE（Normalized Mean Absolute Error）评测指标衡量模型的宏平均效果。在我们的场景中，一些任务的Y值可能为0，在MAPE中无法计算，故用SMAPE（Symmetric Mean Absolute Percentage Error）替代MAPE。SMAPE和NMAE的计算公式为：

其中，N代表带评测的测试集中广告主的数量，和代表第i个广告主的预测结果和真实结果。

图五整体评估结果

图六整体评估结果可视化

我们评估了不同模型的实验结果如图五所示，我们可以看到我们提出的M2M模型相较于其他baseline在不同任务和不同场景下取得了更好的效果。具体来说，对于场景A、B、C的点击任务，我们相较于最佳基线效果在NMAE和SMAPE上提升比例分别为 (+ 4.7%, + 24.1%, + 26.7%)和 (+ 6.9%, + 5.4%, + 8.9%) 。同样的，在活跃天数任务上的提升分别为 (+ 13.3%, + 9.8%, + 12.8%) 和(+ 15.9%, + 24.1%, + 18.9%)。此外，我们发现MMOE，CGC（Customized Gate Control），Cross-Stitich方法优于单一任务学习方法，这表明多任务模型可以很好的捕捉任务之间的相关性。有趣的是，我们注意到对于M2M模型来说，相同的任务在不同场景下提升的比例有所差异，这可能与场景的数据稀疏程度不同有关，模型对于小场景（比如场景B和场景C）的提升作用更加显著，说明我们的模型通过元学习单元的方式，很好的捕捉了场景之间的关联信息，缓解了小场景或者新场景下样本稀疏的问题。最后，我们在图六呈现了模型性能的详细可视化，为了方便比较，我们将最好的基线模型CGC也在图中进行了展示。

在线实验

图七加速任务流程图

在离线验证的基础上，我们进一步在加速宝产品上验证算法升级的业务效果。加速宝产品的流程如图七所示，通过模型我们预测出广告主在未来一段时间的支出，点击和活跃天数等等，接下来我们选择平台活跃水平较低的客户，根据广告主在未来一段时间的支出，点击产出定制化的任务，广告主通过完成这些任务，得到一些权益奖励，促进在平台的活跃。我们比较了新旧两版模型的业务效果，新版本的模型取得了 + 2.59% 的活跃率提升和+ 2.09% 的每用户平均收入（ARPU）提升。

▐ 总结展望

本项工作中，我们针对多场景多任务的问题提出了一个高效且具有较强泛化能力的模型框架M2M，通过构建元学习单元显式建模场景信息。进一步的，为了更好地表征场景特定信息，我们提出了元学习网络，该网络由两个组件组成：Attention元网络模块和Tower元网络模块，这两个模块是分层组织的：Attention元网络模块位于较低位置以捕获不同场景间相关性，Tower元网络模块位于较高位置以增强特定场景特征的表征能力。我们通过离线和在线实验验证了模型的有效性，特别指出的是模型在小场景&新场景等数据稀疏的问题中效果提升更加明显。在未来工作中，我们将进一步的提高模型的通用能力，同时建模分类任务和回归任务；此外，将M2M模型和Optimization-based的元学习方法结合也是一个有意思的问题。

▐ 关于我们

我们是阿里妈妈客户增长算法团队，致力于构建良好的广告平台客户生态。我们的工作涉及广告主全生命周期理解与建模、营销异质内容理解&推荐、冷启动优化、客户机制策略等众多方向，相比C端用户增长具有更多的挑战。团队近一年在WSDM、CIKM等顶级会议发表多篇论文，技术氛围浓厚，业务前景发展广阔，欢迎感兴趣的同学加入我们！

投递简历邮箱：

alimama_tech@service.alibaba.com

▐ 参考文献

[1]Ma J, Zhao Z, Yi X, et al. Modeling task relationships in multi-task learning with multi-gate mixture-of-experts[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018: 1930-1939.

[2]Tang H, Liu J, Zhao M, et al. Progressive layered extraction (ple): A novel multi-task learning (mtl) model for personalized recommendations[C]//Fourteenth ACM Conference on Recommender Systems. 2020: 269-278.

[3]Zhao J, Du B, Sun L, et al. Multiple relational attention network for multi-task learning[C]//Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2019: 1123-1131.

END

也许你还想看

丨阿里妈妈技术团队4篇论文入选WSDM 2022

丨WSDM 2022 | 合约广告自适应统一分配框架

欢迎关注「阿里妈妈技术」，了解更多~

疯狂暗示↓↓↓↓↓↓↓