WSDM 2022 | 点击率模型特征交叉方向的发展及CAN模型介绍

丨目录：

· 摘要

· 背景

· 问题和方法

· Co-Action Network方案

· 方案扩展

· 总结

· References

· 关于我们

▐ 一、摘要

排序模块在广告、推荐和搜索等系统中扮演着非常重要的角色。排序结果会直接影响用户的体验。因此排序技术一直是工业界和学术界的研究热点，其中的点击率预估技术更是重中之重。而特征交叉则是点击率预估模型的重要技术方向，本文介绍了近年来特征交叉的热门技术方案及其挑战，并提出了一种新的特征协同交互模型Co-Action Network（CAN），通过提高非线性特征交互的隐式学习容量来探索特征协同交互的潜力。该模型相关工作论文已发表在WSDM 2022，欢迎阅读交流。

论文下载：https://arxiv.org/abs/2011.05625

▐ 二、背景

我们团队主要负责展示广告场景的排序预估，点击率预估模型的性能除了影响平台营收，也关系到用户体验和广告主的营销效率。在展示广告的业务场景下，点击率预估模型的目标是预估给定广告、场景、用户的情况下该用户会点击该广告的概率，即。近年来随着深度学习的发展，点击率预估模型也逐渐从传统的LR、FM、MLR等模型过渡到DNN模型，其整体的表达方式可以看做是一种Embedding&MLP的范式，基于这种范式逐渐涌现出了两类优秀的工作，一类是通用范式的特征交叉，例如：xDeepFM, ONN，FiBiNET等，这部分模型充分利用神经网络的学习能力挖掘特征信息的低阶、高阶融合从而提升点击率预估能力。另一类是基于物理意义先验的显式语义特征交互，例如DIN和PCF-GNN等，分别采用用户行为序列和图结构去捕捉用户和目标商品的相关性。在后者我们团队提出了兴趣建模这一技术方向，并持续耕耘产出了DIN/DIEN/MIMN/SIM等工作。因此我们也希望能在通用范式的特征交叉迭代中寻求技术增长，一开始我们的尝试是基于笛卡尔积的特征交叉，但远未达到预期的目标，随后我们打破以往的笛卡尔积组合惯性，尝试直接对序列特征和目标特征进行笛卡尔积组合，取得了不错的离线结果，不过在工业化上线的时候，这种方法在离线都遇到各种问题，且严重威胁到未来的技术迭代。因此我们转而尝试FM等参数化方案，这类方案性能可以，但效果远不如笛卡尔积。于是我们转而思考是否有更优雅的方式能够覆盖并超越笛卡尔积的效果，且不影响未来技术更迭。基于这样的思考路径，我们展开相关研究并最终设计出了Co-Action Network（CAN）。

▐ 三、问题和方法

通用范式的特征交叉指的是通过组合两个（或多个）特征来学习特征间非线性的组合高阶表达，其收益则是来自通过挖掘特征之间的共现组合，拓展了特征输入的表达，从而使得模型能更容易的学习到共现组合提供的信息。例如在真实的业务场景下，我们可以挖掘海量数据中用户特征和商品特征间的共现信息，如下图所示：

上述特征交叉的工业实现方案可以主要分为非参数化方案和参数化方案。

非参数化方案：显式的表达特征交叉ID，例如特征求交，笛卡尔积特征等。

参数化方案：主要通过模型参数隐式拟合的形式去捕捉特征的非线性组合能力，而参数化方案在DNN基础上的创新迭代又主要分为以下两类范式：

范式一：通过模型参数拟合的过程中能够明确特征的交互关系，例如DeepFM，IPNN，ONN，以及本文的CAN。
范式二：无法明确特征具体交互关系，通过设计更复杂的后端网络追求特征的implict组合和高阶融合，例如DCN，xDeepFM，FIBNET。

需要注意的是，两种范式并不冲突，如果我们将范式一定义丰富输入X，则范式二则是在复杂化F表达式，那么两者结合的F(X)可能会带来进一步收益，本文会在最后介绍CAN和范式二的结合升级。下面依次介绍一下各方法的实现和认识：笛卡尔积，IPNN，ONN，xDeepFM，FiBiNET，这些方法主要选取华为CTR Survey工作《Open Benchmarking for Click-Through Rate》里效果显著的模型。

1. 笛卡尔积

传统的笛卡尔积一般是将样本输入的任意两个特征进行组合拼成一个新的特征作为输入，我们在多种组合尝试后将其扩展到序列特征的组合中，具体操作是将待预估的商品信息（如item id）和用户行为序列信息（如item id sequence）做笛卡尔积，形成一个新的id sequence，对其直接做embedding后pooling，将该信息输入到后续DNN网络，在我们现有的主模型SIM上有比较明显的提升。但这种序列笛卡尔积在训练端和在线服务端成本很大，训练需要采用各种优化手段防止模型无限膨胀，且大小骤增的模型严重影响OL更新。在线服务因为每一次预估需要生成的ID（特征量级扩展参竞规模倍），和查询embedding的ID会急剧膨胀，RT和QPS都明显遭遇性能瓶颈，一言以蔽之则是给在离线都带来巨大挑战。

2. IPNN

IPNN，全称为Inner Product-based Neural Network，认为在embedding输入到MLP之后学习的交叉特征表达并不充分，提出了一种product layer的思想，即基于乘法的运算来体现体征交叉的DNN网络结构。

3. ONN

ONN可以看成是在IPNN基础上的基于Feature组合参数独立性的扩展，即可以理解成ONN=IPNN+FFM，ONN认为相同特征在交互过程中执行不同的操作应当使用不同嵌入向量，例如一共有n个特征，每个特征与其他特征做Inner Product会执行(n-1)次操作，加上不交互的嵌入向量，即一个特征需要有n个对应的嵌入向量。

4. xDeepFM

xDeepFM虽然命名看起来是DeepFM的延续，但其核心模块CIN实际是DCN的一种升级。对比DCN，CIN则从bit-wise改进为vector-wise，不同Feature Group的向量逐层与融合信息进行交互，特性同样是有限高阶、自动叉乘、参数共享。xDeepFM的模型架构图如下。

其中CIN才是该模型核心，其具体前馈流程如下图：

是Embedding的维度，是Feature Group的数量，是第层转移矩阵数量，转移矩阵的shape为，该转移矩阵也可以看成是一个卷积核，是原始Embedding，是第层的输出，具体执行逻辑是：

和的每一列进行外积后拼接得到的矩阵P，对于来说，这里的 = m；
将矩阵P经过个转移矩阵Conv1D后得到；
将k层Layer的沿列SUM后送入DNN网络。

5. FiBiNET

文章指出当前的许多通过特征组合进行CTR预估的工作主要使用特征向量的内积或哈达玛积来计算交叉特征，这种方法忽略了特征本身的重要程度。提出通过使用Squeeze-Excitation network (SENET) 结构动态学习特征的重要性以及使用一个双线性函数来更好的建模交叉特征。

SENET有效性在论文中的解释是获取不同特征的重要性，但其实也可以看做是一种XF(X)的特征交叉，其中F是SENET计算权重的非线性拟合函数，权重可以看做vector-size特征交叉的相对向量，独特之处在于确保了特征交叉的时候不做Embedding向量内部的差异化，这种形式可以降低学习难度。

6. 挑战

如背景中所述，我们在迭代的过程中希望寻找一种参数化的方案能够超越笛卡尔积效果，但又能屏蔽掉笛卡尔积带来的在离线问题，但在尝试现有参数化方案后发现均有一定差距，分析原因主要是存在coupled-gradient和信息容量的问题，因此我们分析了笛卡尔积独立空间学习特征共现记忆的原理，基于此我们通过参数化的方式将表征神经元化(micro net)设计了Co-Action Network，无需显式构建id即可逼近大规模序列端笛卡尔积效果，同时性能更友好。下文我们将详细展开，与此同时CAN模型主要针对的是范式一的优化升级，因此也存在和范式二的合并优化，后文会介绍合并后的模型设计与效果。

▐ 四、Co-Action Network方案

1. 方案概述

点击率预估模型的核心目标是给定用户、场景、商品等信息，预估用户的点击率。以DNN为基础的主流预估模型，均采用交叉熵损失函数进行监督训练，即商品特征、场景特征以及用户特征取完Embedding后送入全连接层中。其形式化描述是：

其中和分别表示用户特征和广告特征，表示将原始的离散ID映射为d维可学习的嵌入向量（embedding），作为整个模型的输入。将特征间交互建模考虑进来后，可进一步描述为：

其中表示和之间的交互建模。由于特征共现的存在，模型可以受益于特征交互。因此如何有效地对特征交互进行建模是提高模型表达能力的关键。仔细回顾以往的方法可以发现，它们要么以特征交互作为权重，要么同时隐式学习与其他目标的相关性，可能会产生不理想的结果。学习特征交互最直接的方法是将特征组合视为新的特征，直接学习每个特征组合的嵌入向量，如笛卡尔积。笛卡尔积提供了独立的参数空间，具有足够的灵活性来学习协同作用信息，从而提高预测能力。

然而，笛卡尔积式的建模也有一些严重的缺陷。首先是参数爆炸问题。大小为的两个特征进行笛卡尔积操作后的参数空间将从扩展到，其中D为嵌入维度，这将给在线系统带来巨大的负担。此外，由于笛卡尔积将<A, B>和<A, C>视为完全不同的特征，组合之间不存在信息共享，这也限制了组合的表示能力。

考虑到笛卡尔积的优点和计算的服务效率，我们提出了一种新的特征交互建模方法CAN。将笛卡尔积的表达变得可学习、可扩展并具备更高的自由度，演进过程如下：

对于每个特征对，其笛卡尔积产生一个新的特征和相应的嵌入。由于不同的特征对可能具有相同的特征，因此任意两个特征对之间存在隐含的相似度，而笛卡尔积忽略了这一点。如果能够有效地处理隐式相似度，则可以用比笛卡尔积更小的参数尺度更有效地建模这些特征对之间的相互作用。CAN模型受笛卡尔积独立编码的启发，首先对嵌入参数和特征交互进行区分，避免了特征间的相互干扰。考虑到DNN具有强大的拟合能力，进而设计了一个以micro net形式参数化特征嵌入的协同单元。由于不同的特征对可以共享同一个micro net，因此在该micro net中可以自然地学习和存储相似度信息。

2. 模型设计

该模型主要包括特征抽取模块、兴趣抽取模块、序列建模模块、特征交互模块等，整体框架如下图所示。其中左侧的Co-Action Unit具体刻画了隐式特征交互的过程。

CAN的主要改进是，在原有结构基础上将不同特征送入新设计的算子得到特征交互的表达向量，再额外送入全连接层中作为信息补充。其形式化表达如下，其中表示模型的参数：

CAN的实现细节主要有三部分，首先引入了一个动态可插拔的特征交互学习单元Co-Action Unit，该单元实现特征组合信息的表达。此外，为了在模型中加入高阶信息，引入了多阶增强的逻辑，它显式地为特征交互学习单元构造了一个多项式输入。为了防止不同特征组合的信息学习的数据穿越相互干扰，针对性地在多个方面合理的开辟新的参数空间，在有限的参数扩增下，有效的提高了自由度。

一般来说，特征交互学习单元是每个特征对的一个独立的MLP，即micro net，由特征对提供MLP的权值、偏置和输入。对于一个特定的用户特征ID ,使用参数查询获得可学习的参数，相应的目标商品ID 其参数为。然后，对进行重构，将其分割为micro net的权重矩阵和偏置向量。这一过程可以公式化为:

其中和表示micro net第i层的权重和偏置表示拼接运算，