【超长序列建模】美团CIKM‘22：《Sampling Is All You Need on Modeling Long-Term User Behaviors for CTR Prediction》

《Sampling Is All You Need on Modeling Long-Term User Behaviors for CTR Prediction》CIKM 2022

基于ETA的思路更近一步，核心思想还是通过较小的计算开销来拟合 target attention：
$TA⁡(q,S)=exp⁡(q⊤s/d)∑j=1Lexp⁡(q⊤sj/d)⋅sj\operatorname{TA}(\mathbf{q}, \mathbf{S})=\frac{\exp \left(\mathbf{q}^{\top} \mathbf{s} / \sqrt{d}\right)}{\sum_{j=1}^{L} \exp \left(\mathbf{q}^{\top} \mathbf{s}_{j} / \sqrt{d}\right)} \cdot \mathbf{s}_{j}$

)exp(q⊤s/d

)⋅sj
美团提出的一个无需检索的基于采样的超长序列算法 SDIM，通过采样多个哈希函数，将 target item 和用户序列的表征映射为哈希指纹，而后将用户序列中与 target item 相碰撞的 item 表征取平均以得到用户兴趣表征（核心思想就是用哈希碰撞概率来近似 attention score）。实验结果表明该方法能取得和对原始长序列直接做 target attention 相媲美的结果，同时有数十倍的性能提升。

动机

SDIM 认为 ETA 对哈希后的处理仍不够高效，并且对效果有损。作者指出用 LSH 进行哈希编码之后，item embedding 之间具有**“保局性（locality-preserving property）”，越相似的 item 哈希指纹一致的概率也会越高，因此提出可以直接用 item 间的哈希碰撞概率来近似他们的相似度，从而避免 element-wise 的相似度计算**。对此，作者直接简单粗暴地将用户行为序列中与 target item 具有相同哈希指纹的 item 的表征求和，再归一化后得到用户兴趣表达，用公式表示就是：
$Attn⁡(q,S)=ℓ2(P(r)S)=ℓ2(∑j=1Lpj(r)sj)\operatorname{Attn}(q, S)=\ell_{2}\left(P^{(r)} S\right)=\ell_{2}\left(\sum_{j=1}^{L} p_{j}^{(r)} s_{j}\right)$
这里 $pj(r)={0,1}p_{j}^{(\mathbf{r})}=\{0,1\}$ 指示 $s_j$ 是否与 target item $q$ 具有相同的哈希指纹，即 $pj(r)=1h(q,r)=h(sj,r)p_{j}^{(r)}=1_{h(q, r)=h\left(s_{j}, r\right)}$

如果直接只用一个哈希函数的话，那么这样计算得到的用户兴趣表征误差肯定是非常大的。为了减小误差，作者采用了 simHash 的一个变种：(m,τ) - parameterized simHash，也就是同时采样 m 个哈希函数生成 m 个 binary 的哈希指纹，然后将每 τ 个哈希指纹串在一起视为一个新的 τ 位的哈希签名，而后用这个 τ 位的哈希签名去计算 item 间的碰撞。

方法

首先，把每个historical item embedding先SimHash成m-bit的大的hash signature（比如m=4），再把大的hash signature每隔τ个位置分隔成小的hash signature（比如图中每隔2bits组成黄色和绿色的小方块）。

再把相同hash signature的historical item embedding聚合成一个向量。如下图中的 $norm(s_0+s_1)$ 所示，聚合方法就是先按位相加，再做L2-normalization。这样，就把user behavior sequence存储成若干buckets。

而针对一个target item做target attention时，将target item也先SimHash再拆解成mτ个hash signature，每个hash signature去上一步得到的buckets提取聚合好的向量。把每个hash signature提取出来的向量再简单pooling一下，就得到了针对这个target item的user interest embedding。

近似等价attention

由于simhash有一定的随机性，那么target item $q$ 与某个historical item $s_j$ 的两个hash signature发生碰撞也是一个概率。其中有τ个位置重合（i.e., hash collision）的概率，在很大时，趋近于如下公式：
$E[p~j]=(1−arccos⁡(q⊤sj)π)τ\mathbb{E}\left[\tilde{p}_{j}\right]=\left(1-\frac{\arccos \left(\mathbf{q}^{\top} \mathbf{s}_{j}\right)}{\pi}\right)^{\tau}$
那么某个historical item $s_j$ 对构建针对target item q的用户兴趣的贡献，形式上如下所示：
$E[Attn⁡(q,S)]=(1−arccos⁡(q⊤sj)π)τ∑j=1L(1−arccos⁡(q⊤sj)π)τ⋅sj\mathbb{E}[\operatorname{Attn}(q, S)]=\frac{\left(1-\frac{\arccos \left(q^{\top} s_{j}\right)}{\pi}\right)^{\tau}}{\sum_{j=1}^{L}\left(1-\frac{\arccos \left(q^{\top} s_{j}\right)}{\pi}\right)^{\tau}} \cdot s_{j}$
长的就很像target attention，也就是说SDIM 本质上是在用 $E[p~j]\mathbb{E}\left[\tilde{p}_{j}\right]$ 来作为 q 和 $s_j$ 之间的 attention 分数。该式子和传统的 target attention 的曲线对比：

美团认为他们的作法就相当于在原始、完整的长期用户行为序列上做target attention，被称为Hash Sampling-based Attention。

tips

基于SIM的模型都是GEU筛选出来的items还要再交给ESU做Attention，得到一个最终表征，美团SDIM这里是直接read out得到一个融合好的序列表征向量，作者已经分析过了，这等价于做了target attention的输出。相较于SIM步骤更少、速度更快。

实验结果