《Sampling Is All You Need on Modeling Long-Term User Behaviors for CTR Prediction》CIKM 2022

基于ETA的思路更近一步,核心思想还是通过较小的计算开销来拟合 target attention:
TA⁡(q,S)=exp⁡(q⊤s/d)∑j=1Lexp⁡(q⊤sj/d)⋅sj\operatorname{TA}(\mathbf{q}, \mathbf{S})=\frac{\exp \left(\mathbf{q}^{\top} \mathbf{s} / \sqrt{d}\right)}{\sum_{j=1}^{L} \exp \left(\mathbf{q}^{\top} \mathbf{s}_{j} / \sqrt{d}\right)} \cdot \mathbf{s}_{j} TA(q,S)=j=1Lexp(qsj/d

)exp(qs/d

)
sj
美团提出的一个无需检索的基于采样的超长序列算法 SDIM,通过采样多个哈希函数,将 target item 和用户序列的表征映射为哈希指纹,而后将用户序列中与 target item 相碰撞的 item 表征取平均以得到用户兴趣表征(核心思想就是用哈希碰撞概率来近似 attention score)。实验结果表明该方法能取得和对原始长序列直接做 target attention 相媲美的结果,同时有数十倍的性能提升。

动机

SDIM 认为 ETA 对哈希后的处理仍不够高效,并且对效果有损。作者指出用 LSH 进行哈希编码之后,item embedding 之间具有**“保局性(locality-preserving property)”,越相似的 item 哈希指纹一致的概率也会越高,因此提出可以直接用 item 间的哈希碰撞概率来近似他们的相似度,从而避免 element-wise 的相似度计算**。对此,作者直接简单粗暴地将用户行为序列中与 target item 具有相同哈希指纹的 item 的表征求和,再归一化后得到用户兴趣表达,用公式表示就是:
Attn⁡(q,S)=ℓ2(P(r)S)=ℓ2(∑j=1Lpj(r)sj)\operatorname{Attn}(q, S)=\ell_{2}\left(P^{(r)} S\right)=\ell_{2}\left(\sum_{j=1}^{L} p_{j}^{(r)} s_{j}\right) Attn(q,S)=2(P(r)S)=2(j=1Lpj(r)sj)
这里pj(r)={0,1}p_{j}^{(\mathbf{r})}=\{0,1\}pj(r)={0,1} 指示 sjs_jsj 是否与 target item qqq具有相同的哈希指纹,即pj(r)=1h(q,r)=h(sj,r)p_{j}^{(r)}=1_{h(q, r)=h\left(s_{j}, r\right)}pj(r)=1h(q,r)=h(sj,r)

如果直接只用一个哈希函数的话,那么这样计算得到的用户兴趣表征误差肯定是非常大的。为了减小误差,作者采用了 simHash 的一个变种:(m,τ) - parameterized simHash,也就是同时采样 m 个哈希函数生成 m 个 binary 的哈希指纹,然后将每 τ 个哈希指纹串在一起视为一个新的 τ 位的哈希签名,而后用这个 τ 位的哈希签名去计算 item 间的碰撞。

方法

首先,把每个historical item embedding先SimHash成m-bit的大的hash signature(比如m=4),再把大的hash signature每隔τ个位置分隔成小的hash signature(比如图中每隔2bits组成黄色和绿色的小方块)。

再把相同hash signature的historical item embedding聚合成一个向量。如下图中的norm(s0+s1)norm(s_0+s_1)norm(s0+s1)所示,聚合方法就是先按位相加,再做L2-normalization。这样,就把user behavior sequence存储成若干buckets。

而针对一个target item做target attention时,将target item也先SimHash再拆解成mτ个hash signature,每个hash signature去上一步得到的buckets提取聚合好的向量。把每个hash signature提取出来的向量再简单pooling一下,就得到了针对这个target item的user interest embedding。

近似等价attention

由于simhash有一定的随机性,那么target item qqq 与某个historical item sjs_jsj 的两个hash signature发生碰撞也是一个概率。其中有τ个位置重合(i.e., hash collision)的概率,在很大时,趋近于如下公式:
E[p~j]=(1−arccos⁡(q⊤sj)π)τ\mathbb{E}\left[\tilde{p}_{j}\right]=\left(1-\frac{\arccos \left(\mathbf{q}^{\top} \mathbf{s}_{j}\right)}{\pi}\right)^{\tau} E[p~j]=(1πarccos(qsj))τ
那么某个historical item sjs_jsj 对构建针对target item q的用户兴趣的贡献,形式上如下所示:
E[Attn⁡(q,S)]=(1−arccos⁡(q⊤sj)π)τ∑j=1L(1−arccos⁡(q⊤sj)π)τ⋅sj\mathbb{E}[\operatorname{Attn}(q, S)]=\frac{\left(1-\frac{\arccos \left(q^{\top} s_{j}\right)}{\pi}\right)^{\tau}}{\sum_{j=1}^{L}\left(1-\frac{\arccos \left(q^{\top} s_{j}\right)}{\pi}\right)^{\tau}} \cdot s_{j} E[Attn(q,S)]=j=1L(1πarccos(qsj))τ(1πarccos(qsj))τsj
长的就很像target attention,也就是说SDIM 本质上是在用E[p~j]\mathbb{E}\left[\tilde{p}_{j}\right]E[p~j] 来作为 q 和 sjs_jsj 之间的 attention 分数。该式子和传统的 target attention 的曲线对比:

美团认为他们的作法就相当于在原始、完整的长期用户行为序列上做target attention,被称为Hash Sampling-based Attention

tips

基于SIM的模型都是GEU筛选出来的items还要再交给ESU做Attention,得到一个最终表征,美团SDIM这里是直接read out得到一个融合好的序列表征向量,作者已经分析过了,这等价于做了target attention的输出。相较于SIM步骤更少、速度更快。

实验结果

【超长序列建模】美团CIKM‘22:《Sampling Is All You Need on Modeling Long-Term User Behaviors for CTR Prediction》相关推荐

  1. CIKM 2022|FwSeqBlock: 一种在序列建模中增强行为表征的方法

    ©作者 | 钱浩 单位 | 北邮 GAMMA Lab 研究方向 | 图神经网络 论文标题: Uncovering the Structural Fairness in Graph Contrastiv ...

  2. 从顶会论文看2022年推荐系统序列建模的趋势

    ©作者 | 猫的薛定谔 最近看了 22 年几篇顶会的序列建模的文章,模型无不复杂高深,但细细看后,发现这些文章本质上均是输入的变化,模型只为了配合输入.看看最近的顶会是怎么玩的吧. 背景 序列建模的目 ...

  3. 【时序】基于 TCN 的用于序列建模的通用卷积和循环网络的经验评估

    论文名称:An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling 论 ...

  4. 推荐系统行为序列建模-GRU4Rec

    推荐系统行为序列建模-GRU4Rec 1.模型结构 2.优化 2.1 SESSION-PARALLEL MINI-BATCHES 2.2 SAMPLING ON THE OUTPUT 3.Loss & ...

  5. 【强化学习论文】Decision Transformer:通过序列建模进行强化学习

    Article 文献题目:Decision Transformer: Reinforcement Learning via Sequence Modeling 文献时间:2021 摘要 我们引入了一个 ...

  6. 序列建模:时间卷积网络取代RNN(An Empirical Evaluation of Generic Convolutional and Recurrent)论文 pdf

    下载地址:https://u20150046.ctfile.com/fs/20150046-376633283 作者:Shaojie Bai, J. Zico Kolter, Vladlen Kolt ...

  7. 替代离线RL?Transformer进军决策领域,「序列建模」成关键

    机器之心报道 机器之心编辑部 Transformer 开始进军决策领域了,它能否替代离线强化学习呢?近日,UC 伯克利.FAIR 和谷歌大脑的研究者提出了一种通过序列建模进行强化学习的 Transfo ...

  8. 独家 | 一文读懂序列建模(deeplearning.ai)

    作者:Pulkit Sharma,2019年1月21日 翻译:陈之炎 校对:丁楠雅 本文约11000字,建议阅读10+分钟. 本文为你详细介绍序列模型,并分析其在不同的真实场景中的应用. 简介 如何预 ...

  9. 一文读懂序列建模(deeplearning.ai)之序列模型与注意力机制

    https://www.toutiao.com/a6663809864260649485/ 作者:Pulkit Sharma,2019年1月21日 翻译:陈之炎 校对:丁楠雅 本文约11000字,建议 ...

最新文章

  1. 备份 CSDN 博客(上)
  2. ClickHouse 源码阅读 —— SQL的前世今生
  3. 惯性积计算实例_关于材料力学中惯性矩的认识00
  4. jdk版本修改不生效
  5. list 分页_mybatis一对多分页查询
  6. informix安装教程以及创建一个实例(详细)(系列1,informix安装篇)
  7. latex模板——计算机学报
  8. Matlab无法使用GBK编码保存文件,改用UTF-8编码
  9. JavaScript-Ajax基础讲解
  10. 拍牌系统改版html5,开启上海拍牌的日子,有点玩人的系统,一会快一会慢
  11. 电视android已停止运行是什么意思,com.android.systemui已停止是什么意思 怎么解决...
  12. KV260(一)跑通相机例程
  13. Word标题编号变黑框
  14. 冰山一角 管窥中国互联网的地下世界
  15. iPhoneX炫彩壁纸背景demo(含动效)
  16. 初学python体验
  17. 知乎:重新定义「知识分享」
  18. 【Linux】 安装ping工具
  19. #Reading Paper# APG: Adaptive Parameter Generation Network for Click-Through Rate Prediction
  20. spark学习-BlockManager原理

热门文章

  1. 计算机听评课会议记录,研修评课议课会议记录
  2. Android 集成科大讯飞语音听写功能
  3. 记录-小程序720°VR(跳转H5页面实现)
  4. Total Commander的常用用法和设置
  5. 计算机小高考成绩,小高考成绩公布!各校4A人数排名出炉!快来看看最牛学校数据!...
  6. 微信公众号群发图文消息
  7. android 版本更新忽略,安卓微信7.0.14 正式版更新,几个被你忽略的微信小技巧
  8. 计算机网络(第8版)谢希仁第一章概述笔记
  9. 评委打分表模板_系高中英语作文模板——邀请信
  10. python 静态网站生成_最全的静态网站生成器(开源项目)