【超长序列建模】美团CIKM‘22:《Sampling Is All You Need on Modeling Long-Term User Behaviors for CTR Prediction》
《Sampling Is All You Need on Modeling Long-Term User Behaviors for CTR Prediction》CIKM 2022
基于ETA的思路更近一步,核心思想还是通过较小的计算开销来拟合 target attention:
TA(q,S)=exp(q⊤s/d)∑j=1Lexp(q⊤sj/d)⋅sj\operatorname{TA}(\mathbf{q}, \mathbf{S})=\frac{\exp \left(\mathbf{q}^{\top} \mathbf{s} / \sqrt{d}\right)}{\sum_{j=1}^{L} \exp \left(\mathbf{q}^{\top} \mathbf{s}_{j} / \sqrt{d}\right)} \cdot \mathbf{s}_{j} TA(q,S)=∑j=1Lexp(q⊤sj/d
美团提出的一个无需检索的基于采样的超长序列算法 SDIM,通过采样多个哈希函数,将 target item 和用户序列的表征映射为哈希指纹,而后将用户序列中与 target item 相碰撞的 item 表征取平均以得到用户兴趣表征(核心思想就是用哈希碰撞概率来近似 attention score)。实验结果表明该方法能取得和对原始长序列直接做 target attention 相媲美的结果,同时有数十倍的性能提升。
动机
SDIM 认为 ETA 对哈希后的处理仍不够高效,并且对效果有损。作者指出用 LSH 进行哈希编码之后,item embedding 之间具有**“保局性(locality-preserving property)”,越相似的 item 哈希指纹一致的概率也会越高,因此提出可以直接用 item 间的哈希碰撞概率来近似他们的相似度,从而避免 element-wise 的相似度计算**。对此,作者直接简单粗暴地将用户行为序列中与 target item 具有相同哈希指纹的 item 的表征求和,再归一化后得到用户兴趣表达,用公式表示就是:
Attn(q,S)=ℓ2(P(r)S)=ℓ2(∑j=1Lpj(r)sj)\operatorname{Attn}(q, S)=\ell_{2}\left(P^{(r)} S\right)=\ell_{2}\left(\sum_{j=1}^{L} p_{j}^{(r)} s_{j}\right) Attn(q,S)=ℓ2(P(r)S)=ℓ2(j=1∑Lpj(r)sj)
这里pj(r)={0,1}p_{j}^{(\mathbf{r})}=\{0,1\}pj(r)={0,1} 指示 sjs_jsj 是否与 target item qqq具有相同的哈希指纹,即pj(r)=1h(q,r)=h(sj,r)p_{j}^{(r)}=1_{h(q, r)=h\left(s_{j}, r\right)}pj(r)=1h(q,r)=h(sj,r)
如果直接只用一个哈希函数的话,那么这样计算得到的用户兴趣表征误差肯定是非常大的。为了减小误差,作者采用了 simHash 的一个变种:(m,τ) - parameterized simHash,也就是同时采样 m 个哈希函数生成 m 个 binary 的哈希指纹,然后将每 τ 个哈希指纹串在一起视为一个新的 τ 位的哈希签名,而后用这个 τ 位的哈希签名去计算 item 间的碰撞。
方法
首先,把每个historical item embedding先SimHash成m-bit的大的hash signature(比如m=4),再把大的hash signature每隔τ个位置分隔成小的hash signature(比如图中每隔2bits组成黄色和绿色的小方块)。
再把相同hash signature的historical item embedding聚合成一个向量。如下图中的norm(s0+s1)norm(s_0+s_1)norm(s0+s1)所示,聚合方法就是先按位相加,再做L2-normalization。这样,就把user behavior sequence存储成若干buckets。
而针对一个target item做target attention时,将target item也先SimHash再拆解成mτ个hash signature,每个hash signature去上一步得到的buckets提取聚合好的向量。把每个hash signature提取出来的向量再简单pooling一下,就得到了针对这个target item的user interest embedding。
近似等价attention
由于simhash有一定的随机性,那么target item qqq 与某个historical item sjs_jsj 的两个hash signature发生碰撞也是一个概率。其中有τ个位置重合(i.e., hash collision)的概率,在很大时,趋近于如下公式:
E[p~j]=(1−arccos(q⊤sj)π)τ\mathbb{E}\left[\tilde{p}_{j}\right]=\left(1-\frac{\arccos \left(\mathbf{q}^{\top} \mathbf{s}_{j}\right)}{\pi}\right)^{\tau} E[p~j]=(1−πarccos(q⊤sj))τ
那么某个historical item sjs_jsj 对构建针对target item q的用户兴趣的贡献,形式上如下所示:
E[Attn(q,S)]=(1−arccos(q⊤sj)π)τ∑j=1L(1−arccos(q⊤sj)π)τ⋅sj\mathbb{E}[\operatorname{Attn}(q, S)]=\frac{\left(1-\frac{\arccos \left(q^{\top} s_{j}\right)}{\pi}\right)^{\tau}}{\sum_{j=1}^{L}\left(1-\frac{\arccos \left(q^{\top} s_{j}\right)}{\pi}\right)^{\tau}} \cdot s_{j} E[Attn(q,S)]=∑j=1L(1−πarccos(q⊤sj))τ(1−πarccos(q⊤sj))τ⋅sj
长的就很像target attention,也就是说SDIM 本质上是在用E[p~j]\mathbb{E}\left[\tilde{p}_{j}\right]E[p~j] 来作为 q 和 sjs_jsj 之间的 attention 分数。该式子和传统的 target attention 的曲线对比:
美团认为他们的作法就相当于在原始、完整的长期用户行为序列上做target attention,被称为Hash Sampling-based Attention。
tips
基于SIM的模型都是GEU筛选出来的items还要再交给ESU做Attention,得到一个最终表征,美团SDIM这里是直接read out得到一个融合好的序列表征向量,作者已经分析过了,这等价于做了target attention的输出。相较于SIM步骤更少、速度更快。
实验结果
【超长序列建模】美团CIKM‘22:《Sampling Is All You Need on Modeling Long-Term User Behaviors for CTR Prediction》相关推荐
- CIKM 2022|FwSeqBlock: 一种在序列建模中增强行为表征的方法
©作者 | 钱浩 单位 | 北邮 GAMMA Lab 研究方向 | 图神经网络 论文标题: Uncovering the Structural Fairness in Graph Contrastiv ...
- 从顶会论文看2022年推荐系统序列建模的趋势
©作者 | 猫的薛定谔 最近看了 22 年几篇顶会的序列建模的文章,模型无不复杂高深,但细细看后,发现这些文章本质上均是输入的变化,模型只为了配合输入.看看最近的顶会是怎么玩的吧. 背景 序列建模的目 ...
- 【时序】基于 TCN 的用于序列建模的通用卷积和循环网络的经验评估
论文名称:An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling 论 ...
- 推荐系统行为序列建模-GRU4Rec
推荐系统行为序列建模-GRU4Rec 1.模型结构 2.优化 2.1 SESSION-PARALLEL MINI-BATCHES 2.2 SAMPLING ON THE OUTPUT 3.Loss & ...
- 【强化学习论文】Decision Transformer:通过序列建模进行强化学习
Article 文献题目:Decision Transformer: Reinforcement Learning via Sequence Modeling 文献时间:2021 摘要 我们引入了一个 ...
- 序列建模:时间卷积网络取代RNN(An Empirical Evaluation of Generic Convolutional and Recurrent)论文 pdf
下载地址:https://u20150046.ctfile.com/fs/20150046-376633283 作者:Shaojie Bai, J. Zico Kolter, Vladlen Kolt ...
- 替代离线RL?Transformer进军决策领域,「序列建模」成关键
机器之心报道 机器之心编辑部 Transformer 开始进军决策领域了,它能否替代离线强化学习呢?近日,UC 伯克利.FAIR 和谷歌大脑的研究者提出了一种通过序列建模进行强化学习的 Transfo ...
- 独家 | 一文读懂序列建模(deeplearning.ai)
作者:Pulkit Sharma,2019年1月21日 翻译:陈之炎 校对:丁楠雅 本文约11000字,建议阅读10+分钟. 本文为你详细介绍序列模型,并分析其在不同的真实场景中的应用. 简介 如何预 ...
- 一文读懂序列建模(deeplearning.ai)之序列模型与注意力机制
https://www.toutiao.com/a6663809864260649485/ 作者:Pulkit Sharma,2019年1月21日 翻译:陈之炎 校对:丁楠雅 本文约11000字,建议 ...
最新文章
- 备份 CSDN 博客(上)
- ClickHouse 源码阅读 —— SQL的前世今生
- 惯性积计算实例_关于材料力学中惯性矩的认识00
- jdk版本修改不生效
- list 分页_mybatis一对多分页查询
- informix安装教程以及创建一个实例(详细)(系列1,informix安装篇)
- latex模板——计算机学报
- Matlab无法使用GBK编码保存文件,改用UTF-8编码
- JavaScript-Ajax基础讲解
- 拍牌系统改版html5,开启上海拍牌的日子,有点玩人的系统,一会快一会慢
- 电视android已停止运行是什么意思,com.android.systemui已停止是什么意思 怎么解决...
- KV260(一)跑通相机例程
- Word标题编号变黑框
- 冰山一角 管窥中国互联网的地下世界
- iPhoneX炫彩壁纸背景demo(含动效)
- 初学python体验
- 知乎:重新定义「知识分享」
- 【Linux】 安装ping工具
- #Reading Paper# APG: Adaptive Parameter Generation Network for Click-Through Rate Prediction
- spark学习-BlockManager原理
热门文章
- 计算机听评课会议记录,研修评课议课会议记录
- Android 集成科大讯飞语音听写功能
- 记录-小程序720°VR(跳转H5页面实现)
- Total Commander的常用用法和设置
- 计算机小高考成绩,小高考成绩公布!各校4A人数排名出炉!快来看看最牛学校数据!...
- 微信公众号群发图文消息
- android 版本更新忽略,安卓微信7.0.14 正式版更新,几个被你忽略的微信小技巧
- 计算机网络(第8版)谢希仁第一章概述笔记
- 评委打分表模板_系高中英语作文模板——邀请信
- python 静态网站生成_最全的静态网站生成器(开源项目)