大家好,我是对白。

前两天刚好刷到KDD2022的一篇文章,是介绍快手在它们短视频上的一项推荐重排新算法,不仅在用户观看时长和视频播放量都有了较大提升外,用户观看视频的标签数也有了显著增长,这说明该算法同时兼具****相关性和多样性两点

为了测试其效果,我顺便下载了一下快手这款app,于是就出现了这篇文章的封面:左图是用户冷启动推给我的第一个短视频,一个穿着短裙的小姐姐,紧接着第二个短视频就是右图的另一位小姐姐,而后面的几个短视频也出现了电影、美食等其它方向,**探索和利用(Exploit&Explore)**做得都很不错,大家可以去快手上体验一下。

快手提出的这款新算法叫FDSB,是一款通用的重排序框架,利用用户物品的偏好得分与用户物品基于不同特征的相关性、多样性得分从而对推荐列表中的物品重排序。

实验结果来看,FDSB在用户观看时间和视频播放方面取得了显著的改进,这表明用户粘性得到了提高;其次,用户观看视频的标签数量增加也说明FDSB可以推荐更多样性的视频。

下面就带大家一起领略这个算法的奇妙之处~

论文标题:Feature-aware Diversified Re-ranking with Disentangled Representations for Relevant Recommendation

论文来源:快手&人大,KDD2022

一、FDSB核心思想


本文由快手和人大发表于KDD2022上。在具体看论文模型细节之前,我们来看一下相关推荐的任务描述。由于要关注用户兴趣、相关性与推荐物品的多样性,我们可以自然而然地为相关推荐写出目标排序公式:

其中,用户偏好得分我们可以利用现有模型计算得到。困难在于后面两项:相关性和多样性。为模型中引入特征这一重要因素,我们将相关性和多样性定义为:

如上分析,可以将相关推荐的多样化再排序描述为一个基于物品embedding和特征的组合优化问题。由于这是一个NP-hard问题,采用贪心算法 ,将整体目标分解为单个物品目标:

二、算法细节


要点一:如何处理物品特征冗余问题?

由于物品的特征信息可以从不同潜在方面描述该物品的特性,基于解耦的思想,我们可以将这些特征,根据所描述物品的不同方面分解为不同的表示。我们将称之为对应于物品不同方面的细粒度特征感知表示,后统称为分离表征。

为了学习分离表征,论文采用一种基于多头自注意力机制的方法DAE。具体地,以物品原始特征作为value,以物品embedding与特征的投影向量作为query和key来计算注意力分数,具体公式为:

这些分离表征反映了物品的部分特征,因此应该接近物品的整体embedding表示。具体地,采用MSE与InfoNCE两种alignment loss来提取从物品embedding到具体特征分离表示中的信息

其中,。我们还记得,物品的分离表征可以从不同的潜在方面反映该物品的特性。而为了实现从解耦的不同潜在方面中能够捕获不同的语义特征,再引入orthogonalization loss

我们知道物品的相关性和多样性本质上是相互矛盾的,即多样性更强时,相关性就更弱。然而我们的相关推荐既要保证所推荐的物品与触发物品之间的相关性,又要保证一定的多样性。因此当多样性表现得更强时,我们应该提高相关性的权重,反之亦然,从而实现二者的平衡。

要点二:在相关推荐中,应该如何实现物品之间的相关性与多样性的平衡?

为了在二者之间达成一个平衡,论文设计了一种相关性-多样性相关权重机制,我们为两个性质分别引入两个可学习的系数向量,即:

其中,为累计相关性。我们的目标是为用户选择个相关物品,具体地,采用Greedy Selection的方案对推荐列表中的物品进行再排序

当选定第一个物品时,由于没有其他备选物品,所以不需考虑与备选物品间的多样性问题,这里只用计算单物品的相关性得分,即:

当已选物品数量大于1时,则需要计算相关性和多样性得分:

其中,多样性函数遵循MMR方法,即,减去所选物品和候选物品之间的最大相似度作为多样性得分。

模型的完整算法为

模型的复杂度与普通MMR相当,其中时间复杂度为,空间复杂度为。

三、实验结果


3.1 一个关于分离表征的案例解析

为了说明FDSB是如何将物品特征分解为不同方面的,论文的实验部分给出一个有趣的案例分析:随机抽取一段视频,将每个特征解耦得到的方面的注意力权重可视化,如下图。

从图中,我们可以看到,视频的特征根据语义的不同被分解为了不同方面,第一个方面侧重于抽象特征,如**“动物”和“野生动物”**;第二个方面捕捉了更加细粒度的信息,如“大熊猫”和“熊猫”;第三个方面则提取了一些不寻常的特征,如图中的“Metal Eater”为“吞金兽”,是熊猫的昵称。还有一个”pets“是视频中的多余标签,并没有被所有的方面捕捉到。

这个例子定性地说明了论文所提出的DAE模型在学习分离表征方面的有效性

3.2 在线部署和A/B测试

为了进一步验证FDSB的有效性,该模型被部署在在线快手APP的”更多相关视频“功能上以验证整个工作流程。其中,采用视频标签作为特征。具体的工作流程如下图:

在快手的实际应用场景中从(1)观看时间,(2)视频播放和(3)观看的视频标签三个指标评估该框架的性能,前两个指标反映用户的满意度,第三个指标通常用于多样性。

具体的结果如开篇描述,FDSB不仅可以提升用户忠诚度,也可以推荐更多相关视频。

3.3 实验结果

与多个模型对比,可以看出FDSB的效果提升显著,在Recall与MRR分别提升了25.2%与18.3%。此外,在相关性的评估指标和多样性的评估指标中效果也不错。

四、总结


论文提出了一种用于相关推荐的基于分离特征的再排序框架FDSB。模型具体包含两个部分:(1)用于实现特征分离的自注意力方法DAE;(2)一种用于平衡候选物品相关性与多样性的策略。模型具有一定的新颖性且效果不错,大家不妨可以参考一下它的核心思想与网络结构。

文末提出两个问题供大家思考:

  • 除了文中所提的物品特征,是否有更好的辅助信息可以将触发物品与推荐多样性结合起来?

  • 你认为基于特征感知的细粒度推荐在其他推荐场景中是否有应用前景?以及,是否有其他高效的基于特征的分离表征解耦方法?

更多精彩内容请关注 微信公众号

快手这款推荐新算法,我爱了~相关推荐

  1. 视频号如何打造爆款视频,社交推荐优于算法推荐丨国仁网络资讯

    视频号有一个算法推荐,很像抖音,但又不是抖音.视频号有社交推荐功能,和订阅号很相似,但又不同.视频号是目前短视频平台中比较特殊的一种,是目前能够获取大量公域流量,并能高效对接私域流量池的一种形式. 由 ...

  2. 京东T9走出最新的里程碑,《新算法宝典,java自学入门书籍推荐

    1.3 空间复杂度 (什么是空间复杂度+空间复杂度的计算+时间与空间的取舍) 02 数据结构基础 ========= 2.1 什么是数组 (初识数组+数组的基本操作+数组的优势和劣势) 2.2 什么是 ...

  3. 推荐业界算法工程整理

    信息流/内容 深度召回模型在QQ看点推荐中的应用实践 腾讯 QQ 看点图文多目标推荐实践经验 郭沛东:图模型在信息流推荐的原理和实践(一点资讯) 跨域推荐技术在58部落内容社区的实践 微博推荐算法实践 ...

  4. KIR: Kwai Instant Recommend --端上智能在快手上下滑推荐取得APP时长+1%的应用实践

    1.背景 1.1.端上智能 端上智能是相对于云计算人工智能应用(如推荐.搜索)的概念:如工业界成熟的推荐系统方案,几乎都是通过云计算的算力,在海量候选集中搜索用户感兴趣的Feed,并通过复杂的精排模型 ...

  5. 多目标排序在快手短视频推荐中的实践

    分享嘉宾:郑东博士 快手 推荐算法技术总监 编辑整理:于洋 出品平台:DataFunTalk 导读:快手是中国领先的短视频和直播社区,拥有超过3亿的DAU和丰富的社交数据.快手秉承的价值观是真实.多元 ...

  6. 端侧 AI SDK 框架,快手爆款特效落地背后的秘密

    7 月 5 日,快手 Y-tech 部门 AI 工程团队的崇洋铭在 GMTC 全球大前端技术大会(北京站)2021,做了题为<端侧 AI SDK 框架,爆款特效批量生产背后的秘密>的演讲. ...

  7. 经典算法书籍推荐以及算法书排行【算法四库全书】

    经典算法书籍推荐以及算法书排行[算法四库全书] 作者:霞落满天   https://linuxstyle.blog.csdn.net/    https://blog.csdn.net/21aspne ...

  8. “重构”黑洞:26岁MIT研究生的新算法 | 人物志

    点击上方↑↑↑蓝字关注我们~ 「2019 Python开发者日」全日程揭晓,请扫码咨询 ↑↑↑ 整理 | 若名 出品 | AI科技大本营(ID:rgznai100) 这是一个重要时刻.除了发布跟丈夫的 ...

  9. 超越AlphaZero,DeepMind新算法MuZero登顶Nature | AI日报

    超越AlphaZero,DeepMind新算法MuZero登顶Nature 2016年,DeepMind 推出了第一个人工智能程序 AlphaGo,在围棋游戏中击败人类.两年后,它的继任者AlphaZ ...

最新文章

  1. 三维视觉惯性SLAM的有效Schmidt-EKF
  2. spring之Environment
  3. AI:2020年6月22日北京智源大会演讲分享之10:40-11:10Daniel教授《 可微分的加权有限状态机及其机器学习应用》、11:10何晓冬教授《启动“智源-京东”任务导向多模态对话大赛》
  4. 2016电大计算机网考,2016年电大-电大计算机网考题库[].doc
  5. CentOS下的Mysql的安装和使用
  6. Bootstrap HTML编码规范之引入 CSS 和 JavaScript 文件
  7. Android RecyclerView加载复杂布局
  8. abb工业机器人指令lf怎么用_工业机器人十万个怎么办-不清楚机器人MoveL直线运动指令怎么办?...
  9. 使用JMH做Java微基准测试(二)Hello2020!
  10. ASP.NET 表单认证与角色授权
  11. 电脑蓝屏c语言代码大全,电脑蓝屏代码C0000218怎么解决方法
  12. 学美容化妆培训学校到哪里最好
  13. 中科曙光宁畅R620 G40安装Centos7识别不到硬盘
  14. 地铁+单车一体化智慧接驳,哈罗单车升级为哈啰出行
  15. 【linux_centOS】Warning: mysql_num_rows() expects parameter 1 to be resource
  16. ​华海诚科在科创板注册生效:预计年收入超3亿元,深圳哈勃为股东​
  17. 战争艺术 java_战争艺术2网络对战版
  18. mysql查询表里面重复的数据_mysql查询表里的重复数据方法
  19. wifi服务器维护需要多长时间,WIFI服务器设置及维护.ppt
  20. 信息安全技术——(三)标识与认证技术

热门文章

  1. 利用map()函数,把用户输入的不规范的英文名字,变为首字母大写,其他小写的规范名字以及Map函数讲解
  2. 【历史上的今天】11 月 17 日:世界上第一个鼠标;领导雅虎的女强人;Classmates 网站建立
  3. 计算机专业只喜欢玩游戏,曾经的网瘾少年,现在一看电脑就想吐|“职业打游戏”,其实是个苦差事...
  4. oracle技术嘉年华如何索要发票,Oracle技术嘉年华
  5. gtx1660和gtx1660ti 的区别 gtx1660和gtx1660t参数对比哪个好
  6. 递归算法 —— Hanoi汉诺塔游戏
  7. android 修改 dpi_魅族 16s|魔趣100|安卓10.0|10.10定制|归属地|机型修改|性能调整|稳定流畅...
  8. 计算机英语总结250字,英语的作文250字
  9. 关于游戏架构设计(二)
  10. 梦幻西游服务器物品掉落概率,梦幻西游:牛人鉴定2万件装备,摸索出了无级别几率...