作者 | Tim Elfrink
译者 | Tianyu
出品 | AI科技大本营(ID:rgznai100)

【导读】本文来自于谷歌研究人员最近发表的一篇论文,介绍了视频平台 Youtube 的视频推荐方法,并在 RecSys 2019 大会上做了分享。本文总结归纳了一些论文中的重点内容。

提出问题

当用户在 Youtube 上观看视频时,网站会按顺序为用户展示一系列推荐视频的列表。该论文主要聚焦以下两个目标:

1)需要对不同的目标进行优化。没有特定的目标函数,但目标可以被归类为参与度(是否点击、观看时间)目标和满意度(是否点赞、点踩)目标。

2)减小由系统引入的用户的选择偏差,基于推荐视频的位置分布,用户更容易点击系统推荐的第一个视频,即使排在后面的视频有更高的参与度和满意度。

如何让系统高效地学习减小选择偏差是急需解决的问题。

解决方法

       图 1:模型的整个结构

论文中介绍的模型聚焦于两个主要目标,同时引用了宽度&深度模型结构,将宽度模型的记忆能力和深度神经网络的泛化能力结合起来。宽度&深度模型会为每个定义的目标(包括参与度和满意度)生成一个预测结果。目标可以归结为二分类问题(如:喜欢或不喜欢某个视频)和回归问题(如:对某个视频的评分)。在这个模型的上面又叠加了一个单独的排序模型,这只是输出向量的权重组合,它们是不同的预测目标。

为达到不同目标的最佳效果,这些权重是人工进行调优的。为了提升效果,研究人员还提出了基于结对和列表的先进方法,但由于计算时间过长,这些方法没有被应用到实践中。

       图 2:用 MMoE 替换 shared-bottom 层

宽度&深度模型的深层部分使用了多任务学习模型 MMoE。该模型以当前视频的特征(内容、标题、主题、上传时间等)和观看者的信息(观看时间、个人资料等)作为输入。MMoE 模型的思想主要是基于不同目标之间可以高效地共享权重。底部共享层被分成多个专家层,用于预测不同的目标。每个目标都有一个门函数,这是一个 softmax 函数,以原始的共享层和不同的专家层作为输入。这个 softmax 函数决定对于不同的目标,哪些专家层更加重要。如图 3 所示,不同的专家层对于不同目标的重要性存在差别。与共享层结构的模型相比,如果不同目标之间的相关性越低,那么 MMoE 的训练过程所受影响也会更小。

       图 3:多个 YouTube 任务的专家层使用情况

模型的宽度部分主要关注由系统引入的推荐视频位置所导致的选择偏差问题。这一部分被称作“浅塔”(shallow tower),它只是一个简单的线性模型,用到的特征包括被点击视频的位置和观看视频所使用的设备。浅塔的输出与 MMoE 模型的输出相结合,构成了宽度&深度模型结构的主要组成部分。基于这种方法,模型就会更加关注到视频的位置。在训练过程中,将 dropout 率设置为 10%,防止位置特征在模型中的重要性过高。如果你不使用宽度&深度结构,只是把位置当做单独的特征引入,模型大概率注意不到这个特征。

结果

论文中的结果表明,用 MMoE 替代底部共享层后,模型在参与度(推荐视频的观看时间)和满意度(调查反馈)上的表现都有所提升。增加 MMoE 的专家层数目和乘法运算的数目可以进一步提升模型的性能。但由于计算上的限制,在实际部署过程中无法增加该数目。

进一步的结果表明,通过引入“浅塔”减小选择偏差,可以提高参与度。与仅作为 MMoE 模型的输入特征相比较,这是一个显著的提升。

一些有趣的评论

  • 虽然 Google 拥有强大的计算基础设施,他们仍需要在训练和服务成本方面保持谨慎;
  • 基于宽度&深度模型,你可以设计一个网络,预定义一些对你很重要的特征;
  • 当你需要一个多目标模型时,MMoE 模型也许是你的不二选择;
  • 即使我们拥有了强大而复杂的模型结构,但仍需要对最后一层的权重进行手动调优,从而根据不同目标的预测结果确定最终的排序。
原文链接:
https://medium.com/vantageai/how-youtube-is-recommending-your-next-video-7e5f1a6bd6d9

(*本文为 AI科技大本营编译文章,转载请微信联系 1092722531

精彩推荐

12月6-8日,深圳!2019嵌入式智能国际大会,集聚500+位主流AIoT中坚力量,100+位海内外特邀技术领袖!9场技术论坛布道,更有最新芯片和模组等新品展示!点击链接或扫码,输入本群专属购票优惠码CSDNQRSH,即可享受6.6折早鸟优惠,比原价节省1000元,学生票仅售399元

推荐阅读

总点第一个视频产生选择偏差?Youtube用“浅塔”来纠正相关推荐

  1. ACL 2019开源论文 | 句对匹配任务中的样本选择偏差与去偏方法

    作者丨张冠华 单位丨腾讯实习生 & 哈工大本科生 研究方向丨自然语言处理 导读 句对匹配 (Natural Language Sentence Matching,NLSM) 任务是指给定两个句 ...

  2. 学习书籍与视频的选择

    注意:未经允许,禁止转载! 速度问题 当资源较全较优质可选择.内容较多的情况下,获得知识的速度是:PPT>视频>书.把知识过一遍. 图书分类 搜索引擎能解决90%的问题,但其实99%的问题 ...

  3. 全球最大的第一视角视频数据集开源,取自真实生活,还能提升厨艺

    安妮 编译整理 量子位 出品 | 公众号 QbitAI 最近,一个有趣的视频数据集开源了,它不仅能助你研究生涯一臂之力,或许还能提升你的--嗯,厨艺.  这个将锅与视频播放键融于一体的图像,就是刚 ...

  4. 推荐系统中的选择偏差及处理

    定义 选择偏差(Selection bias)是指在对个人.群体或数据进行选择分析时引入的偏差,这种选择方式没有达到适当的随机化,从而确保所获得的样本不能代表拟分析的总体.它有时被称为选择效应. ht ...

  5. 《数字化转型方法论》荣登京东新书总榜第一名和计算机类图书榜第一名!

    恭喜由马晓东所著<数字化转型方法论:落地路径与数据中台>荣登京东新书总榜第一名和计算机类图书榜第一名! 左中括号 重磅内容 左中括号 这是一部从战略.技术.人才和管理4个维度全面阐述企业数 ...

  6. SPC-1性能总榜第一,中国厂商霸榜背后是存储新势力崛起

    近日,中国存储又迎来一大好消息:在存储性能委员会(Storage Performance Council,简称SPC)公布的最新SPC-1基准评测榜单中,浪潮高端全闪HF18000G5获得23,001 ...

  7. android仿微信图片视频选择器,视频图片选择分离。视频选择一个图片选择9个。

    先上效果图,无图无真相,如果是你需要的,那么继续往下看. 下面我将分两块给大家讲一下怎么解决的问题.       第一块就是快速定位问题所在,并解决选择问题.       第二块就是按照思路来定位问题 ...

  8. 冰冰B站第一个视频的弹幕大家都说了啥?Python爬取冰冰弹幕并分析

    前言 王冰冰2020年12月31日在B站发布了第一个视频,一天时间里关注破百万. 各位老色批们在冰冰第一个视频的弹幕里都说了啥? 用爬虫采集到了冰冰第一个视频的全部弹幕,下面我们来分析一下. 需要提前 ...

  9. 【NeurIPS2021】存在潜在变量和选择偏差的递归因果结构学习

    来源:专知本文附论文,建议阅读5分钟 本文提出了一种新的计算有效的递归约束方法. 我们考虑了在存在潜在混淆变量和选择偏差的情况下,从观测数据中学习系统的因果MAG(Maximal Ancestral ...

最新文章

  1. 实验三-密码破解技术
  2. 用ASP.NET上传大文件
  3. CentOS 6.7安装Storm 0.9.7
  4. 推荐文章:《同济大学软件学院万院长谈择业》
  5. CPU,寄存器,内存三者的关系
  6. 题目53:Goldbach's Conjecture
  7. dazhilu网站代码【完整篇】
  8. 数据库 一致性读当前读
  9. 准备创业或刚创业的朋友必读
  10. KL距离-Kullback-Leibler Divergence
  11. Lucene创建索引和搜索索引
  12. 大智慧专业财务数据服务器文件,大智慧财务数据指标公式
  13. SSM+MySQL实现软件管理系统(含源码、MySQL、文档,包运行)
  14. android ios9 rom,谁说安卓不如苹果?看Android7.0如何逆袭iOS9.3
  15. LabVIEW编程开发Agilent 34401A(Keysight 34401A)例程与相关资料
  16. ssh @ ssh: Could not resolve hostname : Name or service not known
  17. electron打开文件的几种实现方式
  18. 天圆地方#183; 围棋界的盲棋天才 -- 鲍云
  19. C语言经典算法100例(一)
  20. 这个随笔用用来放一些好的思想和思考方式(暂时secret)

热门文章

  1. LINUX创建www的用户组和用户,并且不允许登录权限:
  2. Spring中使用Log4j记录日志
  3. 怎么安装MYSQL5.0的JDBC驱动
  4. malloc一次性最大能申请多大内存空间
  5. Centos6.5更换163源 epel源
  6. js实现点击li标签弹出其索引值
  7. MATLAB——scatter的简单应用
  8. Spring Cloud(五)断路器监控(Hystrix Dashboard)
  9. php mysql sql mode_Mysql之SQL Mode用法详解_MySQL
  10. php删除空标签_PHP如何去除Html所有标签、空格以及空白