今天点评微信团队发表的CIKM '20的最新论文《Graph Neural Network for Tag Ranking in Tag-enhanced Video Recommendation》。推荐这篇论文的原因有二:

  1. 微信团队实际上面临的是一个“迁移学习+多任务”的场景。但是,微信团队的解决方案并不是传统常见的 multi-task learning、soft/hard parameter  sharing那一套。而是通过将不同领域的节点、关系都建模在一幅图中,通过图卷积,完成知识从数据丰富的领域向数据稀疏领域的迁移,并兼顾两个领域的指标。所以,本文展现了GNN在迁移学习、多任务学习方面的强大能力,为我们解决类似问题提供了全新的思路。

  2. 如上所述,微信团队需要在包含多 域信息的异构图上完成图卷积,每个节点要聚合来自多个领域的异构消息。之前传统的聚合方式,如mean/max pooling,矩阵相乘,可能带来异构消息相互抵销而引入信息损失。为此微信团队采用了GraphSAGE+FM+Transformer多种手段,从不同粒度来交叉、聚合消息,极大提升了模型的表示能力,这种新的消息聚合方式值得借鉴。

接下来,我们先看一下文章所描绘的场景和难点,"设身处地"想一下:如果让你解决这一问题,你会采取什么样的方案?然后再对照文章中所提供的方案,才能体会出作者的"匠心独具",才能真正有所收获,而不是被动填鸭式地等作者把方案扔到你脸上。

场景与难点

微信团队面临的场景是:

  • 每个视频都打有若干tag(人工标注或由内容理解算法打上的)

  • 用户观看视频时,需要有算法从这个视频自带的tag中挑选出与当前用户最相关的若干个tag,展示在视频的下方。

  • 用户点击某个tag,会进入一个沉浸式频道,其中展现的全部是与该tag相关的视频

这个场景对于算法的要求

  1. 推荐出来的tag必须是个性化的。比如对于“小美女的东京美食攻略”这样的视频,对于吃货用户,应该把“美食”排在第一位;对于旅游达人,应该把“日本”排在第一位;对于宅男,则应该把“美女”排在第一位。唯有如此,才能吸引用户进入相应的频道,观看更多同类型的视频。

  2. 推荐的结果,既要吸引用户点击tag,但是最终目标是为了提升用户的观看时长

而这个问题的难点在于:用户点击视频的行为比较丰富,但是用户点击tag的行为比较稀疏,训练数据不足。

第一个方案:只考虑tag-video的相关性

描述完场景,请你"设身处地"地想一下,如果是你领受到了这个任务,你该如何去做?

如果是我,第一个进入我脑海中的方案,就是训练一个模型,输入视频的多模态信息(标题、封面图、关键帧),输出是与这个视频最match的tag。训练时,拿人工打标的结果作为label。线上serving时,将预测出来的top-K个标签,展示在视频的下方。

这个方案可行,但是其只利用了视频的静态属性,没有用户的信息,所以推荐出来的tag只有与视频在语义上的相关性,完全没有针对当前用户的个性化,不满足业务需求。

第二个方案:引入用户行为

为了克服第一个方案没有使用用户行为的缺陷,我想出第二个方案

  1. 假设我们已经有了tag embedding

  2. 用户的embedding是其过去有过"正交互"的tag embedding的pooling

  • 所谓“正交互”,可以是用户过去一段时间内点击过的tag

  • 但是考虑到user-tag的交互太稀疏,因此可以选用户过去点击过视频所携带的tag

  • pooling时,也可以考虑进播放完成度、时间衰减等因素,进行加权平均。

  • 线上serving时,拿user embedding在当前视频所携带的tag embedding中寻找Top-K近邻,展示在视频下方。

  • 但是还遗留一个问题,就是第1步中怎么才能得到tag embedding? 我能想到的第一个方案就是用tag的word embedding。

    怎么评价这一方案:

    1. 这个方案,考虑了用户的历史,应该比第一个只考虑tag-video相关性的方案,有更强的个性化。

    2. 但是拿word embedding做tag embedding,仍然只考虑了tag的语义信息。根据我的经验,也正如文中所说,用户行为蕴含的信息,要比语义信息,更加重要

    3. 但是,用户与tag的交互行为太少了,很难在“用户点击tag的序列”上套用word2vec来学习到tag embedding

    看GraphTR如何得到优质的tag embedding

    讲到这里,终于引出微信的GraphTR模型的思路:

    • GraphTR是为了要学习优质tag embedding,为此要注重利用用户的行为信息

    • 但是由于user-tag的行为太稀疏,因此GraphTR需要通过user-video的行为学习到tag embedding

    要达成以上目标,也有多种作法。而GraphTR的做法是:

    • 将user, video, tag(还加上video的来源media)都放入一个大的异构图

    • 通过图卷积,学习到video embedding,再建模video与video之间的相关性(比如在同一个session中播放过)

    • 因为video embedding融合了tag embedding,因此在优化目标达成之后,一个优质的副产品就是得到tag embedding

    接下来,让我们看看,GraphTR是如何构建这个异构图的?如何传递、融合图上异构节点的信息?如何定义loss?

    GraphTR 第1步 :构建异构图

    图上要包括:user, video, tag, media (视频来源)这 4类节点。因为用户数目太多,而每个用户的行为相对稀疏,GraphTR将用户按照gender-age-location分成84000组,用user group替代user,在图中建模。

    而图上要包括以下5类边(这一版本暂时不考虑边上的权重):

    1. video-video:同属一个观看session中的两video之间有边

    2. user-video:某视频被某user group一周观看超过3次。

    • 因为user-tag行为稀疏,因此图中没有user-tag的边

  • video-tag:video和其携带的tag

  • video-media:video和其来源

  • tag-tag:两个 tag属于同一个视频

  • GraphTR 第2步:聚合异构节点

    为了完成user, video, tag, media这四类节点的信息融合,GraphTR设计了3层卷积结构,称为Heterogeneous field interaction network (HFIN)。

    HFIN结构

    最底层:Heterogeneous Feature Layer

    其作用是由3-hop的邻居,聚合生成2-hop邻居上的信息。将2-hop邻居的embedding分为4个域,user/video/tag/media域的特征,分别由节点类型为user/video/tag/media的3-hop的邻居的embedding相加而成。

    3-hop的节点的embedding如何而来? 每种类型的节点定义一个embedding矩阵,3-hop的节点embedding从相应类型的embedding矩阵映射得到。

    中间层:Multi-field Interaction Layer

    这一层的任务是由2-hop邻居的embedding,聚合生成1-hop邻居的embedding。而HFIN采用了GraphSAGE+FM+Transformer三种方式,粒度上从由粗到细,完成聚合。

    GraphSAGE聚合

    最传统,也是最粗粒度的一种聚合方式。从Heterogeneous Feature Layer可以看到,每个2-hop邻居的embedding,由












    (video)、












    (tag)、












    (media)、












    (user)4个域组成。而GraphSAGE不区分各域,而是将所有域拼接成一个大向量







    ,拿







    在邻居之间传递、聚合。

    多域特征拼接

    而聚合方式就是标准的GraphSAGE GCN Aggregator。其中







    就是destination node自身;







    代表destination node的n个邻居之一;













    是由GraphSAGE方式聚合得到的1-hop节点embedding。

    GraphSAGE聚合公式

    FM聚合

    上述GraphSAGE聚合,不区别各域,粒度较粗。而FM聚合,区分各域,因此粒度更细一些。

    1. 首先,所有2-hop邻居按域平均,再线性变换至统一的维度。以video域











































      为例,一共1+n个节点,n个邻居


























      ,1个节点自身












    1. 然后再拿4个域的平均向量,两两交叉,让不同域的信息充分融合。




      代表element-wise product。











      得到的代表由FM方式聚合得到的1-hop节点的embedding

    FM聚合公式

    Transformer聚合

    这是最细粒度的聚合方式,也是最复杂的。但是,原文中还将它放在第一个讲,让人摸不着头脑,感觉come from nowhere。其实如果把它放到FM聚合后面,就变得清晰了,可以发现Transformer聚合是FM聚合的升级版本。

    GraphTR觉得FM聚合时,各域节点(即各域特征)交叉得还不够

    1. FM聚合,只有在第2步才做域与域之间的交叉。

    2. 而在一个域内部,这n+1个特征之间,只有简单pooling,不存在交叉。

    3. FM聚合的第1步,每个域average pooling的是,这1+n个节点的原始特征。

    Transformer聚合,希望增强各域节点(即各域特征)的交叉

    • 第2步,基于FM的域与域之间的两两交叉,还保留

    • Transformer决定在第1步引入交叉。具体方式就是,在一个域的1+n个节点之间进行Transformer变换,重新生成1+n个向量,每个新向量是老向量的加权平均,权重是当前老向量相对于其他老向量的attention score。(一套attention恐怕没有代表性,还引入多头机制)

    • 再拿生成的1+n个新向量,做average pooling

    Transformer聚合公式

    然后,第2步与FM聚合一样,做不同域之间的两两交叉,最后将“域间交叉结果”与"域内交叉结果"拼接在一起返回













    ,作为由Transformer聚合得到的1-hop邻居的embedding。论文的实验结果证明,这个最复杂、最细粒度的聚合,对于模型性能的提升也最大。

    Transformer聚合公式

    最后1-hop邻居节点的embedding

    三种聚合方式,从三种不同粒度对于不同类型的邻居节点上的信息进行聚合

    • GraphSAGE聚合,最粗,不区分域

    • FM聚合,细致一些 ,考虑了不同域之间的两两交叉

    • Transformer聚合,最细,不仅考虑了不同域之间的交叉,还考虑了一个域内部多个特征(异构节点)之间的交叉

    1-hop邻居的最终embedding,是这三种聚合结果的拼接

    1-hop邻居的embedding

    最上层:The Second Aggregation Layer

    这一层负责由1-hop邻居节点(1个target node自身,m个邻居节点,一共1+m个)的embedding(下边公式中的矩阵H),生成target node上的embedding。聚合方式也是基于Transformer的,

    • 根据1+m个原向量,生成1+m个新向量,每个新向量是所有老向量的加权平均,权重是当前原向量与其他原向量的attention score

    • 再拿这1+m个新向量,取平均,得到target node上的最终向量表示

    各类型节点的最终embedding

    GraphTR 第3步:建模节点间的相关性

    通过以上三层卷积,就能够给图上所有类型的所有节点,都产生一个embedding。接下来的问题就是,如何定义优化目标,使这些节点的embedding得到优化?

    这一部分的解决方案比较常规,无非就是建模节点之间的相关性,可以有选择是:

    • 建模user-tag之间的相关性,user与点击过的tag之间的距离要尽可能小。但是user-tag之间交互的数据太少。

    • 建模user-video之间的相关性,user与点击过的视频之间,距离应该较近。但是图上建模的不是单个user而是user group,一个user group包含的用户兴趣太复杂,拿user-goup与video训练,可能噪声比较大。

    • 建模video-video之间的相关性,在同一个session被观看的视频之间,距离要尽可能小。因为video的点击行为比较多,这方面的数据比较丰富,文中采用的是这种方案。

    接下来Loss的设计就比较常规了,照搬word2vec,也就是:节点







    与其相关节点







    的点积大,与随机节点







    的点积小。

    Pairwise Loss

    尽管这个训练目标中的

















    都是video节点上的embedding,但是由于在生成

















    的过程中,也聚合了tag的embedding,因此待以上目标优化达成后,得到tag embedding也是最优的。

    将这些tag emedding代入上文的"第二个方案",即拿用户观看过视频携带的tag的embedding加权平均得到user embedding,再拿这个user embedding在当前视频所携带的tag的embedding中寻找出距离最近的top-k个tag,作为推荐结果显示在视频的下方。因为这些tag embedding蕴含了丰富的user-video行为信息,不仅有助于提升用户对tag的点击率,也有助于提升进入沉浸式tag频道后的观看时长。

    总结

    至此,微信的GraphTR模型就解读完毕,总结一下这个模型的两个亮点:

    • 微信团队面临的是,数据少的领域如何借力于数据多的领域,同时要兼顾两个领域的优化目标。而他们没有采取传统的“迁移+多目标”的方式,而是通过将不同领域的不同节点、关系建立在一张异构图上,通过图卷积,使得每个节点的embedding都浓缩了多个领域的知识,达成了“知识迁移+目标兼顾”。GraphTR在微信这种大规模推荐场景下的成功运用,展现了GNN在迁移学习、多任务学习方面的强大能力,为我们解决类似问题提供了全新的思路。

    • GraphTR采用了GraphSAGE+FM+Transformer多种手段,粒度上从粗到细,交叉、聚合来自不同领域的异构消息,相比于mean/max pooling、浅层FC等传统聚合方式,极大提升了模型的表达能力,值得借鉴。

GraphSAGE+FM+Transformer强强联手:评微信的GraphTR模型相关推荐

  1. 神经科学界大地震!诺奖级泰斗将携团队移居中国,与蒲慕明院士强强联手

    点击上方"Python高校",关注 文末干货立马到手   本文转载自:新智元   来源:science等  |  编辑:张佳 [导读]德国科学院院士.马克斯·普朗克生物控制论研究所 ...

  2. 腾讯入股京东,强强联手意味着什么

    在传闻传了近半个月后,腾讯入股京东一事终于尘埃落定.昨天上午,腾讯发布公告,将以2.14亿美元收购京东上市前15%股份,在此交易中京东将100%收购腾讯B2C平台QQ网购和C2C平台拍拍网,以及易迅网 ...

  3. Codasip和IAR强强联手,共同演示用于RISC-V的双核锁步技术

    IAR获得ISO 26262认证的工具支持基于屡获殊荣的CodasipL31内核的参考设计 Codasip和IAR共同宣布将强强联手为低功耗嵌入式汽车应用提供全新的创新支持,双方将联手为客户提供屡获殊 ...

  4. 区块链内的十大强强联手

    区块链内的十大强强联手 2018年对于区块链是多事的一年,尽管存在熊市,但还是有许多区块链项目启动,增加了工作人员,与其他公司合作(项目),收购其他公司,根据政策改变了规定,并进一步开发区块链技术的解 ...

  5. 强强联手!这所C9高校与西湖大学签约

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要5分钟 Follow小博主,每天更新前沿干货 本文来源:西安交通大学 应王树国校长邀请,世界著名结构生物学家.西湖大学校长施一公院士一行于20 ...

  6. 谷歌、DeepMind强强联手再发布Dreamer:性能远超“前辈”PlaNet

    2020-03-20 10:55:45 文 | 谷歌 AI 译 | 丛末 去年,谷歌.DeepMind联手推出基于模型的强化学习智能体PlaNet,能解决各种基于图像的控制任务,性能可媲美当时最先进的 ...

  7. 强强联手 SAP Ariba与苏宁易购共建中国企业智慧采购

    2019年5月30日,南京讯- SAP Ariba(采购云)联合苏宁易购共同宣布达成战略合作关系,苏宁易购成为SAP Ariba Spot Buy(零星采购)业务在中国大陆地区的合作伙伴.双方将利用S ...

  8. 又一 5G+AIoT 的强强联手!

    作者 | 伍杏玲 出品 | CSDN(ID:CSDNnews) 据艾瑞咨询与金山云联合发布<2020年中国智能物联网(AIoT)白皮书>显示,2019 年物联网连接量将达 45.7 亿,随 ...

  9. 睿至大数据与北交大强强联手布局大数据

    本文讲的是睿至大数据与北交大强强联手布局大数据[IT168 评论]北京时间2017年4月27日 北京睿至大数据有限公司(以下简称睿至大数据)牵手北京交通大学交通运输学院,正式签署战略合作协议,未来,双 ...

  10. 强强联手 法大大电子合同金蝶云·苍穹版上线

    △ 法大大电子合同(苍穹版)发布 金蝶中国生态伙伴部联席总经理 张亚朋(右) 法大大副总裁黄炯(左) 2022年11月11日,金蝶软件(中国)有限公司(以下简称"金蝶")举办以&q ...

最新文章

  1. 【linux】用过的shell命令
  2. Java IO流面试题
  3. ACM中Java输入输出
  4. python字符编码
  5. aop简介-aop的底层实现
  6. [转载]DEV控件:gridControl常用属性设置
  7. Spring MVC中的验证组
  8. QT消息,事件,槽的典型用法
  9. 检查xml文件中包含非法xml字符的个数(
  10. python程序中想使用正则表达式_如何在python中使用正则表达式提取每行中需要的信息...
  11. 玩转 SpringBoot 2 之整合 WebSocket 篇
  12. 中文字符存储 mysql_中文字符的存储
  13. 弹性地基梁板的计算理论_龚晓南院士:30年创新实践,为地基处理开出“良方”...
  14. android循环按键精灵,大神求解按键精灵固定时间循环
  15. 如何下载哔哩哔哩视频
  16. 【Kaggle 教程】Data Visualization 数据可视化-画图-各种图
  17. 冰点文库的替代品【Wenku Doc Downloader】用于下载各种文库的材料
  18. Windows 常用组合键(热键)
  19. 计算机组成原理肖铁军第二版答案,计算机组成原理(肖铁军编)第二章习题及答案...
  20. 洛谷P1005 矩阵取数游戏 ACM 大数+区间dp

热门文章

  1. WebRoot到底是什么鬼?我改它的名可以吗?
  2. python编写程序统计一元人民币换成一分、两分和五分的所有兑换方案个数(用while循环)
  3. php模拟邮箱登录2017,php 模拟GMAIL,HOTMAIL(MSN),YAHOO,163,126邮箱登录(原创)...
  4. 化工图纸中LISP_化工设计之工程图纸(这篇文章给你讲全了)
  5. html页面pc端显示正常,手机端页面整体偏左(兼容性处理)
  6. 学习笔记(01):通俗易懂的Bootstrap视频课程(适合初学者的教程)-图标、下拉菜单、按钮组...
  7. r语言平均值显著性检验_用R语言解读统计检验-F检验
  8. 互联网运营工作需要做什么?
  9. 阿里云服务器使用https访问项目
  10. 制作双绞线时,T568b、T568a 线序分别是什么?