作者:Fanjin Zhang、Jie Tang等

机器之心编译

编辑:魔王

微信点「看一看」最活跃用户竟是爸妈辈,小年轻最「安静」…… 清华大学唐杰等人最近的一项研究透过微信「看一看」的数据分析了用户点击阅读文章和点「在看」的行为模式,并从人口统计情况、二元和三元关联、自我中心网络结构这些不同方面进行了分析。

该研究还提出了一个预测模型,预测准确率相比其他方法有所提升。目前,该论文已发表在《IEEE Transactions on Knowledge and Data Engineering》(TKDE) 期刊上。

  • 论文链接:https://arxiv.org/pdf/2103.02930.pdf

  • GitHub 链接:https://github.com/zfjsail/wechat-wow-analysis

微信文章的「在看」按钮,想必大家都不陌生。在发现页点开「看一看」,微信用户就能看到朋友点过「在看」的文章,也可以点击这些文章进行阅读,或者点个「在看」。

微信「看一看」页面示例。(「wow button」是「在看」按钮。)

那么,哪些因素会影响用户点击阅读这些文章和点「在看」的行为呢?

哪些因素影响了「看一看」用户的行为

该研究从三个层面进行了分析。

  • 从用户人口统计信息来看,不同性别和年龄段的用户「在看」和点击行为的变化很大,在考虑跨属性因素时,情况更加复杂;

  • 就二元关联来看,当其活跃朋友是结构洞和意见领袖时,用户的行为可能截然不同;

  • 而对于自我中心网络(Ego Network),「在看」和点击阅读文章的概率于用户活跃朋友构成的连通分支(connected component)数量强相关。

下面是具体分析结果。

用户人口统计信息

表 1、图 2 和图 3 给出了不同性别和年龄的用户在「看一看」中点「在看」和点击阅读文章的概率。从中,我们可以发现:

  • 男性的点击概率明显高于女性,女性点「在看」的概率略高于男性(参见表 1);

  • 20+ 和 30+ 的年轻人是线上社交圈的中流砥柱,但他们点「在看」和点击阅读文章的概率在所有年龄段中是最低的(参见图 2);

  • 当同时考虑性别和年龄属性时,情况又有所不同:不到 20 岁的人中,男性比女性更活跃;但超过 40 岁的人中女性点「在看」的比例更大,超过 60 岁的人中女性点击阅读文章的比例更大(参见图 3)。

二元和三元关联

为了方便起见,该研究在二元关联中仅考虑用户与一个活跃朋友的互动,在三元关联中仅考虑用户与两个活跃朋友的互动。研究者从人口统计属性与社会角色两个方面进行分析。

1. 二元关联与人口统计属性

下表 2 展示了用户性别和朋友性别对用户活跃率的影响。从中可以看到,就点击行为而言,当二人性别相同时,用户的点击概率更高;但对于「在看」行为而言,当朋友是女性时,用户点「在看」的概率更高。

从年龄来看,下图 4 展示了用户年龄与朋友年龄对用户「在看」行为概率的影响。从中我们可以发现,当用户比较年轻(< 40 岁)时,相比于同龄人,他们更易受年龄较大朋友的影响;年龄较大用户则更易受同龄朋友的影响。

2. 二元关联与社会角色

下表 4 展示了用户与朋友具备不同社会角色——意见领袖 (OL) 和普通人 (OU) 时,对用户活跃率的影响。从中可以发现,当活跃朋友并非意见领袖时,用户点「在看」和点击阅读文章的概率更高。

下表 5 展示了结构洞 (SH) 和普通人 (OU) 这两种社会角色对用户活跃率的影响。(「结构洞」指社会网络中的空隙,即社会网络中某个或某些个体和有些个体发生直接联系,但与其他个体不发生直接联系,即无直接关系或关系间断,从网络整体看好像网络结构中出现了洞穴。)

可以看出,当朋友是结构洞时,普通用户的活跃率更高。而对于本身是结构洞的用户,当朋友非结构洞时其点击概率更高,但差别并不显著。

3. 三元关联与人口统计属性

下图 5 展示了用户性别和朋友性别对用户活跃率的影响。可以看出,当两个朋友的性别与用户性别相同时,用户的活跃率最高。这显示出很强的同质偏好性(homophily)。

下图 6 展示了用户年龄与朋友年龄对用户活跃率的影响。从中我们可以发现,如果一个朋友与用户同龄另一个较小,则用户的活跃率高;年长用户更关注年轻用户。

自我中心网络属性

此外,研究者还探讨了用户活动与其自我中心网络属性的关联,发现用户的线上行为(点击阅读和「在看」)受朋友圈(自我中心网络中的朋友)影响很大。自我中心网络指用户的活跃朋友的诱导子图(induced subgraph)。

该研究从自我中心网络中的朋友数量、连通分支 (#CC) 数量、cleaned 自我中心网络(k 核子图)中的 #CC 这三个方面分析自我中心网络的属性。

下图 8 展示了活跃朋友数量增加对用户活跃率的影响。从图中可以看出,对于点击和「在看」行为而言,趋势完全不同。

通过这些分析,研究者得到以下发现:

  • 男性更喜欢点击阅读文章,女性更喜欢点「在看」,年轻人在「看一看」中的活跃度最低;

  • 在二元或三元关联方面,用户和其朋友之间存在有趣的「同质相吸」现象(如性别),但当不止一个活跃朋友时,属性多样性(如区域)与用户的活动呈正相关;

  • 根据自我中心网络拓扑结构,「在看」和点击行为的模式差异极大。例如,在活跃朋友数量固定的情况下,用户点「在看」的概率与活跃朋友构成的连通分支呈负相关,但点击行为却相反。当自我中心网络得到清理后,这一模式更加明显。

预测模型

既然发现了一些模式或规律,我们可以利用它们预测用户的线上行为吗?该研究创建了一个预测模型 DiffuseGNN。

模型架构。

如上图所示,DiffuseGNN 模型包含五步:预处理自我中心网络、输入层、特征平滑层、层级图表示学习和输出层。

该模型的核心组件和基础 idea 如下所示:

  1. 对于输入用户特征,研究者考虑了不同的用户特征,如用户人口统计信息(性别、年龄等)和预训练用户嵌入,并试图建模特征交互;

  2. 然后通过在可训练的调整后频谱域(trainable modulated spectral domain)中传播初始特征,来学习用户嵌入,这样学得的用户嵌入就可以捕捉自我中心网络中的有用信息,并过滤噪声;

  3. 接下来,研究者进一步将学得的中间表示输入到层级图表示模型中,该模型通过迭代聚类节点来学习子图嵌入;

  4. 该研究还使用新型注意力模型建模用户特征与朋友特征之间的相互作用。

实验

研究者在其收集的微信「看一看」数据和公开的微博数据集上测试了该模型对用户行为的预测效果,并选取了多类方法进行对比,包括:1)传统分类器:LR 和 RF;2)建模特征交互的深度学习方法:xDeepFM;3)基于自我中心网络的 SOTA 用户行为预测方法:DeepInf 和 Wang et al.;4)层级图表示学习方法:SAGPool、ASAP 和 StructPool。其中第 3 和第 4 类都是基于 GNN 的方法。

下表 7 展示了实验结果,从中可以看出 DiffuseGNN 模型的性能持续优于基线方法。

此外,该研究还探讨了不同模型组件对用户行为预测的影响,参见表 7 底部数据。从中我们可以发现,移除预训练嵌入和特征平滑步会导致较大的性能下降;增加二阶特征对基于微信数据的用户行为预测略有帮助,对基于微博数据集的用户行为预测效果较好;该模型在不使用人工制作用户特征的情况下也取得了不错的性能。

你的「在看」有人看,清华研究者从微信「看一看」里发现了这些规律相关推荐

  1. 你的「在看」有人看,清华研究者发现「看一看」的这些规律

    点击上方"前端开发博客"关注公众号 回复"2"加入前端群 作者:Fanjin Zhang.Jie Tang等 机器之心编译 编辑:魔王 微信点「看一看」最活跃用 ...

  2. 极客公园-零基础看懂全球 AI 芯片:详解「xPU」

    https://www.sohu.com/a/169062329_413980 随着 AI 概念火爆全球,做 AI 芯片的公司也层出不穷.为了让市场和观众能记住自家的产品,各家在芯片命名方面都下了点功 ...

  3. 微信「看一看」多模型内容策略与召回

    看一看介绍 相信对于不少人而言微信已经成为获取资讯的主要场景.与此同时,由于微信用户群体的庞大,也吸引了大量的内容生产者在微信公共平台创造内容,以获取用户关注.点赞.收藏等.微信内的内容推荐产品:看一 ...

  4. 详解微信「看一看」多模型内容策略与召回

    本文源自微信人工智能团队,涉及内容库.画像.标签.架构等知识,能给PM提供一些思路.从第四节[队列演进]开始,会提到很多算法.模型内容,难度较高,可酌情阅读. 看一看介绍 相信对于不少人而言微信已经成 ...

  5. 详文解读微信「看一看」多模型内容策略与召回

    微信已经成了不少人获取咨询的来源之一,看一看功能在这基础上实现内容的精确推荐,以及拓宽用户阅读兴趣,打破信息茧房.本文从六个方面,以多模型内容策略与召回的角度分析微信看一看,希望对你有帮助. 目录 一 ...

  6. matlab乖离率计算,终于有人把“乖离率”说清楚了,看懂少走十年弯路!

    原标题:终于有人把"乖离率"说清楚了,看懂少走十年弯路! 一.乖离率 相信均线系统对于股价有吸引作用这个基本的技术分析逻辑,股民朋友都十分熟悉.因此,当股价偏离均线系统的时候,股价 ...

  7. 1527:快看,有人捡到钱了

    1527:快看,有人捡到钱了 Description 老赵喜欢吃烧烤,在一次和同学们吃完烧烤回来的路上,老赵一不小心捡了一百块,同学们强烈要求老赵买蛋糕庆祝,老赵爽快的扔了两百给蛋糕店,让他们做一个球 ...

  8. 清华姚班教授: 「读博,你真的想好了吗?」与 UIUC 王鸿伟「读博,我想好了!」...

    作者 | 张焕晨 &  王鸿伟 来源:知乎,仅作为学术分享,著作权归属原作者 对于部分同学来说,毕业以后读博是顺理成章的人生下一步.但在收获知识.荣誉的同时,你可能也要付出很大代价. 最近,清 ...

  9. 他拿500月薪是「远见」,你拿500……只能叫「援建」

    ✎ 写在前面 最近阿里巴巴元老蔡崇信的故事,又被自媒体小伙伴们扒拉出来分享. 平胸而论,蔡崇信有远见,和一个当时看起来疯癫不羁的创业者,确认了一下眼神,就敢放弃70万美元年薪,拿着500块月薪,老婆还 ...

最新文章

  1. BCH接下来如何走?且看这场大会传达了什么思想
  2. mysql的pager命令,mysql pager用法命令行命令
  3. Go 语言实现 23 种设计模式适配器
  4. SpringBoot 2.x ShardingSphere分库分表实战
  5. TSVD截断奇异值分解
  6. linux怎么查看数据库性能,正确评估SQL数据库性能,你必须知道的原理和方法!...
  7. STM32工作笔记0056---认识DB9接口
  8. 服务提供者框架理解草图
  9. 快速了解Linux ps命令
  10. Windows XP 优化设置注册文件集合(共80项,请谨慎使用)
  11. excel2010服务器打开闪退
  12. log4j配置文件详解------自学
  13. Matlab实现杨氏双缝干涉和(单缝+多缝+圆孔+矩孔)衍射
  14. 快速制作机房3D效果图教程
  15. leetcode 739 解法思路
  16. linux怎么用命令上传本地文件,Linux 将本地文件上传Linux服务器, 即ssh 命令上传本地文件...
  17. QT程序图标不能显示解决
  18. 成语接龙php源码,weiphp——成语接龙插件的对接和使用
  19. 洗地机那个牌子好?洗地机品牌排行榜
  20. 【Python】cannot import name ‘ParserError‘ from ‘dateutil.parser‘

热门文章

  1. Catia圆柱凸轮设计
  2. android 高斯模糊性能,android 高斯模糊实现以及性能比较
  3. excel柱状图加折线图组合怎么做
  4. 计算机控制技术周俊,计算机控制技术
  5. 产品读书《谁说菜鸟不会数据分析(工具篇)》
  6. 全景视频如何下载 - 免费绿色纯净无广告的全景视频下载软件
  7. h5 3D框架和游戏引擎
  8. IOS笔记UI--禁止scrollview上下拖动
  9. js点击按钮div显示隐藏
  10. Siamese network总结