嘿,记得给“机器学习与推荐算法”添加星标


作者:高崇铭

单位:中国科学技术大学博士生,快手实习

在沉淀了一段时间后,我们推出了数据集KuaiRec的2.0版本。这是由我们中科大何向南团队与快手社区科学部门联合推出的,用于推荐系统的一个全曝光数据集。这也是推荐系统学界以及业界首个包含百万量级交互的超密集曝光数据。

数据集的详细信息可见官网文档:https://chongminggao.github.io/KuaiRec/

关于这个数据的的1.0版本的简介,可参考本文KuaiRec | 快手发布首个稠密度高达99%的推荐数据集, 可用于多种推荐系统方向研究。

什么是全曝光数据集?

在本数据集提出前,几乎所有的真实推荐数据集都是高度稀疏的,以下列举了一些常见的推荐数据集,给定了用户数目、商品数目、交互数目,以及对应的数据密度=交互数/(用户数*商品数)。可见绝大多数的推荐数据集密度是小于1%的。

Dataset #Users #Items #Interactions Density Types of interactions # User Features # Item Features
Movielens 1M 6,040 3,706 1,000,209 4.47% Rating: [1-5] 4 1
Movielens 10M 69,878 10,677 10,000,054 1.34% Rating: [0.5-5], tags 0 1
Movielens 20M 138,493 26,744 20,000,263 0.540% Rating: [0.5-5], tags 0 1
Movielens 25M 162,541 5,9047 25,000,095 0.260% Rating: [0.5-5], tags 0 1
Yelp 1,987,897 150,346 6,990,280 0.00234% Reviews 21 13
Alibaba 106,042 53,591 907,470 0.0160% Implicit 0 0
Jester 73,421 100 4,136,210 56.34% Rating: [-10, 10] 0 0
Book-Crossing 92,107 271,379 1,031,175 0.0041% Raing: [1, 10], and implicit 4 2
Last.fm-2k 1,892 17,632 92,834 0.28% Play Counts 0
zhihuRec 1M 7963 81,214 1,000,026 0.155% Views 26 17
zhihuRec 20M 159,878 342,736 19,999,502 0.0365% Views
zhihuRec 100M 798,086 554,976 99,978,523 0.0226% Views 17
RetailRocket 1,407,580 235,061 2,756,101 0.00083% {View,Addtocart,Transaction} 0 2
Yoochoose 509,696 (sessions) 19,949 34,154,697 0.336% {Buys, Clicks} 0 0
Coat 290 300 11,600 13.33% Rating: [1-5] 0 0
Yahoo! R3 15,400 1,000 365,704 2.37% Rating: [1-5] 0 0
Yahoo! R6A Anonymous 271 45,811,883 Clicks 6 6
Yahoo! R6B Anonymous 652 27,777,695 Clicks 136 0
Open Bandit Dataset Anonymous 80 26,703,169 Clicks 4 4
KuaiRec 1,411 3,327 4,676,570 99.6% view time 31 57

其中可见,除了本文要介绍的KuaiRec数据集以外,这其中密度最高的Jester也才只有56%,而且没有feature信息。另一方面,feature信息比较丰富的zhihuRec数据集,却极其稀疏。这个现象很好理解,正常用户没有时间和精力对成千上万的商品都进行交互。故绝大多数推荐数据集都是极其稀疏的。

而我们首次提出了一个几乎全曝光的推荐数据集:KuaiRec,见下图:

全曝光数据集KuaiRec示意图

其中图中右边矩阵的红色部分为小矩阵,除了部分商品(短视频)因为用户屏蔽了相关作者无法曝光以外,该用户—商品矩阵的99.6%的位置都有值,这部分用户都对视频进行了观看,并以观看时长作为用户反馈。

这个全曝光的小矩阵,可以成为一个绝佳的推荐系统的评测数据,即对于任意用户,其在任意商品上的偏好都已知。

而红色小矩阵外围的蓝色部分,则是我们收集作为训练用途的数据,取名为大矩阵。

这个全曝光矩阵,在推荐系统领域,是首个!

KuaiRec 2.0版本比起1.0版本多了什么?

这次的2.0版本比起1.0区别不大,主要在于:

  1. 加入了大量的用户侧以及视频侧特征。

  • 用户侧:30个特征,包括12个显示特征和18个加密过的one-hot特征。

  • 视频侧:加入了56个特征,其中45个是每天的统计特征。

  1. 去除了原来没用到的ID为1225号的视频,并将原先ID大于1225的视频的ID减一。

我们怎么收集的这个数据集?

短视频推荐不同于商品推荐,用户交互相对密集得多。利用这一特性,我们首先找到了一批高质量的短视频,在喜欢看这一批高质量短视频的用户群中筛选出了一批人群。当然,筛选出的人群也并不能将所有短视频都看完,此时矩阵密集程度大概在70%多。剩下不到30%的交互依然未知。接下来就简单了,我们更改这部分用户的推荐系统规则,将他们没看过的视频插入到推荐流中,在用户不知情的情况下收集他们的反馈。于是,在两周的曝光后,我们再次对用户进行筛选,得到了最终看完所有视频的用户集合。

这个过程得到的数据会不会有问题?当然!没有免费的午餐。这样筛选后也会引入部分的bias。但用户的反馈是真切记录下来了。我们也对这部分数据与快手平台的大数据进行了比较,在一些关键指标上,通过了双样本Kolmogorov–Smirnov假设检验,即我们的全曝光数据与快手平台的大数据在这些指标上分布是一样的。故,这可以当成真实在线数据的缩影。

数据官网中有这个数据集的各种统计信息,这个数据中发现任何问题,都能够支撑做一些debiasing研究的方向。总之,这个数据集可以挖掘的信息很多,机会很多。

KuaiRec数据集可以用来做什么?

由于包含全曝光用户—商品矩阵以及大量的特征,其可以支撑大多数推荐系统方向中的研究。全曝光矩阵最大的用处:评测!评测!

在基于bandit的推荐方式中,以及强化学习的方法研究中,最头疼的问题,就是没有ground-truth信息:即,模型现在推荐或者选择了一个商品,我们不知道用户对其的偏好(稀疏的历史数据中没有),那就没法评测!这类技术就没法用了。于是我们在看到bandit方法、强化学习方法的文章中,用的数据集总是人工模拟数据,或者公司内部数据。而此时此刻,一个真正记录了用户偏好的全曝光数据,就摆在眼前。再也不需要用人工模拟了。

为什么需要全曝光数据?

以前没有全曝光数据,评测推荐系统的方式就是划分出一部分数据作为测试集,在该测试集上用基于例如Precision、Recall等的指标进行评测。这种方式很普遍。

然而!这是有问题的评测方式!而且问题不小。在推荐中,传统离线评测方式,是对于稀疏数据的一种妥协。

传统评测方式问题在哪?为什么需要全曝光数据?有了全曝光数据该如何评测?此处先不说,让大家思考片刻。后续文章会进一步进行分析。

更多推荐系统内容可移步作者主页:https://chongminggao.me/


欢迎干货投稿 \ 论文宣传 \ 合作交流

推荐阅读

论文周报 | 推荐系统领域最新研究进展

精排模型-从MLP到行为序列:DIN、DIEN、MIMN、SIM、DSIN

GNN最新综述 | 可信图神经网络的维度、方法以及趋势

2022推荐系统序列建模的趋势总结

由于公众号试行乱序推送,您可能不再准时收到机器学习与推荐算法的推送。为了第一时间收到本号的干货内容, 请将本号设为星标,以及常点文末右下角的“在看”。

喜欢的话点个在看吧

快手+中科大 | 全曝光推荐数据集KuaiRec 2.0版本相关推荐

  1. 华为mate20 android,华为Mate20全曝光,可能是最后一个版本

    原标题:华为Mate20全曝光,可能是最后一个版本 要说现在能够坐稳国内智能手机高端市场的厂商,除了三星苹果恐怕就要数华为了.现在的华为,已经形成P系列和Mate系列两款中高端系列,再往下则又有荣耀系 ...

  2. Pytorch最简单的图像分类——K折交叉验证处理小型鸟类数据集分类2.0版本ing

    https://blog.csdn.net/hb_learing/article/details/110411532 https://blog.csdn.net/Pl_Sun/article/deta ...

  3. 快手-中科大最新研究:利用对话式推荐解决用户冷启动问题

    推荐系统冷启动通常分为三类,即用户冷启动.物品冷启动还有系统冷启动.无论那种冷启动都因为只有较少的数据和特征来训练模型,所有需要不同的技术方案来提升推荐效果.另外冷启动结合产品方案可以加速冷启动的过程 ...

  4. 中科大linux用户组推荐的linux相关书目

    为什么80%的码农都做不了架构师?>>>    大都是比较知名的书,豆瓣都可以找到,上网时发现科大的同学整理了出来,比较系统.另外,科大LUG的每周小聚分享的slides也在网上共享 ...

  5. KuaiRec | 快手发布首个稠密度高达99%的推荐数据集, 可用于多种推荐系统方向研究...

    省时查报告-专业.及时.全面的行研报告库 省时查方案-专业.及时.全面的营销策划方案库 快手推荐系统精排模型实践 对比学习在快手推荐系统中的应用实践 重排序在快手推荐系统中的实践 某短视频APP推荐算 ...

  6. 中科大-凸优化 笔记(lec25)-等价变换

    全部笔记的汇总贴(视频也有传送门):中科大-凸优化 ∇fT(x∗)(y−x)≥0\nabla f^T(x^*)(y-x)\ge0∇fT(x∗)(y−x)≥0线性规划的解在边界上 一.等价变换 例:食谱 ...

  7. 缺陷程序数据集Defects4J v1.4.0版本的配置

    文章目录 前言 步骤 后续 前言 如题,对Defects4J缺陷程序数据集v1.4.0版本的配置简单记录一下. 步骤 主要参考下图的First,Then,Finally三步即可. apt-get up ...

  8. 中科大何向南团队+快手App联合出品 KuaiRec | 快手首个稠密为99.6%的数据集 | 相关介绍、下载、处理、使用方法

    文章目录 1. 数据集介绍 1.1 相关链接: 1.2 构建方法 1.3 代表性验证 1.4 相关实验 2. 数据集下载 2.1 big matrix 2.1 small matrix 2.3 ite ...

  9. 中科大+快手出品 CIRS: Bursting Filter Bubbles by Counterfactual Interactive Recommender System 代码解析

    文章目录 前言 论文介绍: 代码介绍: 代码: 一. CIRS-UserModel-kuaishou.py 0. get_args() 解析参数 1. create_dir() 2. Prepare ...

最新文章

  1. Java 设计模式——状态模式
  2. [转][HTML]css属性
  3. mysql服务remove失败_《MySQL数据库》MySql简介、下载与安装
  4. 码云怎么创建公开的仓库_使用码云创建属于你的免费私有git仓库
  5. python代码怎么弄颜色_python的颜色显示
  6. 服务器上怎么强制删除文件夹,Windows10系统强制删除文件的方法
  7. 微信图片怎么添加竖排文字_如何给微信图片添加上竖排文字?
  8. linux切换中文拼音快捷键,Fedora 16下调出中文拼音输入法
  9. moment自定义时间区间
  10. 强烈推荐代码生成器Cursor
  11. 中国空气质量指数(AQI)及其计算方式
  12. 测试底妆的软件,底妆日记 | 我用半个月的时间,测试了我所遇过最贵的底妆
  13. 十六进制数后跟L/U/UL解析
  14. DIE(一个JS引擎Fuzzing工具)安装教程
  15. p5.js 编程基础学习合集【2】
  16. SpringBoot整合JavaMail通过阿里云企业邮箱发送邮件
  17. TCRT5000循迹模块原理及应用
  18. 简单的web工程接收消息text--微信企业号
  19. 机房动环监控系统参数与功能
  20. 【BCH-2 5A 50HZ差动继电器】

热门文章

  1. python中变量名_python中变量的命名及详解
  2. 基于Stanford Parser 及OpenNLP Shallow Parser构建句子语法解析树
  3. 孟岩:通证经济设计的七个原则,八个陷阱和十一个模板
  4. oracle之concat()函数
  5. 如何打造一份优秀的技术简历
  6. mysql .zip 包简易安装
  7. 【李佳辉_周报_2022.10.16】
  8. 基于vue,安装vux-ui步骤
  9. python爬取王者荣耀全皮肤高清无水印图片
  10. Docker监控远程服务器