快手+中科大 | 全曝光推荐数据集KuaiRec 2.0版本

嘿，记得给“机器学习与推荐算法”添加星标

作者：高崇铭

单位：中国科学技术大学博士生，快手实习

在沉淀了一段时间后，我们推出了数据集KuaiRec的2.0版本。这是由我们中科大何向南团队与快手社区科学部门联合推出的，用于推荐系统的一个全曝光数据集。这也是推荐系统学界以及业界首个包含百万量级交互的超密集曝光数据。

数据集的详细信息可见官网文档：https://chongminggao.github.io/KuaiRec/

关于这个数据的的1.0版本的简介，可参考本文KuaiRec | 快手发布首个稠密度高达99%的推荐数据集, 可用于多种推荐系统方向研究。

什么是全曝光数据集？

在本数据集提出前，几乎所有的真实推荐数据集都是高度稀疏的，以下列举了一些常见的推荐数据集，给定了用户数目、商品数目、交互数目，以及对应的数据密度=交互数/(用户数*商品数)。可见绝大多数的推荐数据集密度是小于1%的。

Dataset	#Users	#Items	#Interactions	Density	Types of interactions	# User Features	# Item Features
Movielens 1M	6,040	3,706	1,000,209	4.47%	Rating: [1-5]	4	1
Movielens 10M	69,878	10,677	10,000,054	1.34%	Rating: [0.5-5], tags	0	1
Movielens 20M	138,493	26,744	20,000,263	0.540%	Rating: [0.5-5], tags	0	1
Movielens 25M	162,541	5,9047	25,000,095	0.260%	Rating: [0.5-5], tags	0	1
Yelp	1,987,897	150,346	6,990,280	0.00234%	Reviews	21	13
Alibaba	106,042	53,591	907,470	0.0160%	Implicit	0	0
Jester	73,421	100	4,136,210	56.34%	Rating: [-10, 10]	0	0
Book-Crossing	92,107	271,379	1,031,175	0.0041%	Raing: [1, 10], and implicit	4	2
Last.fm-2k	1,892	17,632	92,834	0.28%	Play Counts		0
zhihuRec 1M	7963	81,214	1,000,026	0.155%	Views	26	17
zhihuRec 20M	159,878	342,736	19,999,502	0.0365%	Views
zhihuRec 100M	798,086	554,976	99,978,523	0.0226%	Views		17
RetailRocket	1,407,580	235,061	2,756,101	0.00083%	{View,Addtocart,Transaction}	0	2
Yoochoose	509,696 (sessions)	19,949	34,154,697	0.336%	{Buys, Clicks}	0	0
Coat	290	300	11,600	13.33%	Rating: [1-5]	0	0
Yahoo! R3	15,400	1,000	365,704	2.37%	Rating: [1-5]	0	0
Yahoo! R6A	Anonymous	271	45,811,883		Clicks	6	6
Yahoo! R6B	Anonymous	652	27,777,695		Clicks	136	0
Open Bandit Dataset	Anonymous	80	26,703,169		Clicks	4	4
KuaiRec	1,411	3,327	4,676,570	99.6%	view time	31	57

其中可见，除了本文要介绍的KuaiRec数据集以外，这其中密度最高的Jester也才只有56%，而且没有feature信息。另一方面，feature信息比较丰富的zhihuRec数据集，却极其稀疏。这个现象很好理解，正常用户没有时间和精力对成千上万的商品都进行交互。故绝大多数推荐数据集都是极其稀疏的。

而我们首次提出了一个几乎全曝光的推荐数据集：KuaiRec，见下图：

全曝光数据集KuaiRec示意图

其中图中右边矩阵的红色部分为小矩阵，除了部分商品（短视频）因为用户屏蔽了相关作者无法曝光以外，该用户—商品矩阵的99.6%的位置都有值，这部分用户都对视频进行了观看，并以观看时长作为用户反馈。

这个全曝光的小矩阵，可以成为一个绝佳的推荐系统的评测数据，即对于任意用户，其在任意商品上的偏好都已知。

而红色小矩阵外围的蓝色部分，则是我们收集作为训练用途的数据，取名为大矩阵。

这个全曝光矩阵，在推荐系统领域，是首个！

KuaiRec 2.0版本比起1.0版本多了什么？

这次的2.0版本比起1.0区别不大，主要在于:

加入了大量的用户侧以及视频侧特征。

用户侧：30个特征，包括12个显示特征和18个加密过的one-hot特征。
视频侧：加入了56个特征，其中45个是每天的统计特征。

去除了原来没用到的ID为1225号的视频，并将原先ID大于1225的视频的ID减一。

我们怎么收集的这个数据集？

短视频推荐不同于商品推荐，用户交互相对密集得多。利用这一特性，我们首先找到了一批高质量的短视频，在喜欢看这一批高质量短视频的用户群中筛选出了一批人群。当然，筛选出的人群也并不能将所有短视频都看完，此时矩阵密集程度大概在70%多。剩下不到30%的交互依然未知。接下来就简单了，我们更改这部分用户的推荐系统规则，将他们没看过的视频插入到推荐流中，在用户不知情的情况下收集他们的反馈。于是，在两周的曝光后，我们再次对用户进行筛选，得到了最终看完所有视频的用户集合。

这个过程得到的数据会不会有问题？当然！没有免费的午餐。这样筛选后也会引入部分的bias。但用户的反馈是真切记录下来了。我们也对这部分数据与快手平台的大数据进行了比较，在一些关键指标上，通过了双样本Kolmogorov–Smirnov假设检验，即我们的全曝光数据与快手平台的大数据在这些指标上分布是一样的。故，这可以当成真实在线数据的缩影。

数据官网中有这个数据集的各种统计信息，这个数据中发现任何问题，都能够支撑做一些debiasing研究的方向。总之，这个数据集可以挖掘的信息很多，机会很多。

KuaiRec数据集可以用来做什么？

由于包含全曝光用户—商品矩阵以及大量的特征，其可以支撑大多数推荐系统方向中的研究。全曝光矩阵最大的用处：评测！评测！

在基于bandit的推荐方式中，以及强化学习的方法研究中，最头疼的问题，就是没有ground-truth信息：即，模型现在推荐或者选择了一个商品，我们不知道用户对其的偏好（稀疏的历史数据中没有），那就没法评测！这类技术就没法用了。于是我们在看到bandit方法、强化学习方法的文章中，用的数据集总是人工模拟数据，或者公司内部数据。而此时此刻，一个真正记录了用户偏好的全曝光数据，就摆在眼前。再也不需要用人工模拟了。

为什么需要全曝光数据？

以前没有全曝光数据，评测推荐系统的方式就是划分出一部分数据作为测试集，在该测试集上用基于例如Precision、Recall等的指标进行评测。这种方式很普遍。

然而！这是有问题的评测方式！而且问题不小。在推荐中，传统离线评测方式，是对于稀疏数据的一种妥协。

传统评测方式问题在哪？为什么需要全曝光数据？有了全曝光数据该如何评测？此处先不说，让大家思考片刻。后续文章会进一步进行分析。

更多推荐系统内容可移步作者主页：https://chongminggao.me/

欢迎干货投稿 \ 论文宣传 \ 合作交流

推荐阅读

论文周报 | 推荐系统领域最新研究进展

精排模型-从MLP到行为序列：DIN、DIEN、MIMN、SIM、DSIN

GNN最新综述 | 可信图神经网络的维度、方法以及趋势

2022推荐系统序列建模的趋势总结

由于公众号试行乱序推送，您可能不再准时收到机器学习与推荐算法的推送。为了第一时间收到本号的干货内容，请将本号设为星标，以及常点文末右下角的“在看”。

喜欢的话点个在看吧

快手+中科大 | 全曝光推荐数据集KuaiRec 2.0版本相关推荐

华为mate20 android,华为Mate20全曝光，可能是最后一个版本
原标题:华为Mate20全曝光,可能是最后一个版本要说现在能够坐稳国内智能手机高端市场的厂商,除了三星苹果恐怕就要数华为了.现在的华为,已经形成P系列和Mate系列两款中高端系列,再往下则又有荣耀系 ...

Pytorch最简单的图像分类——K折交叉验证处理小型鸟类数据集分类2.0版本ing
https://blog.csdn.net/hb_learing/article/details/110411532 https://blog.csdn.net/Pl_Sun/article/deta ...

快手-中科大最新研究：利用对话式推荐解决用户冷启动问题
推荐系统冷启动通常分为三类,即用户冷启动.物品冷启动还有系统冷启动.无论那种冷启动都因为只有较少的数据和特征来训练模型,所有需要不同的技术方案来提升推荐效果.另外冷启动结合产品方案可以加速冷启动的过程 ...

中科大linux用户组推荐的linux相关书目
为什么80%的码农都做不了架构师?>>> 大都是比较知名的书,豆瓣都可以找到,上网时发现科大的同学整理了出来,比较系统.另外,科大LUG的每周小聚分享的slides也在网上共享 ...

KuaiRec | 快手发布首个稠密度高达99%的推荐数据集, 可用于多种推荐系统方向研究...
省时查报告-专业.及时.全面的行研报告库省时查方案-专业.及时.全面的营销策划方案库快手推荐系统精排模型实践对比学习在快手推荐系统中的应用实践重排序在快手推荐系统中的实践某短视频APP推荐算 ...

中科大-凸优化笔记（lec25）-等价变换
全部笔记的汇总贴(视频也有传送门):中科大-凸优化 ∇fT(x∗)(y−x)≥0\nabla f^T(x^*)(y-x)\ge0∇fT(x∗)(y−x)≥0线性规划的解在边界上一.等价变换例:食谱 ...

缺陷程序数据集Defects4J v1.4.0版本的配置
文章目录前言步骤后续前言如题,对Defects4J缺陷程序数据集v1.4.0版本的配置简单记录一下. 步骤主要参考下图的First,Then,Finally三步即可. apt-get up ...

中科大何向南团队+快手App联合出品 KuaiRec | 快手首个稠密为99.6%的数据集 | 相关介绍、下载、处理、使用方法
文章目录 1. 数据集介绍 1.1 相关链接: 1.2 构建方法 1.3 代表性验证 1.4 相关实验 2. 数据集下载 2.1 big matrix 2.1 small matrix 2.3 ite ...

中科大+快手出品 CIRS: Bursting Filter Bubbles by Counterfactual Interactive Recommender System 代码解析
文章目录前言论文介绍: 代码介绍: 代码: 一. CIRS-UserModel-kuaishou.py 0. get_args() 解析参数 1. create_dir() 2. Prepare ...

最新文章

Java 设计模式——状态模式

[转][HTML]css属性

mysql服务remove失败_《MySQL数据库》MySql简介、下载与安装

码云怎么创建公开的仓库_使用码云创建属于你的免费私有git仓库

python代码怎么弄颜色_python的颜色显示

服务器上怎么强制删除文件夹,Windows10系统强制删除文件的方法

微信图片怎么添加竖排文字_如何给微信图片添加上竖排文字？

linux切换中文拼音快捷键,Fedora 16下调出中文拼音输入法

moment自定义时间区间

强烈推荐代码生成器Cursor

中国空气质量指数（AQI）及其计算方式

测试底妆的软件,底妆日记 | 我用半个月的时间，测试了我所遇过最贵的底妆

十六进制数后跟L/U/UL解析

DIE（一个JS引擎Fuzzing工具）安装教程

p5.js 编程基础学习合集【2】

SpringBoot整合JavaMail通过阿里云企业邮箱发送邮件

TCRT5000循迹模块原理及应用

简单的web工程接收消息text--微信企业号

机房动环监控系统参数与功能

【BCH-2 5A 50HZ差动继电器】

热门文章

python中变量名_python中变量的命名及详解

基于Stanford Parser 及OpenNLP Shallow Parser构建句子语法解析树

孟岩：通证经济设计的七个原则，八个陷阱和十一个模板

oracle之concat()函数

如何打造一份优秀的技术简历

mysql .zip 包简易安装

【李佳辉_周报_2022.10.16】

基于vue，安装vux-ui步骤

python爬取王者荣耀全皮肤高清无水印图片

Docker监控远程服务器