文章目录

  • 1. 数据集介绍
    • 1.1 相关链接:
    • 1.2 构建方法
    • 1.3 代表性验证
    • 1.4 相关实验
  • 2. 数据集下载
    • 2.1 big matrix
    • 2.1 small matrix
    • 2.3 item_feat
    • 2.4 social_network
    • 2.5 注意点
  • 3. 数据集处理
    • 3.1 数据集读取
    • 3.2 划分训练集测试集
    • 3.3 拼接物品属性
    • 3.4 转换成稀疏矩阵

1. 数据集介绍

KuaiRec是中科大与快手团队合作产出的一个稠密度高达99.6%(一般推荐系统公开数据集的稠密度在1%以下)的数据集。
本文将对KuaiRec的构建过程、相关实验、数据信息及处理使用方法等内容进行说明。

上图(b)为KuaiRec数据集,右下角的小矩阵是收集到的全曝光数据集;
通常来说,我们使用大矩阵训练,用小矩阵测试。

上图为属性信息,主要包含item feature社交网络两部分。

1.1 相关链接:

论文:https://arxiv.org/abs/2202.10842
数据:https://rec.ustc.edu.cn/share/598635c0-9585-11ec-8259-414ede1f8d4f
代码:https://chongminggao.github.io/KuaiRec/
Example:http://m6z.cn/5U6xyQ
作者主页:https://chongminggao.me/

1.2 构建方法

  • 所有数据均来源于2020年7月5日至2020年9月5日快手APP上的交互记录;
  • 用户和视频均带有快手平台标记的“高质量”标签
  • 对于缺失值(即用户未观看的其余视频),团队操纵在线推荐规则将这些视频强制推荐给用户,此过程持续了15天。
  • 小矩阵的密度为99.6%,而非100%,是因为有部分用户显式的屏蔽过某些视频作者,导致无法将这些视频曝光给用户。

1.3 代表性验证

  • Kolmogorov–Smirnov假设检验来验证了收集到的小矩阵中的用户与视频快手数据中的用户与视频有着同样的分布。即验证了小矩阵中的用户和视频具有代表性。

1.4 相关实验

作者选择用这个数据集来探究对话推荐系统中的一些关键问题,包括两方面:

  1. 首先,部分观察到的数据(有偏差和无偏差)如何影响 CRS 的评估
  2. 我们能否通过估计缺失值(即矩阵补全)来改进对部分观测数据的评估

除此之外,作者还探究了两个因素在评估中的影响

  1. 观测数据的密度:从全曝光小矩阵中采样出不同密度的数据,使得观测密度在区间:{10%,20%,…, 100%}中。
  2. 曝光偏差的种类:通过随机性采样,基于流行商品的采样,以及基于正样本的采样,分别用以模拟部分曝光中的无偏数据、流行偏差、以及正样本偏差。

2. 数据集下载

数据下载链接:https://rec.ustc.edu.cn/share/598635c0-9585-11ec-8259-414ede1f8d4f
下载并解压数据集后,data文件夹中保存的是大矩阵和小矩阵,以及属性信息。

2.1 big matrix

big matrix:即图(b)中的蓝色部分,包含了7176名用户对10729个视频的12530806条交互记录,density为13.4%

2.1 small matrix

small matrix:即图(b)中的红色部分,包含了1411名用户对3327个视频的4676570条交互记录,density为99.6%.

2.3 item_feat

item_feat:每个视频最多包含4个tags(如体育、游戏…),共有31种tags。

2.4 social_network

social_network: 用户社交网络数据;小矩阵中共有146名用户有社交关系,大矩阵中共有472名用户有社交关系。


loaddata.pyStatistic_KuaiRec.ipynb都是作者提供的加载数据集的代码

2.5 注意点

  1. video_id = 1225是空缺值,这个video不存在任何交互记录~(写代码的时候才发现,所以没有修复了),处理时需要注意一下
    如,负采样时:

        neg = item + 1while neg <= max_item:if neg == 1225:  # 1225 is an absent video_idneg = 1226
    

3. 数据集处理

3.1 数据集读取

  1. filePath改成数据集路径

    filePath= “…/environments/KuaishouRec/data/big_matrix.csv” # 写自己的路径
    df_big = pd.read_csv(filePath)

注意一下,图中的photo_id就是csv文件中的video_id~(我下载的是老版本数据,当时还没有修改列名)

  1. 指定读取列,如只需要u,i,r数据:

    df_big = pd.read_csv(filePath, usecols=[‘user_id’, ‘photo_id’, ‘watch_ratio’])

3.2 划分训练集测试集

因为作者给出的是一个大数据集,并没有划分训练集和测试集,需要我们自己划分;调用sklearn.model_selection import train_test_split库就可以轻松划分了。

from sklearn.model_selection import train_test_split
import os
import pandas as pdDATAPATH = "../environments/KuaishouRec/data"
filePath = os.path.join(DATAPATH, "big_matrix.csv")
trainpath = os.path.join(DATAPATH, "train_big_matrix.csv")
testpath = os.path.join(DATAPATH, "test_big_matrix.csv")# 开始读取
df_big = pd.read_csv(filePath, usecols=['user_id', 'video_id',  'watch_ratio'])
# watch_ratio控制范围
df_big.loc[df_big['watch_ratio'] > 5, 'watch_ratio'] = 5
x_train,x_test=train_test_split(df_big,test_size=0.2,random_state=2022)x_train.sort_values("user_id", inplace=True)
x_test.sort_values("user_id", inplace=True)# save
x_train.to_csv(trainpath, index=False)
x_test.to_csv(testpath, index=False)print("split dataset completed")

3.3 拼接物品属性

  1. 先读取item feature,维度为 item_num*2

    data_feat = pd.read_csv(os.path.join(DATAPATH, ‘item_feat.csv’))
    print(“number of items:”, len(data_feat))

  2. 我们想转换成 item_num*4,因为每个物品最多有4个tag;因此建立一个列表list_feat,再将物品feature读进去;最后将其转换为dataframe结构。

    data_feat = pd.read_csv(os.path.join(DATAPATH, 'item_feat.csv'))
    print("number of items:", len(data_feat))
    list_feat = [0] * len(data_feat)
    for i in range(len(data_feat)):list_feat[i] = data_feat[str(i)]['feature_index']df_feat = pd.DataFrame(list_feat, columns=['feat0', 'feat1', 'feat2', 'feat3'], dtype=int)
    
  3. 这里要注意一下缺失值处理哦!因为本身就有feature0,因此我们将NAN的feature置为-1,最后再统一加一。

    df_feat.index.name = "video_id"
    # 本身就有feature=0的值,所以设置为-1,再整体加一
    df_feat[df_feat.isna()] = -1
    df_feat = df_feat + 1
    df_feat = df_feat.astype(int)
    


4. 最后我们将物品属性矩阵与大矩阵组合起来:

    # 把大矩阵和item特征组合起来df_big = df_big.join(df_feat, on=['video_id'], how="left")df_big.loc[df_big['watch_ratio'] > 5, 'watch_ratio'] = 5user_features = ["user_id"]item_features = ["video_id"] + ["feat" + str(i) for i in range(4)] + ["photo_duration"]reward_features = ["watch_ratio"]

3.4 转换成稀疏矩阵

这部分是将大矩阵处理成(u,i,r)形式。

  1. 首先将video_id user_id转成离散形式

    lbe_video = LabelEncoder() # 弄成离散的
    lbe_video.fit(df_big[‘video_id’].unique())

    lbe_user = LabelEncoder()
    lbe_user.fit(df_big[‘user_id’].unique())

  2. 利用csr_matrix进行转化

    类似(u,i,r)

    mat = csr_matrix(
    (df_big [‘watch_ratio’],
    (lbe_user.transform(df_big [‘user_id’]), lbe_photo.transform(df_big [‘video_id’]))),
    shape=(df_big [‘user_id’].nunique(), df_big [‘video_id’].nunique())).toarray()

KuaiRec 快手首个稠密为99.6%的数据集 相关介绍、下载、处理、使用方法相关推荐

  1. 中科大何向南团队+快手App联合出品 KuaiRec | 快手首个稠密为99.6%的数据集 | 相关介绍、下载、处理、使用方法

    文章目录 1. 数据集介绍 1.1 相关链接: 1.2 构建方法 1.3 代表性验证 1.4 相关实验 2. 数据集下载 2.1 big matrix 2.1 small matrix 2.3 ite ...

  2. ICRA2022 | OPV2V: 首个大型自动驾驶协同感知数据集+代码框架已开源

    作者丨叶小飞 编辑丨极市平台 导读 本篇文章提出了首个大型自动驾驶协同感知数据集, 并提供了多达16个模型的综合Benchmark以及一套完整的代码框架,为协同感知这个新领域提供了基准. OPV2V: ...

  3. idm老是下载到99多就停止了 idm下载中断后无法继续下载

    现在网络上的免费资源很多,不少用户都会使用idm下载这些资源,比如压缩包.视频.音频等等.而且idm采用的是多线程下载,能大幅提高资源下载速度,但是,有时候idm老是下载到99多就停止了,或者idm下 ...

  4. 李清照词全集,共49首,有百家评说,附 txt 文本下载,就在本帖的附件中。

    李清照词全集,共49首,有百家评说,附 txt 文本下载,就在本帖的附件中. 李清照(1084-约1151年):南宋女词人.号易安居士,齐州章丘(今属山东)人.父李格非为当时著名学者,夫赵明诚为金石考 ...

  5. 水果编曲软件FL Studio 20.99最新版2023中文版免费下载安装及语言切换指南

    FL Studio 20.99最新版2023中文版免费下载是一款在国内非常受欢迎的多功能音频处理软件,我们可以通过这款软件来对多种不同格式的音频文件来进行编辑处理.而且FL Studio 20.9中文 ...

  6. 快手怎么引流宝妈?时间已经过去,许多以前的方法现在不适用

    快手怎么引流宝妈?时间已经过去,许多以前的方法现在不适用 大家都知道几年前促进引流很容易.各种平台的管理并不严格,方法也多种多样.但是,时间已经过去,许多以前的方法现在不适用. 为什么?自然地,这是一 ...

  7. KuaiRec | 快手发布首个稠密度高达99%的推荐数据集, 可用于多种推荐系统方向研究...

    省时查报告-专业.及时.全面的行研报告库 省时查方案-专业.及时.全面的营销策划方案库 快手推荐系统精排模型实践 对比学习在快手推荐系统中的应用实践 重排序在快手推荐系统中的实践 某短视频APP推荐算 ...

  8. k3运行linux,首个Kubernetes操作系统k3OS,附主要功能介绍

    Rancher Labs(简称为 Rancher)发布了首个 Kubernetes 操作系统 k3OS,当前行业里第一个专门为 Kubernetes 而开发的极轻量操作系统,它消耗资源极低,操作简单, ...

  9. 收藏 | 500页阿里、滴滴、快手等公司的大数据最佳实践!PDF限时下载

    大数据在阿里.百度.滴滴.快手等公司的最佳实践? Hadoop的核心竞争力? Spark or Flink? 离线平台与实时计算平台如何设计? 今天,2020 DataFunTalk 精选: < ...

最新文章

  1. 「模型解读」“不正经”的卷积神经网络
  2. android stadio svn 使用技巧
  3. 【Linux/Ubuntu学习3】解决ubuntu解压windows生成的zip文件时乱码问题
  4. 【转】ABAP在表VBAP和VBAK上增加新字段的标准BAPI
  5. LUA upvalue使用陷阱一例
  6. Delphi中高级DLL的编写和调用
  7. 国内有哪些自然语言处理(NLP)专业比较厉害的985高校?
  8. Python--Redis实战:第三章:Redis命令:第七节:其他命令
  9. jzoj5230-队伍统计【状压dp】
  10. Android加载大图片不OutOfMemoryError
  11. 数组(array)(小谈)
  12. Android小应用-----画画板
  13. 计算机基础知识面试题集
  14. android平台db4o使用示例
  15. DCDC与LDO浅析
  16. win7 系统激活工具 亲测可行
  17. 如何提升数据化管理效率
  18. 全国计算机四级薪资,全国计算机四级通过率有多少
  19. python数据分析-numpy学习
  20. 在线报表设计实战系列 – ②制作表格类报表

热门文章

  1. poj 3904 求四元互质集合
  2. scilab系列---概述
  3. NVIDIA中文车牌识别系列-3:使用TLT训练车牌号识别LPR模型
  4. 2019年浙江大学计算机考研复试线,2019年浙江大学考研复试分数线已公布
  5. GNSS导航电文模拟生成软件介绍
  6. Linux系统启动U盘制作工具
  7. AI智能语音机器人源码供应批发采购
  8. 电脑仙人掌机器人作文_仙人掌的作文20篇
  9. 【LinuxCNC开发序列教程二】Ethercat主站终端调试
  10. poj-3258 River Hopscotch (二分)