KuaiRec | 快手发布首个稠密度高达99%的推荐数据集, 可用于多种推荐系统方向研究...
省时查报告-专业、及时、全面的行研报告库
省时查方案-专业、及时、全面的营销策划方案库
快手推荐系统精排模型实践
对比学习在快手推荐系统中的应用实践
重排序在快手推荐系统中的实践
某短视频APP推荐算法及策略最详细拆解
机器学习在B站推荐系统中的应用实践
小红书推荐系统中台应用实践
微信视频号实时推荐技术架构分享
推荐系统的变与不变:冷启动、召回排序等
对比学习在快手推荐系统中的应用实践
知识图谱在美团推荐场景中的应用实践
淘宝首页猜你喜欢信息流推荐系统实践
本周跟大家分享一篇快手公司与中科大合作产出的资源型论文,即发布了一个几乎全是观测值的稠密数据集KuaiRec,该数据集包含了1411个用户对3327个短视频的交互行为,稠密度高达99.6%(一般推荐系统公开数据集的稠密度在1%以下)。该数据集可用于离线的A/B测试,以及可用于无偏推荐、交互式/对话推荐或者是基于强化学习推荐等方向。
论文:https://arxiv.org/abs/2202.10842
数据:https://rec.ustc.edu.cn/share/598635c0-9585-11ec-8259-414ede1f8d4f
代码:http://m6z.cn/5U6xyQ
目前大多数离线评测的推荐系统数据集会存在高度数据稀疏(Highly sparse)与包含多种偏置(Various bias)的问题,因此会严重影响推荐算法的评测性能(关于目前主流推荐系统45种公开数据集的统计分析可阅读WSDM2022 | 数据困境: 我们究竟有多了解推荐系统数据集?)。目前主要的缓解方式是通过随机选择交互物品的方式来收集用户偏好以此来提高数据的质量,比如Yahoo数据集与Coat数据集。然而这些数据集会由于数据稀疏而导致高度偏差的问题,为从根本上缓解以上问题,所以提出了一个全量观测数据集KuaiRec,该数据集是从快手短视频社交分享平台上收集的,是第一个稠密度高度99%的数据集。
该数据集包含两种规模的数据,即Small matrix和Big matrix,其中Small matrix稠密度为99.6%可用于可信的评测,而Big matrix的稠密度为13.4%可用于推荐模型的训练。注意Big matrix与 Small matrix无任何的交集。
对于该数据集的统计信息可见下表,其中Big matrix还包含丰富的边信息,即用户侧的社交网络与物品侧的特征信息。
由于该数据几乎包含用户对所有物品的交互行为,因此不用去处理缺失值的问题(不能简单的把缺失值看做是负样本或者是missing-not-at-random问题)。该数据集可用于高效的离线A/B测试,因此可用于无偏推荐(Unbiased RS)、交互式推荐(Interactive RS)和对话推荐(Conversational RS)等。
另外,通过从Small matrix中抽取部分用户-商品交互(Partially dataset)作为测试集来进行与全量观测数据(Fully-observed dataset)的实验对比,来评估数据稠密度(Data density)与偏置(Bias)的影响。通过在KuaiRec数据集上的实验结果提供了两个关键的发现,这些发现正好说明了全量观测数据集的重要性:
1. 偏差极大地影响了不同模型在评价中的表现和排名。
2. 不同的数据稠密度仍然会导致结果不一致。
由于该数据集的原始版本是显式数据,因此为了转换为隐式反馈数据用于推荐排序等研究,该论文建议将视频观看长度大于视频本身时长的2倍为正样本,即用户至少观看了2次完整的视频才认为是正样本。
随后,该论文以对话推荐系统场景为例,来验证不同的算法在KuaiRec数据集上的性能表现,感兴趣的同学可以仔细阅读原论文的实验设置等细节内容。
最后,作者希望可以把该数据集作为一个测试平台来支持更多的研究工作。首先,可以使用Partially observed data来构建可信的用户模拟器。虽然在实验中验证了在矩阵填充任务上的帮助有限,但是否可以使用部分观测数据正确模拟完全观测数据仍然是一个悬而未决的问题。我们充分观察到的数据可以进一步支持这种探索。第二,Small trix版本的数据集可以作为推荐系统中多个研究方向的基准数据集,例如推荐系统中的偏差、交互式推荐和评估。至少通过发布这些全量观察到的数据,希望鼓励更多的科研人员努力收集具有更丰富属性的更完全的数据集,以此来促进推荐系统社区的发展。
「 更多干货,更多收获 」
推荐系统工程师技能树
【免费下载】2022年2月份热门报告盘点
美团大脑系列之:商品知识图谱的构建及应用
【干货】2021社群运营策划方案.pptx
大数据驱动的因果建模在滴滴的应用实践
联邦学习在腾讯微视广告投放中的实践如何搭建一个好的指标体系?如何打造标准化的数据治理评估体系?
【干货】小米用户画像实践.pdf(附下载链接)
推荐系统解构.pdf(附下载链接)
短视频爆粉表现指南手册.pdf(附下载链接)
推荐系统架构与算法流程详解如何搭建一套个性化推荐系统?某视频APP推荐策略详细拆解(万字长文)
关注我们
智能推荐 个性化推荐技术与产品社区 |
长按并识别关注 |
一个「在看」,一段时光
嘿,记得给"机器学习与推荐算法"添加星标 作者:高崇铭 单位:中国科学技术大学博士生,快手实习 在沉淀了一段时间后,我们推出了数据集KuaiRec的2.0版本.这是由我们中科大何向 ... 文章目录 1. 数据集介绍 1.1 相关链接: 1.2 构建方法 1.3 代表性验证 1.4 相关实验 2. 数据集下载 2.1 big matrix 2.1 small matrix 2.3 ite ... 文章目录 1. 数据集介绍 1.1 相关链接: 1.2 构建方法 1.3 代表性验证 1.4 相关实验 2. 数据集下载 2.1 big matrix 2.1 small matrix 2.3 ite ... 一年一度的京东618年中购物狂欢节如火如荼的进行中,手机厂商们都使出了浑身解数,对消费者进行争夺.对于用户来说,618绝对是更换手机的好时机.不过,小伙伴们面对市场上的众多机型,也有可能挑花了眼,不知 ... 今日看点 ✦ 微信公众号界面再改版:文章底部出现"分享"."赞"和"在看" ✦ 快手正式发布"快手联盟":即将开放注册, ... 在结束不久的2018北京安博会上,雄迈发布了重量级产品.究竟是何产品让雄迈第一次在技术和产品上走向同轴之巅? 同轴模拟高清AI芯片XM350AI芯片集第三代ISP.AI加速单元.CPU等于一体,并支持 ... 12月8日,华为在北京发布了其首款商用台式机HUAWEI MateStation B515,这是继今年8月华为推出HUAWEI MateBook B系列笔记本之后在商用PC领域的又一重磅产品,是华为商 ... 随着移动互联网与5G技术的发展,品牌营销已进入跨越终端的融合时代,短视频作为互联网流量触顶现状下的第一大应用,以人均单日110分钟的使用时长占据总用户使用时长的20%,吸引了大量用户的注意力,从而也加 ... 思创(Cetron)发布首款企业级Wi-Fi 6 AP 2018年,Wi-Fi联盟宣布将Wi-Fi技术802.11ax更名为Wi-Fi 6,自此,802.11ax标准成为第六代Wi-Fi技术成果,正式 ...KuaiRec | 快手发布首个稠密度高达99%的推荐数据集, 可用于多种推荐系统方向研究...相关推荐
最新文章
热门文章