Netflix Prize数据集详解及数据集下载链接
Netflix数据集包含了1999.12.31-2005.12.31期间匿名客户提供的超过一亿部电影平级。这个数据集大约给出了480189个用户和17770部电影评级。数据集中的详细信息如下图所示:
该数据集包含电影信息、training set(训练集)、probe set(探测集)和qualifying set(评估集)组成(电影信息没有在上图中显示出来)。qualifying set(评估集)又被分为Quiz(测验集)和Test(测试集)。其中,training set的评分数量为100480507。probe set是training set的子集,包含1408395个评分。Netflix大赛的目标是预测qualifying set,并且在Quiz上获得至少0.8563的RMSE值。当参赛者提交Quiz的预测分数时,Netflix公司会将其RMSE值公布在排行榜上。但是,在test中得分最高的人将是该奖项的最终获得者,而test的RMSE值从未被公开过,这样做的目的是为了参赛者通过重复提交结果来了解Quiz数据集(这也是为什么将qualifying set分为两部分的原因)。
探测集的采样与评估集的分布几乎是相同,但探测集与训练集的采样不同。
差异1:用户采样;训练集中的用户分布是不均匀的,少数用户非常活跃,10%的最活跃用户的评分占据了测试集评分点的百分之43.6%,而测试集的用户分布是均匀的,几乎所有用户被测试的概率相同,除极少数不活跃的用户,见下图:
差异2:时间采样;探测集的数据点采样相比于训练集更集中于离现在较近的时刻,测试集中最后一周的评分点占了 20.4%,而训练集中最后一周的评分点仅占了1.5%。见下图:
1.电影信息
电影信息采用以下格式:
Movie ID,Year Of Release,标题
- Movie ID与实际的Netflix影片ID或IMDB影片ID不对应。
- Year Of Release的范围可以从1890年到2005年,可能对应于相应DVD的发行,不一定是它的剧场版本。
- 标题是Netflix电影标题,可能与其他网站上使用的标题不对应,标题是英文的。
2.training set(训练集)
“training_set.tar”是包含17770个文件的目录,文件中的每个后续行对应于客户的评级及其日期,格式如下:
电影ID:客户ID,等级,日期
- MovieID的顺序范围为1到17770。
- CustomerID范围从1到2649429。 有480189位用户。
- 评级为1到5的五星级(整数)。
- 日期的格式为YYYY-MM-DD。
3.probe set(探测集)
探测集包含指示电影ID的行,后跟冒号,然后是客户ID。格式如下:
MovieID1:
CustomerID11
CustomerID12
…
MovieID2:
CustomerID21
CustomerID22
4.qualifying_data(测试集)
Netflix奖的测试集包含在文本文件中“qualifying.txt”。它由指示电影ID的行,后跟冒号,然后是客户ID和评级日期组成。格式如下:
MovieID1:
CustomerID11,Date11
CustomerID12,Date12
…
MovieID2:
CustomerID21,Date21
CustomerID22,Date22
参赛者需根据训练集中的信息来预测客户在测试集中为电影提供的所有评级。提交的预测文件的格式遵循电影ID、客户ID和日期顺序
如果测试集看起来像:
111:
3245,2005-12-19
5666,2005-12-23
6789,2005-03-14
225:
1234,2005-05-26
3456,2005-11-07
那么预测文件应该类似于:
111:
3.0
3.4
4
225:
1.0
2.0
数据集下载链接:
https://pan.baidu.com/s/1bJjvmvMouoMBZE7ZVRHAbg 提取码: spie
数据集下载链接: https://pan.baidu.com/s/1bJjvmvMouoMBZE7ZVRHAbg 提取码: spie
Netflix Prize数据集详解及数据集下载链接相关推荐
- 全卷积神经网路【U-net项目实战】LUNA 2016 数据集详解
文章目录 1.LUNA 2016 数据集详解 2.mdh数据格式详解 3.python读取mdh的方法 4.annotations.csv坐标转换 5.LUNA16数据集肺结节显示 1.LUNA 20 ...
- LUNA 2016 数据集详解
LUNA 2016 数据集详解 LUNA16数据集的由来 LUNA 2016 数据集来自2016年LUng Nodule Analysis比赛,这里是其官方网站. LUNA16数据集是最大公用肺结节数 ...
- ILSVRC2015_VID数据集详解
数据集下载地址:http://bvisionweb1.cs.unc.edu/ilsvrc2015/ILSVRC2015_VID.tar.gz 总说: 数据集包括3862 snippets用于训练,55 ...
- 《TCP/IP详解》中文版下载地址
<TCP/IP详解>中文版下载地址 TCP/IP详解 卷1协议http://www.chinaccna.com/Soft/ShowSoft.asp?SoftID=822 TCP/IP详解 ...
- Java关键字详解-配视频讲解链接(附带一些面试题)
Java中常用的关键字详解-配视频讲解链接(附带一些面试题) 关键字:被Java赋予了特定含义的英文单词.关于关键字的学习贯穿了整个Java的学习,结合应用理解记忆关键字,不能单纯的死记硬背,在这里通 ...
- 从手写数字识别入门深度学习丨MNIST数据集详解
就像无数人从敲下"Hello World"开始代码之旅一样,许多研究员从"MNIST数据集"开启了人工智能的探索之路. MNIST数据集(Mixed Natio ...
- 汇总 | 深度学习中图像语义分割基准数据集详解
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 汇总图像语义分割那些质量最好的数据集与常用benchmark数据集 ...
- 【详解】NLP之常用数据集详解
GLUE数据集合的介绍: 自然语言处理(NLP)主要自然语言理解(NLU)和自然语言生成(NLG).GLUE(General Language Understanding Evaluation)由纽约 ...
- MS COCO数据集详解
这是我的推广信息,以激励自己更好的分享自己的知识和经验!也希望看到的你能够多多支持,谢谢! 1. 滴滴云AI大师: 目前滴滴云正在大力推广自己的云计算服务,需要购买的朋友们用我的AI大师码 「2049 ...
最新文章
- linux教程 sed命令的用法,Linux文本处理三剑客——sed命令使用教程
- 4 Oracle 操作表中数据
- python shell运行当前程序、可以按下_Python下调用Linux的Shell命令的方法
- Qt工作笔记-通过信号与槽实现定时器
- List列表的万能的适配器
- 机器学习定义及常用算法
- 我的八年程序之路(二)三月方便面换来800月薪
- python3+Neo4j+flask,汽车行业知识图谱项目实战
- 全国夜间灯光指数数据、GDP密度分布、人口密度分布、土地利用数据、降雨量数据
- C语言system的用法
- 计算机网络水晶头博客,网线水晶头接法顺序图解分享,这个简单口诀记好了(超实用)...
- ipad查看电脑中的文件
- 有一个字符串,如11.2美元34人民币;如何将数字与单位分开,放入数组中呢,数组比如 attr[0]=11.2 attr[1]=美元 ,依次类推
- 利用腾讯云函数做蓝奏云解析API
- 格雷码在异步FIFO中的应用
- Hypervisor介绍(二)
- 【迅为iMX6Q】开发板:uboot-imx编译
- 听说蚂蚁金服上市,但是实现财务自由的只是那些架构师?
- Error: Your CLT does not support macOS 11.0. 1.00
- 一看就会的kafka多线程顺序消费【内附Demo哦】
热门文章
- 怎么更改mac电脑的系统语言,Mac电脑的语音设置在哪
- 九龙证券|不惧美联储重回鹰派,这个板块强势领涨!游戏才刚刚开始?
- navicat for mysql 1862_navicat出现1862错误怎么办
- 神木林服务器未能,梦幻西游:31W秒下175神木林,玩家决定展示一下装备、灵饰...
- python列表画彩虹糖_【彩虹糖班】优秀作品选集
- 解决一打开IE浏览器就自动跳转到Edge浏览器的问题
- 【Net】StreamWriter.Write 的一点注意事项
- 电脑双屏有一个黑屏_关于笔记本分屏但主副屏黑屏的解决办法
- css3有哪些新特性?有哪些改进
- 教你炒股票7:给-赚-了指数亏-了-钱的一些忠告