MovieLens数据集

MovieLens数据集包含多个用户对多部电影的评级数据,也包括电影元数据信息和用户属性信息。

下载地址

http://files.grouplens.org/datasets/movielens/

介绍

下面以ml-100k数据集为例进行介绍:

最主要用的是u.data(评分) | u.item(电影信息) | u.user(用户信息)

下载之后各文件具体含义如下:
各文件含义如下:

  • allbut.pl --生成训练和测试集的脚本,其中除了n个用户评分之外,所有训练和测试集都在训练数据中。

  • mku.sh --从u.data数据集生成的所有用户的shell脚本。

  • u.data – 由943个用户对1682个电影的10000条评分组成。每个用户至少评分20部电影。用户和电影从1号开始连续编号。数据是随机排序的。

  • 标签分隔列表:user id | item id | rating | timestamp

  • u.genre --类型列表。

  • u.info --u.data数据集中的用户数,电影数和评分数。

  • u.item --电影信息。

  • 标签分隔列表:movie id | movie title | release date | video release date | IMDb URL | unknown | Action | Adventure | Animation | Children’s | Comedy | Crime | Documentary | Drama | Fantasy | Film-Noir | Horror | Musical | Mystery | Romance | Sci-Fi | Thriller | War | Western

  • 最后19个字段是流派,1表示电影是该类型,0表示不是;电影可以同时使用几种流派。

  • 电影id和u.data数据集中的id是一致的。

  • u.occupation --职业列表。

  • u.user --用户的人口统计信息。

  • 标签分隔列表:user id | age | gender | occupation | zip code

  • 用户id和u.data数据集中的id是一致的。

  • u1.base --数据集u1.base / u1.test到u5.base / u5.test都是将u.data数据集按照80% / 20%的比例分割的训练集和测试集。

  • u1.test u1,…,u5有互不相交的测试集;如果是5次交叉验证,那么你可以在每个训练和测试集中重复实验,平均结果。

  • u2.base 这些数据集可以通过mku.sh从u.data生成

  • u2.test

  • u3.base

  • u3.test

  • u4.base

  • u4.test

  • u5.base

  • u5.test

  • ua.base --数据集ua.base, ua.test, ub.base, ub.test将u.data数据集分为训练集和测试集,每个用户在测试集中具有10个评分。

  • ua.test ua.test和ub.test是不相交的。这些数据集可以通过mku.sh从u.data生成

ub.base

ub.test

【工具】Movielens数据集详细介绍相关推荐

  1. Movielens数据集详细介绍

     MovieLens数据集包含多个用户对多部电影的评级数据,也包括电影元数据信息和用户属性信息.下载地址为:http://files.grouplens.org/datasets/movielens/ ...

  2. 抓包工具 - Fiddler(详细介绍)

    原文:抓包工具 - Fiddler(详细介绍) Fiddler的详细介绍 一.Fiddler与其他抓包工具的区别 1.Firebug虽然可以抓包,但是对于分析http请求的详细信息,不够强大.模拟ht ...

  3. nuScenes数据集详细介绍

    nuScenes网上介绍资料较多,但是大部分仅仅是对官网的翻译,缺乏各个文件的内在联系介绍.例如,nuScenes激光雷达的数据格式,点云包含哪几种属性.再比如,sample文件夹和sweeps文件夹 ...

  4. 前端构建工具gulp的详细介绍以及使用

    什么是 gulp 为什么要用 gulp 如何使用 gulp Installing Gulp Install the gulp command Install gulp in your devDepen ...

  5. 抓包工具 - Wireshark(详细介绍与TCP三次握手数据分析)

    功能使用的详细介绍 wireshark(官方下载网站: http://www.wireshark.org/),是用来获取网络数据封包,可以截取各种网络封包,显示网络封包的详细信息,包括http,TCP ...

  6. MIMIC III数据集详细介绍

    文章目录 1. 概述 2. 字典信息辅助表 D_CPT(目前使用医疗服务术语表) D_ICD_DIAGNOSES (ICD病情确诊词典表) D_ICD_PROCEDURES (ICD医疗过程词典表) ...

  7. APK优化工具zipalign的详细介绍和使用

    Android SDK中包含了一个用于优化APK的新工具zipalign.它提高了优化后的Applications与Android系统的交互效率(俗话:"要致富先修路",Andro ...

  8. 车道线数据集详细介绍以及使用方法汇总——CULane Datasets、Tusimple、LLAMAS、ApolloScape(后续会持续更新)

    车道线数据集 一.CULane Datesets 1.1 介绍 1.2 下载使用注意事项 二.Tusimple 2.1 介绍 三.LLAMAS 四.APOLLOSCAPE 五.数据集遍历脚本工具 一. ...

  9. chrome开发者工具-timeline的详细介绍

    这篇文章主要记录chrome开发者工具-timeline的相关资料,为排查工作中页面请求响应返回数据慢的问题,对自己的学习/工作具有一定的参考价值. 一.概述 用户都希望他们访问的web应用是可交互且 ...

  10. 图像修复(Image Restoration)算法数据集详细介绍

    目录 人脸数据集 1.Helen Face 2.CelebA (Celebrity Attribute) 3.CelebA-HQ 4.FFHQ(Flickr-Faces-HQ) 场景数据集 1.MS ...

最新文章

  1. pip更换国内镜像源
  2. hdu 2897 巴什博弈变形
  3. 微软程序在Android上跑,想在Win 10上运行Android应用?这类手机用户已经可以尝鲜...
  4. 全球IPv6网络6月6日正式启动
  5. Newtonsoft.Json.dll序列化为json,null值自动过滤
  6. flume avro java 发送数据_flume将数据发送到kafka、hdfs、hive、http、netcat等模式的使用总结...
  7. 一般技术书籍出版版税多少_如何为您的技术书籍寻找出版商
  8. Halcon OCR识别
  9. 计算机免费证件照,完全免费!一键替换证件照背景色,再也不用花钱重新拍了...
  10. centos7 小图标_Centos7 桌面图标设置
  11. 大学生微信小程序项目总结
  12. CSS-关于BFC的理解(转)
  13. 容联云CFO李亦鹏:智能化、国产化大势所趋 多业务云通讯构筑行业壁垒
  14. 虚拟机能ping主机,主机ping虚拟机请求超时
  15. collect2.exe: error: ld returned 1 exit status分析与解决
  16. 企业打破私域“0”增长现状必读篇—《国外私域的超前形态》
  17. 西行漫记(10):加利福尼亚男孩
  18. 又下一城!爱贝获得哈萨克斯坦电子支付牌照
  19. Carthage 缺点
  20. 猴子吃桃问题:小猴子摘了一大堆桃子,第一天吃了一半,还嫌不过瘾,又吃了一个,第二天又吃了剩下的一半多一个....以后每天如此, 到了第十天,小猴子一看只剩下一个桃子了,它想知道最初自己摘了多少个桃子。

热门文章

  1. SBX子板类及update_atr()方法
  2. mysql截取身份证号前几位_EXCEL中怎样截取身份证号前六位数字
  3. cryptojs vue 使用_vue 中引入cryptoJS
  4. tcl php,关于tcl语言
  5. ns3学习之初识ns3
  6. Web应用程序安全原理(Web服务面临的威胁)
  7. 主板开启网络唤醒_网络唤醒bios详细设置图文教程 | 专业网吧维护
  8. 数理统计常用统计函数
  9. java订餐管理系统
  10. CSS+HTML开发者手册 中文参考手册合集