【工具】Movielens数据集详细介绍
MovieLens数据集
MovieLens数据集包含多个用户对多部电影的评级数据,也包括电影元数据信息和用户属性信息。
下载地址
http://files.grouplens.org/datasets/movielens/
介绍
下面以ml-100k数据集为例进行介绍:
最主要用的是u.data(评分) | u.item(电影信息) | u.user(用户信息)
下载之后各文件具体含义如下:
各文件含义如下:
allbut.pl --生成训练和测试集的脚本,其中除了n个用户评分之外,所有训练和测试集都在训练数据中。
mku.sh --从u.data数据集生成的所有用户的shell脚本。
u.data – 由943个用户对1682个电影的10000条评分组成。每个用户至少评分20部电影。用户和电影从1号开始连续编号。数据是随机排序的。
标签分隔列表:user id | item id | rating | timestamp
u.genre --类型列表。
u.info --u.data数据集中的用户数,电影数和评分数。
u.item --电影信息。
标签分隔列表:movie id | movie title | release date | video release date | IMDb URL | unknown | Action | Adventure | Animation | Children’s | Comedy | Crime | Documentary | Drama | Fantasy | Film-Noir | Horror | Musical | Mystery | Romance | Sci-Fi | Thriller | War | Western
最后19个字段是流派,1表示电影是该类型,0表示不是;电影可以同时使用几种流派。
电影id和u.data数据集中的id是一致的。
u.occupation --职业列表。
u.user --用户的人口统计信息。
标签分隔列表:user id | age | gender | occupation | zip code
用户id和u.data数据集中的id是一致的。
u1.base --数据集u1.base / u1.test到u5.base / u5.test都是将u.data数据集按照80% / 20%的比例分割的训练集和测试集。
u1.test u1,…,u5有互不相交的测试集;如果是5次交叉验证,那么你可以在每个训练和测试集中重复实验,平均结果。
u2.base 这些数据集可以通过mku.sh从u.data生成
u2.test
u3.base
u3.test
u4.base
u4.test
u5.base
u5.test
ua.base --数据集ua.base, ua.test, ub.base, ub.test将u.data数据集分为训练集和测试集,每个用户在测试集中具有10个评分。
ua.test ua.test和ub.test是不相交的。这些数据集可以通过mku.sh从u.data生成
ub.base
ub.test
【工具】Movielens数据集详细介绍相关推荐
- Movielens数据集详细介绍
MovieLens数据集包含多个用户对多部电影的评级数据,也包括电影元数据信息和用户属性信息.下载地址为:http://files.grouplens.org/datasets/movielens/ ...
- 抓包工具 - Fiddler(详细介绍)
原文:抓包工具 - Fiddler(详细介绍) Fiddler的详细介绍 一.Fiddler与其他抓包工具的区别 1.Firebug虽然可以抓包,但是对于分析http请求的详细信息,不够强大.模拟ht ...
- nuScenes数据集详细介绍
nuScenes网上介绍资料较多,但是大部分仅仅是对官网的翻译,缺乏各个文件的内在联系介绍.例如,nuScenes激光雷达的数据格式,点云包含哪几种属性.再比如,sample文件夹和sweeps文件夹 ...
- 前端构建工具gulp的详细介绍以及使用
什么是 gulp 为什么要用 gulp 如何使用 gulp Installing Gulp Install the gulp command Install gulp in your devDepen ...
- 抓包工具 - Wireshark(详细介绍与TCP三次握手数据分析)
功能使用的详细介绍 wireshark(官方下载网站: http://www.wireshark.org/),是用来获取网络数据封包,可以截取各种网络封包,显示网络封包的详细信息,包括http,TCP ...
- MIMIC III数据集详细介绍
文章目录 1. 概述 2. 字典信息辅助表 D_CPT(目前使用医疗服务术语表) D_ICD_DIAGNOSES (ICD病情确诊词典表) D_ICD_PROCEDURES (ICD医疗过程词典表) ...
- APK优化工具zipalign的详细介绍和使用
Android SDK中包含了一个用于优化APK的新工具zipalign.它提高了优化后的Applications与Android系统的交互效率(俗话:"要致富先修路",Andro ...
- 车道线数据集详细介绍以及使用方法汇总——CULane Datasets、Tusimple、LLAMAS、ApolloScape(后续会持续更新)
车道线数据集 一.CULane Datesets 1.1 介绍 1.2 下载使用注意事项 二.Tusimple 2.1 介绍 三.LLAMAS 四.APOLLOSCAPE 五.数据集遍历脚本工具 一. ...
- chrome开发者工具-timeline的详细介绍
这篇文章主要记录chrome开发者工具-timeline的相关资料,为排查工作中页面请求响应返回数据慢的问题,对自己的学习/工作具有一定的参考价值. 一.概述 用户都希望他们访问的web应用是可交互且 ...
- 图像修复(Image Restoration)算法数据集详细介绍
目录 人脸数据集 1.Helen Face 2.CelebA (Celebrity Attribute) 3.CelebA-HQ 4.FFHQ(Flickr-Faces-HQ) 场景数据集 1.MS ...
最新文章
- pip更换国内镜像源
- hdu 2897 巴什博弈变形
- 微软程序在Android上跑,想在Win 10上运行Android应用?这类手机用户已经可以尝鲜...
- 全球IPv6网络6月6日正式启动
- Newtonsoft.Json.dll序列化为json,null值自动过滤
- flume avro java 发送数据_flume将数据发送到kafka、hdfs、hive、http、netcat等模式的使用总结...
- 一般技术书籍出版版税多少_如何为您的技术书籍寻找出版商
- Halcon OCR识别
- 计算机免费证件照,完全免费!一键替换证件照背景色,再也不用花钱重新拍了...
- centos7 小图标_Centos7 桌面图标设置
- 大学生微信小程序项目总结
- CSS-关于BFC的理解(转)
- 容联云CFO李亦鹏:智能化、国产化大势所趋 多业务云通讯构筑行业壁垒
- 虚拟机能ping主机,主机ping虚拟机请求超时
- collect2.exe: error: ld returned 1 exit status分析与解决
- 企业打破私域“0”增长现状必读篇—《国外私域的超前形态》
- 西行漫记(10):加利福尼亚男孩
- 又下一城!爱贝获得哈萨克斯坦电子支付牌照
- Carthage 缺点
- 猴子吃桃问题:小猴子摘了一大堆桃子,第一天吃了一半,还嫌不过瘾,又吃了一个,第二天又吃了剩下的一半多一个....以后每天如此, 到了第十天,小猴子一看只剩下一个桃子了,它想知道最初自己摘了多少个桃子。