机器学习、推荐系统有关数据集

在学习中整理了机器学习、推荐系统的一些数据集,希望可以对你有所帮助。

1.UCI
这是加州大学信息与计算机科学学院的一个数据库,包含了100多个数据集。
根据机器学习问题的类型对数据集进行分类。你可以找到单变量、多变量、分类、回归
或者是推荐系统的数据集。
地址:https://archive.ics.uci.edu/ml/datasets.html

2.Kaggle数据集
地址:http://www.kaggle.com/datasets

3.计算机视觉数据集:
有大量的图像处理、计算机视觉或者是深度学习的数据集。
地址:https://www.visualdata.io

4.亚马逊数据集
包含多个不同领域的数据集,如:公共交通、生态资源、卫星图像等
地址:https://registry.opendata.aws

5.斯坦福大型网络数据集汇编
地址:https://snap.stanford.edu/data/

6.MovieLens
常用的电影推荐数据集,数据集有大有小,既可以进行小型的推荐系统实验,也可以提供工业级别的数据。数据集一般有四个属性,分别对应user、movie、rating、timestamp;
也有一些数据集提供了用户社会统计信息,用户属性一般包括:性别、年龄、职业等。
地址:https://grouplens.org/datasets/movielens/

7.Last.fm
Last.fm提供了用于音乐推荐的数据集。 其记录了用户绑定听歌记录以及对歌曲的反馈。音乐推荐是推荐系统领域较为特殊的领域。2011年的Recsys大会专门邀请了Pandora的研究人员对音乐进行了演讲。
PPT为Music Recommendation and Discovery,地址:http:www.slideshare.net/plamere/music-recommendation-and-discovery
其中,数据集的用户还包含他们喜欢的艺术家的列表以及播放次数。
地址:http://grouplens.org/datasets/hetrec-2011/

8.Amazon Music
该数据集是2014年发布的Amazo评论数据集的更新版本,与之前版本一样,数据集包括评论(评分、文本、帮助投票)、产品元数据(描述、类别信息、价格、品牌和图像特征),
此外,此次数据集更新后,提供了更多的评论,较新的评论以及更多的元数据。

地址:https://nijianmo.github.io/amazon/index.html

9.Yahoo
数据集的大小为从4.5M到1.5G不等,分别提供了Music、Delicious Popular URLs and Tags、Movies Ratings等数据集。
但是由于最近美国的出口条令,直接从网站申请获取数据集往往会被reject。
地址:https://webscope.sandbox.yahoo.com/catalog.php?datatype=r

10.Jester
最新的数据集是来自7699位用户的超过100000个新评分,收集时间位2015.4-2019.11。
此外,收集于1999.4-2003.5之间,来自73421个用户对100个笑话中超过410万个连续评分(-10.00到+10.00)。
地址:http://eigentaste.berkeley.edu/dataset/

(3.9MB) Data from 24,983 users who have rated 36 or more jokes, a matrix with dimensions 24983 X 101.
(3.6MB) Data from 23,500 users who have rated 36 or more jokes, a matrix with dimensions 23500 X 101.
(2.1MB) Data from 24,938 users who have rated between 15 and 35 jokes, a matrix with dimensions 24,938 X 101.

地址:https://goldberg.berkeley.edu/jester-data/

11.Retailrocket
该数据集由三个文件组成:一个包含行为数据的文件(events.csv)、一个包含项目属性的文件(item properties.сsv)
和一个描述类别树的文件(category tree.сsv)。数据是从电子商务网站收集的,是原始数据没有内容转换,
并且出于机密的问题,所有值经过哈希处理。其目的是为了隐式反馈推荐领域的研究。

地址:https://www.kaggle.com/retailrocket/ecommerce-dataset

12.Book-Crossing Dataset
包含278858个用户对271379本书的1149780个评分数据。数据集包含:BX-Users、BX-Books、BX-Book-Rating。
此外,提供了SQL和CSV的格式。
地址:http://www2.informatik.uni-freiburg.de/~cziegler/BX/

13.Steam Video Games(9MB)
该数据集包括:user-id、game-title、behavior-name、value。行为包括purchase和play。
当在购买时,值为1,为play时,值为用户玩游戏的小时数。
地址:https://www.kaggle.com/tamber/steam-video-games/data
14.Anime
此数据集包含来自12294动画, 73516用户的用户偏好数据信息。
内容:Anime.csv、rating.csv
地址:https://www.kaggle.com/CooperUnion/anime-recommendations-database

15.Epinions
Epinions是一个网站,用户可以评论产品,其特点是用户根据评论被认为有用的程度获得报酬(收入分享计划)。
地址:http://www.trustlet.org/epinions.html

16.Julian McAuley
该数据集是加州大学圣地亚哥分校实验室整理的数据集,包含多个用于推荐系统的数据集,非常值得收藏。
地址:https://cseweb.ucsd.edu/~jmcauley/datasets.html

17.Chicago Entree
该数据集包含Date, IP, Entry point, Rated restaurant1, …, Rated restaurantN, End point。是对芝加哥餐厅的评论数据集。
地址:http://archive.ics.uci.edu/ml/datasets/Entree+Chicago+Recommendation+Data

机器学习、推荐系统常用数据集相关推荐

  1. 推荐系统常用数据集介绍

    前言 文章转载自:https://www.cnblogs.com/shenxiaolin/p/8337913.html 推荐系统常用数据集 首先需要说明一下推荐系统数据中的几个类别: Item: 即我 ...

  2. Dataset:机器学习中常用数据集下载链接集合之详细攻略

    Dataset:机器学习中常用数据集下载链接集合之详细攻略 目录 机器学习中常用数据集下载链接集合之详细攻略 sklearn.datasets数据集所有csv文件集合 seaborn-data数据集所 ...

  3. 推荐算法python数据集_推荐系统常用数据集

    ps:对原文有所删减 在这篇博客中,作者介绍了九个数据集,其中一些是推荐系统中常用到的标准数据集,也有一些是非传统意义上的数据集(non-traditional datasets),作者相信,这些非传 ...

  4. 标识别,人脸识别等常用数据集

    参考博客: https://www.cnblogs.com/weiyinfu/p/8016405.html#32 常用数据集 一.Cifar数据集 Hinton参与收集 彩色图像(RGB) 图像尺寸相 ...

  5. 深度学习常用数据集下载链接

    多类型公开数据集 含有以下数据集 一.Cifar数据集 二.Mnist数据集 三.ImageNet数据集 四.牛津花卉数据集 五.COCO数据集 六.PASCAL VOC 七.OPEN Image 八 ...

  6. 04_机器学习概述,什么是机器学习,应用场景,数据来源与类型,网上可用的数据集、常用数据集数据的结构组成、特征工程是什么、意义、特征抽取、sklearn特征抽取API、文本特征抽取(学习笔记)

    机器学习概述 人工智能.机器学习.深度学习之间的关系 机器学习框架 Pytorch Caffe2 theano Chainer Scikit-learn 语言支持 机器学习书籍 <面向机器智能 ...

  7. 8种适用于不同机器学习问题的常用数据集

    要找到一定特定的数据集可以解决各种机器学习问题,是一件很难的事情.越来越多企业或研究机构将自己的数据集公开,已经成为全球的趋势,这也将有助于大家进行更多研究. 近期,亚马逊高级技术顾问 Will Ba ...

  8. Dataset:数据集集合(综合性)——机器学习、深度学习算法中常用数据集大集合(建议收藏,持续更新)

    Dataset:数据集集合(综合性)--机器学习.深度学习算法中常用数据集大集合(建议收藏,持续更新) 目录 常规数据集 各大方向分类数据集汇总 具体数据集分类 相关文章 DL:关于深度学习常用数据集 ...

  9. 33个机器学习常用数据集

    若是本文能帮助到大家,希望可以关注小编 并转发分享!(thanks) 现如今构建人工智能或机器学习系统比以往的时候更加容易.普遍存在的尖端开源工具如 TensorFlow.Torch 和 Spark, ...

最新文章

  1. shell学习之路:流程控制(if)
  2. python输出大小不同的字体_python – 为什么我的truetype字体大小为11渲染与windows不同?...
  3. 可耻的客户端,可怕的征兆,必须趁早消灭它
  4. WIN2008下找不到proxy的处理方法
  5. 年薪 40w 的应届生
  6. OCI runtime create failed: container_linux.go:370: starting container process caused: process_linux.
  7. 移动应用接入网页QQ登录
  8. 2019-07-04:python音频处理库
  9. als算法参数_矩阵分解之交替最小二乘ALS
  10. 俄罗斯计划推出数字卢布 逐年解锁推进?国际货币金融体系迈入数字化变革
  11. Linux I2C 核心、总线、与设备驱动
  12. 氢键H-H的博客目录
  13. XRecycleView (Scrapped or attached views may not be recycled)
  14. Android+如何导出微信照片,【每天3分钟】微信占了好多G,教你一步批量提取微信照片并清理空间...
  15. 洛谷:P6560 [SBCOI2020] 时光的流逝(博弈、拓扑序列)
  16. 《测量助理》最新版本V3.0.221215发布更新
  17. JDK代理模式学习笔记
  18. 黑群晖给局域网电脑发消息_笔记本黑群晖实现局域网网络唤醒
  19. 美国交通事故分析(2017)(项目练习_5)
  20. SCOUT 薄膜分析软件

热门文章

  1. 黄聪:Fiddler对安卓应用手机抓包图文教程
  2. 毫米波屏蔽测试方案助力5G毫米波通信
  3. 如何判断领导的行为风格
  4. lombok 基础注解之 @Builder
  5. 温故而知新——数组排序算法
  6. Sybase助中远集运建立MIS系统数据仓库
  7. 回忆 C/C++ 源码统计分析小工具
  8. 华为电脑安装双系统linux,matebook的win+ubuntu双系统安装方法
  9. sql 自定义函数 示例_SQL Server Choose()函数介绍和示例
  10. 实现Web端即时通讯的四种方式