16个推荐系统开放公共数据集整理分享
(本文由深度学习与NLP编译)
本文主要整理了一些与推荐系统相关的高质量的数据集。整理自Stack Overflow、一些文章、推荐站点和学术实验。其中,大多数数据集都是免费、开放的,但有些不是,需要获得许可或引用作者的工作才能使用。此外,其中也包含一些预处理数据,可用于学术实验。链接和数据集描述。
Book
· 1. Book Crossing
BookCrossing(BX)数据集由Cai-Nicolas花了的4周(2004年8月/ 9月)从Book-Crossing社区中爬取得到的。
· 下载链接:http://www2.informatik.uni-freiburg.de/~cziegler/BX/
电子商务
· 2. Amazon
该数据集包括自1996年5月至2014年7月,来自亚马逊上的1.428亿产品的评论和metadata。
· 下载链接:http://jmcauley.ucsd.edu/data/amazon/
· 3. Retailrocket推荐系统数据集
该数据集由三个文件组成:一个行为数据集(events.csv),一个属性数据集(item_properties.сsv)和一个类目树数据集(category_tree.сsv)。该数据来自现实世界的电子商务网站。
· 下载链接:https://www.kaggle.com/retailrocket/ecommerce-dataset
音乐
· 4. Amazon Music
该数字音乐数据集包含来自亚马逊的评论和元数据
· 下载链接:http://jmcauley.ucsd.edu/data/amazon/
· 5. Yahoo Music
该数据集是一个快照,收集了音乐社区对各种音乐艺术家的偏好。
· 下载链接:https://webscope.sandbox.yahoo.com/catalog.php?datatype=r
· 6. LastFM(Implicit)
该数据集收集了Last.fm网站上2千名用户的社交网络、tagging和music artist listening信息。
· 下载链接:https://grouplens.org/datasets/hetrec-2011/
· 7. Milion Song Dataset
Million Song数据集是一个免费的数据集,提供了一百万条当代流行音乐曲目相关的的audio features和metadata。
· 下载链接:https://labrosa.ee.columbia.edu/millionsong/
电影
· 8. MovieLens
GroupLens Research已经从他们的电影网站收集整理的rating数据集。
· 下载链接:https://grouplens.org/datasets/movielens/
· 9. Yahoo Movies
该数据集包含从两个不同来源收集的歌曲的rating数据集。第一个来源是用户在与Yahoo上使用音乐服务是产生的rating数据。
· 下载链接:https://webscope.sandbox.yahoo.com/catalog.php?datatype=r
· 10. CiaoDVD
CiaoDVD是2013年12月从http://dvd.ciao.co.uk网站上抓取的DVD类别数据集。
· 下载链接:https://webscope.sandbox.yahoo.com/catalog.php?datatype=r
·11. FilmTrust
FilmTrust是2011年6月从整个FilmTrust网站上抓取的一个小型数据集。
· 下载链接:https://www.librec.net/datasets.html
· 12. Netflix
这是Netflix奖竞赛中使用的官方数据集。
· 下载链接:http://academictorrents.com/details/9b13183dc4d60676b773c9e2cd6de5e5542cee9a
游戏
· 13. Steam Video Games
这是一个用户行数据集,包含:user-id,game-title,behavior-name,value。包括“purchase”和“play”数据集。购买了,puchase的值为1,而“play”的值表示用户播放音乐的时长。
· 下载链接:https://www.kaggle.com/tamber/steam-video-games/data
Jokes
· 14. Jester
该笑话数据集包含来自73,496个用户,关于100个笑话的410万连续rating数据(-10.00到+10.00)
· 下载链接:http://www.ieor.berkeley.edu/~goldberg/jester-data/
餐饮
·15. Chicago Entree
该数据集包含用户与Entree Chicago餐厅推荐系统交互的记录数据。
· 下载链接:http://archive.ics.uci.edu/ml/datasets/Entree+Chicago+Recommendation+Data
动漫
·16. 动漫推荐数据库
该数据集包含来自12,294个动漫的73,516个用户的用户偏好数据。每个用户都可以将动画添加到已完成的列表中并为其评分,该数据集把这些评级整理起来。
· 下载链接:https://www.kaggle.com/CooperUnion/anime-recommendations-database
其他数据集
· GroupLens数据集
· 下载链接:https://grouplens.org/datasets/
· LibRec数据集
· 下载链接:https://www.librec.net/datasets.html
· Yahoo Research数据集
· 下载链接:https://webscope.sandbox.yahoo.com/catalog.php?datatype=r
· 斯坦福大型网络数据集汇编
· 下载链接:https://snap.stanford.edu/data/
16个推荐系统开放公共数据集整理分享相关推荐
- 历史最全开放语音/音频数据集整理分享
本资源整理了40多个语音和音频处理相关的开源数据集,分享给有需要的朋友. 资源整理自网络,源地址:https://github.com/jim-schwoebel/voice_datasets 有两种 ...
- 【机器学习】机器学习公共数据集整理
awesome public data sets github上边超过35k star的开源项目,其中包含了金融.医学.能源.时间序列等领域的公共数据集的集合. 链接:https://github.c ...
- 神经网络语音分离必读论文、代码、教程、公开数据集整理分享
语音分离的目标是把目标语音从背景干扰中分离出来.在信号处理中,语音分离属于很基本的任务类型,应用范围很广泛,包括听力假体.移动通信.鲁棒的自动语音以及说话人识别.人类听觉系统能轻易地将一个人的声音和另 ...
- 智能问答-问题生成(QG)历史最全论文、综述、数据集整理分享
Question Generation(问题生成),简单理解就是"主动提问"的AI应用场景,是Question Answer(QA)一个子领域.QG 的应用还是挺广泛的,像是为 Q ...
- 计算机视觉(CV)领域Transformer最新论文及资源整理分享
Transformer由论文<Attention is All You Need>提出,现在是谷歌云TPU推荐的参考模型.Transformer模型最早是用于机器翻译任务,当时达到了SOT ...
- 【人工智能项目】缺陷检测分割数据集相关整理分享
[人工智能项目]缺陷检测分割数据集相关整理分享 研究生阶段的课题就是有关缺陷检测的,所以在这里将截止去年年底整理出来的缺陷检测数据集进行整理分享,供大家使用.由于数据集的限制,这里就将其上传到网盘. ...
- 计算机视觉领域多任务学习相关论文、数据集、网络结构等资源整理分享
MTL 是机器学习中一个很有前景的领域,其目标是利用多个学习任务中所包含的有用信息来帮助为每个任务学习得到更为准确的学习器.我们假设所有任务(至少其中一部分任务)是相关的,在此基础上,我们在实验和理论 ...
- 中文自然语言处理测评数据集、基准模型、语料库、排行榜整理分享
本资源整理了中文语言理解测评基准,包括代表性的数据集.基准(预训练)模型.语料库.排行榜.本文选择一系列有一定代表性的任务对应的数据集,做为测试基准的数据集.这些数据集会覆盖不同的任务.数据量.任务难 ...
- 开源历史最全图像融合(image fusion)方法及架构论文、数据集、指标整理分享
图像融合(Image Fusion)是指将多源信道所采集到的关于同一目标的图像数据经过图像处理和计算机技术等,最大限度的提取各自信道中的有利信息,最后综合成高质量的图像,以提高图像信息的利用率.改善计 ...
最新文章
- R语言使用vtreat包的designTreatmentsC函数构建数据预处理计划、vetreat包的score frame(新生成数据变量的指南)、以及score frame字段说明
- win10系统下安装mysql
- docker OOM问题排查思路
- python自动发邮件附件_python自动发送带附件的邮件(163邮箱,亲测可用)
- mysql pkg_Solaris10下mysql的pkg安装方法
- 【Vegas原创】重建Exchange 2007 OWA的虚拟目录
- 【AngularJs学习笔记五】AngularJS从构建项目开始
- asp 检测更改后缀的图片_微信不能发送25M以上视频?一键修改后缀名,就能立马发送...
- css布局-瀑布流的实现
- Atitit hi dev eff topic by use dsl sql coll op 提升开发效率sql dsl查询内存集合列表 目录 1.1. Dsl api lib	1 1.2. R
- cv2 python 读取像素点_OpenCV+Python车牌字符分割和识别入门
- 复杂json解析(json里面嵌套json)
- css实现LED液晶数码字体
- 软件开发团队中各个成员的英文简称
- 交换机 Port-Channel(端口汇聚)的 配置
- android 虚拟按键自定义,Android手机底部栏虚拟按键的操作
- 数学速算法_简单易学的速算法,贴墙上背,孩子次次数学100分!
- Transformer,bert—t for transformers
- CTF中的无线电以及一些取证题目
- Authentication和Authrization(下)
热门文章
- 南京晓庄学院计算机网络试卷,南京晓庄学院计算机网络8套卷(完整含答案)
- oracle %date 0 10%,“date:~0,10%“是什么意思?
- server php self_PHP 使用 $_SERVER[''PHP_SELF''] 获取当前页面地址及其安全性问题[转载]...
- js打印线程id_一文讲透“进程,线程和协程”
- apache证书不受信任_苹果iOS手动安装和信任企业级应用
- hdfs数据节点分发什么协议_HDFS主要节点解说(一)节点功能
- firedac连接mysql,FireDAC连接数据库
- android 获取蓝牙设备id_不需要任何权限获得Android设备的唯一ID
- python条形图颜色设置_python – 根据值在matplotlib中更改3D条形图中的条形颜色
- 台安变频器n2按键说明_台安N2变频器说明书.pdf