推荐算法python数据集_推荐算法数据集
Movies Recommendation:
MovieLens
基本内容:
MovieLens数据集由GroupLens研究组在 University of Minnesota — 明尼苏达大学(与我们使用数据集无关)中组织的。 MovieLens是电影评分的集合,有各种大小。 数据集命名为1M,10M和20M,是因为它们包含1,10和20万个评分。 最大的数据集使用约14万用户的数据,并覆盖27,000部电影。 除了评分之外,MovieLens数据还包含类似“Western”的流派信息和用户应用的标签,如“over the top”和“Arnold Schwarzenegger”。 这些流派标记和标签在构建内容向量方面是有用的。内容向量对项目的信息进行编码,例如颜色,形状,流派或真正的任何其他属性 - 可以是用于基于内容的推荐算法的任何形式。
MovieLens的数据在过去20年中已经由大学的学生以及互联网上的人们进行收集了。 MovieLens有一个网站,您可以注册,贡献自己的评分,并接收由GroupLens组实施的几个推荐者算法这里之一的推荐内容。
Yahoo!
基本内容:
Movie, Music, and Images Ratings Data Sets.
Cornell University
基本内容:
Movie-review data for use in sentiment-analysis experiments.
Netflix Prize Dataset
基本内容:
MovieTweetings
基本内容:
Jester
基本内容:
当你让一批学者写一个笑话评分系统,你会得到什么?Jester! Jester是由Ken Goldberg和他在加州大学伯克利分校的小组发展的,包含150个笑话大约600万的评分。 像MovieLens一样,Jester评分由互联网上的用户提供。 你可以在这里贡献你自己的评分。
与我们使用的其他数据集相比,Jester有两个方面是特殊的:它使用-10到10的连续等级,并且在量级上具有最高的评分密度。评分密度的意思是大概“平均每个用户评价多少个项目”?如果每个用户都对每个项目进行了评分,那么评级密度将为100%。 如果没有人评价过任何东西,那将是0%。 Jester的密度约为30%,这意味着一个用户平均对30%的笑话进行了评分。 作为比较,MovieLens 1M的密度为4.6%(其他数据集的密度低于1%)。当然不是那么简单。 不是每个用户都评价相同数量的项目。 相反,一些用户对许多项目进行评分,大多数用户只评价一些。 这可以在以下直方图中看到:
评分图
Music Recommendation**:
Last.fm
基本内容:
Music Recommendation Data Sets
Yahoo!
基本内容:
Movie, Music, and Images Ratings Data Sets
Audioscrobbler
基本内容:
Music Recommendation Data Sets
Amazon
基本内容:
Audio CD recommendations.
Books Recommendation:
Institut für Informatik, Universität Freiburg
基本内容:
Book Ratings Data Sets
BookCrossing数据集
基本内容:
BookCrossing 数据集包含用户对图书的行为信息,包含 3 个文件。
- BX-Users.csv ,包含用户的 ID 、位置和年龄。
- BX-Books.csv ,包含图书的 ISBN 、标题、作者、发表年代、出版社和缩略。
- BX-Book-Ratings.csv ,包含用户对图书的评分信息。
Products Data:
Amazon product data
基本内容:
-Description
This dataset contains product reviews and metadata from Amazon, including 143.7 million reviews spanning May 1996 - July 2014.
This dataset includes reviews (ratings, text, helpfulness votes), product metadata (descriptions, category information, price, brand, and image features), and links (also viewed/also bought graphs).
Files
**Complete review data
Please see the per-category files below, and only download these (large!) files if you absolutely need them:
Food Recommendation:
Chicago Entree
基本内容:
Food Ratings Data Sets
Mobile Recommendation:
Data Set for Mobile App Retrieval
基本内容:
Frappe
基本内容:
Ali_Mobile_Rec
基本内容:
Mobile App User Dataset
基本内容:
Healthcare Recommendation:
Nursing Home
基本内容:
Provider Ratings Data Set
Hospital Ratings
基本内容:
Survey of Patients Hospital Experiences
Dating Recommendation:
Dating website recommendation
基本内容:
www.libimseti.cz - Dating website recommendation (collaborative filtering)
Scholarly Paper Recommendation:
National University of Singapore
基本内容:
Scholarly Paper Recommendation
Wikipedia
基本内容:
维基百科是其用户撰写的协作百科全书。维基百科除了为最后一刻拼写学期论文的学生提供信息外,还为每个用户提供每篇文章的每个编辑的数据转储。该数据集已广泛用于社交网络分析,图形和数据库实现测试,以及维基百科用户行为研究。还可以将用户采取的编辑操作,作为隐性评分,表明他们因某些原因关心该页面,并允许我们使用数据集来提出推荐。
由于维基百科不是为了提供推荐者数据集而设计的,所以它确实存在一些挑战。其中一个是从页面中提取有意义的内容向量,但是幸运的是,大多数页面被很好地分类,为每个页面提供了一种类型。构建维基百科的内容向量的挑战与现实世界数据集的推荐面临的挑战相似。所以我们认为这是建立一些这样做的专门知识的好机会。
-下载地址:
Link_1
Others:
OpenStreetMap
基本内容:
OpenStreetMap是一个协作的地图项目,类似于维基百科。 像维基百科一样,OpenStreetMap的数据由用户提供,整个编辑历史的完整转储也是可用的。 数据集中的对象包括道路,建筑物,兴趣点,以及您可能在地图上找到的任何其他内容。 这些对象由键值对标识,因此可以从中创建一个基本的内容向量。 然而,键值对是自由的,所以选择正确的设置是一个挑战。 一些键值对由编辑软件(例如“highway =住宅”)进行标准化和相同的使用,但通常它们可以是用户决定进入的任何内容 - 例如“FixMe !! = Exact location unknown”。
下载链接:
Link_1**
Python Git Repositories
基本内容:
我们收集的最终数据集,也许最不传统的,基于Git存储库中包含的Python代码。 我们写了几个脚本(在Hermes GitHub repo中 在此获取)从互联网上下载存储库,提取其中的信息,并将其加载到Spark中。 从那里我们可以从用户编辑中构建一组隐含的评分。
我们目前通过查看所有导入的库并调用函数从每个Python文件中提取内容向量。 将来我们计划将库和函数本身作为建议的项目。
Delicious数据集
基本内容:
Delicious数据集中包含132 000 000个标签和420 000 000条标签行为记录。该数据集每行是一条标签行为记录,由4部分组成——用户ID、日期、网页URL和标签,代表了一个用户在某一天对某个网页打上了某个标签的行为。
reference:
推荐算法python数据集_推荐算法数据集相关推荐
- k邻近算法python代码_机器学习算法之K近邻法-Python实现
一.算法简介 k近邻法(k-nearest neighbor,k-NN)是一种基本的分类方法,输入的是实例的特征向量,对应于特征空间的点,输出结果为实例的类别,可以取多类.对于训练集来说,每个实例的类 ...
- 分类算法python程序_分类算法——k最近邻算法(Python实现)(文末附工程源代码)...
kNN算法原理 k最近邻(k-Nearest Neighbor)算法是比较简单的机器学习算法.它采用测量不同特征值之间的距离方法进行分类,思想很简单:如果一个样本在特征空间中的k个最近邻(最相似)的样 ...
- 漫画算法python篇_漫画算法:小灰的算法之旅(Python篇)(全彩)
商品参数 漫画算法-小灰的算法之旅(Python篇) 定价 79.00 出版社 电子工业出版社 版次 出版时间 2020年03月 开本 16开 作者 魏梦舒 装帧 平装-胶订 页数 字数 ISBN编码 ...
- 数据结构python版 答案,中国大学 MOOC_数据结构与算法Python版_章节测验答案
中国大学 MOOC_数据结构与算法Python版_章节测验答案 更多相关问题 认识的本质是()A.肯定世界是可知的B.主体对客体的能动反映C.主体对客体的直观反映D.实践是 水灰比是影响混凝土()的主 ...
- mooc数据结构与算法python版期末测验_中国大学MOOC(慕课)_数据结构与算法Python版_测试题及答案...
中国大学MOOC(慕课)_数据结构与算法Python版_测试题及答案 更多相关问题 采用fopen()函数打开文件,支持文件读取的参数有: [简答题]简单阐述高分子材料热-机械特征及成型加工的关系,并 ...
- 机器学习算法 | Python实现k-近邻算法
机器学习算法 | Python实现k-近邻算法 目录 机器学习算法 | Python实现k-近邻算法 基本介绍 工作原理 程序设计 参考资料 基本介绍 KNN,全名k近邻算法.是⼀种⾮常简单有效的机器 ...
- 推荐算法python数据集_推荐系统常用数据集
ps:对原文有所删减 在这篇博客中,作者介绍了九个数据集,其中一些是推荐系统中常用到的标准数据集,也有一些是非传统意义上的数据集(non-traditional datasets),作者相信,这些非传 ...
- slope one 推荐算法python 代码_基于协同的SlopeOne推荐算法原理介绍和实现
Slope One 算法是由 Daniel Lemire 教授在 2005 年提出的一个 Item-Based 的协同过滤推荐算法. --文章概要 该篇文章主要介绍Slope One算法.Slope ...
- 多元线性回归算法python实现_手写算法-Python代码推广多元线性回归
1.梯度下降-矩阵形式 上篇文章介绍了一元线性回归,包括Python实现和sklearn实现的实例.对比,以及一些问题点,详情可以看这里: 链接: 手写算法-Python代码实现一元线性回归 里面封装 ...
最新文章
- 贝叶斯统计的无信息先验和共轭先验
- php session获取不到的解决方法
- 在myeclipse中导入图片
- HDFS2.x之RPC流程分析
- element ui表单验证
- Linux进程全解10——守护进程
- redis cluster 分布式锁_关于分布式锁原理的一些学习与思考redis分布式锁,zookeeper分布式锁...
- Ansible Tower - 使用入门 2 - 不同团队用户基于 RBAC 执行模板
- 【图像处理】ISP 图像传感器camera原理
- 《Linux命令行与shell脚本编程大全 第3版》Linux命令行---41
- “OSPF” 开销值、协议优先级及计时器的修改
- 多路复用器_多路复用、非阻塞、线程与协程
- Hadoop环境搭建(全网最详细,保姆级教程)
- 笔顺演示动画gif_如何将动画GIF插入PowerPoint演示文稿
- 回顾·神马搜索技术演进之路
- crm登录系统是什么系统?
- html中的embed标签属性,html中Embed标签的语法和属性设置
- Win10 Ubuntu 制作多系统U盘
- T00ls Lpk Sethc 首创lpk劫持方式粘滞键后门,体积超小!
- AutoCAD如何设置A0A1图纸