用经典图书评分数据集,练手推荐系统(附参考源码)
来源:HyperAI超神经本文约1000字,建议阅读5分钟本文为你介绍Book-Crossing。
共享阅读,囊括全球 150 万会员
「微信漂流瓶」想必大家都不陌生,其实早在 2001 年,就已经存在「图书漂流」了,这就是 Book-Crossing。
Book-Crossing 是一个共享阅读网站,由 Ron Hornbaker 在 2001 年 4 月 17 日创建,旨在将图书流通与互联网结合,让读完的书籍流通起来,被更多的人继续阅读。
Book-Crossing Logo 及意大利语 Slogan
意为自由放取书籍
读者可以在 Book-Crossing 网站注册,然后给自己的书本编码后,让书籍流通起来,而且可以追踪书籍后续传阅漂流的过程。
2015 年,Book-Crossing 已经拥有 150 万会员,有一千多万本书在 132 个国家间漂流。
20 万本书,百万条评分
Book–Crossing Dataset 是由 Book–Crossing 社区的 278858 名用户的评分组成,其包含约 271379 本书的 1149780 条评分数据。
该数据集包含 3 个分类:BX-用户、BX-书籍、BX-书本评级。
Book–Crossing Dataset
发布机构:弗莱堡大学 Cai-Nicolas Ziegler
包含数量:1,149,780 条评分数据
数据格式:CSV Dump / SQL Dump
数据大小:50.61 MB
采集时间:2004 年 8 月-9 月,为期四周
发布时间:2005 年
下载地址:https://hyper.ai/datasets/5524
BX-用户
包含用户信息,其中用户 ID 已被匿名化并映射到整数,除了包含人口统计数据的部分,其余字段均包含 NULL 值。
BX-书籍
包含书本的 ISBN 标识,除此之外,还提供了作者、出版年份、出版社等基于内容的信息,在拥有多位作者的情况下,仅提供第一作者;并且该数据集提供了链接到封面图像的 URL,相关链接直接指向 Amazon 网站。
BX-书本评级
包含图书评分信息,其中评级分为明确、从 1 – 10 表示和用 0 表示的隐含值。
该数据集由德国弗莱堡大学于 2005 年发布,相关论文有《Improving Recommendation Lists Through Topic Diversification》。
论文地址:
http://dwz.date/axbz
数据集怎么用?
《基于模型的协同过滤应用---图书推荐》
https://github.com/XuefengHuang/RecommendationSystem
描述:基于 Spark, Python Flask 的在线图书推荐系统
作者参考项目:
https://github.com/jadianes/spark-movie-lens
推荐算法参考思路:
在我们的在线图书推荐系统中,我们借用 Spark 的 ALS 算法的训练和预测函数,每次收到新的数据后,将其更新到训练数据集中,然后更新ALS训练得到的模型。
假设我们有一组用户,他们表现出了对一组图书的喜好。用户对一本图书的喜好程度越高,就会给其更高的评分,范围是从1到5。我们来通过一个矩阵来展示它,行代表用户,列代表图书。用户对图书的评分。
所有的评分范围从1到5,5代表喜欢程度最高。第一个用户(行1)对第一个图书(列1)的评分是4。空的单元格代表用户未给图书评价。
矩阵因子分解(如奇异值分解,奇异值分解+ +)将项和用户都转化成了相同的潜在空间,它所代表了用户和项之间的潜相互作用。矩阵分解背后的原理是潜在特征代表了用户如何给项进行评分。
给定用户和项的潜在描述,我们可以预测用户将会给还未评价的项多少评分。
编辑:文婧
用经典图书评分数据集,练手推荐系统(附参考源码)相关推荐
- python之格斗小游戏(新生小白赶紧拿去练手,有完整源码哦!!!)
一.定义玩家类 class Player:def __init__(self, name):self.blood = 100 # 血量self.count_harm = 0 # 积累伤害self.na ...
- 用html+css做出一个地下城游戏网站页面,新人练手推荐,带源码
如果你是一名DNF爱好者,恰好你又想学习做网站,那这个例子绝对是你不可错过的练习. 先上页面效果截图: 页面代码如下: <!DOCTYPE html> <html lang=&quo ...
- 基于java图书个性化推荐系统计算机毕业设计源码+系统+lw文档+mysql数据库+调试部署
基于java图书个性化推荐系统计算机毕业设计源码+系统+lw文档+mysql数据库+调试部署 基于java图书个性化推荐系统计算机毕业设计源码+系统+lw文档+mysql数据库+调试部署 本源码技术栈 ...
- 2022最新版40个前端练手项目【附视频+源码】
不管学习哪门语言都希望能做出实际的东西来,这个实际的东西当然就是项目啦, 不用多 说,大家都知道学编程语言一定要做项目才行. 本次给到大家的是40个前端实战练手项目(附源码和视频讲解),希望对大家有一 ...
- 【卷积神经网络CNN 实战案例 GoogleNet 实现手写数字识别 源码详解 深度学习 Pytorch笔记 B站刘二大人 (9.5/10)】
卷积神经网络CNN 实战案例 GoogleNet 实现手写数字识别 源码详解 深度学习 Pytorch笔记 B站刘二大人 (9.5/10) 在上一章已经完成了卷积神经网络的结构分析,并通过各个模块理解 ...
- 基于JAVA大学生专业分配推荐系统计算机毕业设计源码+系统+lw文档+部署
基于JAVA大学生专业分配推荐系统计算机毕业设计源码+系统+lw文档+部署 基于JAVA大学生专业分配推荐系统计算机毕业设计源码+系统+lw文档+部署 本源码技术栈: 项目架构:B/S架构 开发语言: ...
- 40个web前端实战项目,练完即可就业,从入门到进阶,基础到框架,html_css【附视频+源码】
当下前端开发可以说是一个比较火的职业,所以学习的人比较多,不管是培训还是自学都是希望通过前端可以找到一份好的工作,但是很多自学的朋友在自学过程中有些盲目,不仅大大降低了学习的效率,而且也会打击自己的学 ...
- C#毕业设计——基于C#+asp.net+sqlserver的图书销售管理系统设计与实现(毕业论文+程序源码)——图书销售管理系统
基于C#+asp.net+sqlserver的图书销售管理系统设计与实现(毕业论文+程序源码) 大家好,今天给大家介绍基于C#+asp.net+sqlserver的图书销售管理系统设计与实现,文章末尾 ...
- JAVA计算机毕业设计写手管理平台Mybatis+源码+数据库+lw文档+系统+调试部署
JAVA计算机毕业设计写手管理平台Mybatis+源码+数据库+lw文档+系统+调试部署 JAVA计算机毕业设计写手管理平台Mybatis+源码+数据库+lw文档+系统+调试部署 本源码技术栈: 项目 ...
最新文章
- Java的未来:百家争鸣的JVM
- 深度优先 广度优先
- cesium 设置时间_Cesium应用篇:3控件(1)Clock
- 《好未来编程题》 输入n个整数,输出出现次数大于等于数组长度一半的数
- acwing提高组 第一章 动态规划
- Flutter 成功在鸿蒙上运行;微信 8.0 发布;支付宝和微信支付达到反垄断标准 | 极客头条...
- 一个价值$1.5万的 PS NOW 漏洞
- 剑指 Offer II 006. 排序数组中两个数字之和
- 飘刃 0.1.1 发布,速度碾压 Vue-CLI 的轻量级 Vue 项目构建工具
- 阶乘的java编程_java编程求n的阶乘
- 算法设计与分析 期末考试试卷
- 学生信息管理系统html界面,学生信息管理系统jsp课程设计.doc
- php博客添加live2d,在Hexo博客上添加可爱的Live 2D模型
- 洛谷P2440 木材加工
- html压缩工具中文,HTML Compress(html压缩工具)
- C语言,switch语句系列
- MySQL-Workbench数据库备份
- 【概念】数据仓库和数仓建模
- 『R语言Python』建模前的准备:连续型与离散型变量探索,离散型变量转为虚拟变量
- AES加密解密SHA1、SHA加密MD5加密