项目名称: 豆瓣图书个性化推荐

需求简述:从给定的豆瓣用户名中,获取该用户所有豆瓣好友列表,从豆瓣好友中找出他们读过的且评分5星的图书,如果同一本书被不同的好友评5星,评分人数越多推荐度越高。

输入:豆瓣用户名

输出:豆瓣好友中评分最高,评分人数最多,且我没读过的10本书

步骤构想:
1. 通过给定的用户名,将下面链接douban_id替换后可查看该用户关注的好友列表(访问该路径需要先登录)
https://www.douban.com/people/douban_id/contacts

但如果是查看自己关注的好友则会跳转到:
https://www.douban.com/contacts/list

这两个页面展现形式不一样

2. 得到好友列表后通过访问 https://www.douban.com/people/douban_id/ 获取用户信息,保存在user表中, 字段包括:用户名、常居地、加入时间、签名,读过的书、想读的书、在读的书、最后更新时间

3. 得到好友列表后通过访问以下链接可以查看好友读过的书,获取书的信息和好友对书本的评分信息
https://book.douban.com/people/douban_id/collect

获取所有读过的书籍id列表(需要往后翻页,翻页的规律为每页15本书,https://book.douban.com/people/Fenng/collect?start=0&sort=time&rating=all&filter=all&mode=grid,从start=0开始第一页,start=15第二页,start=30第三页以此类推)
书的信息:https://book.douban.com/subject/book_id/ 包括ISBN、书名、作者、出版日期、页数、定价、封面图片、豆瓣整体评分、评价人数、内容简介、作者简介等
书的信息是静态信息,存入book表

好友评分、好友短评、读过的时间:
https://book.douban.com/people/Fenng/collect?start=300&sort=time&rating=all&filter=all&mode=grid

好友对书本的评价信息存入rating表,user_id, book_id做外键

4. 在rating表中找出好友评价5星的书,且我没看过的,然后按评价人数desc排序,取前十本

转载于:https://www.cnblogs.com/huahuayu/p/8146643.html

Python个人项目--豆瓣图书个性化推荐相关推荐

  1. 豆瓣图书的推荐与搜索、简易版知识引擎构建(neo4j)

    DouBanRecommend 基于豆瓣图书的推荐.知识图谱与知识引擎简单构建neo4j 本项目主要贡献源来自豆瓣爬虫(数据源)lanbing510/DouBanSpider.知识图谱引擎Agricu ...

  2. python爬取豆瓣图书榜单 并存放数据库心得

    最近javaweb 项目存放图书的数据库存放的图书太少 决定去豆瓣榜单 爬取一些数据 首先是爬取网页得到数据 以字典类型先储存下来 贴上代码 def init(self, keyword): self ...

  3. python爬取豆瓣图书(详细步骤讲解)

    题目: 老师安排我们爬取豆瓣图书,恰好想学,所以把爬取的过程按照顺序写下来,主要是留个痕迹.在文中我会把爬虫所需的所有代码以图片形式一一讲解,图片里的代码就是全部的爬虫代码!!!如果你懒得自己敲的话, ...

  4. python爬虫获取豆瓣图书Top250

    在上一篇博客<python爬虫获取豆瓣电影TOP250>中,小菌为大家带来了如何将豆瓣电影Top250的数据存入MySQL数据库的方法.这次的分享,小菌决定再带着大家去研究如何爬取豆瓣图片 ...

  5. 新手友好!101 个 Python 小项目源码(推荐收藏)

    不管学习哪种编程语言,通过小项目练手,是快速提升和巩固技能的最佳方式. 今天推荐一个在 GitHub 有 5000+ Star 的资源仓库,汇集了各色各样的 Python 小项目. GitHub 链接 ...

  6. python爬取豆瓣图书Top250

    平台 python3.5 windows 10 目标结构 最近想学习一下python爬虫,所以目标定在豆瓣读书top250.结构简单,没有js加载的内容等,感觉比较适合入门新手来爬取. 首先看一下to ...

  7. Python爬虫项目-豆瓣网电影排名TOP250

    开发背景:该项目是给电影爱好者提供的,利用爬虫爬取豆瓣网上电影榜排名TOP250的电影,然后选取自己最喜欢的电影看,有电影名称,电影链接,导演,演员,以及有多少人观看并评分 功能介绍:实时爬取豆瓣网上 ...

  8. python爬虫项目——豆瓣Top250

    我们今天讲一个爬虫项目案例,实现对豆瓣电影top榜的爬取 .把爬取的数据存到我们电脑本地文件当中.通过这个项目可以让我们真正感受到爬虫的带给我们的乐趣.现在我来讲一下思路以及实现方法,因为豆瓣电影的这 ...

  9. python爬取豆瓣图书top250_「豆瓣读书250」爬取豆瓣TOP250书单 - seo实验室

    豆瓣读书250 小白学习爬虫 爬取豆瓣TOP250的书,正好本人也喜欢看书 思路分析: https://book.douban.com/top250这是TOP250第一页的链接 https://boo ...

最新文章

  1. python3 文件 复制、重命名、移动、删除
  2. java 范式 问号_巴科斯范式和扩展巴科斯范式
  3. java webdriver page object_Selenium+PageObject+Java实现测试用例
  4. websocket规范 RFC6455 中文版
  5. SAP: 如何取物料主数据的特性值
  6. 0007-Reverse Integer(整数反转)
  7. Treap原理和实现方法
  8. SQL SERVER中强制类型转换cast和convert的区别
  9. java 三大特性理解_java 三大特性--封装、继承和多态理解
  10. Nginx - 配置
  11. python3能做什么_你都用 Python 来做什么?
  12. java 短信验证码===随机数
  13. java string对象放在什么区域_java中String对象的存储位置
  14. 用例图中三种关系详解(转)
  15. matlab求z score,matlab标准化和反标准化——zscore
  16. 惠普HP CM1312nfi彩色激光打印机硒鼓替代方案
  17. likeshop搭建商城系统,一步到位
  18. linux nginx启动脚本,Nginx启动脚本大家来找茬
  19. SQL 各种锁等待类型 wait type--sys.dm_os_wait_stats 表
  20. mxgraph进阶(三)Web绘图——mxGraph项目实战(精华篇)

热门文章

  1. 训练的神经网络不工作?一文带你跨过这37个坑
  2. BBC:乐在其中统计学 (2010)
  3. 纪录片.BBC.数据之趣.The.Joy.of.Data.2016
  4. 视觉研究的前世今生(上)王天珍(武汉理工大学)
  5. redis配置环境变量
  6. .Net Discovery系列之四 深入理解.Net垃圾收集机制(下)
  7. 数据库系统原理(第一章概述)
  8. ios怎样在一个UIImageButton的里面加一些自己定义的箭头
  9. JMS-activMq与spring进行整合
  10. 未在本地计算机上注册“Microsoft.Jet.OLEDB.4.0”提供程序。