最近用Python写了个豆瓣读书的爬虫玩,方便搜罗各种美美书,分享给大家

实现功能:

1 可以爬下豆瓣读书标签下的所有图书

2 按评分排名依次存储

3 存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Sheet

4 采用User Agent伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封

试着爬了七八万本书,存在了book_list.xlsx中,结果截图如下:

详细代码和爬取的一些结果可移步到GitHub: https://github.com/lanbing510/DouBanSpider

转载请标明出处:http://blog.csdn.net/lanbing510/article/details/45887075

Python爬虫 爬取豆瓣读书相关推荐

  1. python爬虫爬取豆瓣读书Top250

    python爬虫爬取豆瓣读书Top250 话不多说,直接上代码! from urllib.request import urlopen, Request from bs4 import Beautif ...

  2. python爬虫爬取豆瓣读书

    python的课程设计,我爬取的是豆瓣的图书 设计题目:  豆瓣读书的Python爬虫 一.需求分析 由于豆瓣上的图书良莠不齐,很难一下选择适合我们的图书,所以我想通过Python的爬虫程序,实现对豆 ...

  3. Python爬虫-爬取豆瓣读书

    爬点什么好呢?最近老是浏览豆瓣上的帖子,那就爬取下豆瓣读书吧! 网络请求,返回值是html页面. 需要对返回回来的结果进行解析.使用Beautiful Soup来解析 参见(http://beauti ...

  4. Python爬虫 - 爬取豆瓣读书TOP250电子书

    1.爬取思路 访问豆瓣读书top250,并提取书籍名称. 把提取的书籍名称,放到搜书网站(本文使用的是熊猫搜书). 把搜索的结果保存到本地.(底部有保存的文本文件,需要自提) 2.重点解析 1.豆瓣翻 ...

  5. 利用python爬虫爬取豆瓣读书-文学-名著的封面

    获取至少两个页面的豆瓣读书-文学-名著的图书封面图片,将图片存到文件夹. 具体代码如下: #dubanimage.py import requests from bs4 import Beautifu ...

  6. Python爬虫 爬取豆瓣电影TOP250

    Python爬虫 爬取豆瓣电影TOP250 最近在b站上学习了一下python的爬虫,实践爬取豆瓣的电影top250,现在对这两天的学习进行一下总结 主要分为三步: 爬取豆瓣top250的网页,并通过 ...

  7. python爬虫爬取豆瓣电影排行榜并通过pandas保存到Excel文件当中

    我们的需求是利用python爬虫爬取豆瓣电影排行榜数据,并将数据通过pandas保存到Excel文件当中(步骤详细) 我们用到的第三方库如下所示: import requests import pan ...

  8. Python爬虫爬取豆瓣电影评论内容,评论时间和评论人

    Python爬虫爬取豆瓣电影评论内容,评论时间和评论人 我们可以看到影评比较长,需要展开才能完整显示.但是在网页源码中是没有显示完整影评的.所以我们考虑到这部分应该是异步加载的方式显示.所以打开网页的 ...

  9. 基于Python,爬取豆瓣读书源码

    记得上次分享了一个抓取豆瓣妹子美女图片的脚本,今天给大家分享一个爬取豆瓣读书的源码,也算是做个记录吧,目前已经在学习编程的路上,以后要是想写什么爬虫也可以参考参考自己收藏的一些代码,嗯,虽然我还是个代 ...

最新文章

  1. 为什么你看了那么多面经,面试还是挂了?
  2. 广义互相关的公式,这一文都搜集全了
  3. 手工实现字节对齐 及 代码质量思考
  4. Visual Studio 2013开发 mini-filter driver step by step (1) - 创建 mini filter driver 工程
  5. 乐山计算机学校新歌王,星歌王第二季乐山市计算机学校专场赛决赛完美落幕!...
  6. 计算机知识*.jpg,计算机第一篇考试题(基础知识部分)
  7. ServletContextAware、ServletRequestAware、ServletResponseAware、SessionAware
  8. Android5.1 在init.rc 中添加自己的服务【转】
  9. ArcGis 拓扑检查——缺顶点、悬挂检查代码 C#
  10. 海思3516ev300+ imx335 原理图,其他PCB、软件资料齐全
  11. 层次分析法和多属性决策算法
  12. 百度排名批量查询_一篇文章告诉你如何快速实现百度霸屏?
  13. MDK各芯片厂家安装支持包下载地址(含Stm32,Nuvoton等)
  14. Docker 中jmap报错:Can‘t attach to the process: ptrace(PTRACE_ATTACH问题
  15. ReadHub源码阅读笔记(一)
  16. 总结一下强化学习在工业界应用,给大家扩展一下思路(简易科普)
  17. 基于PHP服装购物网站的设计与实现
  18. 从数学计算上分析人脑与电脑差异
  19. Linux程序设计-3-Linux编程准备知识
  20. 怀孕之前营养要充分预备

热门文章

  1. 2021年3月计算机一级考试时间安排
  2. Nancy使用转换器扩展序列化
  3. 出现大量close_wait
  4. 详解服务器、磁盘和网卡知识
  5. uniapp配置简易网络请求(h5端适配)
  6. Eureka底层架构原理
  7. 易语言组件花源码花大法防误报免杀360QVM云引擎(洪雨原创)
  8. 解决民生九难,城投隆翔助力西安停车产业发展
  9. c语言中fopen_s函数,关于C语言中从文件读取数据时,fopen,fopen_s和fscanf,fscanf_s的函数用法(函数的用法有很大区别)...
  10. EternalBlue永恒之蓝漏洞(MS17-010)复现