Python爬虫 爬取豆瓣读书
最近用Python写了个豆瓣读书的爬虫玩,方便搜罗各种美美书,分享给大家
实现功能:
1 可以爬下豆瓣读书标签下的所有图书
2 按评分排名依次存储
3 存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Sheet
4 采用User Agent伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封
试着爬了七八万本书,存在了book_list.xlsx中,结果截图如下:
详细代码和爬取的一些结果可移步到GitHub: https://github.com/lanbing510/DouBanSpider
转载请标明出处:http://blog.csdn.net/lanbing510/article/details/45887075
Python爬虫 爬取豆瓣读书相关推荐
- python爬虫爬取豆瓣读书Top250
python爬虫爬取豆瓣读书Top250 话不多说,直接上代码! from urllib.request import urlopen, Request from bs4 import Beautif ...
- python爬虫爬取豆瓣读书
python的课程设计,我爬取的是豆瓣的图书 设计题目: 豆瓣读书的Python爬虫 一.需求分析 由于豆瓣上的图书良莠不齐,很难一下选择适合我们的图书,所以我想通过Python的爬虫程序,实现对豆 ...
- Python爬虫-爬取豆瓣读书
爬点什么好呢?最近老是浏览豆瓣上的帖子,那就爬取下豆瓣读书吧! 网络请求,返回值是html页面. 需要对返回回来的结果进行解析.使用Beautiful Soup来解析 参见(http://beauti ...
- Python爬虫 - 爬取豆瓣读书TOP250电子书
1.爬取思路 访问豆瓣读书top250,并提取书籍名称. 把提取的书籍名称,放到搜书网站(本文使用的是熊猫搜书). 把搜索的结果保存到本地.(底部有保存的文本文件,需要自提) 2.重点解析 1.豆瓣翻 ...
- 利用python爬虫爬取豆瓣读书-文学-名著的封面
获取至少两个页面的豆瓣读书-文学-名著的图书封面图片,将图片存到文件夹. 具体代码如下: #dubanimage.py import requests from bs4 import Beautifu ...
- Python爬虫 爬取豆瓣电影TOP250
Python爬虫 爬取豆瓣电影TOP250 最近在b站上学习了一下python的爬虫,实践爬取豆瓣的电影top250,现在对这两天的学习进行一下总结 主要分为三步: 爬取豆瓣top250的网页,并通过 ...
- python爬虫爬取豆瓣电影排行榜并通过pandas保存到Excel文件当中
我们的需求是利用python爬虫爬取豆瓣电影排行榜数据,并将数据通过pandas保存到Excel文件当中(步骤详细) 我们用到的第三方库如下所示: import requests import pan ...
- Python爬虫爬取豆瓣电影评论内容,评论时间和评论人
Python爬虫爬取豆瓣电影评论内容,评论时间和评论人 我们可以看到影评比较长,需要展开才能完整显示.但是在网页源码中是没有显示完整影评的.所以我们考虑到这部分应该是异步加载的方式显示.所以打开网页的 ...
- 基于Python,爬取豆瓣读书源码
记得上次分享了一个抓取豆瓣妹子美女图片的脚本,今天给大家分享一个爬取豆瓣读书的源码,也算是做个记录吧,目前已经在学习编程的路上,以后要是想写什么爬虫也可以参考参考自己收藏的一些代码,嗯,虽然我还是个代 ...
最新文章
- 为什么你看了那么多面经,面试还是挂了?
- 广义互相关的公式,这一文都搜集全了
- 手工实现字节对齐 及 代码质量思考
- Visual Studio 2013开发 mini-filter driver step by step (1) - 创建 mini filter driver 工程
- 乐山计算机学校新歌王,星歌王第二季乐山市计算机学校专场赛决赛完美落幕!...
- 计算机知识*.jpg,计算机第一篇考试题(基础知识部分)
- ServletContextAware、ServletRequestAware、ServletResponseAware、SessionAware
- Android5.1 在init.rc 中添加自己的服务【转】
- ArcGis 拓扑检查——缺顶点、悬挂检查代码 C#
- 海思3516ev300+ imx335 原理图,其他PCB、软件资料齐全
- 层次分析法和多属性决策算法
- 百度排名批量查询_一篇文章告诉你如何快速实现百度霸屏?
- MDK各芯片厂家安装支持包下载地址(含Stm32,Nuvoton等)
- Docker 中jmap报错:Can‘t attach to the process: ptrace(PTRACE_ATTACH问题
- ReadHub源码阅读笔记(一)
- 总结一下强化学习在工业界应用,给大家扩展一下思路(简易科普)
- 基于PHP服装购物网站的设计与实现
- 从数学计算上分析人脑与电脑差异
- Linux程序设计-3-Linux编程准备知识
- 怀孕之前营养要充分预备
热门文章
- 2021年3月计算机一级考试时间安排
- Nancy使用转换器扩展序列化
- 出现大量close_wait
- 详解服务器、磁盘和网卡知识
- uniapp配置简易网络请求(h5端适配)
- Eureka底层架构原理
- 易语言组件花源码花大法防误报免杀360QVM云引擎(洪雨原创)
- 解决民生九难,城投隆翔助力西安停车产业发展
- c语言中fopen_s函数,关于C语言中从文件读取数据时,fopen,fopen_s和fscanf,fscanf_s的函数用法(函数的用法有很大区别)...
- EternalBlue永恒之蓝漏洞(MS17-010)复现