原标题:用Python爬下十几万本小说,再也不会闹书荒!

自从看了师傅爬了顶点全站之后,我也手痒痒的,也想爬一个比较牛逼的小说网看看,于是选了宜搜这个网站,好了,马上开干,这次用的是mogodb数据库,感觉mysql太麻烦了下图是我选择宜搜里面遍历的网站

先看代码框架图

第一个,肯定先提取排行榜里面每个类别的链接啊,然后进入链接进行爬取,先看all_theme文件

看看运行结果,这是书籍类目的

这是构造出的每一个类目里面所有的页数链接,也是我们爬虫的入口,一共5000多页

接下来是封装的数据库操作,因为用到了多进程以及多线程每个进程,他们需要知道那些URL爬取过了、哪些URL需要爬取!我们来给每个URL设置两种状态:

outstanding:等待爬取的URL

complete:爬取完成的URL

processing:正在进行的URL。

嗯!当一个所有初始的URL状态都为outstanding;当开始爬取的时候状态改为:processing;爬取完成状态改为:complete;失败的URL重置状态为:outstanding。

为了能够处理URL进程被终止的情况、我们设置一个计时参数,当超过这个值时;我们则将状态重置为outstanding。

接下来是爬虫主程序

让我们来看看结果吧

里面因为很多都是重复的,所有去重之后只有十几万本,好失望......

作者:蜗牛仔

來源:http://www.jianshu.com/p/a1c5183f3f4d

马哥教育2017年Python自动化运维开发实战班,马哥联合BAT、豆瓣等一线互联网Python开发达人,根据目前企业需求的Python开发人才进行了深度定制,加入了大量一线互联网公司:大众点评、饿了么、腾讯等生产环境真是项目,课程由浅入深,从Python基础到Python高级,让你融汇贯通Python基础理论,手把手教学让你具备Python自动化开发需要的前端界面开发、Web框架、大监控系统、CMDB系统、认证堡垒机、自动化流程平台六大实战能力,让你从0开始蜕变成Hold住年薪20万的Python自动化开发人才。返回搜狐,查看更多

责任编辑:

python 小说-用Python爬下十几万本小说,再也不会闹书荒!相关推荐

  1. 用Python爬下十几万本小说,再也不会闹书荒!

    自从看了师傅爬了顶点全站之后,我也手痒痒的,也想爬一个比较牛逼的小说网看看,于是选了宜搜这个网站,好了,马上开干,这次用的是mogodb数据库,感觉mysql太麻烦了下图是我选择宜搜里面遍历的网站 先 ...

  2. python 小说 云_用Python爬下十几万本小说,再也不会闹书荒!

    自从看了师傅爬了顶点全站之后,我也手痒痒的,也想爬一个比较牛逼的小说网看看,于是选了宜搜这个网站,好了,马上开干,这次用的是mogodb数据库,感觉mysql太麻烦了下图是我选择宜搜里面遍历的网站 先 ...

  3. python爬虫28 | 你爬下的数据不分析一波可就亏了啊,使用python进行数据可视化...

    通过这段时间 小帅b教你从抓包开始 到数据爬取 到数据解析 再到数据存储 相信你已经能抓取大部分你想爬取的网站数据了 恭喜恭喜 但是 数据抓取下来 要好好分析一波 最好的方式就是把数据进行可视化 这样 ...

  4. Python程序员自制爬虫小程序, 瞬间爬取十几万美女图片

    最近对python爬虫感兴趣,于是也依葫芦画瓢试着用爬虫爬取之前喜欢的网站上的美女图片,其中每一套图都是一张一个页面,存一套图如果是手动得点翻几十个页面,但现在用爬虫的话,就很方便了,只需输入套图的i ...

  5. 【Python网络编程】爬取百度贴吧、小说内容、豆瓣小说、Ajax爬微博、多线程爬淘宝

    一.爬取百度贴吧 import re titleR ='<a rel="noreferrer" href=".*?" title=".*?&qu ...

  6. Python爬虫新手入门教学(十四):爬取有声小说网站数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...

  7. Python爬虫新手入门教学(十八):爬取yy全站小视频

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...

  8. python爬虫影评_Python爬虫(二十)_动态爬取影评信息

    本案例介绍从JavaScript中采集加载的数据.更多内容请参考:Python学习指南 #-*- coding:utf-8 -*- import requests import re import t ...

  9. Python爬虫练习(一) 爬取新笔趣阁小说(搜索+爬取)

    爬取笔趣阁小说(搜索+爬取) 首先看看最终效果(gif): 实现步骤: 1.探查网站"http://www.xbiquge.la/",看看网站的实现原理. 2.编写搜索功能(获取每 ...

最新文章

  1. 解决项目中.a文件的冲突
  2. python开发需要掌握哪些知识-Python基础学习需要掌握哪些知识
  3. [新产品发布|推广] 赠书活动来了,参与有机会得《产品经理那些事儿》图书!...
  4. leetcode111. 二叉树的最小深度(队列)
  5. LeetCode MySQL 1070. 产品销售分析 III(group by 陷阱)
  6. oracle sql语句大全
  7. 由于找不到opencv_world412d.dll,无法继续执行代码
  8. 推送微信公众号模板消息通知(Java版)
  9. Java工具类实现excel转pdf结果几乎一模一样
  10. Java POI导出(图片,文字,表格)word文档
  11. Firefox 使用常见问题和解决方法
  12. 皮革行业分销渠道管理系统有效缩短供销链,提升渠道运营收益
  13. opensuse下安装网易云音乐netease-cloud-music
  14. 搜狗拼音输入法无法打出汉字
  15. 职场成功学—项目管理之目标管理
  16. 全部实行“申请―考核”制!北京师范大学博士招生明确规定!
  17. 著名网站系统架构设计
  18. vmware虚拟主机使用大于4G的启动盘安装win7至win10的iso文件,无法启动安装的解决方法。
  19. FHE学习笔记 #2 多项式环
  20. 2023 微信红包封面整蛊网页源码

热门文章

  1. 时间序列预测——深度好文,ARIMA是最难用的(数据预处理过程不适合工业应用),线性回归模型简单适用,预测趋势很不错,xgboost的话,不太适合趋势预测,如果数据平稳也可以使用。...
  2. 利用机器学习进行DNS隐蔽通道检测——数据收集,利用iodine进行DNS隐蔽通道样本收集...
  3. SpringBoot Actuator监控【转】
  4. 使用宝塔面板部署tp5网站
  5. iframe父页面获取iframe子页面的元素 与 iframe子页面获取父页面元素
  6. 游遍中国 —— 大街小巷、秘境与远方
  7. ClassLoader.getSystemResourceAsStream()
  8. oracle 性能优化--索引总结
  9. 【转】每天一个linux命令(38):cal 命令
  10. TCP连接建立与终止,及状态转换