一年前写了python简单实战项目:《冰与火之歌1-5》角色关系图谱构建的数据库设计和数据可视化共现图谱的构建,中间唯独缺了数据的采集,因为想着只是个小爬虫,应该无关痛痒,后面也觉得这个系列缺了这一环不完美。前几天想着还是补上,结果发现一年前写的爬虫失效了,故索性就再写一个,然后就想着直接用上现在主流的scrapy框架以及redis、mongodb这两个Nosql好了,以小见大。

代码上传到了GitHub上,感兴趣的朋友可以移步:代码

旧爬虫代码(已失效,可做参考)、数据库设计的orm框架内model代码,以及现成抓取好的sqlite数据库均更新到了GitHub上的oldspder文件夹中

新的爬虫需要掌握的知识:

  • scrapy
  • redis
  • mongodb
  • xpath

项目在ubuntu16上进行,windows的朋友可以参考崔庆才个人博客来安装scrapy、redis、mongo
然后再推荐一个大牛的博客——新浪微博分布式爬虫分享

然后在最后提出个问题,就是在运行Scrapy并抓取保存好数据后,scrapy依旧在空跑,百度和google了很多,基本解决方式是通过设定爬虫运行超时时间来关闭,觉得治标不治本,欢迎路过的大神不吝赐教,感恩。


新项目抛弃了sqlite使用mongodb进行储存数据

Scrapy+redis+mongodb分布式爬虫抓取小说《冰与火之歌1-5》相关推荐

  1. Python进阶之Scrapy-redis分布式爬虫抓取当当图书

    Python进阶之Scrapy-redis分布式爬虫抓取当当图书 1. 准备工作 1.1 安装scrapy-redis 1.2 在windows安装redis程序 1.3 打开redis服务 2. 需 ...

  2. C#网络爬虫抓取小说

    C#网络爬虫抓取小说 2017-09-05DotNet (点击上方蓝字,可快速关注我们) 来源:苍 cnblogs.com/cang12138/p/7464226.html 阅读目录 1.分析html ...

  3. 基于scrapy的分布式爬虫抓取新浪微博个人信息和微博内容存入MySQL

    为了学习机器学习深度学习和文本挖掘方面的知识,需要获取一定的数据,新浪微博的大量数据可以作为此次研究历程的对象 一.环境准备 python 2.7 scrapy框架的部署(可以查看上一篇博客的简要操作 ...

  4. 利用Python爬虫抓取小说网站全部文章

    我们先来选定爬取目标,我爬取的网站是https://www.17k.com/ ,一些大型的网站(如起点.豆瓣等)做了反爬虫的部署,这会大大增加我们抓取的难度,所以尽量还是选一些不那么热门的网站. 爬虫 ...

  5. 使用rabbit实现分布式爬虫抓取妖火网

    使用rebbit实现分布式爬虫的例子 数据提取没有很详细,这部分不是重点 # -*- coding:utf-8 -*- # @Author: YOYO # @Time: 2018/10/11 10:4 ...

  6. Python 爬虫-抓取小说《鬼吹灯之精绝古城》

    想看小说<鬼吹灯之精绝古城>,可是网页版的好多广告,还要一页一页的翻,还无法复制,于是写了个小爬虫,保存到word里慢慢看. 代码如下: """ 爬取< ...

  7. Python3网络爬虫之Scrapy框架实现招聘数据抓取

    项目需求: 某招聘网上面有公司发布的的各种工作岗位,进入首页 https://careers.tencent.com/ 后可见 到一个搜索框,如下图所示: 在搜索框输入岗位名称,跳转到如下图所示页面, ...

  8. C# 爬虫 正则、NSoup、HtmlAgilityPack、Jumony四种方式抓取小说

    心血来潮,想爬点小说.通过百度选择了个小说网站,随便找了一本小说http://www.23us.so/files/article/html/13/13655/index.html. 1.分析html规 ...

  9. scrapy_redis分布式爬虫爬取亚马逊图书

    scrapy_redis分布式爬虫爬取亚马逊图书 最近在学习分布式爬虫,选取当当图书进行了一次小练习 网址,https://www.amazon.cn/gp/book/all_category/ref ...

最新文章

  1. 【深度学习】基于Pytorch的卷积神经网络概念解析和API妙用(一)
  2. Windows内核HAL相关学习
  3. windows平台桌面开发技术
  4. 安装部署OpenStack(添加资源)
  5. 前瞻科技,引领未来!Microsoft Connect(); 2018即将重磅来袭!
  6. mysql删除不安全的账户_【20200407】MySQL账号不规则删除导致权限错误
  7. 浏览器滚动的详细解释 Vue 固定滚动位置的实现
  8. 智能指针的释放_堆栈里的悄悄话——智能指针
  9. php 伸展菜单代码,JQUERY编写的一款简易伸展显示详情菜单特效
  10. Linux看视频不卡的,Ubuntu 8.04下安装电视卡看电视
  11. [xsy2123]毛毛虫
  12. matlab中if筛选条件 如何使用方法,excel中多个if函数的套用_excel怎么按条件筛选...
  13. SQL Server 由于一个或多个对象访问此列,ALTER TABLE DROP COLUMN xxx 失败问题解决
  14. 条令考试小程序辅助器_微信小程序条令考试刷分 微信小程序答题刷分软件
  15. 程序员 做头发 奇遇记
  16. oracle数据透明加密,oracle数据透明加密-TDE
  17. font-family可以设置的字体
  18. JAVA 如何使用延迟
  19. Git的原理详解与使用-臧雪园-专题视频课程
  20. 记一次线上启动war包 StackOverflowError

热门文章

  1. 短链的基本工作原理描述与实现方案
  2. 应用在饮水机紫外线消毒灯管中的UVC杀菌灯珠
  3. 餐饮界的传奇-陈明保:美国最火爆的餐饮项目幕后推手
  4. 【CF53E】 Dead Ends
  5. PBOC借记贷记应用终端规范文档,对名词解释
  6. 自动将Excel文件中的数据批量填写到网页表单
  7. 采购申请审批策略增强_SAP刘梦_新浪博客
  8. 控制台界面的吃豆子游戏
  9. 6810. 【2020.10.05提高组模拟】路哥
  10. w3c html标准验证,w3c验证