目标抓取盗墓笔记小说网站上《盗墓笔记》这本书的书名、章节名、章节url,并存放到MongoDB中

1.Scrapy中settings.py的设置(先scrapy startproject novelspider)

在settings.py中配置MongoDB的IP地址、端口号、数据记录名称,并通过settings.py使pipelines.py生效:

2.Scrapy中item.py设置

3.Scarpy中pipelines.py的设置

在pipelines中可以像普通的python文件操作MongoDB一样编写代码出来需要保持到MongoDB中的数据,然而不同的是这里的数据来自items,这样做的好处是将数据抓取和处理分开。

在通过settings导入MONGODB字典时竟然报错了~~~~(玛德),所示格式错误,不明所以,故mongodb的设置直接写到pipelines中。把spider抓取到的数据存放到item实例中,再通过dict字典化insert到mongodb中。

4.spider文件下新建novspider.py

5.运行爬虫

有两种方法运行,一种是直接在cmd下输入 scrapy crawl xxxspider,当然你得先cd到xxxspider文件夹下;

另一种是在xxxspider文件夹下(和scrapy.cfg同一个目录下)建立一个mian.py脚本,其内容为:

6.运行结果

刷新mongodb,我存放到mydb3中:

8.源码

我分享到了百度云盘:链接:http://pan.baidu.com/s/1dFjxViD 密码:a8m7

可能会失效,有需要的M我~~~~ 谢谢大家支持,荆轲刺秦王!

python爬虫scrapy连接mongodb_爬虫框架scrapy和数据库MongoDB的结合使用(二)实战相关推荐

  1. abp框架mysql连接配置_ABP框架使用Mysql数据库

    参考文档:https://github.com/ABPFrameWorkGroup/AbpDocument2Chinese/blob/master/Markdown/Abp/9.4ABP%E5%9F% ...

  2. 【Docker制作镜像】Linux制作以python为基础镜像,融合Flask框架和Redis数据库

    步骤 1.编辑Dockerfile 2.编辑requirements.txt文件 3.编辑app.py文件 4.生成镜像文件 5.使用镜像,启动容器 6.访问容器的web服务 7.启动redis容器 ...

  3. python怎么爬虎牙_使用python爬虫框架scrapy抓取虎牙主播数据

    前言 本文利用python的scrapy框架对虎牙web端的主播.主播订阅数.主播当前观看人数等基本数据进行抓取,并将抓取到的数据以csv格数输出,以及存储到mongodb中 思路 观察虎牙网站后确认 ...

  4. python spider怎么用_python爬虫入门(七)Scrapy框架之Spider类

    Spider类 Spider类定义了如何爬取某个(或某些)网站.包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item). 换句话说,Spider就是您定义爬取的动作 ...

  5. python爬虫--Scrapy框架--Scrapy+selenium实现动态爬取

    python爬虫–Scrapy框架–Scrapy+selenium实现动态爬取 前言 本文基于数据分析竞赛爬虫阶段,对使用scrapy + selenium进行政策文本爬虫进行记录.用于个人爬虫学习记 ...

  6. 【视频教程免费领取】聚焦Python分布式爬虫必学框架Scrapy 打造搜索引擎

    领取方式 关注公众号,发送Python0407获取下载链接. 扫码关注公众号,公众号回复 Python0407 获取下载地址 目录结构 目录:/读书ReadBook [57.6G] ┣━━48G全套J ...

  7. python爬虫之无界面模式操作/scrapy框架

    文章目录 前情回顾 cookie模拟登陆 三个池子 selenium+phantomjs/chrome/firefox 今日笔记 chromedriver设置无界面模式 selenium - 键盘操作 ...

  8. [转] Python --- 爬虫框架Scrapy at a glance

    Scrapy at a glance Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 其最初是为了页面抓取 (更 ...

  9. python 全栈开发,Day137(爬虫系列之第4章-scrapy框架)

    python 全栈开发,Day137(爬虫系列之第4章-scrapy框架) 一.scrapy框架简介 1. 介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所 ...

最新文章

  1. Javascript到PHP加密通讯的简单实现
  2. 【Android 插件化】Hook 插件化框架 ( 通过反射获取 “宿主“ 应用中的 Element[] dexElements )
  3. java sharepoint 2010,安装SharePoint2010出现“Could not find stored procedure ‘sp_dboption’.”的解决方法...
  4. TensorFlow:简单的卷积层、池化层(采样层)示例
  5. android listview 切换,Android:在ListView适配器中切换OnCheckedChangeListener
  6. JavaScript -- Window-Resize
  7. 05_坐标变换与视觉测量学习笔记
  8. 【机器学习】K-means算法Python实现教程
  9. 关于数据中心PUE与计算机节能的探讨
  10. NBU备份Vmware
  11. 单例模式的懒汉模式跟恶汉模式的区别
  12. 网络摄像机目前的主流解决方案
  13. 微信内网页分享,分享者能看到分享的图片(描述),但被分享者无法看到
  14. 服务器系统 与win7系统,服务器系统win7
  15. 计算机二级考试失误有提示吗,2016年计算机二级考试应该避免的失误
  16. 数据挖掘算法——常用分类算法总结
  17. plot3D | 三维数据绘图(3):mesh函数、surf3D函数、spheresurf3D函数
  18. 无线网络技术复习整理——第二章
  19. python的cfg是什么模块_使用安装模块设置.py以及设置.cfg
  20. Js 的防抖与节流代码分析

热门文章

  1. 语法转换_近5年高考(2019- 2015年)语法填空词性转换使用真题汇编
  2. 32树莓派_树莓派推出8GB内存版本
  3. gitlab批量新增用户
  4. java进程因机器内存不足被系统kill的定位
  5. 高校云计算机中心建设方案,最新某大学云数据中心建设方案.pdf
  6. python输出由1234组成的三位素数_编写程序,输出所有由 1 、 2 、 3 、 4 这 4 个数字组成的素数,并且在每个素数中每个数字只使用依次。_学小易找答案...
  7. 燃气灶电气线路图及原理_电气安装造价如何入门,核心知识已为你打包
  8. Vue实现一个按钮切换显示不同的div内容
  9. windows环境下安装zookeeper教程详解(单机版)
  10. win10专业版系统没有休眠选项如何解决?