python爬虫scrapy连接mongodb_爬虫框架scrapy和数据库MongoDB的结合使用（二）实战

目标抓取盗墓笔记小说网站上《盗墓笔记》这本书的书名、章节名、章节url，并存放到MongoDB中

1.Scrapy中settings.py的设置（先scrapy startproject novelspider）

在settings.py中配置MongoDB的IP地址、端口号、数据记录名称，并通过settings.py使pipelines.py生效：

2.Scrapy中item.py设置

3.Scarpy中pipelines.py的设置

在pipelines中可以像普通的python文件操作MongoDB一样编写代码出来需要保持到MongoDB中的数据，然而不同的是这里的数据来自items，这样做的好处是将数据抓取和处理分开。

在通过settings导入MONGODB字典时竟然报错了~~~~（玛德），所示格式错误，不明所以，故mongodb的设置直接写到pipelines中。把spider抓取到的数据存放到item实例中，再通过dict字典化insert到mongodb中。

4.spider文件下新建novspider.py

5.运行爬虫

有两种方法运行，一种是直接在cmd下输入 scrapy crawl xxxspider，当然你得先cd到xxxspider文件夹下；

另一种是在xxxspider文件夹下（和scrapy.cfg同一个目录下）建立一个mian.py脚本，其内容为：

6.运行结果

刷新mongodb，我存放到mydb3中：

8.源码

我分享到了百度云盘：链接：http://pan.baidu.com/s/1dFjxViD 密码：a8m7

可能会失效，有需要的M我~~~~ 谢谢大家支持,荆轲刺秦王！

python爬虫scrapy连接mongodb_爬虫框架scrapy和数据库MongoDB的结合使用（二）实战相关推荐

abp框架mysql连接配置_ABP框架使用Mysql数据库
参考文档:https://github.com/ABPFrameWorkGroup/AbpDocument2Chinese/blob/master/Markdown/Abp/9.4ABP%E5%9F% ...
【Docker制作镜像】Linux制作以python为基础镜像，融合Flask框架和Redis数据库
步骤 1.编辑Dockerfile 2.编辑requirements.txt文件 3.编辑app.py文件 4.生成镜像文件 5.使用镜像,启动容器 6.访问容器的web服务 7.启动redis容器 ...
python怎么爬虎牙_使用python爬虫框架scrapy抓取虎牙主播数据
前言本文利用python的scrapy框架对虎牙web端的主播.主播订阅数.主播当前观看人数等基本数据进行抓取,并将抓取到的数据以csv格数输出,以及存储到mongodb中思路观察虎牙网站后确认 ...
python spider怎么用_python爬虫入门（七）Scrapy框架之Spider类
Spider类 Spider类定义了如何爬取某个(或某些)网站.包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item). 换句话说,Spider就是您定义爬取的动作 ...
python爬虫--Scrapy框架--Scrapy+selenium实现动态爬取
python爬虫–Scrapy框架–Scrapy+selenium实现动态爬取前言本文基于数据分析竞赛爬虫阶段,对使用scrapy + selenium进行政策文本爬虫进行记录.用于个人爬虫学习记 ...
【视频教程免费领取】聚焦Python分布式爬虫必学框架Scrapy 打造搜索引擎
领取方式关注公众号,发送Python0407获取下载链接. 扫码关注公众号,公众号回复 Python0407 获取下载地址目录结构目录:/读书ReadBook [57.6G] ┣━━48G全套J ...
python爬虫之无界面模式操作/scrapy框架
文章目录前情回顾 cookie模拟登陆三个池子 selenium+phantomjs/chrome/firefox 今日笔记 chromedriver设置无界面模式 selenium - 键盘操作 ...
[转] Python --- 爬虫框架Scrapy at a glance
Scrapy at a glance Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 其最初是为了页面抓取 (更 ...
python 全栈开发，Day137(爬虫系列之第4章-scrapy框架)
python 全栈开发,Day137(爬虫系列之第4章-scrapy框架) 一.scrapy框架简介 1. 介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所 ...

python爬虫scrapy连接mongodb_爬虫框架scrapy和数据库MongoDB的结合使用（二）实战

python爬虫scrapy连接mongodb_爬虫框架scrapy和数据库MongoDB的结合使用（二）实战相关推荐

最新文章

热门文章