文章目录

一、简介
二、安装（Windows）
三、运行流程
- 3.1、数据流
- 3.2、组件介绍
- 3.3、简单使用
- - 3.3.1、项目命令
  - 3.3.2、shell 交互式平台
四、小案例：爬取豆瓣电影
- 4.1、目标数据要求
- 4.2、项目文件
- - 4.2.1、爬虫文件
  - 4.2.2、items文件
  - 4.2.3、piplines文件
  - 4.2.4、settings文件

一、简介

Scrapy是纯Python开发的一个高效、结构化的网页抓取框架；

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。 Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试 Scrapy使用了Twisted 异步网络库来处理网络通讯。

使用原因：

1.为了更利于我们将精力集中在请求与解析上
2.企业级的要求

二、安装（Windows）

scrapy支持Python2.7和python3.4以上版本。
python包可以用全局安装(也称为系统范围),也可以安装在用户空间中。

直接安装

在https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted下载对应的Twisted的版本文件
在命令行进入到Twisted的目录执行pip install +Twisted文件名
执行pip install scrapy

三、运行流程

spiders：网页爬虫
items：项目
engine：引擎
scheduler：调度器
downloader：下载器
item pipelines：项目管道
middleware：中间设备，中间件

3.1、数据流

上图显示了Scrapy框架的体系结构及其组件，以及系统内部发生的数据流。（由红色的箭头显示）

Scrapy中的数据流由执行引擎控制,流程如下：

首先从网页爬虫获取初始的请求
将请求放入调度模块，然后获取下一个需要爬取的请求
调度模块返回下一个需要爬取的请求给引擎
引擎将请求发送给下载器，依次穿过所有的下载中间件
一旦页面下载完成，下载器会返回一个响应包含了页面数据，然后再依次穿过所有的下载中间件。
引擎从下载器接收到响应，然后发送给爬虫进行解析，依次穿过所有的爬虫中间件
爬虫处理接收到的响应，然后解析出item和生成新的请求，并发送给引擎
引擎将已经处理好的item发送给管道组件，将生成好的新的请求发送给调度模块，并请求下一个请求
该过程重复，直到调度程序不再有请求为止。

3.2、组件介绍

Scrapy Engine(引擎)
引擎负责控制系统所有组件之间的数据流，并在发生某些操作时触发事件。
scheduler（调度器)
调度程序接收来自引擎的请求，将它们排入队列，以便稍后引擎请求它们。
Downloader（下载器)
下载程序负责获取web页面并将它们提供给引擎，引擎再将它们提供给spider。
spider（爬虫）
爬虫是由用户编写的自定义的类，用于解析响应，从中提取数据，或其他要抓取的请求。
Item pipeline（管道)
管道负责在数据被爬虫提取后进行后续处理。典型的任务包括清理，验证和持久性（如将数据存储在数据库中）
下载中间件
下载中间件是位于引擎和下载器之间的特定的钩子，它们处理从引擎传递到下载器的请求，以及下载器传递到引擎的响应。
如果你要执行以下操作之一，请使用Downloader中间件：
①在请求发送到下载程序之前处理请求（即在scrapy将请求发送到网站之前）
②在响应发送给爬虫之前
③直接发送新的请求，而不是将收到的响应传递给蜘蛛
④将响应传递给爬行器而不获取web页面;
⑤默默的放弃一些请求
爬虫中间件
爬虫中间件是位于引擎和爬虫之间的特定的钩子，能够处理传入的响应和传递出去的item和请求。
如果你需要以下操作请使用爬虫中间件：
①处理爬虫回调之后的请求或item
②处理start_requests
③处理爬虫异常
④根据响应内容调用errback而不是回调请

3.3、简单使用

3.3.1、项目命令

1.创建项目

scrapy startproject <project_name>  [project_dir]  # ps: "<>"表示必填 ,"[]"表示可选

示例:

scrapy startproject  db

2.cd 到项目下，创建爬虫文件

scrapy genspider [options]   <name>   <domain>
#name:爬虫文件名
#domain:域名

示例：

scrapy genspider db250 movie.douban.com
#注意：会创建在项目/spider下 ;其中db250是爬虫文件名,movie.douban.com是域名

3.setting 里配置

是否遵循机器协议 修改  ROBOTSTXT_OBEY=False;
默认请求头 取消注释(必要时添加User-Agent)  DEFAULT_REQUEST_HEADERS

4.运行项目

scrapy  crawl 爬虫文件名   #注重流程

补：这里有个小技巧可以不用命令运行，可以像运行普通文件一样直接右击“运行”：
① 在项目里随便建一个文件；
② 导入模块：from scrapy.cmdline import execute
③ 写上代码：execute(['scrapy','crawl','db']) (db:指的是你的爬虫文件名)

示例(下面案例项目的创建)：
1.创建项目
(这里我项目的名称是：db250 ，项目文件夹是：scrapy1)

2.cd 到项目下

创建爬虫文件:（这里我爬虫文件名：db）

3.setting 里配置

4.运行项目
方法一：

方法二：

然后直接执行该文件就可以运行整个项目了

3.3.2、shell 交互式平台

scrapy shell start_url  #获取我们项目中的response测试  xpath进行匹配

示例(下面案例项目分析)：

接下来我们就可以直接用response.xpath() 直接提取数据(下面是我提取的数据的节选)，同理我们就可以得到：导演的信息、评分

四、小案例：爬取豆瓣电影

4.1、目标数据要求

豆瓣电影250个电影信息
电影信息为：电影名字,导演信息(可以包含演员信息),评分
将电影信息直接本地保存
将电影信息通过管道进行保存

4.2、项目文件

4.2.1、爬虫文件

import scrapyfrom ..items import Db250Item  #是一个安全的字典
class DbSpider(scrapy.Spider):name = 'db'  #爬虫文件名字  必须存在且唯一# allowed_domains = ['movie.douban.com']   #允许的域名   可以不存在，不存在：任何域名都可以start_urls = ['http://movie.douban.com/']  #初始url  必须要存在page = 0   #要爬取的页码def parse(self, response):  #解析函数  处理响应数据all_mes = response.xpath('//div[@class="info"]')for mes in all_mes:#电影名字film_name = mes.xpath('./div/a/span[1]/text()')[0].extract()#评分score = mes.xpath('./div/div/span[2]/text()')[0].extract()#导演信息director = mes.xpath('./div/p/text()')[0].extract().strip()#使用管道存储item = Db250Item()   #创建Db250Item对象  当成字典来使用item['film_name'] = film_nameitem['score'] = scoreitem['director'] = directoryield item#发送新一页的请求#构造urlself.page+=1if self.page == 3:  #这里我们就只爬取了3页，太多的话ip可能会被封return#页码是有规律的，根据规律，我们就可以构建出各个页面的URL了page_url = 'https://movie.douban.com/top250?start={}&filter='.format(self.page*25)yield scrapy.Request(page_url)

4.2.2、items文件

import scrapyclass DbItem(scrapy.Item):
class Db250Item(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()film_name = scrapy.Field()score = scrapy.Field()director = scrapy.Field()

4.2.3、piplines文件

import jsonclass Db250Pipeline(object):def  open_spider(self,spider):  #注意这个函数名是固定的#爬虫文件开启,此方法执行self.f=open("film_pipe.txt","w",encoding="utf-8")def process_item(self, item, spider):json_data=json.dumps(dict(item),ensure_ascii=False)+"\n"self.f.write(json_data)return itemdef  close_spider(self,spider):  #注意这个函数名是固定的# 爬虫文件关闭,此方法执行self.f.close() #关闭文件

4.2.4、settings文件

(这里我就只写需要我们修改的几个部分)

#1.机器协议  设置False
ROBOTSTXT_OBEY = False#2.取消默认请求头的注释，添加User-Agent
DEFAULT_REQUEST_HEADERS = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','Accept-Language': 'en','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.101 Safari/537.36 Edg/91.0.864.48'
}
#3.这个也是特别重要的一点  打开管道
ITEM_PIPELINES = {'db250.pipelines.Db250Pipeline': 300,
}

结果：

爬虫学习笔记（六）——Scrapy框架（一）：安装、运行流程及简单使用相关推荐

从0到1爬虫学习笔记：04Scrapy框架
文章目录 1 Scrapy概述 1.1 Scrapy架构图 1.2 Scrapy开发步骤 2 入门案例 2.1 学习目标 2.2 新建项目(scrapy startproject) 2.3 明确目标( ...
Linux学习笔记六：SSH 软件安装失败了：Server responded Protocol error packet too long 1349676920
目录概述 Windows Ubuntu 测试概述在上一篇交叉编译环境安装中可以感受到,使用VMware共享文件夹的方式传输文件还是有些麻烦的.这一篇就记录下SSH的使用.SSH可以直接拖拽实现双 ...
zookeeper学习笔记（一）下载安装运行
下载下载去官网下载,可以下载自己想要的版本安装下载解压后如下午所示运行 1.点开conf目录,复制zoo_sample.cfg重命名为zoo,cfg 2.点开bin目录,执行zkServer ...
爬虫学习笔记（十）—— Scrapy框架（五）：下载中间件、用户/IP代理池、settings文件
一.下载中间件下载中间件是一个用来hooks进Scrapy的request/response处理过程的框架. 它是一个轻量级的底层系统,用来全局修改scrapy的request和response. ...
爬虫学习笔记（七）——Scrapy框架（二）：Scrapy shell、选择器
一.Scrapy shell scrapy shell的作用是用于调试,在项目目录下输入scrapy shell start_urls (start_urls:目标url)得到下列信息: scrapy ...
Python3 爬虫学习笔记 C17【爬虫框架 pyspider — 基本使用】
Python3 爬虫学习笔记第十七章 -- [爬虫框架 pyspider - 基本使用] 文章目录 [17.1]初识 pyspider [17.2]使用 pyspider [17.2.1]主界面 [1 ...
Python3 爬虫学习笔记 C18【爬虫框架 pyspider — 深入理解】
Python3 爬虫学习笔记第十八章 -- [爬虫框架 pyspider - 深入理解] 文章目录 [18.1]启动参数 [18.2]运行单个组件 [18.2.1]运行 Scheduler [18.2 ...
Python3 爬虫学习笔记 C16【数据储存系列 — Redis】
Python3 爬虫学习笔记第十六章 -- [数据储存系列 - Redis] 文章目录 [16.1]关于 Redis [16.2]使用 Redis [16.3]Key(键)操作 [16.4]Strin ...
python3.4学习笔记(八) Python第三方库安装与使用，包管理工具解惑
python3.4学习笔记(八) Python第三方库安装与使用,包管理工具解惑许多人在安装Python第三方库的时候, 经常会为一个问题困扰:到底应该下载什么格式的文件? 当我们点开下载页时, 一 ...
Hadoop学习笔记—16.Pig框架学习
Hadoop学习笔记-16.Pig框架学习一.关于Pig:别以为猪不能干活 1.1 Pig的简介 Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin, ...

爬虫学习笔记（六）——Scrapy框架（一）：安装、运行流程及简单使用