爬虫框架Scrapy的讲解

一、Scrapy的定义

Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。【是纯python实现的框架】

二、Scrapy框架的安装

pip install scrapy（有可能还需要安装其他的依赖库等【我安装时直接输入此命令进行安装的，中间有报错，但是还是重复此命令操作，最后安装好了】）

三、Scrapy框架的整体架构和组成

官方的Scrapy的架构图如下：

其中，图中绿色的是数据的流向。

1）架构说明：

》Scrapy Engine(引擎)：负责Spiders、ItemPipeline、Downloader、Schedule中间的通讯，信号、数据传递等【处理整个系统的数据流处理，出发事物，框架的核心】。
》Scheduler(调度器)：简单说就是队列。它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，加入队列，在引擎再次请求时将请求提供给引擎。
》Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spiders来处理。
》Spiders（爬虫解析器）：【编写xpath、正则表达式等解析策略，用于分析和处理数据】它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据；如果有新链接的请求(如下一页)，将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)。
》Item Pipeline(管道)：它负责处理Spiders中获取到的Item，并进行后期处理（详细分析、过滤、存储等）的地方。
》Downloader Middlewares（下载中间件）：一个可以自定义扩展下载功能的组件【封装代理、http头部隐藏等】。
》Spider Middlewares（Spider中间件）：一个可以自定义扩展和操作引擎和Spiders中间通信的功能组件。

2）结合下表概括了框架中各组件的作用：

3）梳理一下scrapy框架的整体执行流程：

1.Spiders的 yeild 将 request 发送给Engine【编写入口url（即需要请求的网站）】
2.Engine对 request 不做任何处理,将 request 发送给Scheduler，让它排序、入队列
3.Scheduler排好队列后，将新的 request 请求发送给Engine
4.Engine拿到新的 request 后，发送给Downloader让它下载
5.Downloader下载好后(即获取到response)之后，再发送回Engine
6.Engine获取到response之后，返回给Spiders，Spiders的 parse() 方法对获取到的response进行处理，解析出 “items” 或者 "requests"
7.Spiders将解析出来的 “items” 或者 “requests” 发送给Engine
8.Engine获取到 “items” 或者 “requests” ，将 “items” 发送给ItemPipeline；将 “requests” 发送给Scheduler
9.ItemPipeline收到 “items” 后，对数据进行后期处理（详细分析、过滤、存储等）
10.Scheduler收到 “requests” 后，对请求再进行排序、入队，再发送给Downloader让它下载

scrapy框架是异步开发的，各个组件各司其职。
（ps：只有Scheduler中不存在 request 时，程序才停止；如果Downloader没有下载成功，则会返回给Engine，让Scheduler重新排列，再将新的 request 发送给Downloader进行下载处理）

四、Scrapy框架的使用

1️⃣创建项目：scrapy startproject xxx

例如：scrapy startproject tubatu_scrapy_project

2️⃣查看项目中的文件
①scrapy.cfg文件【项目的配置文件】，包含指定当前项目配置的路径(settings)、以及部署信息(deploy)
②项目文件下的items.py文件【定义数据结构】，即想要抓取哪些字段(例如名称、url等)

③项目文件下的pipelines.py文件【项目管道文件，又称数据处理管道文件】，用于编写数据的存储、清洗等逻辑。如将数据存储到json文件或mongo文件，就可以在此编写逻辑

④项目文件下的settings.py文件【项目设置文件】，可以定义项目的全局设置，一般用到哪个选项就开启并设置即可。(其中是否遵循ROBOTS协议这一项，一般设置为False)
⑤项目文件下的middlewares.py文件【定义了两个中间类的规则编写】，可以设置http的头部信息，设置代理等

⑥项目文件下的spiders文件夹【包含每个爬虫项目的实现】，解析规则就会写在此目录中，在spiders目录下编写爬虫逻辑(爬虫解析器)即可。而我们可以使用命令生成spider模板来直接编写爬虫逻辑，如下一步骤