Python爬虫——Scrapy 简介和安装

1、Scrapy 简介

Scrapy 简介

Scrapy 是一个基于 Twisted实现的专业的、高效的异步处理爬虫框架，Scrapy 框架用纯Python实现。

Twisted：一个采用 Python 实现的基于事件驱动的网络引擎框架，用 Twisted 来处理网络通讯可以加快我们的下载速度，不用自己去实现异步框架。

Scrapy 框架用途非常广泛，可以提取网站数据、网络监测以及自动化测试等，Scrapy 也可以根据自己需求所需要的数据进行定制。

Scrapy 框架使用 lxml（专业的 XML 处理包）、cssselect 高效地提取 HTML 页面的有效信息，同时它也提供了有效的线程管理。

Scrapy 框架使用起来也很方便，开发人员只需要定制开发几个模块就可以实现一个爬虫程序，用来抓取网页数据或图片。

Scrapy 架构和组件

Scrapy 架构图

Scrapy 组件：

Engine，引擎，是整个框架的核心，负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等
Item，项目，它定义了爬取结果的数据结构，爬取的数据会被赋值成该对象。
Scheduler，调度器，用来接受引擎发过来的Request请求并按照一定的方式加入队列中，并在引擎再次请求的时候提供给引擎。
Downloader，下载器，用于下载Engine请求到的网页内容，并将其获取到的Responses交还给Engine(引擎)，由Engine交给Spider来处理。
Spiders，爬虫，其内定义了爬取的逻辑和网页的提取数据规则，它主要负责处理所有Responses并生成提取结果，并将新的URL提交给引擎，再次进入Scheduler(调度器)。
Item Pipeline，项目管道，负责处理Spider中获取到的Item，并进行进行清洗、验证和存储数据。
Downloader Middlewares，下载器中间件，自定义扩展下载功能的组件，位于引擎和下载器之间的钩子框架，主要是处理引擎与下载器之间的请求及响应。
Spider Middlewares，蜘蛛中间件，位于引擎和蜘蛛之间的钩子框架，可以自定扩展和操作引擎和Spider中间通信的功能组件。

2、Scrapy 下载安装

Scrapy 下载安装

1、Scrapy 安装位置：Python安装目录的Scripts文件夹下

2、安装命令：pip install Scrapy -i https://pypi.douban.com/simple，由于 Scrapy 需要许多依赖项，因此使用镜像源下载。

下载成功后可以在pycharm中查看scrapy版本信息

下载安装中可能遇到的问题及解决方法

问题1：mportError: No module named w3lib.http

解决：pip install w3lib

问题2：ImportError: No module named twisted

解决：pip install twisted

问题3：ImportError: No module named lxml.HTML

解决：pip install lxml

问题4：error: libxml/xmlversion.h: No such file or directory

解决：apt-get install libxml2-dev libxslt-dev

apt-get install Python-lxml

问题5：ImportError: No module named cssselect

解决：pip install cssselect

问题6：ImportError: No module named OpenSSL

解决：pip install pyOpenSSL

使用anaconda安装（简单）

注意：anaconda需要安装在空文件夹，使用anaconda下载完依赖后，pycharm中的python解释器的路径要修改为anaconda中python解释器的路径。