Python Scrapy 创建第一个爬虫项目

项目环境Python3.8，scrapy 2.0.1

1、创建一个项目

打开命令提示提示符cmd，定位到需要创建爬虫项目的目录，在cmd中输入创建项目命令scrapy startproject ***

scrapy startproject SpiderDemo

出现下面的提示即说明项目创建成功了：

2、创建一个普通爬虫

按照cmd创建成功的提示，定位到创建成功的目录下，输入创建爬虫命令scrapy genspider xxx “xxx”

scrapy genspider demo_spider "qiushibaike.com"

scrapy genspider有两个参数，第一个是爬虫的名字，名字会在运行爬虫的时候用到；第二个是可以爬取的网站域名。

注意：一定要先定位到创建的项目目录下，在运行创建爬虫命令，不然爬虫文件不能正确创建到项目中。
创建成功之后出现如下提示：

这时打开工程目录，就可以在spiders文件下看到创建好的爬虫文件：

3、配置爬虫项目

接下来先对项目进行简单设置，使得爬虫可以正常运行。打开项目目录下的settings.py文件：

① 配置robots协议
根据项目具体需求决定是否要遵守robots协议，不遵守设置为False

② 启用默认请求头DEFAULT_REQUEST_HEADERS

这里默认是没有User-Agent的，需要添加一个，做下伪装，以防被网站识别成爬虫，直接拒绝访问。

③ 爬虫中间件

对爬虫中间件做的配置需要在这里启用，对应工程目录middlewares.py中的SpiderdemoSpiderMiddleware类，后面的值代表多个中间件执行的顺序。

④ 下载中间件

对下载器中间件做的配置需要在这里启用，比如常用的随机请求头、代理ip池等反爬虫措施。对应工程目录middlewares.py中的SpiderdemoDownloaderMiddleware类，后面的值代表多个中间件执行的顺序。

⑤ 多次爬取延迟间隔

两次连续爬取的时间间隔，如果爬虫需要对同一网站进行连续多次访问，建议启用这一项，防止对需要访问的网站的正常访问造成影响，文明爬取。

4、编写第一个爬虫

经过上一步的设置，我们的爬虫就可以正常运行了，接下来打开第二步创建的爬虫，编写我们的爬虫文件：

name：用scrapy genspider命令创建爬虫时输入的爬虫名字，运行爬虫时需要用到；
allowed_domains：用scrapy genspider命令创建爬虫时输入的网站域名，表示允许爬取的网站域名，不再次域名之外的网站会被过滤掉；
start_urls：开始爬取的第一个网站url；
parse：爬取到的网站内容后会调用到这个方法，response代表爬取到的内容。在这个方法里可以对爬取内容进行解析得到需要的数据。

5、运行爬虫

① 命令行运行在cmd中使用scrapy crawl xxx运行，xxx代表爬虫名字

scrapy crawl demo_spider

② 创建启动文件
创建一个.py文件，导入cmdline，输入启动命令cmdline.execute(‘scrapy crawl xxx’.split())，xxx代表爬虫名字

from scrapy import cmdlinecmdline.execute('scrapy crawl demo_spider'.split())# 等价于第一种方法
# cmdline.execute(['scrapy', 'crawl', 'demo_spider'])

运行此文件即可启动爬虫

6、管道pipeline

当爬取到网页并解析出需要的内容之后，然后就需要将得到的内容保存到本地了。Scrapy提供了pipelines.py和items.py来对得到的内容进行处理

如果要启用pipelines需要在settings.py配置文件打开，后面的数值代表当前pipeline的执行优先级

①在itmes.py中定义需要保存的数据

②在spider中创建item并yield返回给pipeline

③在pipelines.py中处理得到的item

其中process_item是必须实现的方法，其它三个方法不是创建项目时生成的，可以根据需要来使用