系列文章目录

python爬虫目录

文章目录

系列文章目录
前言
一、Scrapy框架架构
- 1、Scrapy框架介绍
- 2、Scrapy架构图
- 3、Scrapy框架模块功能
二、安装和文档
三、快速入门
- 1、创建项目
- 2、目录结构介绍
- 3、使用Scrapy框架爬取糗事百科段子
- 4、优化数据存储方式
- - 1、JsonItemExporter
  - 2、JsonLinesItemExporter
- 5、抓取多个页面

前言

摘录自B站对应课程笔记
不愧是清华大佬！把Python网络爬虫讲得如此简单明了！从入门到精通保姆级教程（建议收藏）

以下是本篇文章正文内容，下面案例可供参考

一、Scrapy框架架构

1、Scrapy框架介绍

写一个爬虫，需要做很多的事情。比如：发送网络请求、数据解析、数据存储、反反爬虫机制（更换ip代理、设置请求头等）、异步请求等。这些工作如果每次都要自己从零开始写的话，比较浪费时间。因此Scrapy把一些基础的东西封装好了，在他上面写爬虫可以变的更加的高效（爬取效率和开发效率）。因此真正在公司里，一些上了量的爬虫，都是使用Scrapy框架来解决。

2、Scrapy架构图

3、Scrapy框架模块功能

Scrapy Engine（引擎）：Scrapy框架的核心部分。负责在Spider和ItemPipeline、Downloader、Scheduler中间通信、传递数据等。
Spider（爬虫）：发送需要爬取的链接给引擎，最后引擎把其他模块请求回来的数据再发送给爬虫，爬虫就去解析想要的数据。这个部分是我们开发者自己写的，因为要爬取哪些链接，页面中的哪些数据是我们需要的，都是由程序员自己决定。
Scheduler（调度器）：负责接收引擎发送过来的请求，并按照一定的方式进行排列和整理，负责调度请求的顺序等。
Downloader（下载器）：负责接收引擎传过来的下载请求，然后去网络上下载对应的数据再交还给引擎。
Item Pipeline（管道）：负责将Spider（爬虫）传递过来的数据进行保存。具体保存在哪里，应该看开发者自己的需求。
Downloader Middlewares（下载中间件）：可以扩展下载器和引擎之间通信功能的中间件。
Spider Middlewares（Spider中间件）：可以扩展引擎和爬虫之间通信功能的中间件。

二、安装和文档

安装：通过pip install scrapy即可安装。
Scrapy官方文档：http://doc.scrapy.org/en/latest
Scrapy中文文档：http://scrapy-4. chs.readthedocs.io/zh_CN/latest/index.html

1、在ubuntu上安装scrapy之前，需要先安装以下依赖,然后再通过pip install scrapy安装。：

sudo apt-get install python3-dev build-essential python3-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev

2、如果在windows系统下，提示这个错误ModuleNotFoundError: No module named 'win32api'，那么使用以下命令可以解决：pip install pypiwin32。

三、快速入门

1、创建项目

要使用Scrapy框架创建项目，需要通过命令来创建。首先进入到你想把这个项目存放的目录。然后使用以下命令创建：

scrapy startproject [项目名称]

2、目录结构介绍

以下介绍下主要文件的作用：

items.py：用来存放爬虫爬取下来数据的模型。
middlewares.py：用来存放各种中间件的文件。
pipelines.py：用来将items的模型存储到本地磁盘中。
settings.py：本爬虫的一些配置信息（比如请求头、多久发送一次请求、ip代理池等）。
scrapy.cfg：项目的配置文件。
spiders包：以后所有的爬虫，都是存放到这个里面。

3、使用Scrapy框架爬取糗事百科段子

使用命令创建一个爬虫：
进入到项目所在的路径，执行命令 scrapy genspider [爬虫名] [爬虫域名].注意，爬虫名字不能和项目名称一致。

scrapy genspider qsbk_spider "qiushibaike.com"

创建了一个名字叫做 qsbk_spider 的爬虫，并且能爬取的网页只会限制在 qiushibaike.com 这个域名下。

爬虫代码解析：

import scrapyclass QsbkSpiderSpider(scrapy.Spider):name = 'qsbk_spider'allowed_domains = ['qiushibaike.com']start_urls = ['http://qiushibaike.com/']def parse(self, response):pass

其实这些代码我们完全可以自己手动去写，而不用命令。只不过是不用命令，自己写这些代码比较麻烦。要创建一个Spider，那么必须自定义一个类，继承自scrapy.Spider，然后在这个类中定义三个属性和一个方法。

name：这个爬虫的名字，名字必须是唯一的。
allow_domains：允许的域名。爬虫只会爬取这个域名下的网页，其他不是这个域名下的网页会被自动忽略。
start_urls：爬虫从这个变量中的url开始。
parse：引擎会把下载器下载回来的数据扔给爬虫解析，爬虫再把数据传给这个parse方法。这个是个固定的写法。这个方法的作用有两个，第一个是提取想要的数据。第二个是生成下一个请求的url。

修改settings.py代码：
在做一个爬虫之前，一定要记得修改setttings.py中的设置。两个地方是强烈建议设置的。

ROBOTSTXT_OBEY 设置为 False。默认是True。即遵守机器协议，那么在爬虫的时候，scrapy首先去找robots.txt文件，如果没有找到。则直接停止爬取。
DEFAULT_REQUEST_HEADERS 添加 User-Agent。这个也是告诉服务器，我这个请求是一个正常的请求，不是一个爬虫。

简单运行爬虫：
在项目根目录下执行命令来运行爬虫代码：scrapy crawl qsbk_spider

完成的爬虫代码：
1、爬虫部分代码：

import scrapy
from scrapy.http.response.html import HtmlResponse
from scrapy.selector.unified import SelectorList
from qsbk.items import QsbkItemclass QsbkSpiderSpider(scrapy.Spider):name = 'qsbk_spider'allowed_domains = ['qiushibaike.com']start_urls = ['https://www.qiushibaike.com/text/page/1/']def parse(self, response):# SelectorListduanziDivs = response.xpath("//div[@class='col1 old-style-col1']/div")for duanziDiv in duanziDivs:# duanziDiv 类型： Selectorauther = duanziDiv.xpath(".//h2/text()").get().strip()content = duanziDiv.xpath(".//div[@class='content']//text()").getall()content = "".join(content).strip()item = QsbkItem(auther=auther, content=content)# duanzi = {"auther": auther, "content": content}# 方法将返回一个生成器yield item

2、items.py部分代码：

import scrapyclass QsbkItem(scrapy.Item):auther = scrapy.Field()content = scrapy.Field()

3、pipeline部分代码：

import jsonclass QsbkPipeline:def __init__(self):self.fp = open("duanzi.json", "w", encoding="utf-8")def open_spider(self, spider):print("爬虫开始。。。。")def process_item(self, item, spider):item_json = json.dumps(dict(item), ensure_ascii=False)self.fp.write(item_json + "\n")return itemdef close_spider(self, spider):print("爬虫结束。。。")self.fp.close()

运行scrapy项目：
运行scrapy项目。需要在终端，进入项目所在的路径，然后scrapy crawl [爬虫名字]即可运行指定的爬虫。如果不想每次都在命令行中运行，那么可以把这个命令写在一个文件中。以后就在pycharm中执行运行这个文件就可以了。比如现在新创建一个文件叫做start.py，然后在这个文件中填入以下代码：

from scrapy import cmdline# 下面是等价的
cmdline.execute(["scrapy", "crawl", "qsbk_spider"])
# cmdline.execute("scrapy crawl qsbk_spider".split())

Scrapy框架爬取糗事百科段子总结
1、response 是一个 scrapy.http.response.html.HtmlResponse 对象。可以执行 xpath 和 css 语法来提取数据。
2、提取出来的数据，是一个 Selector 或是一个 SelectorList 对象。如果想要获取其中的字符串，那么应该执行 getall 或者 get 方法
3、getall 方法：获取 Selector 中所有的文本。返回的是一个列表
4、get 方法：获取的是 Selector 中的第一个文本。返回的是一个 str 类型。
5、如果数据解析回来，要传给 pipeline 处理，那么可以使用 yield 来返回。或者是收集所有的 item. 最后统一使用 return 返回。
6、item：建议在 items.py 中定义号模型，以后就不要使用字典。
7、pipeline: 这是一个专门用来保存数据的，其中三个方法是经常用到:
open_spoder(self, spider):当爬虫被打开时候执行。
process_spider(self, item, spider): 当爬虫有 item 传过来的时候会被调用。
close_spider(self, spider):当爬虫关闭的时候会被调用
注意：要激活 pipeline ,应该在 setting.py 中，设置 ITEM_PIPELINE。示例如下

# pipelines 和 优先级， 优先级值越小，越先运行
ITEM_PIPELINES = {'qsbk.pipelines.QsbkPipeline': 300,
}

4、优化数据存储方式

JsonItemExporter 和 JsonLinesItemExporter
保存json 数据的时候，可以使用这个两个类，让操作变得更简单：

1、JsonItemExporter

这个是每次把数据添加到内存中，最后统一写入到磁盘中。
好处是，存储的是一个满足json规则的数据。
坏处是，如果数据量比较大，那么比较耗内存

from scrapy.exporters import JsonItemExporterclass QsbkPipeline:def __init__(self):self.fp = open("duanzi.json", "wb")self.exporter = JsonItemExporter(self.fp, encoding="utf-8", ensure_ascii=False )def open_spider(self, spider):print("爬虫开始。。。。")self.exporter.start_exporting()def process_item(self, item, spider):self.exporter.export_item(item)return itemdef close_spider(self, spider):print("爬虫结束。。。")self.exporter.finish_exporting()self.fp.close()

2、JsonLinesItemExporter

这个是每次调用 export_item 的时候把这个item 存储到硬盘中。
好处是，每次处理数据的时候，就直接存储到硬盘中，不会消耗内存，数据也比较安全
坏处是，每一个字典是一行，整个文件不是一个满足json格式的文件

from scrapy.exporters import JsonLinesItemExporterclass QsbkPipeline:def __init__(self):self.fp = open("duanzi.json", "wb")self.exporter = JsonLinesItemExporter(self.fp, encoding="utf-8", ensure_ascii=False )def open_spider(self, spider):print("爬虫开始。。。。")def process_item(self, item, spider):self.exporter.export_item(item)return itemdef close_spider(self, spider):print("爬虫结束。。。")self.fp.close()

5、抓取多个页面

import scrapy
from scrapy.http.response.html import HtmlResponse
from scrapy.selector.unified import SelectorList
from qsbk.items import QsbkItemclass QsbkSpiderSpider(scrapy.Spider):name = 'qsbk_spider'allowed_domains = ['qiushibaike.com']start_urls = ['https://www.qiushibaike.com/text/page/1/']base_domain = "https://www.qiushibaike.com"def parse(self, response):# SelectorListduanziDivs = response.xpath("//div[@class='col1 old-style-col1']/div")for duanziDiv in duanziDivs:# duanziDiv 类型： Selectorauther = duanziDiv.xpath(".//h2/text()").get().strip()content = duanziDiv.xpath(".//div[@class='content']//text()").getall()content = "".join(content).strip()item = QsbkItem(auther=auther, content=content)# duanzi = {"auther": auther, "content": content}# 方法将返回一个生成器yield itemnext_url = response.xpath("//ul[@class='pagination']/li[last()]/a/@href").get()if not next_url:return   # 访问到最后一页没有“下一页”按钮，最后一个 li 没有 hrefelse:# 重启创建一个请求，让调度器处理yield scrapy.Request(self.base_domain + next_url, callback=self.parse)

5.1-python爬虫之Scrapy框架及入门相关推荐

Python爬虫：Scrapy 框架快速入门及实战演练
文章目录一.Scrapy 框架准备二.快速启动项目 1.创建项目结构 2.创建爬虫 3.更改设置 4.爬虫类分析 5.编写启动脚本三.爬虫实战 1.初步探索 2.优化数据模型 3.优化数据存储方 ...
python爬虫之Scrapy框架的post请求和核心组件的工作流程
python爬虫之Scrapy框架的post请求和核心组件的工作流程一 Scrapy的post请求的实现在爬虫文件中的爬虫类继承了Spider父类中的start_urls,该方法就可以对star ...
Python爬虫之scrapy框架360全网图片爬取
Python爬虫之scrapy框架360全网图片爬取在这里先祝贺大家程序员节快乐,在此我也有一个好消息送给大家,本人已开通了微信公众号,我会把资源放在公众号上,还请大家小手动一动,关注过微信公众号, ...
Python爬虫之Scrapy框架爬虫实战
Python爬虫中Scrapy框架应用非常广泛,经常被人用于属于挖掘.检测以及自动化测试类项目,为啥说Scrapy框架作为半成品我们又该如何利用好呢 ?下面的实战案例值得大家看看. 目录: 1.Scr ...
19. python爬虫——基于scrapy框架爬取网易新闻内容
python爬虫--基于scrapy框架爬取网易新闻内容 1.需求 [前期准备] 2.分析及代码实现 (1)获取五大板块详情页url (2)解析每个板块 (3)解析每个模块里的标题中详情页信息 1.需 ...
python爬虫——用Scrapy框架爬取阳光电影的所有电影
python爬虫--用Scrapy框架爬取阳光电影的所有电影 1.附上效果图 2.阳光电影网址http://www.ygdy8.net/index.html 3.先写好开始的网址 name = 'yg ...
14. python爬虫——基于scrapy框架爬取糗事百科上的段子内容
python爬虫--基于scrapy框架爬取糗事百科上的段子内容 1.需求 2.分析及实现 3.实现效果 4.进行持久化存储 (1)基于终端指令 (2)基于管道 [前置知识]python爬虫--scr ...
python爬虫之Scrapy框架，基本介绍使用以及用框架下载图片案例
一.Scrapy框架简介 Scrapy是:由Python语言开发的一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据,只需要实现少量的代码,就能够快速的抓取. S ...
Python爬虫之scrapy框架介绍
一.什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等) ...
18.Python爬虫之Scrapy框架
scrapy 框架 01. Scrapy 链接 02. Scrapy 的爬虫流程 03. Scrapy入门 04. setting.py文件中的常用设置 4.1. logging模块的使用 4.2. ...

5.1-python爬虫之Scrapy框架及入门