一、Scrapy爬虫概述

2024-05-13 12:52:35

python编程快速上手（持续更新中…）

python爬虫从入门到精通

Scrapy爬虫框架

文章目录

python编程快速上手（持续更新中…）
python爬虫从入门到精通
Scrapy爬虫框架
- 1. scrapy的概念
- 2. scrapy框架的作用
- 3.scrapy的工作流程
- - 3.1 回顾之前的爬虫流程
  - 3.2上面的流程可以改写为
  - 3.3 scrapy的流程
  - 3.4 scrapy的三个内置对象
  - 3.5 scrapy中每个模块的具体作用

1. scrapy的概念

Scrapy是一个Python编写的开源网络爬虫框架。它是一个被设计用于爬取网络数据、提取结构性数据的框架。
Scrapy 使用了Twisted['tw?st?d]异步网络框架，可以加快我们的下载速度。
Scrapy文档地址：http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html

2. scrapy框架的作用

少量的代码，就能够快速的抓取

3.scrapy的工作流程

3.1 回顾之前的爬虫流程

3.2上面的流程可以改写为

3.3 scrapy的流程

其流程可以描述如下：
1.爬虫中起始的url构造成request对象–>爬虫中间件–>引擎–>调度器
2.调度器把request–>引擎–>下载中间件—>下载器
3.下载器发送请求，获取response响应---->下载中间件---->引擎—>爬虫中间件—>爬虫
4.爬虫提取url地址，组装成request对象---->爬虫中间件—>引擎—>调度器，重复步骤2
5.爬虫提取数据—>引擎—>管道处理和保存数据

注意：
图中中文是为了方便理解后加上去的
图中绿色线条的表示数据的传递
注意图中中间件的位置，决定了其作用
注意其中引擎的位置，所有的模块之前相互独立，只和引擎进行交互

3.4 scrapy的三个内置对象

request请求对象：由url method post_data headers等构成
response响应对象：由url body status headers等构成
item数据对象：本质是个字典

3.5 scrapy中每个模块的具体作用

注意：
爬虫中间件和下载中间件只是运行逻辑的位置不同，作用是重复的：如替换UA等

一、Scrapy爬虫概述相关推荐

linux scrapy 定时任务_2019Python学习教程（全套Python学习视频）：Scrapy爬虫框架入门...
Scrapy爬虫框架入门 Scrapy概述 Scrapy是Python开发的一个非常流行的网络爬虫框架,可以用来抓取Web站点并从页面中提取结构化的数据,被广泛的用于数据挖掘.数据监测和自动化测试等领 ...
python爬虫概述及简单实践
文章目录一.先了解用户获取网络数据的方式二.简单了解网页源代码的组成 1.web基本的编程语言 2.使用浏览器查看网页源代码三.爬虫概述 1.认识爬虫 2.python爬虫 3.爬虫分类 4.爬 ...
Linux环境下使用scrapyd+spiderkeeper部署scrapy爬虫
声明:本文只作学习研究,禁止用于非法用途,否则后果自负,如有侵权,请告知删除,谢谢! 项目场景: 当我们入手爬虫工作的时候,一开始可能就是几个爬虫,我们可以手动调度部署,日积月累后,可能从十个到一百个 ...
python爬虫之Scrapy框架原理及操作实例详解、股票数据Scrapy爬虫
爬虫框架 -scrapy.pyspider.crawley等 Scrapy框架 1.scrapy框架介绍 -https://doc.scrapy.org/en/latest/ -http://scra ...
Scrapy 框架介绍 [Scrapy 框架概述][Scrapy 框架的特点][Scrapy 框架的架构概述]
您的"关注"和"点赞",是信任,是认可,是支持,是动力- 如意见相佐,可留言. 本人必将竭尽全力试图做到准确和全面,终其一生进行修改补充更新. 文章目录 1 S ...
python创建scrapy_Python爬虫教程-31-创建 Scrapy 爬虫框架项目
首先说一下,本篇是在 Anaconda 环境下,所以如果没有安装 Anaconda 请先到官网下载安装 Scrapy 爬虫框架项目的创建0.打开[cmd] 1.进入你要使用的 Anaconda 环境1 ...
手把手教你如何新建scrapy爬虫框架的第一个项目（下）
前几天小编带大家学会了如何在Scrapy框架下创建属于自己的第一个爬虫项目(上),今天我们进一步深入的了解Scrapy爬虫项目创建,这里以伯乐在线网站的所有文章页为例进行说明. 在我们创建好Scrap ...
scrapy爬虫框架初相识
自己新建一个文件夹: 然后执行命令: scrapy startproject python123demo 查看里面的东西: D:\pythonscrapy>tree /f >.txt 卷 ...
Python网络爬虫之scrapy爬虫的基本使用
Scrapy爬虫的数据类型: 1. Request类:向网络上提交请求,跟requests库里的不是一个类型!2. Responce类:封装爬取内容3. ITEM:spider封装类 Responce ...
Python之Scrapy爬虫的常用命令
Scrapy爬虫的常用命令: Scrapy命令行是为持续运行设计的专业爬虫框架. 常用的Scrapy,命令有三个: startproject genspider crawl Scrapy为什么采用命令 ...

最新文章

热门文章