python编程快速上手(持续更新中…)

python爬虫从入门到精通

Scrapy爬虫框架


文章目录

1. scrapy的概念

Scrapy是一个Python编写的开源网络爬虫框架。它是一个被设计用于爬取网络数据、提取结构性数据的框架。
Scrapy 使用了Twisted['tw?st?d]异步网络框架,可以加快我们的下载速度。
Scrapy文档地址:http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html

2. scrapy框架的作用

少量的代码,就能够快速的抓取

3.scrapy的工作流程

3.1 回顾之前的爬虫流程

3.2上面的流程可以改写为

3.3 scrapy的流程


其流程可以描述如下:
1.爬虫中起始的url构造成request对象–>爬虫中间件–>引擎–>调度器
2.调度器把request–>引擎–>下载中间件—>下载器
3.下载器发送请求,获取response响应---->下载中间件---->引擎—>爬虫中间件—>爬虫
4.爬虫提取url地址,组装成request对象---->爬虫中间件—>引擎—>调度器,重复步骤2
5.爬虫提取数据—>引擎—>管道处理和保存数据

注意:
图中中文是为了方便理解后加上去的
图中绿色线条的表示数据的传递
注意图中中间件的位置,决定了其作用
注意其中引擎的位置,所有的模块之前相互独立,只和引擎进行交互

3.4 scrapy的三个内置对象

request请求对象:由url method post_data headers等构成
response响应对象:由url body status headers等构成
item数据对象:本质是个字典

3.5 scrapy中每个模块的具体作用


注意:
爬虫中间件和下载中间件只是运行逻辑的位置不同,作用是重复的:如替换UA等

一、Scrapy爬虫概述相关推荐

  1. linux scrapy 定时任务_2019Python学习教程(全套Python学习视频):Scrapy爬虫框架入门...

    Scrapy爬虫框架入门 Scrapy概述 Scrapy是Python开发的一个非常流行的网络爬虫框架,可以用来抓取Web站点并从页面中提取结构化的数据,被广泛的用于数据挖掘.数据监测和自动化测试等领 ...

  2. python爬虫概述及简单实践

    文章目录 一.先了解用户获取网络数据的方式 二.简单了解网页源代码的组成 1.web基本的编程语言 2.使用浏览器查看网页源代码 三.爬虫概述 1.认识爬虫 2.python爬虫 3.爬虫分类 4.爬 ...

  3. Linux环境下使用scrapyd+spiderkeeper部署scrapy爬虫

    声明:本文只作学习研究,禁止用于非法用途,否则后果自负,如有侵权,请告知删除,谢谢! 项目场景: 当我们入手爬虫工作的时候,一开始可能就是几个爬虫,我们可以手动调度部署,日积月累后,可能从十个到一百个 ...

  4. python爬虫之Scrapy框架原理及操作实例详解、股票数据Scrapy爬虫

    爬虫框架 -scrapy.pyspider.crawley等 Scrapy框架 1.scrapy框架介绍 -https://doc.scrapy.org/en/latest/ -http://scra ...

  5. Scrapy 框架介绍 [Scrapy 框架概述][Scrapy 框架的特点][Scrapy 框架的架构概述]

    您的"关注"和"点赞",是信任,是认可,是支持,是动力- 如意见相佐,可留言. 本人必将竭尽全力试图做到准确和全面,终其一生进行修改补充更新. 文章目录 1 S ...

  6. python创建scrapy_Python爬虫教程-31-创建 Scrapy 爬虫框架项目

    首先说一下,本篇是在 Anaconda 环境下,所以如果没有安装 Anaconda 请先到官网下载安装 Scrapy 爬虫框架项目的创建0.打开[cmd] 1.进入你要使用的 Anaconda 环境1 ...

  7. 手把手教你如何新建scrapy爬虫框架的第一个项目(下)

    前几天小编带大家学会了如何在Scrapy框架下创建属于自己的第一个爬虫项目(上),今天我们进一步深入的了解Scrapy爬虫项目创建,这里以伯乐在线网站的所有文章页为例进行说明. 在我们创建好Scrap ...

  8. scrapy爬虫框架初相识

    自己新建一个文件夹: 然后执行命令: scrapy startproject python123demo 查看里面的东西: D:\pythonscrapy>tree /f >.txt 卷 ...

  9. Python网络爬虫之scrapy爬虫的基本使用

    Scrapy爬虫的数据类型: 1. Request类:向网络上提交请求,跟requests库里的不是一个类型!2. Responce类:封装爬取内容3. ITEM:spider封装类 Responce ...

  10. Python之Scrapy爬虫的常用命令

    Scrapy爬虫的常用命令: Scrapy命令行是为持续运行设计的专业爬虫框架. 常用的Scrapy,命令有三个: startproject genspider crawl Scrapy为什么采用命令 ...

最新文章

  1. php----------const 定义的常量和define()定义的常量的区别?
  2. 最常用的10个Matlab快捷键,助你编程更高效
  3. python3 安装包 源码包 下载慢问题 解决方法
  4. 三个小命令检查电脑!
  5. tp5上传文件并获取文件路径_thinkphp表单上传文件并将文件路径保存到数据库中...
  6. pl0源码(可在delphi7中运行)
  7. 【Luogu】P3380树套树模板(线段树套Splay)
  8. java实现ldap服务器_Java到LDAP教程(包括如何安装LDAP服务器/客户端)
  9. Android Studio 控制台输出中文乱码
  10. xp系统怎么定时锁定计算机,电脑怎么设置自动锁屏_XP系统电脑怎么设置自动锁屏...
  11. 怎么把QQ音乐里wav格式转换成MP3
  12. 视频测试软件+视频测试硬件=视频质量测试解决方法+视频测试的重要性
  13. php com组件 wps,wps插件开发中com组件权限
  14. pygame的简介与安装
  15. Msgbox信息提示框
  16. Python语言程序设计基础科学计算与可视化小练习
  17. JAVA-SUST实验二 JavaBean组件程序设计
  18. java怎么实现发布说说_仿QQ发表说说
  19. “坝上”到底在哪里?
  20. Unbroken——坚不可摧

热门文章

  1. 微机原理笔记day01 计算机发展史,和计算机组成部分
  2. HTML布局之flex布局
  3. HTML简易自适应布局
  4. 安装虚拟机VMware 出现failed to install the hcmon driver 问题 避坑
  5. 万物互联开发平台NSDK
  6. GitChat 使用指南,快速学习、飞速成长
  7. Linux系统启动流程
  8. linux系统查看usb转串口驱动,Linux下使用USB转串口驱动的方法
  9. 看咪蒙真的有那么low吗?
  10. usb计算机连接 不再弹出,电脑usb无法安全弹出问题解决办法