Scrapy框架的介绍

安装:

pip3 install Scrapy

安装测试:

cmd命令行界面,输入:scrapy -h

框架安装完成;

scrapy框架:

分为五个模块+两个中间件(5+2结构):

spiders(用户入口,需要配置):

解析download返回的响应

产生爬取项

产生额外的爬取请求

spider middleware中间件(用户配置)--在spider和engine模块之间:

对请求和爬取项的再处理:修改、丢弃、新增请求或爬取项

engine(不需要修改):

控制所有模块之间的数据流

根据条件触发事件

download middleware中间件(用户配置)--在engine和downloader模块之间:

实时engine、scheduler、download之间进行用户可配置的控制,用于修改、丢弃、新增请求或相应

downloader(不需要修改):

根据请求下载网页

scheduler(不需要修改):

对所有爬取请求进行调度管理

item pipelines(出口,需要配置):

以流水线方式处理spiders产生的爬取项

由一组操作顺序组成,类似流水线,每个操作是一个item pipelines类型

可能操作包括:清理、检验和查重爬取项中的html数据,将数据存储到数据库

用户重点编写spider模块和item piplines模块,并且通过编写中间件对数据流进行操作

scrapy爬虫常用命令:

startproject:创建一个项目 scrapy startproject [dir]scrapy startproject pythondemo1

genspider:创建一个爬虫 scrapy genspider [options]

setting:获得爬虫配置信息 scrapy setting [options]

crawl:运行一个爬虫 scrapy crawl

list:列出所有的爬虫 scrapy list

shell:启动url调试命令 scrapy shell [url]

scrapy框架爬虫示例:

1、创建一个爬虫工程:scrapy startproject pythondemo123

工程目录下结构:

最外层的pythondemo123为外层目录

----pythondemo123/ scrapy框架的用户自定义python代码

--------__init__.py 初始化脚本,不需要修改

--------items.py item代码模板(继承类)一般情况下不需要修改

--------middlewares.py middlewares模板(继承类) 如果需要扩展这个模块的功能,则需要修改

--------pipelines.py pipelines代码模板(继承类)

--------setting.py scrapy爬虫的配置文件 如果优化爬虫功能,需要修改对应的配置项

--------spiders/ spiders代码模板目录(继承类)

------------__init__.py

-----------pycache文件

----scrapy.py 部署scrapy爬虫的配置文件(要执行scrapy服务器的配置信息,在本机执行的话不需要配置)

2、生成一个爬虫:

scrapy genspider demo python123.io #在spiders文件夹下生成demo.py 域名为python123.io

3、配置产生的爬虫

4、运行爬虫,获取网页

scrapy crawl demo

最终获取到demo.html

python的scrapy框架的安装_Python爬虫基础(四)--Scrapy框架的安装及介绍相关推荐

  1. python scrapy框架详解_Python爬虫知识点四--scrapy框架

    一.scrapy结构数据 解释: 1.名词解析: o 引擎(Scrapy Engine) o 调度器(Scheduler) o 下载器(Downloader) o 蜘蛛(Spiders) o ...

  2. Python的网易云音乐数据分析系统 爬虫 echarts可视化 Flask框架 音乐推荐系统 源码下载

    Python的网易云音乐数据分析系统 爬虫 echarts可视化 Flask框架 音乐推荐系统 一.技术说明 网易云音乐数据(歌单.用户.歌词.评论)Python爬取Flask框架搭建ECharts. ...

  3. ssl证书如何安装?常见的四类ssl证书安装方法介绍

    网站运营过程中我们不仅会使用到很多的技术,也需要取得相应的认证,在各类型的认证证书当中,ssl证书可以说是最为关键的一种.ssl证书作为确保服务器与用户之间信息传输稳定性和安全性的一种协议证书,ssl ...

  4. python spider 安装_Python爬虫(11):Scrapy框架的安装和基本使用

    大家好,本篇文章我们来看一下强大的Python爬虫框架Scrapy.Scrapy是一个使用简单,功能强大的异步爬虫框架,我们先来看看他的安装. Scrapy的安装 Scrapy的安装是很麻烦的,对于一 ...

  5. python爬虫scrapy安装_Python爬虫:Scrapy框架的安装和基本使用

    大家好,本篇文章我们来看一下强大的Python爬虫框架Scrapy.Scrapy是一个使用简单,功能强大的异步爬虫框架,我们先来看看他的安装. Scrapy的安装 Scrapy的安装是很麻烦的,对于一 ...

  6. python scrapy框架 简书_python爬虫框架——Scrapy架构原理介绍

    说起写爬虫,大多数第一时间想到的就是python了.python语法简洁明了,加上及其丰富好用的库,用它来写爬虫有天然的优势. 之前学python的时候也用requests+lxml写过几个爬虫玩,但 ...

  7. python爬虫框架实例项目_python爬虫框架scrapy实例详解

    生成项目 scrapy提供一个工具来生成项目,生成的项目中预置了一些文件,用户需要在这些文件中添加自己的代码. 打开命令行,执行:scrapy start tutorial/ scrapy.cfg t ...

  8. 爬虫基础分享Scrapy框架流程图与安装

    从头开发一个爬虫程序是一项烦琐的工作,为了避免因制造轮子而消耗大量时间,在实际应用中我们可以选择使用一些优秀的爬虫框架,使用框架可以降低开发成本,提高程序质量,让我们能够专注于业务逻辑.所以,我们一起 ...

  9. python用scrapy爬虫豆瓣_python爬虫,用Scrapy爬取豆瓣Top250,存入MySQL

    小白大四生,虽然是计算机专业,但是对学的几门编程语言缘分不深,然后自学了python.(这是我后来补得,因为我发现我写的太笼统了并不适合给新手看,对不起!所以希望大家轻点喷,后面我会从特别特别特别详细 ...

最新文章

  1. call,apply,bind,new实现原理
  2. SASS type-of 函数
  3. xml解析案例:一个简单的学生管理系统
  4. Python—实训day12—汽车用户消费投诉案例-分析及可视化
  5. django+nginx+uwsgi部署web站点
  6. 关于arguments的用法
  7. excel导入数据到sqlserver
  8. url存在宽字节跨站漏洞_5分钟速览丨常见的Web安全漏洞及测试方法
  9. (转)中国首单运用区块链技术的交易所ABS获批
  10. SQL Server 2008 附加数据库之后显示为 只读 的解决方法
  11. 云计算将成电子政务最大亮点
  12. 更新i40e网卡驱动程序
  13. 项目管理:项目进度优化策略
  14. 虚拟服务器需要备案吗,虚拟主机需要备案吗
  15. 03-12306验证码文字 识别
  16. Python爬虫120例之案例58,手机APP爬虫,“武器库”的准备and皮皮虾APP的测试
  17. NX二次开发-UFUN输入对象获得对象所在的部件tag UF_OBJ_ask_owning_part
  18. sql server使用杂记(二)
  19. 『NLP学习笔记』HugeGraph套件安装与使用指南
  20. 订阅发布功能Java实现

热门文章

  1. wpf加载上千张图片部分图片不显示_开源WPF控件库MaterialDesignInXAML推荐
  2. 工厂方法模式_工厂方法模式
  3. Kafka学习 之 理解Kafka集群(二)
  4. Java的io类的使用场景
  5. C++学习笔记:(九)输入/输出流
  6. mac golang grpc proto pb文件生成go文件.md
  7. 【19行代码AC,简洁】1029 Median (25 分)
  8. mysql 磁盘利用率100_磁盘空间使用率100%的故障处理
  9. 使用css将超出盒子的文字显示为省略号
  10. Linux YUM扩展NFS共享存储服务(配置图解)