文章目录

  • Python爬虫——Scrapy 简介和安装
    • 1、Scrapy 简介
    • 2、Scrapy 下载安装

Python爬虫——Scrapy 简介和安装

1、Scrapy 简介

Scrapy 简介

Scrapy 是一个基于 Twisted实现的专业的、高效的异步处理爬虫框架,Scrapy 框架用纯Python实现。

Twisted:一个采用 Python 实现的基于事件驱动的网络引擎框架,用 Twisted 来处理网络通讯可以加快我们的下载速度,不用自己去实现异步框架。

Scrapy 框架用途非常广泛,可以提取网站数据、网络监测以及自动化测试等,Scrapy 也可以根据自己需求所需要的数据进行定制。

Scrapy 框架使用 lxml(专业的 XML 处理包)、cssselect 高效地提取 HTML 页面的有效信息,同时它也提供了有效的线程管理。

Scrapy 框架使用起来也很方便,开发人员只需要定制开发几个模块就可以实现一个爬虫程序,用来抓取网页数据或图片。

Scrapy 架构和组件

​ Scrapy 架构图

Scrapy 组件:

  • Engine,引擎,是整个框架的核心,负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等

  • Item,项目,它定义了爬取结果的数据结构,爬取的数据会被赋值成该对象。

  • Scheduler, 调度器,用来接受引擎发过来的Request请求并按照一定的方式加入队列中,并在引擎再次请求的时候提供给引擎。

  • Downloader,下载器,用于下载Engine请求到的网页内容,并将其获取到的Responses交还给Engine(引擎),由Engine交给Spider来处理。

  • Spiders,爬虫,其内定义了爬取的逻辑和网页的提取数据规则,它主要负责处理所有Responses并生成提取结果,并将新的URL提交给引擎,再次进入Scheduler(调度器)。

  • Item Pipeline,项目管道,负责处理Spider中获取到的Item,并进行进行清洗、验证和存储数据。

  • Downloader Middlewares,下载器中间件,自定义扩展下载功能的组件,位于引擎和下载器之间的钩子框架,主要是处理引擎与下载器之间的请求及响应。

  • Spider Middlewares, 蜘蛛中间件,位于引擎和蜘蛛之间的钩子框架,可以自定扩展和操作引擎和Spider中间通信的功能组件。

2、Scrapy 下载安装

Scrapy 下载安装

1、Scrapy 安装位置:Python安装目录的Scripts文件夹下

2、安装命令:pip install Scrapy -i https://pypi.douban.com/simple,由于 Scrapy 需要许多依赖项,因此使用镜像源下载。

下载成功后可以在pycharm中查看scrapy版本信息

下载安装中可能遇到的问题及解决方法

问题1:mportError: No module named w3lib.http

  • 解决:pip install w3lib

问题2:ImportError: No module named twisted

  • 解决:pip install twisted

问题3:ImportError: No module named lxml.HTML

  • 解决:pip install lxml

问题4:error: libxml/xmlversion.h: No such file or directory

  • 解决:apt-get install libxml2-dev libxslt-dev

    ​ apt-get install Python-lxml

问题5:ImportError: No module named cssselect

  • 解决:pip install cssselect

问题6:ImportError: No module named OpenSSL

  • 解决:pip install pyOpenSSL

使用anaconda安装(简单)

注意:anaconda需要安装在空文件夹,使用anaconda下载完依赖后,pycharm中的python解释器的路径要修改为anaconda中python解释器的路径。

Python爬虫——Scrapy 简介和安装相关推荐

  1. 从入门到入土:python爬虫|scrapy初体验|安装教程|爬取豆瓣电影短评相关信息(昵称,内容,时间和评分)

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  2. Python爬虫—Scrapy框架—Win10下载安装

    Python爬虫-Scrapy框架-Win10下载安装 1. 下载wheel 2.下载twisted 3. 下载pywin32 4. 下载安装Scrapy 5. 创建一个scrapy项目 6. fir ...

  3. Crawler:关于爬虫的简介、安装、使用方法之详细攻略

    Crawler:关于爬虫的简介.安装.使用方法之详细攻略 目录 爬虫简介 爬虫过程思路 关于Python实现爬虫的一些包 1.requests 2.beautifulsoup 3.scrapy 关于爬 ...

  4. Crawler之Scrapy:Scrapy简介、安装、使用方法之详细攻略

    Crawler之Scrapy:Scrapy简介.安装.使用方法之详细攻略 目录 scrapy简介 Scrapy进行安装 Scrapy使用方法 scrapy简介 Scrapy是Python开发的一个快速 ...

  5. Python爬虫——Selenium 简介和下载

    文章目录 Python爬虫--Selenium 简介和下载 1.Selenium 简介 2.Selenium 下载安装 3.Selenium 简单使用 Python爬虫--Selenium 简介和下载 ...

  6. Python爬虫环境常用库安装

    Python爬虫环境常用库安装 1:urllib urllib.request 这两个库是python自带的库,不需要重新安装,在python中输入如下代码: import urllib import ...

  7. Python爬虫 - scrapy - 爬取妹子图 Lv1

    0. 前言 这是一个利用python scrapy框架爬取网站图片的实例,本人也是在学习当中,在这做个记录,也希望能帮到需要的人.爬取妹子图的实例打算分成三部分来写,尝试完善实用性. 系统环境 Sys ...

  8. Python爬虫——Scrapy 的基本使用

    文章目录 Python爬虫--Scrapy 的基本使用 1.创建 Scrapy 爬虫项目 2.Scrapy-创建爬虫文件 3.Scrapy-运行爬虫文件 Python爬虫--Scrapy 的基本使用 ...

  9. Pywin32:Python库的简介、安装和使用攻略

    Pywin32:Python库的简介.安装和使用攻略 Pywin32是Python的一个强大而广泛使用的库,它提供了访问Windows API的接口,以实现处理Windows系统资源的功能,如窗口管理 ...

最新文章

  1. mybatis 报错最终解决 :argument type mismatch
  2. 同时设置超时时间_刚入职的小菜鸡,设错了RPC超时,搞了个线上事故
  3. KeyError: 报错_python系列学习笔记
  4. new JSONArray(ListMap).tostring()问题
  5. android广播示例,android接受开机广播事件
  6. Qt自定义QML模块
  7. Linux位置无关代码实现,浅谈位置无关代码
  8. 基于TCP和多线程实现无线鼠标键盘-Socket(2)
  9. 回调函数的概念及使用
  10. AMEsim柱塞泵的建模学习
  11. C++ RapidXml快速入门
  12. 汉字拼音首字母检索筛选数据
  13. 浏览器UserAgent的趣味史
  14. 可三维成像(16,32线等)激光雷达调研
  15. doom3的UI系统
  16. Android 手动显示和隐藏软键盘
  17. 用turtle画美国队长盾牌
  18. BT种子怎么用 BT种子怎么下载 BT种子是什么意思
  19. 中彩双色球彩票软件 红球预测专家 v8.03 build 2007.07.04 bt
  20. Java 枚举(enum) 7种常见的用法

热门文章

  1. 对声卡输出进行录音的设置.
  2. 一图让您辨别ISO9001\ISO20000\ISO27001认证证书真假的技巧
  3. [附源码]java毕业设计基于健身房管理系统
  4. 【Android春招每日一练】(十五) 剑指4题+Android进阶
  5. 一个完整决策树的构建案例
  6. 《乡土中国》 费孝通
  7. 基于STM32单片机和Labview的温湿度波形实时显示串口助手(二)----手把手教学
  8. Visual foxpro 命令大全和函数大全
  9. Highcharts翻译系列十二:gauge测量图
  10. OA系统集成发票云,提高报销效率