Python爬虫——Scrapy 简介和安装
文章目录
- Python爬虫——Scrapy 简介和安装
- 1、Scrapy 简介
- 2、Scrapy 下载安装
Python爬虫——Scrapy 简介和安装
1、Scrapy 简介
Scrapy 简介
Scrapy 是一个基于 Twisted实现的专业的、高效的异步处理爬虫框架,Scrapy 框架用纯Python实现。
Twisted:一个采用 Python 实现的基于事件驱动的网络引擎框架,用 Twisted 来处理网络通讯可以加快我们的下载速度,不用自己去实现异步框架。
Scrapy 框架用途非常广泛,可以提取网站数据、网络监测以及自动化测试等,Scrapy 也可以根据自己需求所需要的数据进行定制。
Scrapy 框架使用 lxml(专业的 XML 处理包)、cssselect 高效地提取 HTML 页面的有效信息,同时它也提供了有效的线程管理。
Scrapy 框架使用起来也很方便,开发人员只需要定制开发几个模块就可以实现一个爬虫程序,用来抓取网页数据或图片。
Scrapy 架构和组件
Scrapy 架构图
Scrapy 组件:
Engine,引擎,是整个框架的核心,负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等
Item,项目,它定义了爬取结果的数据结构,爬取的数据会被赋值成该对象。
Scheduler, 调度器,用来接受引擎发过来的Request请求并按照一定的方式加入队列中,并在引擎再次请求的时候提供给引擎。
Downloader,下载器,用于下载Engine请求到的网页内容,并将其获取到的Responses交还给Engine(引擎),由Engine交给Spider来处理。
Spiders,爬虫,其内定义了爬取的逻辑和网页的提取数据规则,它主要负责处理所有Responses并生成提取结果,并将新的URL提交给引擎,再次进入Scheduler(调度器)。
Item Pipeline,项目管道,负责处理Spider中获取到的Item,并进行进行清洗、验证和存储数据。
Downloader Middlewares,下载器中间件,自定义扩展下载功能的组件,位于引擎和下载器之间的钩子框架,主要是处理引擎与下载器之间的请求及响应。
Spider Middlewares, 蜘蛛中间件,位于引擎和蜘蛛之间的钩子框架,可以自定扩展和操作引擎和Spider中间通信的功能组件。
2、Scrapy 下载安装
Scrapy 下载安装
1、Scrapy 安装位置:Python安装目录的Scripts文件夹下
2、安装命令:pip install Scrapy -i https://pypi.douban.com/simple,由于 Scrapy 需要许多依赖项,因此使用镜像源下载。
下载成功后可以在pycharm中查看scrapy版本信息
下载安装中可能遇到的问题及解决方法
问题1:mportError: No module named w3lib.http
- 解决:pip install w3lib
问题2:ImportError: No module named twisted
- 解决:pip install twisted
问题3:ImportError: No module named lxml.HTML
- 解决:pip install lxml
问题4:error: libxml/xmlversion.h: No such file or directory
解决:apt-get install libxml2-dev libxslt-dev
apt-get install Python-lxml
问题5:ImportError: No module named cssselect
- 解决:pip install cssselect
问题6:ImportError: No module named OpenSSL
- 解决:pip install pyOpenSSL
使用anaconda安装(简单)
注意:anaconda需要安装在空文件夹,使用anaconda下载完依赖后,pycharm中的python解释器的路径要修改为anaconda中python解释器的路径。
Python爬虫——Scrapy 简介和安装相关推荐
- 从入门到入土:python爬虫|scrapy初体验|安装教程|爬取豆瓣电影短评相关信息(昵称,内容,时间和评分)
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
- Python爬虫—Scrapy框架—Win10下载安装
Python爬虫-Scrapy框架-Win10下载安装 1. 下载wheel 2.下载twisted 3. 下载pywin32 4. 下载安装Scrapy 5. 创建一个scrapy项目 6. fir ...
- Crawler:关于爬虫的简介、安装、使用方法之详细攻略
Crawler:关于爬虫的简介.安装.使用方法之详细攻略 目录 爬虫简介 爬虫过程思路 关于Python实现爬虫的一些包 1.requests 2.beautifulsoup 3.scrapy 关于爬 ...
- Crawler之Scrapy:Scrapy简介、安装、使用方法之详细攻略
Crawler之Scrapy:Scrapy简介.安装.使用方法之详细攻略 目录 scrapy简介 Scrapy进行安装 Scrapy使用方法 scrapy简介 Scrapy是Python开发的一个快速 ...
- Python爬虫——Selenium 简介和下载
文章目录 Python爬虫--Selenium 简介和下载 1.Selenium 简介 2.Selenium 下载安装 3.Selenium 简单使用 Python爬虫--Selenium 简介和下载 ...
- Python爬虫环境常用库安装
Python爬虫环境常用库安装 1:urllib urllib.request 这两个库是python自带的库,不需要重新安装,在python中输入如下代码: import urllib import ...
- Python爬虫 - scrapy - 爬取妹子图 Lv1
0. 前言 这是一个利用python scrapy框架爬取网站图片的实例,本人也是在学习当中,在这做个记录,也希望能帮到需要的人.爬取妹子图的实例打算分成三部分来写,尝试完善实用性. 系统环境 Sys ...
- Python爬虫——Scrapy 的基本使用
文章目录 Python爬虫--Scrapy 的基本使用 1.创建 Scrapy 爬虫项目 2.Scrapy-创建爬虫文件 3.Scrapy-运行爬虫文件 Python爬虫--Scrapy 的基本使用 ...
- Pywin32:Python库的简介、安装和使用攻略
Pywin32:Python库的简介.安装和使用攻略 Pywin32是Python的一个强大而广泛使用的库,它提供了访问Windows API的接口,以实现处理Windows系统资源的功能,如窗口管理 ...
最新文章
- mybatis 报错最终解决 :argument type mismatch
- 同时设置超时时间_刚入职的小菜鸡,设错了RPC超时,搞了个线上事故
- KeyError: 报错_python系列学习笔记
- new JSONArray(ListMap).tostring()问题
- android广播示例,android接受开机广播事件
- Qt自定义QML模块
- Linux位置无关代码实现,浅谈位置无关代码
- 基于TCP和多线程实现无线鼠标键盘-Socket(2)
- 回调函数的概念及使用
- AMEsim柱塞泵的建模学习
- C++ RapidXml快速入门
- 汉字拼音首字母检索筛选数据
- 浏览器UserAgent的趣味史
- 可三维成像(16,32线等)激光雷达调研
- doom3的UI系统
- Android 手动显示和隐藏软键盘
- 用turtle画美国队长盾牌
- BT种子怎么用 BT种子怎么下载 BT种子是什么意思
- 中彩双色球彩票软件 红球预测专家 v8.03 build 2007.07.04 bt
- Java 枚举(enum) 7种常见的用法