scrapy爬虫框架

    1.Scrapy爬虫框架

  1. scrapy 不是一个函数功能库,而是一个爬虫框架。
  2. scrapy爬虫框架:
    1. 爬虫框架是实现爬虫功能的一个软件结构和功能组件集合。
    2. .简单说爬虫框架是一个半成品,能够帮助用户实现专业网络爬虫。
  3. scrapy爬虫框架共包含七个部分(5+2结构),五个主体部分,两个中间件。数据流如图。
  4. 框架的入口SPIDERS,出口为ITEM PIPELINES,DOWNLOADER,ENGIN,SCHEDULER模块已经实现了,用户只需要编写ITEM PIPELINES和SPIDERS模块。SPIDERS提供需要访问的url链接,同时对网页进行解析,而ITEM PIPELINES对页面的后处理。
  5. 这种对模块代码的编写方式,也可以叫做配置。

2.模块介绍

  1. Engin:控制所有模块之间的数据流,根据条件触发事件,不需要用户修改。
  2. Downloader:根据请求下载页面,不需要用户修改。
  3. Scheduler:对所有爬取请求进行调度管理,不需要用户修改。
  4. 中间件模块Downloader Middleware
    1. 实施Engin,Scheduler和Downloader之间用户可配置的控制。
    2. 通过中间件修改,丢弃,新增请求或响应。
  5. Spider:解析Downloader返回的响应(Response),产生爬取项(scraped item)和爬取请求(Requset),是最核心单元,是需要用户编写主要模块。
  6. Item Piplines:以流水线方式处理Spide产生的爬取项。有一组操作顺序组成,每个操作是一个Item Pipline类型。包括清理,检验和查重爬取项中的ITEM数据,将数据存储到数据库等操作。需人工配置。
  7. Spider Middleware:
    1. 对请求和爬取项再处理。
    2. 通过中间件修改,丢弃,新增请求或爬取项。

3.requests库与Scarpy

  1. 相同点:都可以进行网页请求和爬取,是python的两个重要的爬虫实现路线;可用性好;都没有处理js,提交表单,应对验证码的功能;
requests VS. scrapy
requests scrapy
网页级爬虫 网站级爬虫
功能库 框架
并发性考虑不足,性能差 并发性好,性能较高
重点在页面下载 重点在爬虫结构
定制灵活 一般定制灵活,深度定制难
上手简单 入门稍难
  1. 小需求,推荐使用requests库,不太小的推荐使用scrapy框架。自搭框架建议使用requests。

python-scrapy爬虫框架相关推荐

  1. Python Scrapy爬虫框架实战应用

    通过上一节<Python Scrapy爬虫框架详解>的学习,您已经对 Scrapy 框架有了一个初步的认识,比如它的组件构成,配置文件,以及工作流程.本节将通过一个的简单爬虫项目对 Scr ...

  2. Python Scrapy爬虫框架爬取51job职位信息并保存至数据库

    Python Scrapy爬虫框架爬取51job职位信息并保存至数据库 -------------------------------- 版权声明:本文为CSDN博主「杠精运动员」的原创文章,遵循CC ...

  3. Python Scrapy 爬虫框架爬取推特信息及数据持久化!整理了我三天!

    最近要做一个国内外新冠疫情的热点信息的收集系统,所以,需要爬取推特上的一些数据,然后做数据分类及情绪分析.作为一名合格的程序员,我们要有「拿来主义精神」,借助别人的轮子来实现自己的项目,而不是从头搭建 ...

  4. 崔老哥python scrapy爬虫框架入门

    Scrapy 爬虫框架入门案例详解 Scrapy入门 创建项目 创建Spider 创建Item 解析Response 使用Item 后续Request 保存到文件 使用Item Pipeline 源代 ...

  5. python学习框架图-Python Scrapy爬虫框架学习

    Scrapy 是用Python实现一个为爬取网站数据.提取结构性数据而编写的应用框架. 一.Scrapy框架简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数 ...

  6. Python Scrapy爬虫框架学习!半小时掌握它!

    Scrapy 是用Python实现一个为爬取网站数据.提取结构性数据而编写的应用框架. 一.Scrapy框架简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数 ...

  7. Scrapy爬虫框架管道文件pipelines数据图像存储

    Scrapy爬虫框架管道文件pipelines Scrapy爬虫框架管道文件pipelines 一.pipelines的通用性 二.pipelines的主要功能 1.对数据进行后处理,清洗,去重,融合 ...

  8. python创建scrapy_Python爬虫教程-31-创建 Scrapy 爬虫框架项目

    首先说一下,本篇是在 Anaconda 环境下,所以如果没有安装 Anaconda 请先到官网下载安装 Scrapy 爬虫框架项目的创建0.打开[cmd] 1.进入你要使用的 Anaconda 环境1 ...

  9. Python 网络爬虫笔记9 -- Scrapy爬虫框架

    Python 网络爬虫笔记9 – Scrapy爬虫框架 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. 课程链接:Py ...

  10. python的scrapy框架的安装_Python3环境安装Scrapy爬虫框架过程及常见错误

    Windows •安装lxml 最好的安装方式是通过wheel文件来安装,http://www.lfd.uci.edu/~gohlke/pythonlibs/,从该网站找到lxml的相关文件.假如是P ...

最新文章

  1. 图解全球无人驾驶产业链:这些公司在主宰人类出行的未来
  2. java静态变量和实例变量的区别6_java静态变量的与实例变量的区别
  3. Exception在语义上的处理。在系统中的意义。
  4. linux update语句,MySQL 多表 update sql语句总结
  5. Linux7/Redhat7/Centos7 安装Oracle 12C_配置IP、系统参数_02
  6. 工作流添加跟踪后,实例一启动就会自动关闭
  7. 泰囧成功背后社会化营销功不可没
  8. POJ-1001 求高精度幂
  9. Android开源框架ViewPageIndicator和ViewPager实现Tab导航
  10. Unity3D:UGUI遍历子控件
  11. Linux/Unix shell 监控Oracle实例(monitor instance)
  12. Android腾讯微博开放平台入门(一)开题与BaseString
  13. python文件或目录损坏且无法读取,data\sogoupy\verify.ini已损坏且无法读取,啥意思?谢谢?...
  14. 华为服务器2488H V6的ibmc接口配置
  15. java计算机毕业设计员工婚恋交友平台源码+数据库+系统+lw文档+部署
  16. 杭州衣服批发市场服饰外贸SOHO族:实战运营
  17. Task 05:样式色彩秀芳华
  18. SenseTime Ace Coder Challenge 暨 商汤在线编程挑战赛 D. 白色相簿
  19. asp.net ajax1.0基础回顾(三):UpdatePanel的基本用法
  20. H.264里的SEI——自定义信息(SEI)

热门文章

  1. LeetCode 1275. 找出井字棋的获胜者(位运算)
  2. LeetCode 127. 单词接龙(图的BFS/双向BFS)
  3. LeetCode 784. 字母大小写全排列(位运算回溯)
  4. 微信小程序中实现瀑布流布局和无限加载
  5. 如何使用 Pylint 来规范 Python 代码风格
  6. LeetCode之最小路径和
  7. Coding Party 邀你出战!飞桨黑客马拉松线下场来啦
  8. 代码逆流成河,深入C++如何又快又有效?
  9. 论文浅尝 - ICLR2020 | You Can Teach an Old Dog New Tricks!关于训练知识图谱嵌入
  10. 论文浅尝 | 基于图注意力的常识对话生成