爬虫框架就是一些爬虫项目的半成品,可以将些爬虫常用的功能写好。然后留下一些接口,在不同的爬虫项目当中,调用适合自己项目的接口,再编写少量的代码实现自己需要的功能。因为框架中已经实现了爬虫常用的功能,所以为开发人员节省了很多精力与时间。

Scrapy

Scrapy框架是一套比较成熟的Python爬虫框架,简单轻巧,并且非常方便。可以高效事的爬取 Web页面井从页面中提取结构化的数据。

重要的是Scrapy 是一套开源的框架,所以在使用时不需要担心收取费用的问题。

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。可以用它轻松的爬下来如亚马逊商品信息之类的数据。

Scrapy 的官网地址为:

https://scrapy.org/

Crawley

Crawley也是Python开发出的爬虫框架,该框架致力于改变人们从互联网中提取数据的方式Crawley的具体特性如下:

基于Eventlet构建的高速网络爬虫框架。

可以将数据存储在关系数据库中,例如,Postgres, Mysql. Oracle. Sqlite.

可以将爬取的数据导入为Json. XML格式。

支持非关系数据跨,例如,Mongodb 和Couchdb.

支持命令行工具。

可以使用喜欢的工具进行数据的提取,例如,XPath 或Pyquery工具。

支持使用Cookie登录或访问那些只有登录才可以访问的网页。

Crawley的官网地址:

http://project.crawley-cloud.com/

PySpider

相对于Scrapy 框架而言,PySpider 框架是一支新秀。它采用Pyho语言编写,分布式架构,支持多 种数据库后端,强大的WebUl支持脚本编辑器、任务监视器、项目管理器以及结果查看器。PSpier 的具体特性如下:

Python 脚本控制,可以用任何你喜欢的html解析包(内置pyquery)。

Web界面编写调试脚本、起停脚本、监控执行状态、查看活动历史、获取结果产出。

支持MySQL、MongoDB、 Redis. SQLite、Elasticsearch, PostgreSQL与SQLAlchemy 。

支持RabbitMQ、Beanstalk、 Redis 和Kombu作为消息队列。

支持抓取JavaSeript的页面。

强大的调度控制,支持超时重爬及优先级设置。

专组件可替换,支持单机/分布式部署,支持Docker部署。

项目地址:

https://github.com/binux/pyspider

Portia

Portia是一个开源可视化爬虫工具,可让您在不需要任何编程知识的情况下爬取网站!简单地注释您感兴趣的页面,Portia将创建一个蜘蛛来从类似的页面提取数据。

Newspaper

Newspaper可以用来提取新闻、文章和内容分析。使用多线程,支持10多种语言等。

Newspaper框架是Python爬虫框架中在GitHub上点赞排名第三的爬虫框架,适合抓取新闻网页。它的操作非常简单易学,即使对完全没了解过爬虫的初学者也非常的友好,简单学习就能轻易上手,因为使用它不需要考虑header、IP代理,也不需要考虑网页解析,网页源代码架构等问题。这个是它的优点,但也是它的缺点,不考虑这些会导致它访问网页时会有被直接拒绝的可能。

Newspaper功能如下:

多线程文章下载框架

新闻网址识别

从html中提取文本

从html中提取顶部图像

从html中提取所有图像

从文本中提取关键字

从文本中提取摘要

从文本中提取作者

Google趋势术语提取。

使用10种以上语言(英语,中文,德语,阿拉伯语......)

Beautiful Soup

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。

与Scrapy不同的是Beautiful Soup并不是一个框架,而是一个模块;与Scrapy相比,bs4中间多了一道解析的过程(Scrapy是URL返回什么数据,程序就接受什么数据进行过滤),bs4则在接收数据和进行过滤之间多了一个解析的过程,根据解析器的不同,最终处理的数据也有所不同,加上这一步骤的优点是可以根据输入数据的不同进行针对性的解析;同一选择lxml解析器;

Beautiful Soup的查找数据的方法更加灵活方便,不但可以通过标签查找,还可以通过标签属性来查找,而且bs4还可以配合第三方的解析器,可以针对性的对网页进行解析,使得bs4威力更加强大,方便。

Grab爬虫框架

Grab是一个用于构建Web刮板的Python框架。借助Grab,您可以构建各种复杂的网页抓取工具,从简单的5行脚本到处理数百万个网页的复杂异步网站抓取工具。Grab提供一个API用于执行网络请求和处理接收到的内容,例如与HTML文档的DOM树进行交互。

Cola爬虫框架

Cola是一个分布式的爬虫框架,对于用户来说,只需编写几个特定的函数,而无需关注分布式运行的细节。任务会自动分配到多台机器上,整个过程对用户是透明的。

文末福利:

2021最新黑马程序员爬虫教程!

从最简答的html语法到进阶的scrap爬虫框架。新年福利。送送送!

微♥G众号回复‘爬虫教程’ 送你黑马程序员最新爬虫教程

2021最新爬虫教程相关推荐

  1. 2021最新PHP教程知识大全

    一.PHP教程前言 PHP 是一种创建动态交互性站点的强有力的服务器端语言.尤其适用于 Web 开发并可嵌入 HTML 中去.它的语法利用了 C.Java 和 Perl,易于学习.该语言的主要目标是允 ...

  2. pycharm安装2021最新详细教程小白入门

    一.官网下载安装包 Pycharm的官网( https://www.python.org/ ),这个链接进去直接是下载界面:https://www.jetbrains.com/pycharm/down ...

  3. 2021最新Spring教程(精简)

    spring 一.spring文件及注解 1.spring配置主要全部文件 pom.xml applicationContext.xml Main.java UserDao.java UserDaoI ...

  4. 2021最新微信影视小程序源码无限代开+搭建详细教程

    源码简介: 小程序可开通流量主,达到开通条件可以选择开通流量主 即可躺着赚钱(流量主可以刷上去,但不推荐,有被封风险) 该程序后端为苹果CMS,绝非网传泛滥源码! 花钱买的某团队自运营版本,百分百的完 ...

  5. 电脑文件丢失了怎么恢复?2021最新教程汇总

    电脑对于日常生活和工作都起着重要作用,相比手机而言,电脑在操作上以及数据存储上有着绝对的优势.但是在我们日常办公中,有时会误删除一些文档,甚至永久删除,**那电脑文件丢失了怎么恢复?**可能很多电脑用 ...

  6. 2021最新spass数据分析教程 论文spass数据分析教程 数据分析怎么做spass教程

    在问卷调研中,SPSS分析被应用于统计分析的过程,能使研究者以客观的态度,通过对受众的系统提问,收集并分析有关研究数据,以描述.解释或预测问卷调查内容的现象及其各相关因素之间的关系. 2021最新sp ...

  7. 2021最新OPPOR9s无人直播手机教程

    2021最新OPPOR9s无人直播手机教程 介绍:无人直播刷包安装教程(详细操作),分6步详细介绍抖音无人直播刷机步骤和详细操作教程.方法适用抖音无人直播,快手无人直播 拼多多无人直播 微信R脸 等更 ...

  8. 2021最新闪拍竞拍网源码【内有小程序及源码搭建教程】

    2021最新闪拍竞拍网源码[内有小程序及源码搭建教程] 功能比较多,源码完整, 后台测试地址 http://ipai.ym929.cn/web/ admin admin 前段测试地址 http://i ...

  9. 2021最新 萝卜视频前端打包教程_Android Studio4.1版 java原生安卓打包视频教程

    2021最新 萝卜视频前端打包教程

  10. 2021最新HarmonyOS鸿蒙系统应用开发之基础入门教程到实战—持续更新(第三节:鸿蒙的技术特征)

    第三节:鸿蒙的技术特征 每篇内容都有视频讲解,可直接点击观看+关注,持续更新中 2021最新HarmonyOS鸿蒙系统应用开发之基础入门教程到实战-持续更新(第二节:鸿蒙OS系统分布式操作) 硬件互助 ...

最新文章

  1. opencv数字图像处理(图像模糊)
  2. WPF DataGrid、ListView 简单绑定
  3. TextSwitcher实现文本自动垂直滚动
  4. Struts2中指定的校验文件不起作用的原因
  5. LeetCode 1171. 从链表中删去总和值为零的连续节点(哈希表)
  6. 厦门大学c语言第七八章作业答案,厦门大学 运筹学 第七、八章作业
  7. Ant Design引入Echarts
  8. Codeforces Round #460 (Div. 2): E. Congruence Equation(枚举)
  9. C语言 — 转义字符
  10. 8.10 数据库安全性II Day28
  11. 浅谈数据迁移测试(转载)
  12. SQL Server如何清除连接过的服务器名称历史?
  13. 数学建模 —— 预测模型
  14. C. Balanced Stone Heaps
  15. Hadoop伪分布和全分布部署指南
  16. Axure谷歌浏览器Chrome扩展程序安装方法
  17. win7纯净版安装mysql_win7旗舰版64位安装mysql
  18. golang 使用map处理多级json后输出map中的数组
  19. 微信小程序带图片弹窗简单实现
  20. 利用python开发银行储蓄_用python实现银行转账功能

热门文章

  1. 漏洞四处,苹果电脑也不再安全?(转)
  2. linux gpio管脚功能配置API
  3. python数学符号读法大全_常用数学符号读法大全
  4. php json输出后 u6563,肉肉's Blog
  5. 网络1711-12信管1711-12 图 作业评分
  6. mumu的adb_MuMu模拟器进行adb操作
  7. 【51单片机快速入门指南】5.2:SPI读取 12位ADC XPT2046 芯片
  8. 微型计算机是以微处理器为基础,在计算机中以微处理器为核心组成的微型计算机属于第几代计算机...
  9. Pygame实战:还在玩纸飞机?不—现在家里的小孩子都在玩儿飞机大冒险~
  10. cdr怎么做文字路径_CorelDRAW如何制作环绕圆形的路径文字