From:https://brucedone.com/archives/771

8个最高效的 Python 爬虫框架

  • 1. Scrapy。Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。
  • 2. PySpider。pyspider 是一个用python实现的功能强大的网络爬虫系统,能在浏览器界面上进行脚本的编写,功能的调度和爬取结果的实时查看,后端使用常用的数据库进行爬取结果的存储,还能定时设置任务与任务优先级等。
  • 3.Crawley。Crawley可以高速爬取对应网站的内容,支持关系和非关系数据库,数据可以导出为JSON、XML等。
  • 4.Portia。Portia 是一个开源可视化爬虫工具,可让您在不需要任何编程知识的情况下爬取网站!简单地注释您感兴趣的页面,Portia 将创建一个蜘蛛来从类似的页面提取数据。
  • 5.Newspaper。Newspaper 可以用来提取新闻、文章和内容分析。使用多线程,支持10多种语言等。
  • 6.Beautiful Soup。Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。
  • 7.Grab。Grab是一个用于构建Web刮板的Python框架。借助Grab,您可以构建各种复杂的网页抓取工具,从简单的5行脚本到处理数百万个网页的复杂异步网站抓取工具。Grab提供一个API用于执行网络请求和处理接收到的内容,例如与HTML文档的DOM树进行交互。
  • 8.Cola。Cola 是一个分布式的爬虫框架,对于用户来说,只需编写几个特定的函数,而无需关注分布式运行的细节。任务会自动分配到多台机器上,整个过程对用户是透明的。

教程导航

  • (1)分布式下的爬虫Scrapy应该如何做-安装
  • (2)分布式下的爬虫Scrapy应该如何做-关于对Scrapy的反思和核心对象的介绍
  • (3)分布式下的爬虫Scrapy应该如何做-递归爬取方式,数据输出方式以及数据库链接
  • (4)分布式下的爬虫Scrapy应该如何做-规则自动爬取及命令行下传参
  • (5)分布式下的爬虫Scrapy应该如何做-关于爬虫的调度机制与调度架构的构想
  • (5.1)分布式下的爬虫Scrapy应该如何做-windows下的redis的安装与配置
  • (6)分布式下的爬虫Scrapy应该如何做-关于打断点Debug的那些事儿
  • (7)分布式下的爬虫Scrapy应该如何做-关于伪装和防Ban的那点事儿
  • (8)分布式下的爬虫Scrapy应该如何做-图片下载(源码放送)
  • (9)分布式下的爬虫Scrapy应该如何做-关于ajax抓取的处理(一)
  • (10)分布式下的爬虫Scrapy应该如何做-关于动态内容js或者ajax处理(2)
  • (11)分布式下的爬虫Scrapy应该如何做-关于js渲染环境splash的一些使用技巧总结
  • (12)分布式下的爬虫Scrapy应该如何做-分布式的浅析
  • (13)分布式下的爬虫Scrapy应该如何做-另一种分布式架构
  • [scrapyd]爬虫应该怎么部署到ubuntu上
  • 使用scrapy有用的一些细节点

爬虫周边

  • [调度]可视化的调度架构-Dagobah
  • 基于scrapy可见可得的爬虫工具arachnado
  • [深度学习]Tensorflow破解验证码
  • [深度学习] 使用Darknet YOLO 模型破解中文验证码点击识别
  • [selenium-grid]多机分布式环境下的selenium集群
  • [重大更新]可视化调度器tiktok 问世了
  • [渲染利器]Google官方出品的js渲染环境
  • 关于爬虫的架构,经验,以及分享

可视化抓取研究

  • [可视化抓取]portia2.0尝鲜体验以及自动化畅想[1]
  • [可视化抓取]portia2.0尝鲜体验以及自动化畅想-数据输出以及原理分析
  • [可视化抓取]portia2.0尝鲜体验以及自动化畅想-数据存储入mongodb

源码分析

  • [scrapy]scrapy源码分析–数据是如何处理的
  • [scrapy]scrapy源码分析–中间件是如何加载的
  • [scrapy]scrapy源码分析–信号事件是如何加载以及自定义信号
  • [scrapy] images pipeline分析– 下载图片如何上传到阿里云服务

经验分享

  • 同一项目不同的spider启用不同的配置

demo源码

  • cnbeta抓取
  • 豆瓣图片下载
  • google play 应用数量
  • cnbeta抓取数据存入mysql

错误处理

  • scrapy下的常见错误处理

Scrapy 爬虫教程导航相关推荐

  1. scrapy爬虫储存到mysql_详解Python之Scrapy爬虫教程NBA球员数据存放到Mysql数据库

    获取要爬取的URL 爬虫前期工作 用Pycharm打开项目开始写爬虫文件 字段文件items # Define here the models for your scraped items # # S ...

  2. Python之 - 使用Scrapy建立一个网站抓取器,网站爬取Scrapy爬虫教程

    Scrapy是一个用于爬行网站以及在数据挖掘.信息处理和历史档案等大量应用范围内抽取结构化数据的应用程序框架,广泛用于工业. 在本文中我们将建立一个从Hacker News爬取数据的爬虫,并将数据按我 ...

  3. Python之Scrapy爬虫教程NBA球员数据存放到Mysql数据库

    Scrapy爬虫,请先准备好Scrapy的环境 获取要爬取的URL 爬虫前期工作 用Pycharm打开项目开始写爬虫文件 启动爬虫 获取要爬取的URL 爬虫前期工作 用Pycharm打开项目开始写爬虫 ...

  4. Scrapy爬虫教程二 浅析最烦人的反爬虫手段

    最近一直在弄爬虫,也爬取了知名网站的一些数据(这里只是个人学习使用,不是商用!!!),大家都知道,爬虫和反爬虫一直以来都是相爱相杀的,爬虫程序员希望破解反爬虫手段,反爬虫程序员希望建立更加有效的反爬虫 ...

  5. Scrapy八小时快速入门第一小时:安装,创建与执行我们的Scrapy爬虫

    安装 安装Scrapy非常简单,只需要在终端输入pip install scrapy,然后执行命令即可,如果不行,那么一般是底层库的问题,可以使用codna install --upgrade scr ...

  6. Python爬虫入门教程导航帖

    转载:梦想橡皮擦 https://blog.csdn.net/hihell/article/details/86106916 **Python爬虫入门教程导航,目标100篇** 本系列博客争取把爬虫入 ...

  7. Python爬虫100例教程导航帖(已完结)

    ​  目录 写在2022年3月22日 Python 爬虫 基础部分内容 pyspider scrapy 手机抓取部分 爬虫进阶部分 验证码识别技术 反爬虫技术 分布式爬虫技术 爬虫高级扩展部分 帮粉丝 ...

  8. python爬虫scrapy框架教程_Python爬虫教程-30-Scrapy 爬虫框架介绍

    从本篇开始学习 Scrapy 爬虫框架 Python爬虫教程-30-Scrapy 爬虫框架介绍 框架:框架就是对于相同的相似的部分,代码做到不出错,而我们就可以将注意力放到我们自己的部分了 常见爬虫框 ...

  9. Scrapy定向爬虫教程(一)——创建运行项目和基本介绍

    前言 目前网上的Scrapy中文教程比较少,而且大多教程使用的Scrapy版本较老,比如说这个Scrapy 0.25 文档,如其名,上古时期的翻译文档:再比如极客学院的视频教程使用的是1.0.x版本, ...

最新文章

  1. 程序员的8年床铺变化 | 每日趣闻
  2. 借助acs来实现telnet、ssh的远程认证
  3. dl,dt,dd,ul,li,ol区别
  4. Setting up Jupyter with Python 3 on Ubuntu
  5. 科大星云诗社动态20201120
  6. CodeForces-589B(思维/排序)
  7. 设备的阻塞与非阻塞操作
  8. 点击input框,添加阴影效果
  9. 远程桌面登录 Windows Server 2003时提示无权限
  10. html溢出左右滚动,html-选项卡溢出时水平滚动
  11. Qt文档阅读笔记-QSet官方解析及实例
  12. C#写爬虫,版本V2.1
  13. 命运(HDU 2571 简单动态规划)
  14. 问题描述_vortex_新浪博客
  15. 软件系统设计基本原则
  16. UTF-8转码GBK
  17. 程序员修炼之道-第二版
  18. 什么情况下使用10分钟邮箱?8个临时邮箱推荐
  19. TypeScript 从零实现 axios 0x0
  20. mysql高并发和大流量_高并发-高并发和大流量解决方案

热门文章

  1. 消息中间件系列(二):Kafka的原理、基础架构、以及使用场景
  2. 论文小综 | 文档级关系抽取方法(上)
  3. 论文浅尝 | 基于知识库的类型实体和关系的联合抽取
  4. PaddleHub教程合集
  5. [机器学习] Apriori算法
  6. Python基础教程之第3章 使用字符串
  7. php变量函数,回调函数
  8. 表单校验---struts2
  9. bzoj 1934 最小割
  10. CSS学习-网页导航栏