在之前介绍过很多爬虫库的使用,其中大多数也是 Python 相关的,当然这些库很多都是给开发者来用的。但这对一个对爬虫没有什么开发经验的小白来说,还是有一定的上手难度的。现在市面上其实也出现了非常多的爬虫服务,如果你仅仅是想爬取一些简单的数据的话,或者懒得写代码的话,其实利用这些工具还是可以非常方便地完成爬取的,那么本文就来总结一下一些比较实用的爬取服务和工具,希望在一定程度上能够帮助你摆脱数据爬取的困扰。

下面总结的一部分工具其实都算是一些爬虫工具的高层封装、实用工具甚至是一些完善的商业服务,包括国内的和国外的。

工具&服务列表

Chrome 扩展

  • Web Scraper:http://webscraper.io/
  • Data Scraper:https://data-miner.io/
  • Listly:https://listly.io/
  • Mercury:https://mercury.postlight.com/

框架

  • Scrapy:https://scrapy.org/
  • PySpider:https://github.com/binux/pyspider
  • Apify:https://sdk.apify.com/

商业服务

  • Parsehub:https://www.parsehub.com/
  • http://Dexi.io:https://dexi.io/
  • Octparse:https://www.octoparse.com/
  • Content Grabber:http://www.contentgrabber.com/
  • Mozenda:https://www.mozenda.com/
  • ScraperAPI:https://www.scraperapi.com/
  • Diffbot:https://www.diffbot.com/
  • http://Import.io:https://www.import.io/
  • http://Embed.lyhttps://embed.ly/
  • ScrapeStorm https://www.scrapestorm.com/
  • Shenjianshou https://www.shenjian.io/
  • Zaoshu https://zaoshu.io/

下面来对这些工具和服务进行简单的介绍和总结。

Web Scraper

它是一个独立的 Chrome 扩展,安装数目已经到了 20w。它支持点选式的数据抓取,另外支持动态页面渲染,并且专门为 JavaScript、Ajax、下拉拖动、分页功能做了优化,并且带有完整的选择器系统,另外支持数据导出到 CSV 等格式。另外它们还有自己的 Cloud Scraper,支持定时任务、API 式管理、代理切换功能。

官网:https://www.webscraper.io/

Data Scraper

Data Scraper 同样是一个 Chrome 扩展,它可以将单个页面的数据通过点击的方式爬取到 CSV、XSL 文件中。在这个扩展中已经预定义了 5w 多条规则,可以用来爬取将近 1.5w 个热门网站。

不过这个扩展的使用是有限制的,免费版本每个月只能爬取 500 个页面,更多则需要付费。

官网:https://data-miner.io/

Listly

这同样是一个 Chrome 插件,它可以快速地将网页中的数据进行提取,并将其转化为 Excel 表格导出,操作非常便捷。比如获取一个电商商品数据,文章列表数据等,使用它就可以快速完成。另外它也支持单页面和多页面以及父子页面的采集,值得一试。

官网:https://listly.io/

Mercury

这是一个开源的提供自动化解析的工具,使用 JavaScript 编写,同时还提供了 Chrome 扩展工具。利用它我们可以完成页面的智能解析,如自动提取文章标题、正文、发布时间等内容。

另外它开放了源代码,放在了 GitHub,我们可以直接安装使用,使用命令行即可完成页面的智能解析,速度还非常快。

官网:https://mercury.postlight.com/

Scrapy

这可能是 Python 爬虫学习者使用最多的爬虫框架了,利用这个框架我们可以快速地完成爬虫的开发。而且框架本身性能卓越、可配置化极强,另外开发者社区十分活跃,并且 Scrapy 具有配套的各种插件,几乎可以实现任何站点的爬取逻辑,强烈推荐。

官网:https://scrapy.org/

PySpider

PySpider 是一个基于 Python 开发的爬虫工具,它带有可视化的管理工具,并且可以通过在线编程的方式完成爬虫的创建和运行。另外它还支持分布式爬取,并支持存储到各种数据库。由于是代码来实现编程,因此其可扩展性还是很强的,简单易用。

GitHub:https://github.com/binux/pyspider

Apify

它是一个基于 Node.js 开发的爬虫库,由于是 JavaScript 编写,因此它对 JavaScript 渲染页面的爬取是完全支持的,对接了 Puppeteer、Cheerio。另外其可定制化也非常强,支持各种文件格式的导出,并且支持和 Apify Cloud 的对接实现云爬取。

官网:https://sdk.apify.com/

Parsehub

ParseHub 是一个基于 Web 的抓取客户端工具,支持 JavaScript 渲染、Ajax 爬取、Cookies、Session 等机制,该应用程序可以分析和从网站获取数据并将其转换为有意义的数据。它还可以使用机器学习技术识别复杂的文档,并能导出为 JSON、CSV、Google 表格等格式的文件。

Parsehub 支持 Windows,Mac 和 Linux,而且可用作Firefox扩展。另外它还支持一些高级功能,如分页,无限滚动页面,弹出窗口和导航。另外还可以将 ParseHub 中的数据可视化为 Tableau。

当然这个也收费的,免费版本限制为 5 个项目,每次限制爬取 200 页。如果付费订阅可以获得 20 个私有项目,每次抓取 10000 个页面,而且支持高级版的 IP 代理切换等功能。

官网:https://www.parsehub.com

http://Dexi.io

http://Dexi.io,之前称为 CloudScrape。它是一个爬虫的商业服务,它支持可视化点击抓取,而且配有自然语言解析工具使得解析更为精准,所有的抓取配置都在网页端完成,并且可以通过控制台来完成任务的运行和调度。另外它还提供许多代理 IP,还与第三方记性了集成,包括 http://Box.net、Google Drive 等工具。

这也是收费的,收费标准版是 119 美刀一个月,支持一个 Worker 和基础服务,另外还有更高级别的服务。不过支持免费试用。

官网:https://dexi.io/

Octparse

也是一个可视化爬虫工具,支持在网页上进行可视化点选,并且也支持常见的 JavaScript 渲染、Ajax 爬取等等,同样是在云端运行和控制,另外提供了代理服务。

免费版支持创建 10 个爬取,但是提供了最基础的服务,如果想要提供更多的服务如代理切换,则需要购买付费版本,标准版是 75 美金一个月。

官网:https://www.octoparse.com/

Content Grabber

Content Grabber 同样也是一个可视化的爬虫工具,同样支持可视化点选,支持 JavaScript 渲染、Ajax 爬取等功能,另外还有验证码识别等解决方案,并使用 Nohodo 作为 IP 代理。数据支持导出常用格式,也支持 PDF 格式导出。

官网:http://www.contentgrabber.com/

Mozenda

Mozenda 类似,也是基于一个云端爬虫服务,同样支持可视化点选操作。它由两个部分组成,一部分是用来完成数据提取功能,另一部分是 Web 控制台来运行和控制各个爬虫服务。另外它还提供了 FTP、亚马逊 S3、Dropbox 等的支持。

官网:https://www.mozenda.com/

ScraperAPI

这个站点提供了简易的页面渲染服务,站如其名,其爬取结果都是通过 API 来操作的。该站点提供了许多渲染引擎,我们通过调用提供的 API 并传以不同的参数就可以完成页面的渲染,类似于 Splash。

官网:https://www.scraperapi.com/

Diffbot

Diffbot 是一个提供智能化解析的站点。例如一个新闻页面,我们不再需要规则即可完成对其中内容的提取,例如标题、正文、发布时间等等。它通过一些机器学习算法、图像识别、自然语言处理等方案综合解析,可以说是目前业界数一数二的页面智能解析方案提供商。

官网:https://www.diffbot.com/

http://Import.io

http://Import.io 可以说不仅仅是一个提供爬虫服务的网站了,它提供了从数据爬取、清洗、加工到应用的一套完整解决方案,涉及到零售与制造业、数据爬取与加工、机器学习算法、风控等等方案。

官网:https://www.import.io/

http://Embed.ly

其实 http://Embed.ly 是提供了自动获取图像,视频,民意调查,幻灯片,音乐,实时视频,表格,GIF,图表等功能的服务,其中和爬虫相关的就是页面解析了。它提供了智能化页面解析方案,类似 Diffbot,可以自动完成页面的解析。

官网:https://embed.ly/

ScrapeStorm

这个网站提供了一个可视化爬虫工具,支持 Mac、Windows、Linux,工具十分强大,支持自动识别翻页、自动识别内容,另外支持 JavaScript 渲染,另外支持模拟登录爬取等等。

然而我下载下来之后使用了一下,里面居然是后裔采集器?看来是这个站点盗用了了后裔采集器的源码吧。

官网:https://www.scrapestorm.com/

Shenjianshou

神箭手,这可以说是国内做的数一数二的爬虫平台了,后台的爬虫使用 JavaScript 编写,支持可视化点选、代码编写,另外提供云端爬取,提供了验证码识别、分布式爬取、JavaScript 渲染等功能。

另外神箭手还提供了规则市场、数据标注还有数据 API 服务,,目前还上市了机器学习相关的服务,目前也正朝着智能化发展中。

另外神箭手旗下有一款后裔采集器,就是上文介绍的 ScrapeStorm 所采用的爬取工具,功能很强大,支持智能解析,值得一试。

官网:https://www.shenjian.io

Bazhuayu

八爪鱼采集器,可以说是国内比较知名的一款采集器了,功能类似后裔采集器,可以通过可视化点选完成爬虫的相关配置,部分功能比后裔采集器更加强大。

另外官方也提供了规则市场,获取规则以快速完成数据的爬取而不用关心爬取的逻辑。

官网:http://www.bazhuayu.com/

Zaoshu

是一家数据爬取服务提供商,不过目前已经不面向于个人用户,主要是提供企业数据服务,其也提供了可视化点选数据爬取服务,也可以通过一些配置完成复杂页面的采集。

官网:https://zaoshu.io/

介绍一些比较方便好用的爬虫工具和服务相关推荐

  1. 爬虫工具和服务——Python之外的选择

    转载自公众号:FightingCoder 在之前介绍过很多爬虫库的使用,其中大多数也是 Python 相关的,当然这些库很多都是给开发者来用的.但这对一个对爬虫没有什么开发经验的小白来说,还是有一定的 ...

  2. 码云推荐 | 那些优秀的网络爬虫工具介绍

    前言: 随着网络的迅速发展,万维网成为大量信息的载体,在这个大数据时代,如何有效地提取并利用网络上的数据成为一个巨大的挑战.爬虫,即网络爬虫,是一种按照一定的规则自动地抓取万维网信息的程序或者脚本,另 ...

  3. 如何高效学Python?好用的爬虫工具又有哪些?

    作为当下最火的编程语言,Python 的受欢迎程度不用我多说.学好 Python ,不仅可以进阶资深 Python 工程师,去大厂,还能转型数据分析.人工智能等行业. 但与此同时,我也经常在后台看到一 ...

  4. python3 爬虫 requests安装_BOSS直聘招聘信息获取之爬虫工具分析

    点击蓝色"不太灵光的程序员"关注我哟 加个"星标",每天上午 09:30,干货推送! 文中使用的组件库仅限于Python语言,由于最近收到一些同学的留言说,按照 ...

  5. webscraper多页爬取_爬虫工具实战篇(Web Scraper)- 京东商品信息爬取(原创)

    一.背景与目的 数字化营销时代,快速掌握了解数据是一项基本技能,本文主要讲解里面Web Scraper工具如何爬取公开数据,比如爬取京东的店铺售卖商品情况数据,以便我们更好地了解竞品对手的产品情况和定 ...

  6. 爬虫工具在就业市场的受欢迎程度

    你们都是来看这个图的吧 整整两个月之前,由于项目需要,我需要学习一下爬虫技术.我看了很多文章,也不知道哪个工具好,哪个工具受欢迎,学了哪个工具以后会有利于找工作.我想了半天,突然想到了,何不直接上51 ...

  7. 系统检测到您疑似使用网页抓取工具访问本_12款最常使用的网络爬虫工具推荐...

    网络爬虫在当今的许多领域得到广泛应用.它的作用是从任何网站获取特定的或更新的数据并存储下来.网络爬虫工具越来越为人所熟知,因为网络爬虫简化并自动化了整个爬取过程,使每个人都可以轻松访问网站数据资源.使 ...

  8. 后羿采集器怎么导出数据_免费爬虫工具:后羿采集器如何采集同花顺圈子评论数据...

    本文主要介绍如何使用后羿采集器的智能模式,免费采集同花顺圈子首页短评的发布时间.发布内容.作者及阅读量等信息. 采集工具简介: 后羿采集器是一款基于人工智能技术的网络爬虫软件,只需要输入网址就能够自动 ...

  9. 数据采集时总提示未登录_做电商必须学会这一招!教你用爬虫工具免费采集网易考拉商品数据...

    本文主要介绍如何使用后羿采集器的智能模式,免费采集网易考拉商品的价格.累计评价.商品图片等信息. 采集工具简介: 后羿采集器是一款基于人工智能技术的网络爬虫软件,只需要输入网址就能够自动识别网页数据, ...

最新文章

  1. HDU 3183 A Magic Lamp(RMQ问题, ST算法)
  2. java.lang.RuntimeException: Invalid action class configuration that references an unknown class name
  3. poj 1961 Period
  4. 2015/Province_Java_A/3/九数分三组
  5. 机考可以作弊吗_法考主观题也全面机考?不慌,看这篇文章
  6. java中System类、String Builder类简介
  7. javabean 学习笔记
  8. R语言中GCC编译的问题(续)
  9. 02129 信息资源建设《信息资源管理(第2版) 电子工业出版社 肖明著》考点整理
  10. Windows7 简体中文旗舰版下载 (MSDN官方发布正式版原版镜像)
  11. linux 本地查看服务器图片-2种方式
  12. 阿里云Apsara Clouder基础技能认证:阿里巴巴编码规范题库(最新题库大全)
  13. Java客户端开发与服务端开发
  14. 嵌入式系统开发的架构和应用
  15. 安全方向比路由交换难吗_致网络工程师,新网工时代轻松拿下思科全新CCIE EI等各方向认证...
  16. 1字节不是一定是8位。
  17. 赵匡胤为何不把皇位传给儿子却传弟弟赵光义
  18. python matplotlib绘制多条折线图
  19. xliff:g标签介绍:
  20. 高级android开发工程师机会---纽交所上市互联网公司

热门文章

  1. 儿童吹泡泡水简单配方_孩童吹泡泡水的制作方法
  2. 郝萌主的微信公众号上线了
  3. XDOJ-歌德巴赫猜想-35
  4. 玩机搞机----mtk芯片机型 另类制作备份线刷包的方式 读写分区等等
  5. SpringBoot 实现大文件视频转码(转码基于FFMPEG实现)
  6. linux重启 envi服务,envi 4.3在ubuntu edgy下启动错误的解决
  7. android模拟器MAC无法联网(安卓开发)
  8. 【Java】Java中GUI之布局管理器
  9. Liunx系统编程篇—进程通信(二)无名管道(原理、创建、实战)命名管道(原理、创建、实战)
  10. centos7.2安装中出现的各种问题