浅析通用爬虫软件—— 集搜客与八爪鱼采集器
最近想用爬虫软件来采集网页上的一些数据,根据百度的推荐以及相关关键词查询,找到了两款软件:“集搜客”和“八爪鱼”,两款软件都有可视化界面,对于编程思维比较薄弱的用户来说,这两款软件上手容易,操作简单易懂。今天就带大家来了解对比一下这两款通用的网络爬虫软件。
[size=large][b]1.软件安装[/b][/size]
[b]八爪鱼[/b]:八爪鱼安装跟其他软件一下,从官网下载,直接点击setup.exe安装即可。
[b]集搜客[/b]:集搜客网站上下载的软件也是一个自解压exe程序,双击启动安装,看到的是火 狐浏览器安装过程,原来集搜客软件是作为火狐插件发布的。
[size=large][b]2.软件界面布局[/b][/size]
[b]八爪鱼[/b]:八爪鱼的界面布局可以归为指引型界面,用户进入软件界面可以看到软件使用提示信息,如图一所示,包括向导模式与高级模式,同时列出了学习资源,采集规则,数据下载等等。对于初次使用的用户来说,起到了很好的指引作用。
[img]http://dl2.iteye.com/upload/attachment/0116/0828/d9839e39-a873-348d-ab46-1cff5041c14b.png[/img]
图一:八爪鱼操作界面展示
[b]集搜客[/b]:集搜客软件分成两个操作界面,MS谋数台(图2)和DS打数机(图3),谋数台负责制定规则(网页标注),打数机负责采集数据(网络爬虫),一个谋、一个打,听起来还是比较符合其特征。集搜客启动后的界面没有显示使用帮助资源,而是位于“帮助”菜单中。
[img]http://dl2.iteye.com/upload/attachment/0116/0830/6d30eff2-9d01-31d4-95f0-1a7703215d5f.png[/img]
图2:集搜客谋数台界面
[img]http://dl2.iteye.com/upload/attachment/0116/0832/6ae50563-c6aa-3ccb-9992-c4349b15ecde.png[/img]
图3:集搜客打数机界面
[size=large][b]3.操作流程[/b][/size]
[b]八爪鱼[/b]:八爪鱼的操作流程主要分为4个步骤(如图4所示),分别为:设置基本信息、设计工作流程、设置采集选项、完成。
[img]http://dl2.iteye.com/upload/attachment/0116/0834/93b2800f-544b-3090-b31a-f7ef7435e923.png[/img]
图4:八爪鱼操作流程
1) 设置基本信息:建立任务名,分配任务组。其实就是给你要做的规则命名。
2) 设计工作流程:这个步骤是八爪鱼制定规则的关键一环,包括输入网址、构建循环,所有关于翻页、循环等一些操作都在此进行。其实八爪鱼此工作流程已经为用户构建了一个既定的框架,用户只需往里面补充元素就可以了。如图4所示,构建了一个大的循环框架,用来翻页,里面又包含循环,又来做列表采集以及层级抓取
[img]http://dl2.iteye.com/upload/attachment/0116/0836/5432f0df-f691-3965-9208-367811bf3ee8.png[/img]
3) 设置采集选项:这个理解起来很简单,就是选择需要采集的数据,如图4右边方框所示,一次抓取了整条数据,需要进一步确定需要哪些字段,并整理。
4) 完成:规则制定完成,采集数据。
[b]集搜客[/b]:集搜客的操作没有流程的概念,似乎定义采集规则可以不遵守既定操作顺序,而是有一个要领“建立一个箱子,把你要的内容摘进去”。所以我们称之为4“块”操作(如图6所示),包括命名主题、创建整理箱、规划爬虫路线和定义连续动作。
[img]http://dl2.iteye.com/upload/attachment/0116/0837/ae203ed9-e24a-3394-ba11-79e1ba1c5304.png[/img]
图6:集搜客的4块功能
1) 命名主题:为规则起个名字。
2) 创建整理箱:集搜客提出了“箱子”概念,即建立一个箱子,需要什么数据,就从网页中摘取对应信息丢进这个箱子,这个丢的过程,集搜客有个专用词“映射”,就是把网页上的内容指定给整理箱中的一个字段。
3) 爬虫路线:为采集任务设置翻页和层级,通俗来说,爬虫路线就是告诉爬虫要按着哪条路线来爬数据。
4) 连续点击:这个属于集搜客的高级功能了,通过模拟用户的点击和其他行为,来实现自动采集,主要针对那些需要不断点击但网址不发生变化的网页。
综上所述,八爪鱼的工作流程特征十分明显,用户决定软件怎样动作,什么时候动作,动作施加给哪里,从哪里采集内容等。而集搜客想让用户专注于摘什么数据,如果用户在摘取以外还想扩展范围那就定义爬虫路线,如果还想做些动作那就定义连续动作,整个流程细节用户不用关心。
[size=large][b]4.数据存储方式[/b][/size]
[b]八爪鱼:[/b]八爪鱼分成单机运行和云采集,数据导出支持EXCEL、SQL、TXT等常用格式。
[b]集搜客[/b]:集搜客没有云采集,因为爬虫都在用户自己电脑上跑,用户想把爬虫放云上那是用户自己的事。跑下来的数据以XML格式存储,可见这是一种中间结果,集搜客官网提供了XML转EXCEL的工具,也在会员中心提供了基于云存储的数据导入和清洗功能,入库后可以导出成EXCEL格式。
[size=large][b]5.收费模式[/b][/size]
[b]八爪鱼:[/b]简单来说是一种软件销售模式(不排除免费版),除此之外用户下规则要积分,跑数据也要积分,而积分可以用钱购买或者参与社区活动换积分。
[b]集搜客[/b]:集搜客简单来说是一种服务收费模式,软件功能全部免费,如果需要一些爬虫管理和数据管理的服务,则根据服务类型、数量和时间进行收费。同样,下载规则要积分,如果使用云存储,根据存储量和存储时间收费。积分同样也可以用钱购买,或者参与社区活动赚积分。
浅析通用爬虫软件—— 集搜客与八爪鱼采集器相关推荐
- 【01】基础:集搜客爬虫软件安装
前言 漫漫网页数据大海洋,有一种数据搬运工的生物存在,他可能是数据分析师.也可能是爬虫工程师.也可能是业务员-等等. 作为一名程序员,接下来的一系列教程不谈编程,来教大家学开车. 是的,你没有听错,就 ...
- 采集数据用云服务器与公司网站,网络爬虫软件,企业版,大企业,采集内网数据,私有云部署-集搜客GooSeeker...
爬虫路线规划能力 集搜客GooSeeker网络爬虫沿着线索扩展爬行范围,而且不限广度和深度.免费在线版用户在MS谋数台的爬虫路线工作台上规划爬虫路线,主要能力就是:从抓取到的网址上建立下一级线索,这是 ...
- 技术博客-集搜客爬虫
集搜客网络爬虫 本周对集搜客爬虫软件进行了学习与运用.先是摸清软件的用法与功能,之后对Anmazon网站进行数据采集的实践. 采集列表数据 采集列表时,可以看到多条结构相同的信息,我们把一条信息称为一 ...
- 使用集搜客爬取酷狗排行歌曲信息
最近项目中遇到需要大量爬取歌曲数据的需求,且需要爬取歌曲的网站比较多,自己写爬虫显然开发成本很高,所以找了个集搜客来用. 1.安装教程可以自行百度,基本都是直接下一步,不过这个软件需要.net4.0的 ...
- python中用Beautifulsoup提取集搜客网站的信息
1爬取集搜客网站上面的信息点击打开链接 2看下这个源代码 3使用正则表达式提取出来 # coding:utf8 import urllib2 import time from bs4 import B ...
- xml文件拆分 python_用Python提取合并由集搜客爬取的多个xml文件中的数据 | 向死而生...
为了爬点小数据同时试用了八爪鱼和集搜客.两者都有免费版本,但八爪鱼数据导出需要积分,集搜客可以不用积分.不过八爪鱼导出的数据有多种格式可选,而集搜客如果不用积分就只能得到一堆xml文件.本着能省则省的 ...
- python采集文章_八爪鱼采集器能取代python爬虫吗?
作为同时使用八爪鱼采集器和写爬虫的非技术的莫名其妙喜欢自己琢磨技术的互联网运营喵...我来谈谈心得感想. 八爪鱼有一些优势,比如学习成本低,可视化流程,快速搭建采集系统.能直接导出excel文件和导出 ...
- python爬虫代替运营_八爪鱼采集器能取代python爬虫吗?
作为同时使用八爪鱼采集器和写爬虫的非技术的莫名其妙喜欢自己琢磨技术的互联网运营喵...我来谈谈心得感想. 八爪鱼有一些优势,比如学习成本低,可视化流程,快速搭建采集系统.能直接导出excel文件和导出 ...
- 博客论坛自动采集器 - 蓝天采集器源码
介绍: 博客论坛自动采集器 做一个自动采集文章的网站,在你网站根目录创建一个目录随便我这边是caiji,然后把采集器的源码上传到caiji里面去. 安装:你的域名/caiji访问配置好数据库什么的安装 ...
最新文章
- 普通平键的主要尺寸有_餐厅放多大尺寸的餐桌合适?这几种尺寸,适合所有户型...
- dubbo2.5-spring4-mybastis3.2-springmvc4-mongodb3.4-redis3(十)之Spring MVC中使用 Swagger2 构建Restful API...
- 版本号控制-搭建gitserver
- SAP CRM WebClient UI cross component跳转中有一个硬编码的CROSSNAV
- 链表相加 2. 两数相加
- gdb x命令_gdb基本命令
- dlib 怎么安装vs2017_win10中的dlib库安装过程
- dir结构体 linux_Linux下DIR,dirent,stat等结构体详解
- houdini_通过卡通了解CSS Houdini的指南
- [jQuery原理] jQuery基本结构
- python统计表中单词及其出现的次数 字典形式输出_统计字符串中字母出现的次数,字典形式输出(python)...
- Win7从VHD中启动 如何扩充虚拟磁盘
- ESXi配置vCenter服务器
- Jenkins可持续集成
- CentOS下安装JDK6u30
- 百度和bing的背景肤色图片的保存
- Java 小游戏(骑士大战魔王)
- 【笔记】EFCore SQLite 拼音汉字互换
- C语言打印日历总结报告,C语言打印日历
- disallow root login remotely 不起作用?