一、操作步骤

下面用大众点评网作为案例,给大家演示如何使用直观标注的功能采集网页数据,操作步骤如下:

二、案例规则+操作步骤

  • 采集规则:大众点评店铺信息(可点击下载)
  • 样本网址:http://www.dianping.com/shop/32656893
  • 采集内容:店铺名称、地址、电话

第一步:打开网页

1.1,打开GS爬虫浏览器,输入网址并Enter,加载出网页后再点击“定义规则”按钮,看到一个浮窗显示出来,称为工作台,在上面定义规则;

1.2,在工作台中输入主题名,再点击“查重”,提示“该名可以使用”或“该名已被占用,可编辑:是”,就可以使用这个主题名,否则请重命名。

Tips:为了能准确定位网页信息,点击“定义规则”会把整个网页定格住,不能跳转网页链接,点击“普通浏览”,才会恢复到普通的网页浏览模式。

第二步:标注需要采集的信息

2.1,标注是针对网页的文本信息来操作的,双击目标信息就会选中它,在弹出小窗中输入标签名,打勾确认或Enter。首次标注还要输入整理箱名称,即存数据的表名。这也是标签与网页信息建立映射关系的过程。

2.2,重复上一步操作来标注地址、电话信息。

第三步:存规则,抓数据

3.1,点击“测试”,检查信息完整性。不完整的话,对整理箱的标签右击删掉后,再重新标注即可。

3.2,点击“存规则”。

3.3,点击“爬数据”,弹出DS打数机开始采集数据,测试采集规则是否有效。除了通过“爬数据”按钮来启动采集任务之外,还有其他运行方式,详见《DS打数机采集数据》。

第四步:查看数据

4.1,采集成功的数据会以xml文件的形式保存在DataScraperWorks文件夹中

打数机采集下来的数据,一页一个XML文件,存放在硬盘的DataScraperWorks目录下,相应主题名文件夹里。

1,在硬盘的主题名文件夹里选中多个xml文件直接压缩到zip包,不要夹杂除xml外的文件夹或其他文件类型。

2,登录集搜客官网,进入会员中心->规则管理->我的规则。

3,点击对应主题名进入到管理页面,点击“导入数据”按钮,点击附件,选择数据包zip,点击导入。

4,导入成功后即可“导出数据”,在“历史记录”中可以重复下载。下载的数据,默认保存在本地的下载目录。

注意:ZIP包不能大于10M,为了稳定上传,最好分批压缩成多个2M的包。

GooSeeKer集搜客工具爬虫入门相关推荐

  1. 集搜客网络爬虫 v8.8.0

    介绍 1.可视化免编程 全图形化操作界面,可视化操作,无需编程基础,熟悉电脑操作即可轻松掌握,只需在网页上点点鼠标操作,即可生成抓取规则 ,抓取结果即时验证 2.模板资源套用 资源库有大量的抓取模板, ...

  2. 【00】why集搜客网络爬虫?

    与各种大企业相比,大数据对于没有数据资源的个体而言是奢侈品. 然而在"互联网思维"."互联网+"引领下,我们应当勇于实践和颠覆传统,将数据平民化. 不管你是财经 ...

  3. 技术博客-集搜客爬虫

    集搜客网络爬虫 本周对集搜客爬虫软件进行了学习与运用.先是摸清软件的用法与功能,之后对Anmazon网站进行数据采集的实践. 采集列表数据 采集列表时,可以看到多条结构相同的信息,我们把一条信息称为一 ...

  4. 采集数据用云服务器与公司网站,网络爬虫软件,企业版,大企业,采集内网数据,私有云部署-集搜客GooSeeker...

    爬虫路线规划能力 集搜客GooSeeker网络爬虫沿着线索扩展爬行范围,而且不限广度和深度.免费在线版用户在MS谋数台的爬虫路线工作台上规划爬虫路线,主要能力就是:从抓取到的网址上建立下一级线索,这是 ...

  5. 浅析通用爬虫软件—— 集搜客与八爪鱼采集器

    最近想用爬虫软件来采集网页上的一些数据,根据百度的推荐以及相关关键词查询,找到了两款软件:"集搜客"和"八爪鱼",两款软件都有可视化界面,对于编程思维比较薄弱的 ...

  6. 【01】基础:集搜客爬虫软件安装

    前言 漫漫网页数据大海洋,有一种数据搬运工的生物存在,他可能是数据分析师.也可能是爬虫工程师.也可能是业务员-等等. 作为一名程序员,接下来的一系列教程不谈编程,来教大家学开车. 是的,你没有听错,就 ...

  7. 使用集搜客爬取酷狗排行歌曲信息

    最近项目中遇到需要大量爬取歌曲数据的需求,且需要爬取歌曲的网站比较多,自己写爬虫显然开发成本很高,所以找了个集搜客来用. 1.安装教程可以自行百度,基本都是直接下一步,不过这个软件需要.net4.0的 ...

  8. python中用Beautifulsoup提取集搜客网站的信息

    1爬取集搜客网站上面的信息点击打开链接 2看下这个源代码 3使用正则表达式提取出来 # coding:utf8 import urllib2 import time from bs4 import B ...

  9. xml文件拆分 python_用Python提取合并由集搜客爬取的多个xml文件中的数据 | 向死而生...

    为了爬点小数据同时试用了八爪鱼和集搜客.两者都有免费版本,但八爪鱼数据导出需要积分,集搜客可以不用积分.不过八爪鱼导出的数据有多种格式可选,而集搜客如果不用积分就只能得到一堆xml文件.本着能省则省的 ...

最新文章

  1. 详解设计模式之工厂模式(简单工厂+工厂方法+抽象工厂)
  2. BJUI实现点击按钮弹窗,提交到后台action后回显数据流程整理
  3. linux xia 安装程序,linux更新或安装libzip
  4. Android访问WCF服务(使用json实现参数传递)
  5. Centos6.5部署大众点评CAT
  6. 字符集与编码(九)——GB2312,GBK,GB18030
  7. 最大权闭合子图(poj 2987 Firing)
  8. Mac OS X 编译Android内核源代码
  9. Java数组索引越界异常
  10. 电脑主板报警声音的故障现象对照表
  11. Java实现腾讯云发送短信
  12. 管理信息系统开发流程
  13. 使用 JavaScript 将 JSON 数据动态转换为 HTML 表
  14. pythonU盘小偷并发送邮箱
  15. 计算机毕业设计JavaVue框架电商后台管理系统(源码+系统+mysql数据库+lw文档)
  16. 鬼影没干掉。 病毒已经清除。
  17. 20220518编译OpenHarmony-v3.1-Release出现genext2fs: command not found
  18. 2021年全球指拨开关收入大约420.8百万美元,预计2028年达到519.8百万美元
  19. 【Linux网络安全】Linux操作系统安全配置(超全超详细)
  20. Python使用CDS API时,报Exception: Missing/incomplete configuration错误

热门文章

  1. 微信小程序使用自定义字体的三种方法
  2. 【规则引擎】一、规则引擎简介
  3. PCM / I2S / AC97/PDM
  4. 序贯概率比检测Sequential Probability Ratio Test(SPRT)
  5. 内向女生适合学计算机吗,性格内向的人适合学计算机专业吗
  6. Google照片批量下载所有相册
  7. layui获取tab页id_LayUI的Tab选项卡切换显示对应数据
  8. 20210506“收听”22kHz以下的无线电波的几种简单方法
  9. Blender学习笔记(基于辣椒酱教程)
  10. php 浮点型相加后小数点,PHP浮点型(float)转换为整形(int)/round()保留小数点后几位...