以抓取2345天气预报上的天气数据为例简单描述一下使用GooSeeker抓取数据的方法,具体步骤如下:
一、下载安装GooSeeker
到官网中下载GooSeeker:下载地址

点击“下载爬虫”来下载GooSeeker的安装包,新用户需要在集搜客网站上注册并登录账号后才能下载。下载并安装好之后,登录集搜客软件。

二、爬取网页数据
要爬取网页数据,需要定义爬取规则。下面简要描述一下定义爬取规则的步骤:

1、进入GooSeeker后先在“网址栏”中输入要访问的网址,然后点击右上角的定义规则

2、命名任务
在工作台“命名任务”标签下输入任务名,通过点击查重来检查该任务名是否可用;在“页面地址”栏中输入要访问的网址。

3、新建整理箱
在工作台的“创建规则”标签下,点击“新建”来创建一个整理箱。在弹出的窗口中输入整理箱名,这里我把它命名为“重庆天气”。

4、进行内容映射
当你在“浏览器”窗口中点击想要获取的内容时,左下方的网页标签中就会显示其在HTML中的结点位置,比如现在要获取“日期”数据,就点击“日期”那个区域,这时候就会自动定位“日期”在HTML中结点的位置(DIV结点)。展开该节点,因为“日期”是一个text,所以找到结点下的text标签右键->内容映射->新建抓取内容(注意是对text标签进行映射)。

在弹出的窗口中给要抓取的内容命名,因为整理箱中必须有一个是“关键内容”,在这里我就把日期设为“关键内容”吧,将其勾选为“关键内容”。

使用同样的方法做“最高气温”、“最低气温”、“天气”、“风向风力”、“空气质量指数”的内容映射,映射完成后的效果如下所示。

5、对样例进行复制
首先先在工作台的“创建规则”标签下选中整理箱(这里我应该选中“重庆天气”),然后勾选“样例复制管理”中的“启用”。

分别找到第一行和第二行天气信息对应的节点。右键第一行天气信息对应结点,在对应的标签上右键选择“样例复制映射->第一个”。

同样,右键第二行天气信息对应结点,在对应的标签上右键选择“样例复制映射->第二个”。
完成样例映射后的效果如下所示:

6、保存爬取规则
点击右上角的“存规则”来保存刚刚制作的采集规则,保存成功后点击右上角的“爬数据”。

之后会跳转到DS 打数机的界面,此时就开始爬数据了。

在左上角的文件->存储路径下可以指定爬取数据的存储位置。

爬取结束后就可以在指定的存储路径下看到相应的XML文件了

但是,我们发现这爬取的仅仅是一个月的天气数据,而天气数据有多个月。所以下面来解决爬数据时的翻页问题。

在工作台爬虫路线标签下点击“新建”

勾选“连续翻页”

在网页上点击用于翻页的“上一月”,然后在网页标签中找到其对应的结点,右键选择“翻页映射–作为翻页区–线索1”进行线索定位映射;再在该结点下的text结点上右键选择“翻页映射–作为翻页记号”。完成这步操作后的"爬虫路线"如下所示。

再次点击“存规则”来保存采集数据规则,然后开始爬数据。此时在指定的存储路径下就会包含多个XML文件了。

GooSeeker初使用之爬取数据相关推荐

  1. 【k哥爬虫普法】爬取数据是否一定构成不正当竞争?

    我国目前并未出台专门针对网络爬虫技术的法律规范,但在司法实践中,相关判决已屡见不鲜,K 哥特设了"K哥爬虫普法"专栏,本栏目通过对真实案例的分析,旨在提高广大爬虫工程师的法律意识, ...

  2. python爬取新闻并归数据库_Python爬取数据并写入MySQL数据库操作示例

    Python爬取数据并写入MySQL数据库的实例 首先我们来爬取 http://html-color-codes.info/color-names/ 的一些数据. 按 F12 或 ctrl+u 审查元 ...

  3. python requests 爬取数据

    python requests 爬取数据 import requests from lxml import etree import time import pymysql import json h ...

  4. python3爬取数据存入mysql_Python如何爬取51cto数据并存入MySQL

    实验环境 1.安装Python 3.7 2.安装requests, bs4,pymysql 模块 实验步骤1.安装环境及模块 2.编写代码 ? 1 2 3 4 5 6 7 8 9 10 11 12 1 ...

  5. Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索

    Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索 一.资源 为什么接下来的代码中要使用el.getElementsByTa ...

  6. python爬去百度文库_利用Python语言轻松爬取数据[精品文档]

    利用 Python 语言轻松爬取数据 对于小白来说,爬虫可能是一件非常复杂. 技术门槛很高的事情. 比如有人认为学爬虫必须精通 Python ,然后哼哧哼哧系统学习 Python 的每个知识点,很久之 ...

  7. python爬取mysql数据_Python爬取数据并写入MySQL数据库的实例

    Python爬取数据并写入MySQL数据库的实例 来源:中文源码网    浏览: 次    日期:2018年9月2日 [下载文档:  Python爬取数据并写入MySQL数据库的实例.txt ] (友 ...

  8. 爬虫篇——selenium(webdriver)进行用户登录并爬取数据)

    爬虫篇--selenium(webdriver)进行用户登录并爬取数据 摘要 (一)创建browser对象 (二)用户登录 (三)数据爬取 摘要 本文主要介绍了如何通过selenium使用Chorme ...

  9. 爬数据html解析,jsoup网络爬取数据HTML解析

    Jsoup是一款网络爬取数据的解析器,可以解析HTML文件中的任何子节点,支持离线HTML文件.字符型HTML内容.URL的解析.非常方便和实用. Document doc = Jsoup.conne ...

最新文章

  1. docker安装redis提示没有日记写入权限_Docker 学习笔记(第六集:使用 Dockerfile 定制镜像)...
  2. linux 替换内核 img,查看更改linux内核initrd.img-Go语言中文社区
  3. 各大门户网站Flash和JS实现的图片幻灯片切换特效代码文件下载:
  4. Node js开发中的那些旮旮角角 第一部
  5. [翻译] python Tutorial 之一
  6. Spark RDD Transformation
  7. rust socket 客户端例子
  8. IT运维的五大基础知识
  9. Visio 2019/2016中文版零基础入门视频教程
  10. Coherence X for Mac 网页转换应用程序工具
  11. linux 活动主分区,主引导扇区(MBR),分区表(DPT)及活动分区(DBR) | 技术部落
  12. 让QQ群昵称色变的神奇代码
  13. JavaEE | 集合2之Map
  14. iview form表单验证手机号
  15. 完美卸载VS2019(亲测有效)
  16. matlab自动对齐
  17. HTTP协议的默认端口是什么?底层原理是什么?
  18. 机器人将颠覆零售业,看AI在零售行业有哪些应用?
  19. Django+Nginx部署静态文件
  20. 计算机主机故障排除,常见的电脑硬件故障排除

热门文章

  1. 如何彻底删除VMware虚拟机
  2. web应用的基本概念
  3. 信息技术学科知识是计算机,2018下全国教资统考初中信息技术学科知识与能力试题(科目三)答案...
  4. Keras“冻结”层
  5. C#生成音频文件以及转换成需要的格式
  6. python定时几点几分执行任务
  7. 蓝桥杯2018省赛——猴子分香蕉(Java)
  8. simulink 风机风电一次调频策略对比,转子动能控制,功率备用控制,变桨控制,两种不同策略对比,频域模型,SFR模型,风机具体内部控制详细
  9. Visual Studio扩展插件
  10. css3动画实现奔跑的火柴人