GooSeeker初使用之爬取数据

以抓取2345天气预报上的天气数据为例简单描述一下使用GooSeeker抓取数据的方法，具体步骤如下:
一、下载安装GooSeeker
到官网中下载GooSeeker:下载地址

点击“下载爬虫”来下载GooSeeker的安装包，新用户需要在集搜客网站上注册并登录账号后才能下载。下载并安装好之后，登录集搜客软件。

二、爬取网页数据
要爬取网页数据，需要定义爬取规则。下面简要描述一下定义爬取规则的步骤：

1、进入GooSeeker后先在“网址栏”中输入要访问的网址，然后点击右上角的定义规则

2、命名任务
在工作台“命名任务”标签下输入任务名，通过点击查重来检查该任务名是否可用；在“页面地址”栏中输入要访问的网址。

3、新建整理箱
在工作台的“创建规则”标签下,点击“新建”来创建一个整理箱。在弹出的窗口中输入整理箱名，这里我把它命名为“重庆天气”。

4、进行内容映射
当你在“浏览器”窗口中点击想要获取的内容时，左下方的网页标签中就会显示其在HTML中的结点位置，比如现在要获取“日期”数据，就点击“日期”那个区域，这时候就会自动定位“日期”在HTML中结点的位置（DIV结点）。展开该节点，因为“日期”是一个text，所以找到结点下的text标签右键->内容映射->新建抓取内容（注意是对text标签进行映射）。

在弹出的窗口中给要抓取的内容命名，因为整理箱中必须有一个是“关键内容”，在这里我就把日期设为“关键内容”吧，将其勾选为“关键内容”。

使用同样的方法做“最高气温”、“最低气温”、“天气”、“风向风力”、“空气质量指数”的内容映射，映射完成后的效果如下所示。

5、对样例进行复制
首先先在工作台的“创建规则”标签下选中整理箱（这里我应该选中“重庆天气”），然后勾选“样例复制管理”中的“启用”。

分别找到第一行和第二行天气信息对应的节点。右键第一行天气信息对应结点，在对应的标签上右键选择“样例复制映射->第一个”。

同样，右键第二行天气信息对应结点，在对应的标签上右键选择“样例复制映射->第二个”。
完成样例映射后的效果如下所示：

6、保存爬取规则
点击右上角的“存规则”来保存刚刚制作的采集规则，保存成功后点击右上角的“爬数据”。

之后会跳转到DS 打数机的界面，此时就开始爬数据了。

在左上角的文件->存储路径下可以指定爬取数据的存储位置。

爬取结束后就可以在指定的存储路径下看到相应的XML文件了

但是，我们发现这爬取的仅仅是一个月的天气数据，而天气数据有多个月。所以下面来解决爬数据时的翻页问题。

在工作台爬虫路线标签下点击“新建”

勾选“连续翻页”

在网页上点击用于翻页的“上一月”，然后在网页标签中找到其对应的结点，右键选择“翻页映射–作为翻页区–线索1”进行线索定位映射；再在该结点下的text结点上右键选择“翻页映射–作为翻页记号”。完成这步操作后的"爬虫路线"如下所示。

再次点击“存规则”来保存采集数据规则，然后开始爬数据。此时在指定的存储路径下就会包含多个XML文件了。

GooSeeker初使用之爬取数据相关推荐

【k哥爬虫普法】爬取数据是否一定构成不正当竞争？
我国目前并未出台专门针对网络爬虫技术的法律规范,但在司法实践中,相关判决已屡见不鲜,K 哥特设了"K哥爬虫普法"专栏,本栏目通过对真实案例的分析,旨在提高广大爬虫工程师的法律意识, ...
python爬取新闻并归数据库_Python爬取数据并写入MySQL数据库操作示例
Python爬取数据并写入MySQL数据库的实例首先我们来爬取 http://html-color-codes.info/color-names/ 的一些数据. 按 F12 或 ctrl+u 审查元 ...
python requests 爬取数据
python requests 爬取数据 import requests from lxml import etree import time import pymysql import json h ...
python3爬取数据存入mysql_Python如何爬取51cto数据并存入MySQL
实验环境 1.安装Python 3.7 2.安装requests, bs4,pymysql 模块实验步骤1.安装环境及模块 2.编写代码 ? 1 2 3 4 5 6 7 8 9 10 11 12 1 ...
Jsoup：用Java也可以爬虫，怎么使用Java进行爬虫，用Java爬取网页数据，使用Jsoup爬取数据，爬虫举例：京东搜索
Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索一.资源为什么接下来的代码中要使用el.getElementsByTa ...
python爬去百度文库_利用Python语言轻松爬取数据[精品文档]
利用 Python 语言轻松爬取数据对于小白来说,爬虫可能是一件非常复杂. 技术门槛很高的事情. 比如有人认为学爬虫必须精通 Python ,然后哼哧哼哧系统学习 Python 的每个知识点,很久之 ...
python爬取mysql数据_Python爬取数据并写入MySQL数据库的实例
Python爬取数据并写入MySQL数据库的实例来源:中文源码网浏览: 次日期:2018年9月2日 [下载文档: Python爬取数据并写入MySQL数据库的实例.txt ] (友 ...
爬虫篇——selenium（webdriver）进行用户登录并爬取数据)
爬虫篇--selenium(webdriver)进行用户登录并爬取数据摘要 (一)创建browser对象 (二)用户登录 (三)数据爬取摘要本文主要介绍了如何通过selenium使用Chorme ...
爬数据html解析,jsoup网络爬取数据HTML解析
Jsoup是一款网络爬取数据的解析器,可以解析HTML文件中的任何子节点,支持离线HTML文件.字符型HTML内容.URL的解析.非常方便和实用. Document doc = Jsoup.conne ...

GooSeeker初使用之爬取数据

GooSeeker初使用之爬取数据相关推荐

最新文章

热门文章