我们在抓取数据时,通常不会只抓取网页当前页面的数据,往往都会继续抓取翻页后的数据。本文就为大家介绍,集搜客GooSeeker网络爬虫如何在进行数据抓取时,自动抓取翻页后的数据。

在MS谋数台的爬虫路线工作台有三种线索方式可以实现自动抓取翻页后的数据,分别是定点线索、记号线索、相对线索。本文主要介绍比较常用的记号线索。

注释1:本文所演示的翻页抓取规则,可到资源库下载学习:翻页抓取_天猫搜索列表

一、完成抓取内容映射以天猫搜索列表为例。

理箱中创建抓取内容,并完成映射。

图1 内容映射

如图1,具体操作步骤如下:在整理箱中创建抓取内容,并完成映射,选择网页上要抓取的内容映射到整理箱后,跳转到爬虫路线工作台设置翻页线索。

注释:关于抓取内容基本映射操作看参考:《集搜客入门——三步掌握集搜客》;

做完抓取内容基本操作后,为了抓取网页上所有相同产品的数据本规则还使用了样例复制管理功能,可参看:样例复制。

二、创建翻页线索在爬虫路线工作台新建一条记号线索

图2 新建线索

如图2,具体操作步骤如下:跳转到爬虫路线工作台。

点击新建,创建一条线索。

选择线索类型,设置翻页线索时通常选择记号线索,本文主要介绍的就是记号线索。

勾选连贯抓取,表示在执行抓取任务时,爬虫可以在同一个DS打数机窗口内抓取完当前页面后直接跳转到下一个页面进行抓取。

勾选连贯抓取后,目标主题名自动填写当前规则主题名,在本规则内不应修改,表示翻页后继续使用当前规则进行抓取。

选择线索定位选项

图3 选择线索定位选项

如图3,具体操作步骤如下:

1.在爬虫路线工作台中点击定位选项。

2.线索定位选择偏好class。

网页结构中的@id属性每个页面不同的几率较大,如果线索定位偏好@id,容易导致在后续的抓取中翻页失败。所以一般我们手工修改选择较为稳定不变的@class属性,作为线索定位的首选项。

定位翻页标志,并在网页结构中找到对应节点

图4 定位翻页

如图4,具体操作步骤如下:

1.在网页上点击翻页标志“下一页”,会弹出该信息的定位提示框,通常是定位到模块节点(即包含多个下层节点,可双击展开,例如A节点)

2.展开A节点,找到“下一页”对应text节点(text节点即为文本节点)

3.点击对应text节点会在显示工作台中显示。

在网页结构窗口中找到,对应节点后,即开始进行线索映射。

线索映射——记号映射

图5 记号映射

如图5,具体操作步骤如下:选择对应节点进行记号映射,右击对应的text节点,选择线索映射后点击记号映射,在可爬虫路线工作台记号值中看到“下一页”,记号定位编号显示“下一页”text在网页结构窗口中的对应编号。

线索映射——线索定位映射

在做完记号映射之后,要进行线索定位映射,就是选择包含记号标志的范围进行映射。

图6  定位映射

如图6,具体操作步骤如下:

1.选择线索定位区块,线索定位的区块一般是包含"下一页"翻页标志的区块节点,也就是网页上的翻页区块(在网页结构窗口中点击包含 “下一页”翻页标志的区块节点,会在浏览器窗口中显示)。

2.进行线索定位映射,右击翻页区块节点,选择线索映射→定位→线索1 。完成后定位编号会显示翻页区块节点的定位编号。

这样就完成了网站翻页规则的定义,可以使用DS打数机进行翻页数据抓取。

若有疑问可以或

php天猫列表数据抓取,如何翻页抓取网页数据——以采集天猫搜索列表为例相关推荐

  1. 前嗅教你大数据:采集带有翻页结构的网页数据

    置顶 "前嗅大数据" 和数据大牛一起成长,做牛气哄哄的大数据人 [场景描述]采集带有翻页的网页中的数据. [使用工具]前嗅ForeSpider数据采集系统,免费下载: ForeSp ...

  2. Scrapy翻页爬取示例——列表页、详情页

    Scrapy翻页爬取示例--列表页.详情页 引言: 本人最近在帮助同事们爬取一批英-泰双语数据,顺带复习了一下scrapy爬虫相关的知识.下面以简单的小项目为例,一起来开始吧! 示例一:爬取列表页 本 ...

  3. Web Scraper 翻页——抓取分页器翻页的网页(Web Scraper 高级用法)| 简易数据分析 12

    这是简易数据分析系列的第 12 篇文章. 前面几篇文章我们介绍了 Web Scraper 应对各种翻页的解决方法,比如说修改网页链接加载数据.点击"更多按钮"加载数据和下拉自动加载 ...

  4. python从入门到放弃篇26(lxml.etree库,urllib.request库,构造xpath路径,构造url)实现翻页爬取豆瓣书简介并保存数据

    今天,我研究了构造url和xpath路径的方法实现翻页爬取数据.觉得还可以,不过还是存在一些问题,没有我想的那么理想,因为,目前只实现了爬取每一页的第一本书及其书评.我等有时间会再去研究. 第一步,我 ...

  5. [Python Scrapy爬虫] 二.翻页爬取农产品信息并保存本地

    前面 "Python爬虫之Selenium+Phantomjs+CasperJS" 介绍了很多Selenium基于自动测试的Python爬虫程序,主要利用它的xpath语句,通过分 ...

  6. selenium切换iframe框架案例——翻页爬取网易云音乐歌单作者和名称

    翻页爬取网易云音乐歌单作者和标题 案例目的: 通过翻页selenium操作网易云音乐,介绍如何切换iframe框架以及如何使用selenium定位数据所在的节点. 代码功能: 输入下载的数据页数,自动 ...

  7. python循环爬取页面_使用for或while循环来处理处理不确定页数的网页数据爬取

    本文转载自以下网站: Python For 和 While 循环爬取不确定页数的网页  https://www.makcyun.top/web_scraping_withpython16.html 需 ...

  8. python翻页爬取电影天堂网电影的磁力链接

    python翻页爬取电影天堂网电影的磁力链接 案例目的: 介绍如何通过首页的url提取详情页的url以及如何通过xpath语法提取详情页的数据. 代码功能: 输入要爬取的页数,自动保存电影的名称以及对 ...

  9. python翻页爬取京东商品评价

    python翻页爬取京东商品评价 以小米手机评论为案例 1.找到目标的url 2.检查响应结果 3.解析json数据,发现相应数据无法成功解析 注意:json数据一般都是以大括号或中括号开头或者结尾的 ...

最新文章

  1. Android 编译系统模块 3
  2. php tcp和udp的区别,HTTPS 和 HTTP、UDP 和 TCP 的区别
  3. c语言整行乘非整形等于什么意思,C语言--整形升级寻常算术转换
  4. 周琦能和范志毅比高下?
  5. Jersey 异常处理
  6. [翻译] FBLikeLayout
  7. 【图像评价】基于matlab GUI图像质量评价【含Matlab源码 1373期】
  8. apms阅卷系统服务器,apms全通纸笔王网上阅卷系统操作流程
  9. OPPO手机刷机解锁救砖解账户锁方法
  10. 需求调研第二篇--调研准备阶段避免哪些错误
  11. java pdf 背景图,Java 设置PDF文档背景——单色背景、图片背景
  12. QQmlContext设置上下文
  13. 一个普通IT人的十年回顾
  14. 咸鱼Micropython— 标准库
  15. 慎独的修炼之道--群处守嘴 独处守心 修以清心为主 涉世及慎言为先
  16. 这10款数据可视化软件工具免费好用
  17. VHDL硬件描述语言(一)基本概念
  18. Linux系统 推送Windows桌面应用更新
  19. 记调剂有感-一首小诗
  20. 几何向量:二维平面非平行直线相交(修正)

热门文章

  1. 使用NAudio实现Wav转Mp3
  2. knowledge tracing baseline解读-注释版本
  3. cc2530下载程序
  4. 【使用Blazor构建web应用程序 .NET 6篇 上】
  5. python爬取流浪地球_python爬取《流浪地球》16w评论
  6. MySQL燕十八老师课程笔记:第六课:商品表的各种按条件查询
  7. 集成墙面和瓷砖,装修到底该选谁?
  8. 116.移除指定元素 removeSpecifyElement
  9. 刘江峰谈离开华为的原因
  10. 计算机辅助写字技术,计算机辅助写字教学论文