有时候,我们有大量同类网页,希望八爪鱼能自动采集每个网页中的数据。通过设置【URL循环】,可实现此需求。

什么是同类网页?结构相同、字段差不多的网页。例:

京东商品详情页:

豆瓣电影详情页:

https://movie.douban.com/subject/26387939/

https://movie.douban.com/subject/6311303/

https://movie.douban.com/subject/1578714/

一、【URL循环】操作演示

示例网址:

https://movie.douban.com/subject/26387939/

https://movie.douban.com/subject/6311303/

https://movie.douban.com/subject/1578714/

https://movie.douban.com/subject/26718838/

https://movie.douban.com/subject/25937854/

https://movie.douban.com/subject/26743573/

https://movie.douban.com/subject/20451290/

https://movie.douban.com/subject/26816383/

采集需求:

采集每个豆瓣电影详情页的电影

Step1. 打开网页

在首页左上角点击【新建】—【自定义任务】。网址输入界面默认的是【手动输入】。将复制好的一批同类网址,粘贴进网址输入框中,并点击【保存网址】。八爪鱼中内置的浏览器会自动打开网页。同时,可以看到,流程中已自动创建【循环-打开网页】步骤。

鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图

下文其他图片同理

特别说明:

a. 手动输入的url数量不得大于1万个,如有超过1万url,请选择【从文件导入】,具体请查看教程 网址输入升级

b.  Url还可以选择【从任务导入】和【批量生成】,具体请查看教程 网址输入升级

Step2.按照需求配置所需的字段。

Step3. 配置完成后启动采集。

采集到的数据示例如下图所示:

二、Url循环的使用场景

1、【URL循环】的任务,在进行【云采集】时,可有效进行任务拆分,分配到每个云节点上并发采集,极大提高采集速度。

点击  云采集原理以及规则加速设置 查看url循环类规则进行云采集拆分加速的详细过程。

2、有的网页在采集时,点击跳转至详情页后,无法返回列表页。可以先在列表页采集详情页URL,然后通过【URL循环】,批量打采集每个详情页内的数据。

作者:西瓜

编辑:Aisling

html批量采集,批量采集网页数据 - 八爪鱼采集器相关推荐

  1. 8种网页数据的采集工具

    10种AI训练数据采集工具排行榜 8种网页数据的采集工具 1.目前常用的8种数据网站 2.如何写Python爬虫: 3.人生第一个 爬虫代码示例: 另外: 8种网页数据的采集工具 如何收集网页数据,来 ...

  2. 爬虫软件尝试-后羿采集器:批量免费抓取网页数据

    免费软件尝试-后裔采集器 软件特点:免费,全平台(Windows. Mac. Linux),操作简单无需技术. 使用流程: 下载软件打开->输入抓取数据的网址->职能采集->等待自动 ...

  3. php 采集ajax网页,Ajax网页采集方法(最新) - 八爪鱼采集器

    很多网页的点击使用了Ajax加载技术,针对这种网页,我们需在八爪鱼中进行相关设置. 一.什么是Ajax? Ajax是延时加载.异步更新的一种脚本技术,可以在不重新加载整个网页的情况下,对网页的某部分进 ...

  4. 【上课课件整理复习】第六章 网页数据的采集(1)

    知识回顾 网络爬虫的概念 网络爬虫的应用 网络爬虫的实现 数据写入和读取 本章内容 遍历单个域名 采集整个网站 通过互联网采集 本章目标 掌握遍历单个域名的方法 掌握采集整个网站的方法 了解通过互联网 ...

  5. php天猫列表数据抓取,如何翻页抓取网页数据——以采集天猫搜索列表为例

    我们在抓取数据时,通常不会只抓取网页当前页面的数据,往往都会继续抓取翻页后的数据.本文就为大家介绍,集搜客GooSeeker网络爬虫如何在进行数据抓取时,自动抓取翻页后的数据. 在MS谋数台的爬虫路线 ...

  6. python 抖音采集_抖音 数据自动化采集(多开)

    本文仅供学习交流使用,如侵立删! 企鹅 : 1033383881 环境: win10 64位 python 3.6.1 appium 0.41 selenium 3.141.0 mitmproxy 4 ...

  7. 火车头采集翻页内容_八爪鱼采集器 循环翻页只翻3、5页就提示采集结束

    满意答案 1S2xhWfZa 2015.06.02 采纳率:52%    等级:9 已帮助:312人 操作方法 1.章鱼烧粉调配方法:1KG的粉加1.5KG的水加4个鸡蛋和搅拌机搅拌均匀 2.未能用完 ...

  8. 八爪鱼采集数据简单实例

    八爪鱼爬取网页数据的简单使用 发布文章 已保存 目录 八爪鱼介绍 八爪鱼实例一 八爪鱼实例二 八爪鱼介绍 八爪鱼数据采集系统以完全自主研发的分布式云计算平台为核心,可以在很短的时间内,轻松从各种不同的 ...

  9. 八爪鱼采集器 - 最好用的网页数据采集器

    八爪鱼采集器 - 最好用的网页数据采集器 八爪鱼采集器 - 最好用的网页数据采集器 posted on 2016-08-05 13:46  lexus 阅读( ...) 评论( ...) 编辑 收藏 ...

  10. 爬虫批量保存网页html,2分钟带你学会网络爬虫:Excel批量爬取网页数据(详细图文版)...

    面对网页大量的数据,有时候还要翻页,你还在一页一页地复制粘贴吗?别人需要几小时完成的任务,学会这个小技巧你只需要几分钟就能解决.快来学习使用Excel快速批量地爬取网页数据吧! 1.分析网页数据结构 ...

最新文章

  1. citrix xenapp应用保存文件时隐藏服务器上的磁盘
  2. 在你的 Rails App 中开启 ETag 加速页面载入同时节省资源
  3. 手把手干货教学Matlab载波调制
  4. 20175221曾祥杰 实验四《Android程序设计》
  5. Celery-------项目目录
  6. opencv打开pb_NSFW-Score: OpenCV读取pb转化的ONNX模型时报错
  7. csgo天津服务器维护怎么办,CSGO华北赛区在天津落下帷幕
  8. brew 安装php7.1.6_mac上通过brew安装php7
  9. rk3288 android6.0平台bt1120信号转mipi调试
  10. 自己动手,解决微信投票提示“投票失败”问题
  11. 使用NLTK对英文文章分句,避免缩略词标点符号干扰
  12. 有什么好用的微信公众号编辑器?快来看看这3款
  13. 人工智能方向毕业设计_人工智能时代,理工科专业的毕业设计都被安排了
  14. 概念:ASP是一种语言么?
  15. AcWing 342. 道路与航线 (双端队列广搜问题,SPFA)
  16. BOS金蝶云星空开发简单账表
  17. 基于Jetson AGX Xavier GMSL9296硬件设计与软硬件调试
  18. linux统计排序命令,Linux命令去重统计排序
  19. cpu低端计算机配置清单,i3 4160/GTX750Ti剑灵/英雄联盟中低端组装机配置清单
  20. element搜索框实现数据搜索

热门文章

  1. 程序员在囧途之风投五宗罪
  2. +initialize方法的调用时机
  3. oracle 19c em,Oracle 19C EM
  4. 七、基于机器学习方法对销售预测的研究
  5. php织梦cms 安装教程,Linux服务器上安装织梦CMS,linux服务器织梦cms_PHP教程
  6. c# Monitor
  7. 如何在线判断一个文件是否安全? 在线沙箱 / 文件分析系统 / 在线查毒 / 云运行截图
  8. 支付宝转账支付宝转卡(H5飞行模式)
  9. html5在线编辑器效果和源码
  10. 创建Image图像的几种方法