有时候,我们有大量同类网页,希望八爪鱼能自动采集每个网页中的数据。通过设置【URL循环】,可实现此需求。

什么是同类网页?结构相同、字段差不多的网页。例:

京东商品详情页:

豆瓣电影详情页:

https://movie.douban.com/subject/26387939/

https://movie.douban.com/subject/6311303/

https://movie.douban.com/subject/1578714/

一、【URL循环】操作演示

示例网址:

https://movie.douban.com/subject/26387939/

https://movie.douban.com/subject/6311303/

https://movie.douban.com/subject/1578714/

https://movie.douban.com/subject/26718838/

https://movie.douban.com/subject/25937854/

https://movie.douban.com/subject/26743573/

https://movie.douban.com/subject/20451290/

https://movie.douban.com/subject/26816383/

采集需求:

采集每个豆瓣电影详情页的电影

Step1. 打开网页

在首页左上角点击【新建】—【自定义任务】。网址输入界面默认的是【手动输入】。将复制好的一批同类网址,粘贴进网址输入框中,并点击【保存网址】。八爪鱼中内置的浏览器会自动打开网页。

鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图

下文其他图片同理

打开右上角的【流程】按钮,可见流程中已自动创建【循环-打开网页】步骤。

特别说明:

a. 手动输入的url数量不得大于1万个,如有超过1万url,请选择【从文件导入】,具体请查看教程 网址输入升级

b.  Url还可以选择【从任务导入】和【批量生成】,具体请查看教程 网址输入升级

Step2.按照需求配置所需的字段。

Step3. 配置完成后启动采集。采集到的数据示例如下图所示:

二、Url循环的使用场景

1、【URL循环】的任务,在进行【云采集】时,可有效进行任务拆分,分配到每个云节点上并发采集,极大提高采集速度

2、有的网页在采集时,点击跳转至详情页后,无法返回列表页。可以先采集详情页的链接(URL),然后通过【URL循环】,批量打采集每个详情页内的数据。

作者:西瓜

编辑:Aisling

八爪鱼批量爬取html中的数据,批量采集网页数据 - 八爪鱼采集器相关推荐

  1. 金融大数据Python爬虫——(按时间爬取、一次性批量爬取多页、一次性批量爬取多家公司多页)爬取百度新闻标题、网址、日期和新闻来源(数据爬取、清洗)

    好几个月没写博文了,有空来玩玩爬虫,之前接触了一个爬虫的项目,感触挺深的,当时有个爬取巨潮网的操作,网上的代码天花乱坠,最后还是要靠自己,今天这篇算是入门级别,欢迎收藏评论.

  2. 八爪鱼批量爬取html中的数据,网页数据如何批量采集_视频教程 - 八爪鱼采集器...

    本视频介绍循环方式中的URL循环和文本循环. URL循环适用场景: 在多个同类型的网页中,需要采集的字段相同. 例如: https://movie.douban.com/subject/2638793 ...

  3. 八爪鱼 爬取微博中的图片到本地

    八爪鱼 爬取微博中的图片到本地 批量爬取大量的好看的图片 到自己的本地电脑  哈哈哈哈哈哈 抓取的微博图片 详细步骤:http://www.bazhuayu.com/tutorial/wbpiccj ...

  4. PBI培训(4):批量爬取web来源公开数据

    前言:最近项目上有爬数据需求,好在只需要公开信息,用PBI就可以搞定,故整理了一下爬数步骤,查阅了简书和知乎大佬的文章发现还是会踩坑,这里整理一版详细的记录下来方便理解. 爬数方式: 爬单页数据并做简 ...

  5. akshare批量爬取数据并保存为excel格式

    作用:根据aa.txt内的代码,爬取数据,保存在以代码为名的xls文件中,注意"aa.txt"路径,路径中有"\"时,需用"\\"替代: 爬 ...

  6. 练习:selenium 爬取京东的电脑商品100页的数据并保存到csv文件中

    练习:selenium 爬取京东的电脑商品100页的数据并保存到csv文件中 from selenium.webdriver import Chrome, ChromeOptions import t ...

  7. 批量爬取巨潮资讯网中“贵州茅台”相关公告的PDF文件。

    1 需求 批量爬取巨潮资讯网中"贵州茅台"相关公告的PDF文件. 2 代码实现 import reimport requests from selenium import webd ...

  8. python用akshare批量爬取金融数据并保存为excel格式

    python用akshare批量爬取数据并保存为excel格式 爬取的网站为http://vip.stock.finance.sina.com.cn/mkt/#hs_a的历史数据 首先,确定好你 下载 ...

  9. 从新浪微博搜索站点中超大批量爬取新浪微博内容方法和核心源码(java)

    最近做项目需要从新浪微博中大批量爬取新浪微博数据,当然大家熟知的方法就是使用API来获取数据,但是这样有个限制,只能搜索相应用户的home_timeline,不能按关键字大批量(几十万甚至百万千万级别 ...

  10. python爬取抖音用户数据_python批量爬取下载抖音视频

    本文实例为大家分享了python批量爬取下载抖音视频的具体代码,供大家参考,具体内容如下 import os import requests import re import sys import a ...

最新文章

  1. 使用OpenCV进行图像全景拼接
  2. java openoffice 打印_java调用openoffice将office系列文档转换为PDF的示例方法
  3. 基于策略的一种高效内存池的实现
  4. ubuntu20上安装starUML3
  5. Python并发编程之:多进程
  6. Wannafly挑战赛18
  7. LeetCode160 | Intersection-of-two-linked-lists
  8. oracle加密表空间,加密表空间
  9. mysql case quchong_处理mysql的查询语句去重案例一则
  10. python学习[第二篇] 基础二
  11. vue+three.js导入obj模型不显示问题
  12. 激光雷达系统原理及相关介绍
  13. ICMP协议和ARP协议
  14. 解决Windows10 14393版本迅雷崩溃问题
  15. java doc 转 pdf_java doc转pdf(示例代码)
  16. 电脑下载了自动捆绑怎么办?一招秒杀!
  17. SQL Story(十)————游标的应该与不应该 (转)
  18. epoch训练时间不同_epoch、batch size和iterations
  19. MySQL主从1205报错【转】
  20. navigator、history对象

热门文章

  1. 使用mbedtls库实现ftps协议
  2. Mbed TLS 编码规范
  3. 新手必看:PS修图的基本步骤
  4. QuickEdit-手机端强大的代码编辑器
  5. 词汇学习系列(一):252个基本词根详解
  6. JAVA就业管理系统(JAVA毕业设计)
  7. C++ MFC控件重影-编辑框重影
  8. vue中防止用户频繁点击按钮
  9. 利尔达芯智行智能BMS系统方案,让电池的“大脑”更聪明
  10. 计算机电子怎么安装,教你怎样自己组装电脑