八爪鱼批量爬取html中的数据,批量采集网页数据 - 八爪鱼采集器
有时候,我们有大量同类网页,希望八爪鱼能自动采集每个网页中的数据。通过设置【URL循环】,可实现此需求。
什么是同类网页?结构相同、字段差不多的网页。例:
京东商品详情页:
豆瓣电影详情页:
https://movie.douban.com/subject/26387939/
https://movie.douban.com/subject/6311303/
https://movie.douban.com/subject/1578714/
一、【URL循环】操作演示
示例网址:
https://movie.douban.com/subject/26387939/
https://movie.douban.com/subject/6311303/
https://movie.douban.com/subject/1578714/
https://movie.douban.com/subject/26718838/
https://movie.douban.com/subject/25937854/
https://movie.douban.com/subject/26743573/
https://movie.douban.com/subject/20451290/
https://movie.douban.com/subject/26816383/
采集需求:
采集每个豆瓣电影详情页的电影
Step1. 打开网页
在首页左上角点击【新建】—【自定义任务】。网址输入界面默认的是【手动输入】。将复制好的一批同类网址,粘贴进网址输入框中,并点击【保存网址】。八爪鱼中内置的浏览器会自动打开网页。
鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图
下文其他图片同理
打开右上角的【流程】按钮,可见流程中已自动创建【循环-打开网页】步骤。
特别说明:
a. 手动输入的url数量不得大于1万个,如有超过1万url,请选择【从文件导入】,具体请查看教程 网址输入升级
b. Url还可以选择【从任务导入】和【批量生成】,具体请查看教程 网址输入升级
Step2.按照需求配置所需的字段。
Step3. 配置完成后启动采集。采集到的数据示例如下图所示:
二、Url循环的使用场景
1、【URL循环】的任务,在进行【云采集】时,可有效进行任务拆分,分配到每个云节点上并发采集,极大提高采集速度
2、有的网页在采集时,点击跳转至详情页后,无法返回列表页。可以先采集详情页的链接(URL),然后通过【URL循环】,批量打采集每个详情页内的数据。
作者:西瓜
编辑:Aisling
八爪鱼批量爬取html中的数据,批量采集网页数据 - 八爪鱼采集器相关推荐
- 金融大数据Python爬虫——(按时间爬取、一次性批量爬取多页、一次性批量爬取多家公司多页)爬取百度新闻标题、网址、日期和新闻来源(数据爬取、清洗)
好几个月没写博文了,有空来玩玩爬虫,之前接触了一个爬虫的项目,感触挺深的,当时有个爬取巨潮网的操作,网上的代码天花乱坠,最后还是要靠自己,今天这篇算是入门级别,欢迎收藏评论.
- 八爪鱼批量爬取html中的数据,网页数据如何批量采集_视频教程 - 八爪鱼采集器...
本视频介绍循环方式中的URL循环和文本循环. URL循环适用场景: 在多个同类型的网页中,需要采集的字段相同. 例如: https://movie.douban.com/subject/2638793 ...
- 八爪鱼 爬取微博中的图片到本地
八爪鱼 爬取微博中的图片到本地 批量爬取大量的好看的图片 到自己的本地电脑 哈哈哈哈哈哈 抓取的微博图片 详细步骤:http://www.bazhuayu.com/tutorial/wbpiccj ...
- PBI培训(4):批量爬取web来源公开数据
前言:最近项目上有爬数据需求,好在只需要公开信息,用PBI就可以搞定,故整理了一下爬数步骤,查阅了简书和知乎大佬的文章发现还是会踩坑,这里整理一版详细的记录下来方便理解. 爬数方式: 爬单页数据并做简 ...
- akshare批量爬取数据并保存为excel格式
作用:根据aa.txt内的代码,爬取数据,保存在以代码为名的xls文件中,注意"aa.txt"路径,路径中有"\"时,需用"\\"替代: 爬 ...
- 练习:selenium 爬取京东的电脑商品100页的数据并保存到csv文件中
练习:selenium 爬取京东的电脑商品100页的数据并保存到csv文件中 from selenium.webdriver import Chrome, ChromeOptions import t ...
- 批量爬取巨潮资讯网中“贵州茅台”相关公告的PDF文件。
1 需求 批量爬取巨潮资讯网中"贵州茅台"相关公告的PDF文件. 2 代码实现 import reimport requests from selenium import webd ...
- python用akshare批量爬取金融数据并保存为excel格式
python用akshare批量爬取数据并保存为excel格式 爬取的网站为http://vip.stock.finance.sina.com.cn/mkt/#hs_a的历史数据 首先,确定好你 下载 ...
- 从新浪微博搜索站点中超大批量爬取新浪微博内容方法和核心源码(java)
最近做项目需要从新浪微博中大批量爬取新浪微博数据,当然大家熟知的方法就是使用API来获取数据,但是这样有个限制,只能搜索相应用户的home_timeline,不能按关键字大批量(几十万甚至百万千万级别 ...
- python爬取抖音用户数据_python批量爬取下载抖音视频
本文实例为大家分享了python批量爬取下载抖音视频的具体代码,供大家参考,具体内容如下 import os import requests import re import sys import a ...
最新文章
- 使用OpenCV进行图像全景拼接
- java openoffice 打印_java调用openoffice将office系列文档转换为PDF的示例方法
- 基于策略的一种高效内存池的实现
- ubuntu20上安装starUML3
- Python并发编程之:多进程
- Wannafly挑战赛18
- LeetCode160 | Intersection-of-two-linked-lists
- oracle加密表空间,加密表空间
- mysql case quchong_处理mysql的查询语句去重案例一则
- python学习[第二篇] 基础二
- vue+three.js导入obj模型不显示问题
- 激光雷达系统原理及相关介绍
- ICMP协议和ARP协议
- 解决Windows10 14393版本迅雷崩溃问题
- java doc 转 pdf_java doc转pdf(示例代码)
- 电脑下载了自动捆绑怎么办?一招秒杀!
- SQL Story(十)————游标的应该与不应该 (转)
- epoch训练时间不同_epoch、batch size和iterations
- MySQL主从1205报错【转】
- navigator、history对象