八爪鱼采集器使用方法
在学会selenium之前,八爪鱼也是不错的数据采集工具(免费),本文是我学习使用此工具时的笔记。
其实官网已经给出了教程,实测对照着教程执行可以实现,以下是我个人的补充。
八爪鱼界面组成:左侧的流程图 + 右侧的网页 + 网页右上角的操作提示框
刚开始操作的时候,由于要关注的地方比较多,很容易点错,下文中的表格分成三列,分别记录网页和提示框中的操作方法,并给出了流程图中相应的变化,方便新手对照执行。操作都是从八爪鱼的首页开始,到点击【采集】按钮结束。
官网教程:输入一个关键词,实测采集成功
网页 | 操作提示框 | 流程图变化 | |
---|---|---|---|
1 | 在八爪鱼客户端首页,输入网址,点击【开始采集】 | 【打开网页1】 | |
2 | 点击搜索框 | 【输入文本】——【确认】 | 【输入文本】 |
3 | 点击【搜索】按钮 | 【点击该元素】 | 【点击元素】 |
4 | 点击元素 | 【采集该元素的文本】 | 【提取数据】 |
5 | 点击八爪鱼顶部导航栏的【采集】,开始 |
第4步中,如果要采集多个元素,依次点击网页和提示框即可,只需一行【提取数据】流程
官网教程:输入多个关键词,实测采集成功
网页 | 操作提示框 | 流程图变化 | |
---|---|---|---|
1 | 在八爪鱼客户端首页,输入网址,点击【开始采集】 | 【打开网页1】 | |
2 | 在【打开网页1】的下方,点击【+】,添加【循环】 | 【循环】框 | |
3 | 设置【循环方式】为【文本列表】,并录入列表(详见下文) | 列表成功录入 | |
4 | 点击搜索框 | 【输入文本】——【确认】 | 【输入文本】 |
5 | 实现【循环输入文字】的效果(详见下文) | ||
6 | 点击【搜索】按钮 | 【点击该元素】 | 【点击元素】 |
7 | 点击元素 | 【采集该元素的文本】 | 【提取数据】 |
8 | 把【打开网页1】拖到循环框内——京东首页搜索后跳转列表页,搜索框位置变更 |
流程图中的操作——步骤3
- 点击【循环】框的【步骤设置】按钮
,从【循环方式】的下拉框中选择【文本列表】
- 点击【循环方式】下的设置按钮
,输入关键词,一行一个,确认——应用
- 点击【循环】框的【切换循环项】按钮
,观察列表是否成功录入
流程图中的操作——步骤5
将【输入文本】拖动到循环框中
点击【输入文本】中的【步骤设置】按钮
勾选【使用当前循环里的文本来填充输入框】
点击【应用】
验证:设置的关键词是否能够依次填充到搜索框中
点击【循环】框的【切换循环项】按钮
——点击关键词——点击【输入文本】
最终流程
以下是我做出来的流程图,用到的关键词列表是:电脑、冰箱、彩电
提取出来的数据可以导出到Excel。虽然没有python + mysql方便,但也不失为一个好工具
八爪鱼采集器使用方法相关推荐
- 大数据信息资料采集:公众号武志红文章评论爬取八爪鱼采集器规则
大数据信息资料采集:公众号武志红文章评论爬取八爪鱼采集器规则 大数据信息资料采集 公众号历史文章采集 公众号评论爬取 微信公众号历史文章导出 抓取微信公众号所有文章. 公众号文章抓取工具 抓取公众号所 ...
- 八爪鱼采集器_章鱼扫描仪:Java构建工具和恶意软件
八爪鱼采集器 Alvaro Munoz最近在GitHub Security Lab网站上发布了" 章鱼扫描仪恶意软件:攻击开源供应链". 我发现这篇帖子很有趣,原因有很多,包括它详 ...
- python采集文章_八爪鱼采集器能取代python爬虫吗?
作为同时使用八爪鱼采集器和写爬虫的非技术的莫名其妙喜欢自己琢磨技术的互联网运营喵...我来谈谈心得感想. 八爪鱼有一些优势,比如学习成本低,可视化流程,快速搭建采集系统.能直接导出excel文件和导出 ...
- 汽车云智能采集服务 八爪鱼采集器在汽车行业网站的应用
大数据时代来临,各行业各企业都在潜移默化的发生着变化,或许这变化还很微小,微小到很多企业认为大数据与自身无关,甚至到有部分企业仅仅认为大数据是大公司大平台的事情.笔者认为大数据不仅仅只是某些公司的事情 ...
- 网页采集器-八爪鱼采集器
八爪鱼采集器下载地址:http://www.bazhuayu.cc/download 八爪鱼采集器的注册地址:http://www.bazhuayu.cc/signup?id=0e492e9c-6d8 ...
- 求助:为什么用八爪鱼采集器抓取特定时间段的微博会出现漏抓情况?
八爪鱼采集器抓取微博内容出现抓取不完整的问题 在原微博网址设置了特定的时间段,导入八爪鱼采集器后也显示了相应时间段内容.例如按一小时抓取,但采集完成后导出的数据发现,一般只抓取了半个小时就停止了. 微 ...
- python爬虫代替运营_八爪鱼采集器能取代python爬虫吗?
作为同时使用八爪鱼采集器和写爬虫的非技术的莫名其妙喜欢自己琢磨技术的互联网运营喵...我来谈谈心得感想. 八爪鱼有一些优势,比如学习成本低,可视化流程,快速搭建采集系统.能直接导出excel文件和导出 ...
- 八爪鱼采集器爬取京东手机信息
1.下载八爪鱼采集器,运行 2.点击新建任务(高级模式) 3.在基本信息栏中输入任务名,点击下一步 4.流程栏里拖动打开网页到流程线上,并在右侧输入要打开的商品页面的url,点击保存 5.选中一个商品 ...
- 八爪鱼 八爪鱼采集器四大采集模式
八爪鱼采集器四大采集模式 1.简易模式 2. 自定义采集 3.智能采集 立即使用 ---- 使用智能模式采集 4.向导模式 立即使用 --- 使用向导模式采集 四个模式各有优缺点 , ...
- 八爪鱼采集器使用笔记
Author: Lycan Date: 2023/3/26 22:01 八爪鱼官网: 数阔八爪鱼采集器 - 免费网络爬虫软件_网页大数据抓取工具 下载地址: 免费下载-Windows大数据采集软件下载 ...
最新文章
- SLAM图优化g2o
- 《OpenCV3编程入门》学习笔记5 Core组件进阶(五)离散傅里叶变换(DFT)
- 用户登录邮箱验证和发送邮件缓存应用
- android gridview item添加checkbox,手把手教你实现GridView中Checkbox全选
- centos 搭建git服务器
- boost::container模块实现内存资源记录器的程序
- 最全的jquery datatables api 使用详解
- 注册登录页面代码用js判断是否填入信息_php实现登录功能
- 为了自动驾驶,沃尔沃包养了激光雷达公司Luminar
- jmeter学习指南之快速玩转16个逻辑控制器
- Total internal reflection TIR
- 毕设题目:Matlab脑电信号
- 天邑ty1208z海思3798刷版本_[乐天固件]魔百和M301H-当贝版卡刷包-海思3798M
- MySQL 8.0 API 使用STMT简单实例
- Codeforces 235C Cyclical Quest(后缀自动机)
- 开源的驰骋工作流程引擎,工作流程管理系统,表结构与运行机制。
- LAMP服务器环境搭建及工程部署
- 【重磅推荐】基于truffle-contract库实现的以太坊solidity合约调用案例(注:web3.js切勿和truffle-contract库同时使用,否则报错,无法修复!)
- 给不会打字的朋友推荐一种鼠标写字的输入法
- Linux上的中文输入法安装(Ubuntu + Kali五笔拼音)