在日常生活中常常需要用到各种数据, 下面是一个通过八爪鱼工具采集广州35路公交线的站点数据的案例

下载并打开八爪鱼(官网下载即可)

  1. 明确采集对象
    复制需要采集对象的网址粘贴至八爪鱼首页的网址输入框中, 点击开始采集

  2. 配置采集流程
    打开右上角的流程按钮( 这个按钮默认是关闭的 )

  3. 输入关键词并搜索
    在弹出的输入提示框中( 右边 ) 选择输入文字: 输入关键词, 确定保存, 八爪鱼自动将关键词填入输入框中, 并将这个步骤添加到流程中,



    接下来点击搜索按钮(网页上), 在右边的自能提示框中选择[点击该按钮], 八爪鱼执行了这个操作, 添加到流程图中

  4. 采集全部需要的数据: 在八爪鱼中需要建立一个循环去完成
    选择第一个列表, 在弹出的提示框中选择选中子元素( 这里的子元素就是选中列表中的字段) 再在智能提示框中点击[ 选中全部 ], 继续点击[ 采集数据 ] , 观察流程图, 八爪鱼会自动地生成一个循环的提取数据的流程

下面会出现一个配置抓取数据的模版, 对于不需要的字段和数据, 我们可以点击删除, 还可以修改字段名称

  1. 实现翻页
    因为上面的这个流程采集的是第一页的数据, 我们还需要对通过以下的操作实现数据的翻页采集:
    选中并点击页面中的翻页按钮[ 下一页 ] , 在智能提示框中选中[循环点击下一页 ]

    八爪鱼就在流程图中建立一个循环翻页部分

  2. 设置向下滚动
    在流程图中选中[ 点击元素 ]步骤, 在下面勾选滚动页面, 设置滚动次数, 每次间隔, 滚动方式为向下滚动一屏, 点击确定保存

点击翻页步骤(流程图中),在右边勾选滚动页面, 设置滚动次数, 每次间隔, 滚动方式为向下滚动一屏, 点击确定保存
这样, 一个采集流程就配置好了

7.导出数据
启动采集 点击[ 采集 ]---->[ 启动本地采集 ] ---->数据采集完成后导出数据


爬取结果如下:

由于受各方面因素的影响, 导出来的数据不是很美观, 我们应该对数据进行清洗 , 保留我们需要的数据即可
我需要的数据是站点和坐标的数据 , 结果如下:

八爪鱼采集数据的一般流程相关推荐

  1. 八爪鱼采集数据简单实例

    八爪鱼爬取网页数据的简单使用 发布文章 已保存 目录 八爪鱼介绍 八爪鱼实例一 八爪鱼实例二 八爪鱼介绍 八爪鱼数据采集系统以完全自主研发的分布式云计算平台为核心,可以在很短的时间内,轻松从各种不同的 ...

  2. 事务流程java怎么实现_使用队列和事务实现采集数据实例流程

    采集数据实例流程 1,加入队列消费queuePlayer($array)具体业务方法 2,业务方法说明:使用事务,处理采集数据,处理业务逻辑, 3,日志添加 private $user = ''; p ...

  3. 计算机读取数据的接囗教程,八爪鱼采集怎样获取数据API链接 八爪鱼采集获取数据API链接的方法...

    今天给大家带来八爪鱼采集怎样获取数据API链接,八爪鱼采集获取数据API链接的方法,让您轻松解决问题.八爪鱼采集如何获取数据API链接 具体方法如下:1 java.cs.php示例代码点击下载 这个教 ...

  4. 大数据信息资料采集:公众号武志红文章评论爬取八爪鱼采集器规则

    大数据信息资料采集:公众号武志红文章评论爬取八爪鱼采集器规则 大数据信息资料采集 公众号历史文章采集 公众号评论爬取 微信公众号历史文章导出 抓取微信公众号所有文章. 公众号文章抓取工具 抓取公众号所 ...

  5. 大数据信息资料采集:视频信息采集及评论内容爬取八爪鱼采集规则

    大数据信息资料采集:视频信息采集及评论内容爬取八爪鱼采集规则 数据采集满足多种业务场景:适合产品.运营.销售.数据分析.政府机关.电商从业者.学术研究等多种身份职业. 舆情监控:全方位监测公开信息,抢 ...

  6. 大数据信息资料采集:校园二次元热门漫画动画信息八爪鱼采集规则

    大数据信息资料采集:校园二次元热门漫画动画信息八爪鱼采集规则 数据采集满足多种业务场景:适合产品.运营.销售.数据分析.政府机关.电商从业者.学术研究等多种身份职业. 舆情监控:全方位监测公开信息,抢 ...

  7. 大数据信息资料采集:商品促营销活动海报设计模板八爪鱼采集规则

    大数据信息资料采集:商品促营销活动海报设计模板八爪鱼采集规则 数据采集满足多种业务场景:适合产品.运营.销售.数据分析.政府机关.电商从业者.学术研究等多种身份职业. 舆情监控:全方位监测公开信息,抢 ...

  8. 大数据信息资料采集:情感公号风茕子历史文章评论爬取八爪鱼采集

    大数据信息资料采集:情感公号风茕子历史文章评论爬取八爪鱼采集 大数据信息资料采集 公众号历史文章采集 公众号评论爬取 微信公众号历史文章导出 抓取微信公众号所有文章. 公众号文章抓取工具 抓取公众号所 ...

  9. android手机传感器坐标系,一种将手机内置传感器采集数据从手机坐标系转换到参考坐标系的处理方法与流程...

    本发明提出了一种将手机内置传感器采集的三轴加速度数据从手机坐标系转换到大地参考坐标系的处理方法,该方法涉及到移动通信.模式识别和情景感知等领域. 背景技术: 目前基于智能手机的行为识别是环境智能中的一 ...

  10. 爬虫采集数据遇到验证码怎么解决?

    摘要:出现验证码一般是采集速度比较快.采集数据多,触发了网站的防采集机制所导致的.解决方案是由于其不确定性,并不是采集每一条数据都出现验证码.故需在规则中引入分支判断,对网页是否出现验证码进行判断. ...

最新文章

  1. React 打怪笔记
  2. 一堆乱七八糟绝不正经的排序算法
  3. [Java]Thinking in Java 练习2.10
  4. 从零开始学计算机组装与维修技术,从新手到高手:电脑组装、维护与故障排除...
  5. hdu 5310 Souvenir
  6. 不懂这37个数据中心术语,怎么混数据圈饭局!
  7. Spring+Struts集成(方案一)
  8. Laravel nginx 伪静态规则
  9. 看MASTER围棋有感
  10. servlet异步请求
  11. 物联12:传输线理论
  12. 初学者Apache Solr教程
  13. IDEA 修改主题设置修改主题字体,编辑区字体
  14. 图片服务器-存储图片技巧
  15. 2021年G3锅炉水处理模拟考试及G3锅炉水处理考试试题
  16. acm 算法 java_有关acm算法的一道java题
  17. php输出所有错误信息
  18. python几种矩阵重组降维方式对比
  19. Mezzanine汉化
  20. python猜大小游戏,Python实现的摇骰子猜大小功能小游戏示例

热门文章

  1. Pickit 3D视觉定位抓取系统 -硅步机器人
  2. html5红外遥控,自己写的单片机万能红外遥控解码
  3. 软件测试周刊(第28期):越向前走,越有光明的前途。
  4. 4-google translate插件安装及使用
  5. modelica用inertia连接FlangeWithBearing时报组件不匹配连接错误:incompatible components in connect statement
  6. linux下如何统计一个目录下的文件个数以及代码总行数的命令
  7. 小程序 input 上传数据库
  8. postman中的header入参
  9. Minimax算法——井字棋
  10. 计算机控制技术廖道争答案,2017年三峡大学电气与新能源学院专业目录及考试科目...