使用工具:八爪鱼客户端

在八爪鱼客户端中可以使用自定义模式灵活配置采集任务

首先需要确定目标网址采集需求

以京东为例,我们需要在京东首页输入关键词"手机",然后去采集全部"手机"搜索结果的数据(八爪鱼工具采集)


第一步 复制粘贴目标网址

复制京东首页的网址。粘贴至八爪鱼首页选项的网址输入框中,点击开始采集,点击保存设置,可以观察到八爪鱼自动的打开了这个网页,接下来就是去配置采集流程。

查看采集流程的开关在设置选项里,自定义模式配置里的打开流程图默认开启的。


第二步  输入文本&执行操作&添加流程

输入关键词"手机",并实现搜索,选中输入框,在弹出的操作提示框中选择输入文字,输入关键词"手机",点击"确定"保存,注意观察,八爪鱼自动的将"手机"这一关键词自动的填充到了输入框中,并将这个步骤添加到了流程中。

接下来是点击"搜索"按钮,选中"搜索"按钮,在操作提示框中选择"点击该按钮",同样的,八爪鱼执行了搜索这个操作,并将这个步骤添加进流程中,现在页面中就出现了手机这个商品关键词的搜索结果。


第三步 采集全部手机数据

在八爪鱼中是需要建立一个循环去完成的,怎样建立循环呢?

选中第一个手机列表,在弹出的操作提示框中选择"选中子元素"。

这里的"子元素"就是手机列表中的字段,选择"选中子元素"以后提示我们发现30组同类元素,很显然我们是需要采集页面中全部30组手机数据的,所以呢在这里需要选择"选中全部"。

继续选择"采集数据",注意观察,八爪鱼就自动地生成了一个"循环-提取数据"的步骤,循环中的30条对应着页面中的30个手机数据,提取数据中的字段,对应着每一个手机中的具体字段。

八爪鱼它自动提取了很多字段,有些是我们不需要的,可以选中字段,点击右侧的"垃圾桶"图标,将其删除。

除了删除字段外还可以修改字段的名称,如修改成(价格,标题)字段。


第四步 实现翻页

现在这个流程采集的是第一页数据,如果我们需要翻页采集,该如何操作?

选中并点击页面中的"下一页"按钮,在出现的操作提示框中选择"循环点击下一页"。

注意观察,八爪鱼建立了一个"循环翻页"的步骤,有了循环翻页步骤以后,八爪鱼就能实现全自动翻页了。


第五步 设置向下滚动

京东这个网站比较特别,在出现手机搜索结果以后,需要向下滚动页面,才会加载出所有的手机列表。

相对应的在八爪鱼中也需要设置向下滚动,选中八爪鱼流程中的"点击元素"步骤。

滚动页面选项中勾选"页面加载完成后向下滚动"。

滚动次数设置为"10",每次间隔设置为"0.5",滚动方式设置为"向下滚动一屏",点击"确定"保存。

点击"点击翻页"步骤,进行同样的设置,现在一个完整的采集任务就配置好了。启动采集后,八爪鱼就会按照我们的配置全自动的去采集每一页手机数据。


第六步  采集启动运行

点击"开始采集"按钮,选择"启动本地采集",本地采集就是指用数据采集到本地文件。

运行后,八爪鱼全自动的打开一个采集任务,并按照配置开始采集数据。

数据采集完成以后会弹出来一个提示框,选择"导出数据",以需要的格式进行导出(Excel[xlsx]csvhtml,Json格式以及[sqlMySQLOracle]数据库等),图中举例选择的是"Excel[xlsx]"格式进行导出。

点击"确定",即可以看到最终的导出结果。

自定义配置的任务会保存在"我的任务"中,点击"我的任务",找到刚才自定义创建的任务,点击更多操作下的"···",选择查看数据选项下的"本地采集数据",可以查看此任务采集到的数据。

当然在此也可以进行数据的导出。

自定义配置中的任务是可以多次启动和二次编辑的,点击此处的"启动本地采集"图标,可快速启动本地采集。

点击任务名,进入到任务配置页面。

在这里是可以修改任务配置的,例如在输入文字步骤,当前输入的是"手机"关键词,我可以将其更换成"电脑"。


自定义配置任务方法一:在首页输入框中输入网址去自定义配置任务的。

自定义配置任务方法二:点击左侧的新建-自定义任务,直接开始输入网址进行自定义任务的配置。

八爪鱼-自定义模式采集数据_视频教程执行相关推荐

  1. 最大化参数 火车头_火车头采集器教程:使用正则匹配模式采集数据

    使用正则匹配模式采集数据 正则表达式很强大,利用它我们可以获得一定格式的数据,比如网址,E-mail地址,数字,字母等等.可喜的是,从3.2版开始,火车 采集器就支持正则规则的编写了,这给喜欢用正则来 ...

  2. 管道过滤模式 大数据_大数据管道配方

    管道过滤模式 大数据 介绍 (Introduction) If you are starting with Big Data it is common to feel overwhelmed by t ...

  3. 彩六怎么开自定义房间_彩虹六号围攻如何畅玩自定义模式_彩虹六号围攻自定义模式怎么玩_游戏堡...

    <彩虹六号:围攻(Tom Clancy's Rainbow Six Siege)>如何畅玩自定义模式,<彩虹六号:围攻(Tom Clancy's Rainbow Six Siege) ...

  4. 最大化参数 火车头_火车头使用正则匹配模式采集数据

    正则表达式很强大,利用它我们可以获得一定格式的数据,比如网址,E-mail地址,数字,字母等等.可喜的是,从3.2版开始,火车采集器就支持正则规则的编写了,这给喜欢用正则来实现不同需求的朋友带来福音. ...

  5. Python实现定时任务,定时采集数据,定时执行脚本程序都可以

    写后端的同学们可能都知道,工作中可能需要周期性执行一些任务,俗称定时任务.Linux环境下,可以借助于系统自带的crontab完成定时任务.但是很多时候,开发的同学们可能并没有权限去操作crontab ...

  6. influxdb 插入数据_脚本采集数据插入到influxdb数据库里

    #!/bin/bash # 定时收集java服务metrics # curl http://10.7.16.42:6301/metrics demo # 参数: post_influxdb_write ...

  7. 八爪鱼批量爬取html中的数据,网页数据如何批量采集_视频教程 - 八爪鱼采集器...

    本视频介绍循环方式中的URL循环和文本循环. URL循环适用场景: 在多个同类型的网页中,需要采集的字段相同. 例如: https://movie.douban.com/subject/2638793 ...

  8. 《八爪鱼采集器》如何自定义抓取数据

    步骤1:创建采集任务 1)进入主界面,选择"自定义模式" 2)将要采集的网址复制粘贴到网站输入框中,点击"保存网址" 步骤2:创建翻页循环 1)在页面右上角,打 ...

  9. html载入excel数据库,网页数据采集如何导出为Excel、CSV、Html、数据库、API格式_视频教程 - 八爪鱼采集器...

    本视频介绍数据查看与导出. 本地采集数据如有采到重复数据.将在点击"导出数据"后提示是否去除重复,可选将全部数据导出也可选去重后导出. 本地数据在导出后不会自动清除,下次可以再次导 ...

  10. 后羿采集器怎么导出数据_数据采集教程_智能模式_如何设置自动导出_后羿采集器...

    后羿采集器支持自动导出功能,通过使用该功能,可以实现在采集数据的过程中自动导出采集结果到本地文件和数据库,不需要等到任务运行结束后手动导出数据. 开启自动导出有两种方式: 第一种是直接在启动任务时进行 ...

最新文章

  1. android 三级界面返回直接到一级界面
  2. Busybox 设置登录用户名、密码
  3. VTK:vtkActor2D用法实战
  4. g100显卡 linux驱动,nvidia geforce g100驱动
  5. 基础省选+NOI-第7部分 概率统计与多项式
  6. 中小型园区网络的基本部署之动手划分vlan
  7. python3: failed with error code 1 in /tmp/pip-build-qp5puacl/Pillow/
  8. SEO实战密码阅读笔记
  9. DoEvents应用
  10. 内存卡Android怎么删除,安卓手机怎么清理内置存储卡垃圾文件
  11. BZOJ 2794 [Poi2012]Cloakroom(离线+背包)
  12. 用opencv检测convexity defects
  13. 1144C C. Two Shuffled Sequences(优先队列和set的应用)
  14. 软件测试自学毛笔字纹身,横眉冷对千夫指 俯首甘为孺子牛的毛笔楷书和行书...
  15. castle典范英语 storm_fb08 新版典范英语1-9年级 PDF文档+MP3音频 含练习册及教学参考...
  16. 126. 单词接龙 II
  17. 专升本计算机的数学考不考正态分布,高考成绩不一定是正态分布
  18. CSS水平垂直居中常见方法总结(转)
  19. 2.2.2同向放大器、同向放大器的设计
  20. VS单步调试UE4打包的exe游戏

热门文章

  1. 【PCAN医疗应用系列】CAN总线技术在实现实时荧光定量基因扩展(PCR)仪控制系统上的应用(2)
  2. chrome浏览器 自带网页截取长图功能
  3. Python安装和几种Python编程工具介绍
  4. 2021年爬虫人员必须掌握的 App 抓包工具(一):Charles
  5. Google ptorobuf相关知识
  6. mysql数字加减乘除_mysql加减乘除
  7. modelica语言学习心得
  8. 学习笔记 | Inverting Gradients--How easy is it to break privacy in federated learning
  9. UVA 12676 Inverting Huffman
  10. mysql创建数据库_MySQL创建数据库的两种方法