使用工具:八爪鱼客户端

在八爪鱼客户端中可以使用自定义模式灵活配置采集任务

首先需要确定目标网址采集需求

以公开数据房地产信息平台为例,首先需要挖掘出目标网址,然后去采集全部"房源"搜索结果的数据(八爪鱼工具采集)


目录

一 挖掘目标网址

1.进入目标网址查看

2.挖掘目标数据的真实网址

二 设置采集流程

1.粘贴网址并开始设置采集流程

2.设置数据目标对象

三 生成采集设置

四 设置翻页和滚动操作

五 启动采集

六 导出数据

七 采集数据的展示


一 挖掘目标网址

1.进入目标网址查看

①输入目标网址:http://zjj.sz.gov.cn:8004/(以深圳市房地产信息平台为例)

②点击"房源库"按钮,出现对应的"标题栏"

③点击标题栏下的"一手预售房源"按钮,即可出现目标数据

如下图所示:

2.挖掘目标数据的真实网址

①首先按F12进入开发者界面

②然后通过点击"一手房预售房源"按钮,进入到数据详情面板

③点击所出现的"index.aspx"文件,并选取复制真正的数据URL链接:http://zjj.sz.gov.cn/ris/bol/szfdc/index.aspx


二 设置采集流程

1.粘贴网址并开始设置采集流程

①打开八爪鱼客户端,将复制好的网址粘贴至输入框中

②点击"开始采集"按钮,进入到采集流程设置界面

2.设置数据目标对象

①鼠标左键点选空白处(选择需要采集的目标对象)

②选择操作提示框中所出现的"采集该元素的文本"按钮

注意:操作步骤②完成之后流程图中会出现"点击元素"步骤,步骤名称可以修改。

衔接上一步,继续选择"自动识别网页"按钮,流程图中此时出现了"提取数据"步骤,当前页面数据预览出现了所识别到的数据

衔接上一步,执行"自动识别网页"时,可以随时进行"取消识别"的操作


三 生成采集设置

选择"生成采集设置"(必选)

点击"垃圾桶"图标可以删除任意行字段(不需要的数据)

衔接上一步,铅笔符号为修改字段(列)名称,垃圾桶符号为删除字段(列)


四 设置翻页和滚动操作

生成采集设置之后,只能采集当前页的数据,还需要进行翻页和滚动的操作才能采集全部数据

此处选择"设置翻页采集"

衔接上一步

①点击">"翻页按钮

②点击"确定"按钮

衔接上一步,点击"设置"图标按钮,进入循环翻页步骤的设置

衔接上一步

①计算循环次数3581/10=358次(按采集的具体情况执行)

②将循环次数填入文本框中

③点击"应用"按钮即可

衔接上一步,点击"设置"图标按钮,进入到点击翻页步骤的设置页面

衔接上一步设置滚动操作

①打开"页面加载后"选项栏

②进行如下设置:勾选"页面加载后向下滚动" ; 选择"向下滚动一屏" ; 滚动次数设置为 " 5 " 次 ;每次间隔为 " 0.5秒 " (可按具体情况设置)

③设置完成后,点击"应用"按钮即可完成设置


五 启动采集

保存并点击"采集"按钮

然后选择"启动本地采集"

采集进行中所花费的时间比较久

①左下角有采集信息数量的描述

②中途可以随时停止采集


六 导出数据

采集任务完成后导出

①选择导出数据

②选择"去重数据"

③选择所有数据导出

衔接上一步,选择"Excel(xlsx)"格式,点击"确定"按钮

衔接上一步,给导出文件命名,并点击"保存"即可在对应的文件夹中预览


七 采集数据的展示

此截图为部分采集数据的展示

八爪鱼-自定义模式采集数据相关推荐

  1. 最大化参数 火车头_火车头采集器教程:使用正则匹配模式采集数据

    使用正则匹配模式采集数据 正则表达式很强大,利用它我们可以获得一定格式的数据,比如网址,E-mail地址,数字,字母等等.可喜的是,从3.2版开始,火车 采集器就支持正则规则的编写了,这给喜欢用正则来 ...

  2. 最大化参数 火车头_火车头使用正则匹配模式采集数据

    正则表达式很强大,利用它我们可以获得一定格式的数据,比如网址,E-mail地址,数字,字母等等.可喜的是,从3.2版开始,火车采集器就支持正则规则的编写了,这给喜欢用正则来实现不同需求的朋友带来福音. ...

  3. 《八爪鱼采集器》如何自定义抓取数据

    步骤1:创建采集任务 1)进入主界面,选择"自定义模式" 2)将要采集的网址复制粘贴到网站输入框中,点击"保存网址" 步骤2:创建翻页循环 1)在页面右上角,打 ...

  4. 八爪鱼采集数据简单实例

    八爪鱼爬取网页数据的简单使用 发布文章 已保存 目录 八爪鱼介绍 八爪鱼实例一 八爪鱼实例二 八爪鱼介绍 八爪鱼数据采集系统以完全自主研发的分布式云计算平台为核心,可以在很短的时间内,轻松从各种不同的 ...

  5. 利用自定义web-font实现数据防采集

    From:https://blog.csdn.net/fdipzone/article/details/68166388 完整源码:https://download.csdn.net/download ...

  6. ADC采集数据(DMA模式)

    ADC采集数据(DMA模式) 写这篇文章,也是自己参考了一些书籍,加上自己的感悟总结之后写出来的.正所谓天下文章一大抄,取个文雅的名字叫模仿.借鉴.参考.不过这也是一种学习的方法,我想你看我这篇文章也 ...

  7. 数据采集:如何自动化采集数据

    数据采集:如何自动化采集数据 一个数据的走势,是由多个维度影响的,收集到尽可能多的数据维度,同时保证数据的质量,才能得到高质量的数据挖掘结构 数据源分四类:开放数据源(政府.企业.高校).爬虫抓取(网 ...

  8. 运维实操——日志分析系统ELK(中)之logstash采集数据、伪装rsyslog、多行过滤、grok切片

    日志分析系统ELK(中)之logstash 1.什么是logstash? 2.Logstash安装 3.logstash简单命令行测试 4.logstash文件测试 (1)命令行输入,输出到文件 (2 ...

  9. 后羿采集器怎么导出数据_推荐爬虫神器后羿采集器,小白也能一键采集数据

    你有没有烦恼过,如何将网页中包含的各种信息转变为有用的数据呢? 粘贴复制??太累 开发软件??太贵 写python爬虫??太难学 下载了一些工具??太难用 这里推荐第2款采集数据的神器,后羿采集器,无 ...

  10. linux uvc协议_linux使用UVC采集数据

    V4L2是V4L的升级版本,linux下视频设备程序提供了一套接口规范. 常用的结构体在内核目录include/linux/videodev2.h中定义 struct v4l2_requestbuff ...

最新文章

  1. CES新观察:智能应用全面开花 “陆海空”新品值得关注
  2. 一些c++的常见问题(系列一)
  3. 远程连接计算机用户名怎样修改,更改服务器远程桌面用户名
  4. 利用fstream进行文件拷贝测试
  5. Statement returned more than one row, where no more than one was expected
  6. 开发者测试你必须知道的7件事
  7. 演示:思科交换机的Telnet管理与SSH管理
  8. 2008年下半年软件水平考试之程序员试题分析
  9. 获取IP及判断IP是否在区间
  10. 如何使用CineMatch的伪色指南功能来帮助评估图像
  11. 工作流入门比较经典的文献
  12. mysql handlersocket_HandlerSocket介绍
  13. vue axios轮询更新echarts 页面崩溃问题
  14. 吴昊品游戏核心算法 Round 8(特别篇) —— 吴昊教你打麻将(牌型分析AI)
  15. 计算机上如何使用文件管理器,苹果iphone iFiles文件管理器使用图文教程
  16. 如何给div加遮罩?
  17. Telegram Bot 使用文档
  18. 万物互联----聊聊OPC服务器KepWare
  19. 优惠券使用条件全解析
  20. 如何成为一个全能的机器人工程师

热门文章

  1. c语言ctype函数,C语言函数--ctype.h库函数
  2. c语言的链表ppt,C语言链表详解ppt.ppt
  3. 未来教育考试系统无法答题,点击选项后没有反应,不会记录答题
  4. Java项目--网页版音乐播放器(JQuery前端逻辑)
  5. OA协同办公系统对企业建设会带来什么好处?
  6. matlab如何返回上一步
  7. 2022年【CSDN毎周小结】
  8. 周期均方根和有效值的区别_电流电压“均方根值”为何是有效值?
  9. 网络远程控制原理及技术实现
  10. 程序员眼中的中国传统文化-王阳明《传习录》3