介绍

在使用automa浏览器插件爬取数据时,可以直接通过发送请求将爬取到的网页数据持久化到数据库中

本次以360趋势图爬取后插入数据库当做测试

建立流程

首先建立打开360趋势图的流程,这个不再演示,直接从获取分析元素开始

打开要爬取的网页 点击定位元素

建立表格存储爬取到的数据

建立获取文本组

测试是否能拿到单个单元格数据

其他几个也是同理

添加循环断点 指定断点的循环id

添加循环退出条件

可以看出这里总共有41页,所以我们可以判断最后的标签数字是否是41,如果是则退出爬取流程,这个处理方法不是最优解,因为这需要提前知道网页数据的页数,但是先这样处理,后面最优解会再优化下

所以这里可以直接拿取到当前元素判断当前元素数字是否是41,作为流程爬取的结束条件

如果不是41,则直接点击下一页

拿取到"下一页"的元素定位

再添加延时效果 延迟500ms

然后先测试是否可以爬取到数据

爬取到了数据

然后书写java后台,这里选择后台接口接参为 json格式

注意automa插件不能直接发送请求给localhost:端口号或者127.0.0.1:端口

这里可以将服务后台部署到外网可以访问的服务器,或者直接搭建内网穿透

首先建立表库

java后台简单展示下,只展示controller层 实体,服务层等不再展示

这里用natapp搭建内网穿透进行测试

在流程循环最后添加javaScript代码块

先测试下看看能不能拿到表格数据

可以拿到

然后使用automa内置的发送请求方法

官方文档

好了,发起请求测试

nice,测试成功!

或者还可以直接通过http请求块来发起请求

根据automa官网文档,这里拿取表格数据可以通过固定表达式{{table}}直接拿取爬取到的表格数据进行发送请求

注意上方图示只做测试用,如果在loop循环里发起请求,那么这里就会有重复插入,因为本案例的话每爬取一页就会发起一个请求,应该在loop循环外爬取完数据后再进行发起请求,这里只是做演示用

Automa爬取网页数据直接入库(四)相关推荐

  1. Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索

    Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索 一.资源 为什么接下来的代码中要使用el.getElementsByTa ...

  2. python爬取网页公开数据_如何用Python爬取网页数据

    使用Python爬取网页数据的方法: 一.利用webbrowser.open()打开一个网站:>>> import webbrowser >>> webbrowse ...

  3. 编程python爬取网页数据教程_实例讲解Python爬取网页数据

    一.利用webbrowser.open()打开一个网站: >>> import webbrowser >>> webbrowser.open('http://i.f ...

  4. python爬虫教程:实例讲解Python爬取网页数据

    这篇文章给大家通过实例讲解了Python爬取网页数据的步骤以及操作过程,有兴趣的朋友跟着学习下吧. 一.利用webbrowser.open()打开一个网站: >>> import w ...

  5. 如何用python爬取网页数据,python爬取网页详细教程

    大家好,本文将围绕python怎么爬取网站所有网页展开说明,如何用python爬取网页数据是一个很多人都想弄明白的事情,想搞清楚python如何爬取网页数据需要先了解以下几个事情. 1.如何用Pyth ...

  6. python爬虫爬网站数据登录_使用webdriver+urllib爬取网页数据(模拟登陆,过验证码)...

    urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...

  7. python3和burpsuite组合爬取网页数据并存储在excel表格(需要登录后才能看到的大量数据)

    python3和burpsuite组合爬取网页数据并存储在excel表格 作者:ch4nge 时间:2020.12.18 前言 最近在工作中遇到一个问题:渗透进入某网站后台,发现大量的用户数据(某恶意 ...

  8. python爬取网页汉字_程序小技巧:Python3借助requests类库3行代码爬取网页数据!快来...

    爬取网页数据是python很长干的一件事情,不过做起来基本上都是很冗长的一段代码,看起来复杂,不宜理解.今天给大家分享一个小诀窍,利用python3中的requests类库进行爬取网页数据. 我们先看 ...

  9. 使用webdriver+urllib爬取网页数据(模拟登陆,过验证码)

    urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...

最新文章

  1. DGL-LifeSci:面向化学和生物领域的 GNN 算法库
  2. NeurIPS 2020论文接收列表公布,智源研究院35篇入围
  3. UITableVeiw相关的需求解决
  4. 华为鸿蒙第一期名单,机型正式确认,鸿蒙2.0第一批名单曝光!花粉:华为不够厚道...
  5. 门户网站负载均衡技术的六大新挑战
  6. HTTP协议之:HTTP/1.1和HTTP/2
  7. 在VMware 14中安装Centos7
  8. css怎么使元素绝对定位有过度效果_CSS定位属性Position实例分析
  9. [Android系列—] 2. Android 项目目录结构与用户界面的创建
  10. 【2020团体程序设计天梯赛】L1部分(PTA,L1-065到L1-072)题解代码
  11. RayData大数据可视化教程(3)——用逻辑控制颜色动画切换并打包
  12. ArcGIS操作系列5 - Arcmap 裁剪 矢量和栅格数据
  13. 无损音乐ape格式怎么转为ogg格式
  14. 数据库的四种隔离级别
  15. 配置IDEA/创建springboot+maven项目
  16. verilog prbs
  17. Dynamics CRM: 权限问题之SecLib::AccessCheckEx2 failed
  18. 【入门案例系列】学英语太难?这款英语单词小游戏教你一键学会。
  19. 信用风险计量模型汇总
  20. Star Trek强势来袭 开启元宇宙虚拟与现实的梦幻联动

热门文章

  1. 简单说明xml文件中foreach中collection的含义和用法
  2. 学计算机头发变白了,掉头发,头发变白可不是小事!该如何调理?
  3. keepass自动输入密码_如何使用Keepass密码管理器更好地组织机密
  4. Linux 系统 IO之 lseek 函数
  5. zabbix安装grafana
  6. 如何运行.inf文件
  7. ROS知识【08】:ros1的体系结构
  8. COGS 201. [BYVoid S1] 埃雷萨拉斯的宝藏
  9. 数学建模 比赛日程安排问题 答案及程序代码
  10. Project项目信息的日程排定方法区别