Automa爬取网页数据直接入库(四)

2024-05-07 03:14:45

介绍

在使用automa浏览器插件爬取数据时,可以直接通过发送请求将爬取到的网页数据持久化到数据库中

本次以360趋势图爬取后插入数据库当做测试

建立流程

首先建立打开360趋势图的流程,这个不再演示,直接从获取分析元素开始

打开要爬取的网页点击定位元素

建立表格存储爬取到的数据

建立获取文本组

测试是否能拿到单个单元格数据

其他几个也是同理

添加循环断点指定断点的循环id

添加循环退出条件

可以看出这里总共有41页,所以我们可以判断最后的标签数字是否是41,如果是则退出爬取流程,这个处理方法不是最优解,因为这需要提前知道网页数据的页数,但是先这样处理,后面最优解会再优化下

所以这里可以直接拿取到当前元素判断当前元素数字是否是41,作为流程爬取的结束条件

如果不是41,则直接点击下一页

拿取到"下一页"的元素定位

再添加延时效果延迟500ms

然后先测试是否可以爬取到数据

爬取到了数据

然后书写java后台,这里选择后台接口接参为 json格式

注意automa插件不能直接发送请求给localhost:端口号或者127.0.0.1:端口

这里可以将服务后台部署到外网可以访问的服务器,或者直接搭建内网穿透

首先建立表库

java后台简单展示下,只展示controller层实体,服务层等不再展示

这里用natapp搭建内网穿透进行测试

在流程循环最后添加javaScript代码块

先测试下看看能不能拿到表格数据

可以拿到

然后使用automa内置的发送请求方法

官方文档

好了,发起请求测试

nice,测试成功!

或者还可以直接通过http请求块来发起请求

根据automa官网文档,这里拿取表格数据可以通过固定表达式{{table}}直接拿取爬取到的表格数据进行发送请求

注意上方图示只做测试用,如果在loop循环里发起请求,那么这里就会有重复插入,因为本案例的话每爬取一页就会发起一个请求,应该在loop循环外爬取完数据后再进行发起请求,这里只是做演示用

Automa爬取网页数据直接入库(四)相关推荐

Jsoup：用Java也可以爬虫，怎么使用Java进行爬虫，用Java爬取网页数据，使用Jsoup爬取数据，爬虫举例：京东搜索
Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索一.资源为什么接下来的代码中要使用el.getElementsByTa ...
python爬取网页公开数据_如何用Python爬取网页数据
使用Python爬取网页数据的方法: 一.利用webbrowser.open()打开一个网站:>>> import webbrowser >>> webbrowse ...
编程python爬取网页数据教程_实例讲解Python爬取网页数据
一.利用webbrowser.open()打开一个网站: >>> import webbrowser >>> webbrowser.open('http://i.f ...
python爬虫教程：实例讲解Python爬取网页数据
这篇文章给大家通过实例讲解了Python爬取网页数据的步骤以及操作过程,有兴趣的朋友跟着学习下吧. 一.利用webbrowser.open()打开一个网站: >>> import w ...
如何用python爬取网页数据,python爬取网页详细教程
大家好,本文将围绕python怎么爬取网站所有网页展开说明,如何用python爬取网页数据是一个很多人都想弄明白的事情,想搞清楚python如何爬取网页数据需要先了解以下几个事情. 1.如何用Pyth ...
python爬虫爬网站数据登录_使用webdriver+urllib爬取网页数据(模拟登陆，过验证码)...
urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...
python3和burpsuite组合爬取网页数据并存储在excel表格(需要登录后才能看到的大量数据)
python3和burpsuite组合爬取网页数据并存储在excel表格作者:ch4nge 时间:2020.12.18 前言最近在工作中遇到一个问题:渗透进入某网站后台,发现大量的用户数据(某恶意 ...
python爬取网页汉字_程序小技巧：Python3借助requests类库3行代码爬取网页数据！快来...
爬取网页数据是python很长干的一件事情,不过做起来基本上都是很冗长的一段代码,看起来复杂,不宜理解.今天给大家分享一个小诀窍,利用python3中的requests类库进行爬取网页数据. 我们先看 ...
使用webdriver+urllib爬取网页数据(模拟登陆，过验证码)
urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...

最新文章

热门文章