Automa爬取网页数据直接入库(四)
介绍
在使用automa浏览器插件爬取数据时,可以直接通过发送请求将爬取到的网页数据持久化到数据库中
本次以360趋势图爬取后插入数据库当做测试
建立流程
首先建立打开360趋势图的流程,这个不再演示,直接从获取分析元素开始
打开要爬取的网页 点击定位元素
建立表格存储爬取到的数据
建立获取文本组
测试是否能拿到单个单元格数据
其他几个也是同理
添加循环断点 指定断点的循环id
添加循环退出条件
可以看出这里总共有41页,所以我们可以判断最后的标签数字是否是41,如果是则退出爬取流程,这个处理方法不是最优解,因为这需要提前知道网页数据的页数,但是先这样处理,后面最优解会再优化下
所以这里可以直接拿取到当前元素判断当前元素数字是否是41,作为流程爬取的结束条件
如果不是41,则直接点击下一页
拿取到"下一页"的元素定位
再添加延时效果 延迟500ms
然后先测试是否可以爬取到数据
爬取到了数据
然后书写java后台,这里选择后台接口接参为 json格式
注意automa插件不能直接发送请求给localhost:端口号或者127.0.0.1:端口
这里可以将服务后台部署到外网可以访问的服务器,或者直接搭建内网穿透
首先建立表库
java后台简单展示下,只展示controller层 实体,服务层等不再展示
这里用natapp搭建内网穿透进行测试
在流程循环最后添加javaScript代码块
先测试下看看能不能拿到表格数据
可以拿到
然后使用automa内置的发送请求方法
官方文档
好了,发起请求测试
nice,测试成功!
或者还可以直接通过http请求块来发起请求
根据automa官网文档,这里拿取表格数据可以通过固定表达式{{table}}直接拿取爬取到的表格数据进行发送请求
注意上方图示只做测试用,如果在loop循环里发起请求,那么这里就会有重复插入,因为本案例的话每爬取一页就会发起一个请求,应该在loop循环外爬取完数据后再进行发起请求,这里只是做演示用
Automa爬取网页数据直接入库(四)相关推荐
- Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索
Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索 一.资源 为什么接下来的代码中要使用el.getElementsByTa ...
- python爬取网页公开数据_如何用Python爬取网页数据
使用Python爬取网页数据的方法: 一.利用webbrowser.open()打开一个网站:>>> import webbrowser >>> webbrowse ...
- 编程python爬取网页数据教程_实例讲解Python爬取网页数据
一.利用webbrowser.open()打开一个网站: >>> import webbrowser >>> webbrowser.open('http://i.f ...
- python爬虫教程:实例讲解Python爬取网页数据
这篇文章给大家通过实例讲解了Python爬取网页数据的步骤以及操作过程,有兴趣的朋友跟着学习下吧. 一.利用webbrowser.open()打开一个网站: >>> import w ...
- 如何用python爬取网页数据,python爬取网页详细教程
大家好,本文将围绕python怎么爬取网站所有网页展开说明,如何用python爬取网页数据是一个很多人都想弄明白的事情,想搞清楚python如何爬取网页数据需要先了解以下几个事情. 1.如何用Pyth ...
- python爬虫爬网站数据登录_使用webdriver+urllib爬取网页数据(模拟登陆,过验证码)...
urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...
- python3和burpsuite组合爬取网页数据并存储在excel表格(需要登录后才能看到的大量数据)
python3和burpsuite组合爬取网页数据并存储在excel表格 作者:ch4nge 时间:2020.12.18 前言 最近在工作中遇到一个问题:渗透进入某网站后台,发现大量的用户数据(某恶意 ...
- python爬取网页汉字_程序小技巧:Python3借助requests类库3行代码爬取网页数据!快来...
爬取网页数据是python很长干的一件事情,不过做起来基本上都是很冗长的一段代码,看起来复杂,不宜理解.今天给大家分享一个小诀窍,利用python3中的requests类库进行爬取网页数据. 我们先看 ...
- 使用webdriver+urllib爬取网页数据(模拟登陆,过验证码)
urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...
最新文章
- DGL-LifeSci:面向化学和生物领域的 GNN 算法库
- NeurIPS 2020论文接收列表公布,智源研究院35篇入围
- UITableVeiw相关的需求解决
- 华为鸿蒙第一期名单,机型正式确认,鸿蒙2.0第一批名单曝光!花粉:华为不够厚道...
- 门户网站负载均衡技术的六大新挑战
- HTTP协议之:HTTP/1.1和HTTP/2
- 在VMware 14中安装Centos7
- css怎么使元素绝对定位有过度效果_CSS定位属性Position实例分析
- [Android系列—] 2. Android 项目目录结构与用户界面的创建
- 【2020团体程序设计天梯赛】L1部分(PTA,L1-065到L1-072)题解代码
- RayData大数据可视化教程(3)——用逻辑控制颜色动画切换并打包
- ArcGIS操作系列5 - Arcmap 裁剪 矢量和栅格数据
- 无损音乐ape格式怎么转为ogg格式
- 数据库的四种隔离级别
- 配置IDEA/创建springboot+maven项目
- verilog prbs
- Dynamics CRM: 权限问题之SecLib::AccessCheckEx2 failed
- 【入门案例系列】学英语太难?这款英语单词小游戏教你一键学会。
- 信用风险计量模型汇总
- Star Trek强势来袭 开启元宇宙虚拟与现实的梦幻联动