spider-flow 作为web爬虫他可以简单的说是新一代的爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫。

也就是说我们不用在刻意的为了一些数据就去学一下语言如python,我们只要画个流程图配套的使用它的api就可以简单的快速爬取你想要的数据了。

我这先摘抄一下他在码云上的readm.md,等会儿再来详细说明一个我使用它平台爬取数据的案例,当然你要先看他提供的使用说明也就是api啦 https://www.spiderflow.org,看完再进入他的演示网站 http://demo.spiderflow.org/ 那里有很多的例子不过有很多都是别人测试的甚至有些就一个起步图标而已,之所以写这篇博客也就是记录一下我初学的结果啦。

spider-flow

【声明】 请勿将spider-flow应用到任何可能会违反法律规定和道德约束的工作中,请友善使用spider-flow,遵守蜘蛛协议,不要将spider-flow用于任何非法用途。如您选择使用spider-flow即代表您遵守此协议,作者不承担任何由于您违反此协议带来任何的法律风险和损失,一切后果由您承担。

介绍

新一代爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫。

QQ交流群:720832964

项目结构

spider-flow
├── spider-flow-api -- 插件开发的依赖
├── spider-flow-core -- 核心包
├── spider-flow-web -- web界面

特性

  • 支持css选择器、正则提取
  • 支持JSON/XML格式
  • 支持Xpath/JsonPath提取
  • 支持多数据源、SQL select/insert/update/delete
  • 支持爬取JS动态渲染的页面
  • 支持代理
  • 支持二进制格式
  • 支持保存/读取文件(csv、xls、jpg等)
  • 常用字符串、日期、文件、加解密等函数
  • 支持流程嵌套
  • 支持插件扩展(自定义执行器,自定义函数)
  • 任务监控
  • 支持HTTP接口

插件列表

  • Selenium插件
  • Redis插件
  • OSS插件
  • Mongodb插件
  • Hbase插件
  • IP代理池插件
  • OCR识别插件
  • 电子邮箱插件

项目部分截图

spider-flow 搭建运行

spider-flow 是java开发的根据他的项目结构我很容易的就用idea快速的下载项目并搭建和运行起来

码云地址:https://gitee.com/jmxd/spider-flow.git

点击Clone后再用idea打开

这样他的项目我们就用idea下载好了,接下来我们用一下他给的数据库sql文件生成一下表这里我用的是navcat,当然你也可以用我给的SQL文件,这里有我目前学过后保存的相关案例项目运行后就会在爬虫列表里显示出来

百度网盘链接:https://pan.baidu.com/s/1Q-BaDH1Vk4EI4g31G-R8VQ 
提取码:24q4 
复制这段内容后打开百度网盘手机App,操作更方便哦

最后生成数据库和表

修改下他的web程序启动配置 application.properties

好了运行一下项目并访问一下

这里的案例我就不说了就用我看过他的api后自己敲得案例来说一下

我这个案例就是爬取薄荷网站所有食物的热量和减肥功效,数据也不是太多就1581kb吧

如果你运行SQL文件是用我给你的SQL文件那你可以在爬虫列表里看到我给的爬取薄荷网的热量和减法功效的案例点击进去如图

这张图最后有三种结果,你可以全部用箭头选中,也可以选一个

最后我用我的案例来说明一下其中的语句和使用方法

还没怎么使用过这个图标

使用这个图标你要先去添加一下数据源

使用和图标介绍也就说道这里了,更多的请参考他的api,也希望他们提供的api和案例多一些毕竟好用但是不好学啊,就比如我现在还不知道怎么把数据保存到.xls表格太失败了我。

下面是我成功运行后保存的结果:

保存到数据库:

保存到txt:

SpiderFlow平台v0.3.0初次使用并爬取薄荷网的热量和减法功效相关推荐

  1. python卡路里程序_SpiderFlow平台v0.3.0初次使用并爬取薄荷网的热量和减法功效

    spider-flow 作为web爬虫他可以简单的说是新一代的爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫. 也就是说我们不用在刻意的为了一些数据就去学一下语言如python,我们只要画个 ...

  2. 0 Maven中央仓库爬取技术与内网本地Maven中央仓库的建立与使用(引言)【力图解决一个非常蛋疼的问题】

    随着国产化CPU与操作系统的"流行",美中不足的就是没一个国产化的开发语言(呵呵),开源的Java开发也就如火如荼的开展起来.其实在互联网上开发Java的确很爽,海量的资源海量的库 ...

  3. python大数据平台_基于腾讯位置大数据平台的全球移动定位数据Python爬取与清洗...

    前不久投稿了一篇论文是以腾讯位置大数据为基础进行人口空间化研究的,但是还未见刊,见刊后会给大家分享下具体的研究方法. 首先打开腾讯位置大数据星云图链接:https://xingyun.map.qq.c ...

  4. 第0期-通过hao123爬取导航网站

    嗨,欢迎来到这里,我是瞎老弟,这是一个全新的计划.我打算在2021年剩下的时间中,研究100个热门网站,看看他们都有什么数据,是否容易获取,当然本期主要是介绍,是不算在内的. 说实话,回忆起来,上网接 ...

  5. 2.0 案例2:爬取房源信息以及分析房价

    课前说明:本章节请求的 url 部分用 ** 代替 本章节需要掌握的知识点: 1.如何用 xpath 解析数据: 2.如何用 csv 存储数据(注:由于字典是无序的,所以写入csv时,表头可能跟内容搭 ...

  6. 实战各大平台商品比价--Python 爬取过客网商品历史价格(30天)

    #! usr/bin/env python # -*- coding:utf-8 -*- __author__="JUNHAN" 环境: Python3.6.5 1.导入第三方库 ...

  7. OpenYurt v0.3.0 重磅发布:全面提升边缘场景下应用部署效率

    作者 | 张杰(冰羽) 来源|阿里巴巴云原生公众号 简介 OpenYurt 是由阿里云开源的基于原生 Kubernetes 构建的.业内首个对于 Kubernetes 非侵入式的边缘计算项目,目标是扩 ...

  8. 案例-浙江省律师综合管理平台信息爬取

    爬取浙江省律师综合管理平台上的律师事务所+律师基本信息,截止2018-08-06依然有效,直接运行即可 library("RCurl") library("XML&quo ...

  9. 【Mac】从0开始用node.js制作爬取结果的查询网站

    [Mac]从0开始用node.js制作爬取结果的查询网站 实验要求 实验结果展示 简单了解实验项目所需知识 1 爬虫原理 2 JavaScript语法 3 网络元素的提取 4 正则表达式 5 其他有关 ...

最新文章

  1. 广义线性模型?链接函数?sigmoid和softmax?Logistic处理多分类问题?logistic回归处理超大数据?使用logistic和randomsearch进行组合获取最优参数组合、优缺点
  2. 详解可视化利器 t-SNE 算法:数无形时少直觉
  3. 如何使用SearchView过滤RecyclerView
  4. CString、std::string格式化字符串
  5. Spring Cloud Alibaba基础教程:@SentinelResource注解实现限流控制与熔断降级使用详解
  6. 【测试点5】1007 Maximum Subsequence Sum (25 分)
  7. 推荐:偷懒利器 EmEditor
  8. Web全栈架构师到底会些啥?凭什么年薪30万以上?
  9. gitlab服务器代码存储位置,gitlab 数据目录迁移
  10. react 类暴露_react如何将组件内部的方法暴露给外部
  11. Css中实现一个盒子固定宽度,另一个盒子宽度自适应的方法
  12. LabWindows操作SQL SERVER
  13. 该虚拟机似乎正在使用中。如果该虚拟机未在使用,请按“获取所有权(T)”按钮获取它的所有权。
  14. python package和目录_Python package和folder
  15. 关于电梯运行逻辑原理的思路分析
  16. 数据挖掘实验二结果(构建cube的三个维度,即三个txt,然后做各种查询)C++实现(代码调试环境为Windows下的CLion使用WSL的Linux)
  17. 刷cadn浏览量阅读量第二中方法
  18. 1 1 2 3 5 8 13 21 代码实现 java(斐波那契数列)
  19. java判断点与线与面的关系_高中数学必修二点线面的位置关系与线面平行判定及其性质(精华试题版)...
  20. C语言实现汉诺塔问题(保姆式讲解)

热门文章

  1. FPGA开发板XILINX-K7核心板Kintex7 XC7K325 410T工业级
  2. 解剖直播功能解剖直播观众
  3. 朴素Bayes组合-集成分类器
  4. Redis详细教程入门
  5. IT工程师 毕业4年我年薪涨到30万
  6. The cycles per degree
  7. 移民加拿大还是美国不得不做的比较
  8. 【翻译】和麻美学姐一起的世界树(マミさんと世界樹スレ)第三话
  9. 浅析设备管理的MTTR,MTTF,MTBF计算方法
  10. 微信小程序中引用FontAwesome字体 最完整教程 附下载源码