spider-flow 作为web爬虫他可以简单的说是新一代的爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫。

也就是说我们不用在刻意的为了一些数据就去学一下语言如python,我们只要画个流程图配套的使用它的api就可以简单的快速爬取你想要的数据了。

我这先摘抄一下他在码云上的readm.md,等会儿再来详细说明一个我使用它平台爬取数据的案例,当然你要先看他提供的使用说明也就是api啦 https://www.spiderflow.org,看完再进入他的演示网站 http://demo.spiderflow.org/ 那里有很多的例子不过有很多都是别人测试的甚至有些就一个起步图标而已,之所以写这篇博客也就是记录一下我初学的结果啦。

spider-flow

【声明】 请勿将spider-flow应用到任何可能会违反法律规定和道德约束的工作中,请友善使用spider-flow,遵守蜘蛛协议,不要将spider-flow用于任何非法用途。如您选择使用spider-flow即代表您遵守此协议,作者不承担任何由于您违反此协议带来任何的法律风险和损失,一切后果由您承担。

介绍

新一代爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫。

QQ交流群:720832964

项目结构

spider-flow

├── spider-flow-api -- 插件开发的依赖

├── spider-flow-core -- 核心包

├── spider-flow-web -- web界面

特性

支持css选择器、正则提取

支持JSON/XML格式

支持Xpath/JsonPath提取

支持多数据源、SQL select/insert/update/delete

支持爬取JS动态渲染的页面

支持代理

支持二进制格式

支持保存/读取文件(csv、xls、jpg等)

常用字符串、日期、文件、加解密等函数

支持流程嵌套

支持插件扩展(自定义执行器,自定义函数)

任务监控

支持HTTP接口

插件列表

Selenium插件

Redis插件

OSS插件

Mongodb插件

Hbase插件

IP代理池插件

OCR识别插件

电子邮箱插件

项目部分截图

spider-flow 搭建运行

spider-flow 是java开发的根据他的项目结构我很容易的就用idea快速的下载项目并搭建和运行起来

码云地址:https://gitee.com/jmxd/spider-flow.git

点击Clone后再用idea打开

这样他的项目我们就用idea下载好了,接下来我们用一下他给的数据库sql文件生成一下表这里我用的是navcat,当然你也可以用我给的SQL文件,这里有我目前学过后保存的相关案例项目运行后就会在爬虫列表里显示出来

百度网盘链接:https://pan.baidu.com/s/1Q-BaDH1Vk4EI4g31G-R8VQ

提取码:24q4

复制这段内容后打开百度网盘手机App,操作更方便哦

最后生成数据库和表

修改下他的web程序启动配置 application.properties

好了运行一下项目并访问一下

这里的案例我就不说了就用我看过他的api后自己敲得案例来说一下

我这个案例就是爬取薄荷网站所有食物的热量和减肥功效,数据也不是太多就1581kb吧

如果你运行SQL文件是用我给你的SQL文件那你可以在爬虫列表里看到我给的爬取薄荷网的热量和减法功效的案例点击进去如图

这张图最后有三种结果,你可以全部用箭头选中,也可以选一个

最后我用我的案例来说明一下其中的语句和使用方法

还没怎么使用过这个图标

使用这个图标你要先去添加一下数据源

使用和图标介绍也就说道这里了,更多的请参考他的api,也希望他们提供的api和案例多一些毕竟好用但是不好学啊,就比如我现在还不知道怎么把数据保存到.xls表格太失败了我。

下面是我成功运行后保存的结果:

保存到数据库:

保存到txt:

python卡路里程序_SpiderFlow平台v0.3.0初次使用并爬取薄荷网的热量和减法功效相关推荐

  1. SpiderFlow平台v0.3.0初次使用并爬取薄荷网的热量和减法功效

    spider-flow 作为web爬虫他可以简单的说是新一代的爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫. 也就是说我们不用在刻意的为了一些数据就去学一下语言如python,我们只要画个 ...

  2. 练习---爬取薄荷网所有食物卡路里,并分类放入excel中

    首先薄荷网里有11种大的食物分类,每种大的食物分类里有10页,每页10个食物及热量记录.本来想把这一共110个url都放入queue队列中,然后爬取,但是这样会打乱食物的分类,所以就只把每个食物大类的 ...

  3. 【爬虫+数据可视化毕业设计:英雄联盟数据爬取及可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩】

    [爬虫+数据可视化毕业设计:英雄联盟数据爬取及可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩] https://b23.tv/TIoy6hj

  4. 【【数据可视化毕业设计:差旅数据可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩】-哔哩哔哩】 https://b23.tv/iTt30QG

    [[数据可视化毕业设计:差旅数据可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩]-哔哩哔哩] https://b23.tv/iTt30QG ht ...

  5. 请用Python写一个爬虫程序,爬取当当网图书畅销榜数据

    好的,下面是一个简单的 Python 爬虫代码,可以爬取当当网图书畅销榜数据: import requests from bs4 import BeautifulSoupurl = "htt ...

  6. Python实现对主要城市及其周边地区天气数据的爬取

    python爬虫学习爬虫(爬取指定网站数据) Python实现对主要城市及其周边地区天气数据的爬取,关键步骤已经做了注释此版本仅是初学者的学习版,不喜勿喷 #coding: utf-8 import ...

  7. Python网络爬虫数据采集实战(八):Scrapy框架爬取QQ音乐存入MongoDB

    通过前七章的学习,相信大家对整个爬虫有了一个比较全貌的了解 ,其中分别涉及四个案例:静态网页爬取.动态Ajax网页爬取.Selenium浏览器模拟爬取和Fillder今日头条app爬取,基本涵盖了爬虫 ...

  8. Python爬虫爬取东方财富网的股票信息

    简单的Python爬虫应用 目标:爬取东方财富网的股票信息 1.先找到要爬取的网页 2.第二步开始爬取信息 2.1 通过requests获取网页信息 2.2再通过BeautifulSoup解析: 2. ...

  9. Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(下)

    在Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(上)中,我们最后爬出来的结果不是很完美,这对于"精益求精.追求完美的"程序猿来说怎么能够甘心 所以,今天,用pyth ...

最新文章

  1. python中等高线填充颜色_Python matplotlib使用colormap更改contourf plot中指定值的颜色...
  2. python2.7 pip安装htmlreport报错_pytest十五:pytest-html 生成 html 报告
  3. java标识符与关键字_4、Java标识符和关键字
  4. ISP采用的 ISIS链接状态路由协议
  5. python自学第12天 模块
  6. iOS NSUserDefaults 简介 NSUserDefaults 存储自定义对象
  7. Socket技术详解(一篇就够了)
  8. 中交叉的线_表现力一绝!用交叉线构图拍出来的照片,竟然可以这么吸睛!
  9. 深入理解 WordPress 数据库中的用户数据 wp_user
  10. Linux下QT4.7.1静态编译过程
  11. #openstack centos6 centos7 kvm镜像制作
  12. Linux 系统批量安装字体的方法
  13. 离线仿真调试,加快项目进度!
  14. React中ref的三种获取方式
  15. DhtmlGantt案例-弹窗lightbox自定义字段
  16. C#--Obsolete
  17. AD7606八通道AD采集模块测试
  18. 简单了解计算机编码知识-(中文编码)
  19. java导入带图片的excel表格(工具HSSFWorkbook-HSSFSheet)(支持一条数据(单元格)可以导入多个图片,)
  20. 使用wifi网卡笔记5---AP模式

热门文章

  1. 梦幻西游服务器物品掉落概率,梦幻西游:十年难得一遇!玩家鉴定装备把这辈子的运气都用完了!...
  2. 爱尔兰圣三一大学计算机专业申请,爱尔兰计算机专业申请
  3. 产品经理应该做什么,产品经理要具备哪些能力
  4. 日常小结-java静态类及其应用
  5. Excel表格中如何设置页眉、页脚
  6. Linux Mint 安装 Docker Engine
  7. C语言分号运算符的取值,c语言运算符及其表达式-20210406064126.docx-原创力文档
  8. 关于融合软件运行unity程序被闪退解决方案
  9. uniapp 安卓 ios更新方法
  10. USB耳机方案|USB麦克风方案|GPD8102B音频解码方案设计