介绍

平台以流程图的方式定义爬虫,是一个高度灵活可配置的爬虫平台

特性

  • 支持Xpath/JsonPath/css选择器/正则提取/混搭提取
  • 支持JSON/XML/二进制格式
  • 支持多数据源、SQL select/selectInt/selectOne/insert/update/delete
  • 支持爬取JS动态渲染(或ajax)的页面
  • 支持代理
  • 支持自动保存至数据库/文件
  • 常用字符串、日期、文件、加解密等函数
  • 支持插件扩展(自定义执行器,自定义方法)
  • 任务监控,任务日志
  • 支持HTTP接口
  • 支持Cookie自动管理
  • 支持自定义函数

插件

  • Selenium插件
  • Redis插件
  • OSS插件
  • Mongodb插件
  • IP代理池插件
  • OCR识别插件
  • 电子邮箱插件

项目部分截图

爬虫列表

爬虫测试

Debug

日志

免责声明

请勿将spider-flow应用到任何可能会违反法律规定和道德约束的工作中,请友善使用spider-flow,遵守蜘蛛协议,不要将spider-flow用于任何非法用途。

如您选择使用spider-flow即代表您遵守此协议,作者不承担任何由于您违反此协议带来任何的法律风险和损失,一切后果由您承担。

开源地址:

https://gitee.com/ssssssss-team/spider-flow

推荐一个智能的 Java 爬虫框架相关推荐

  1. java爬虫框架—WebMagic

    什么是网络爬虫 从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分.爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满 ...

  2. java 爬虫框架 j_一个分布式java爬虫框架JLiteSpider

    A lite distributed Java spider framework. 这是一个轻量级的分布式java爬虫框架 特点 这是一个强大,但又轻量级的分布式爬虫框架.jlitespider天生具 ...

  3. Java爬虫框架wemgic_Java爬虫框架-WebMagic挖坑补坑指南

    以前总是用的Python下的Scrapy和crawley和PHP的小众爬虫框架,最近突然想到了何不用下Java下的框架试试? 查了下Java下的爬虫框架自然也不在少数,Nutch,WebMagic,W ...

  4. java爬虫框架之webMagic

    webMagic框架 前言 介绍 案例 控制类: 解析类: 持久化类: 用到的工具类以及配置类: 注意事项 后语 前言 文章仅供安全领域的朋友学习使用!! 严禁做违法违纪的事情,责任自负 介绍 Web ...

  5. java爬虫框架哪个好_java爬虫框架的使用

    原标题:java爬虫框架的使用 随着互联网的发展,编程程序语言也开始被越来越多的人所掌握,但是自始至终,java语言一直是被使用范围最广的编程语言.今天,武汉中软国际主要给大家讲解的是java语言中的 ...

  6. 什么是爬虫,常见的java爬虫框架有哪些?-蛙课网

    随着互联网的发展,编程程序语言也开始被越来越多的人所掌握,与此同时,java语言是使用范围最广的编程语言.今天我们一起了解一下什么是爬虫,java爬虫框架有哪些. 网络爬虫(又称为网页蜘蛛,网络机器人 ...

  7. JAVA 爬虫框架webmagic 初步使用Demo

    一想到做爬虫大家第一个想到的语言一定是python,毕竟python比方便,而且最近也非常的火爆,但是python有一个全局锁的概念新能有瓶颈,所以用java还是比较牛逼的, webmagic 官网 ...

  8. Java爬虫框架之WebMagic的学习总结

    Java爬虫框架之WebMagic WebMagic 概述 特性 架构 四大组件 数据流转对象 控制爬虫运转的引擎Spider WebMagic的基本使用 添加WebMagic的核心与扩展依赖 爬虫实 ...

  9. 从零开始实现一个简易的Java MVC框架(六)--加强AOP功能

    前言 在前面从零开始实现一个简易的Java MVC框架(四)--实现AOP和从零开始实现一个简易的Java MVC框架(五)--引入aspectj实现AOP切点这两节文章中已经实现了AOP功能并且引用 ...

最新文章

  1. 架构师成长之路-个人学习经验分享(公司研发峰会演讲ppt)
  2. 当谷歌员工来到新公司的那一天,发现原来公司什么都没有
  3. ansible获取linux信息,ansible 获取系统信息的一些范例,ansible系统信息
  4. java中的等待_Java中更好的等待语法
  5. Android ListView中EditView再次焦点获取
  6. NB-IOT-BC26模块TCP AT指令调试记录
  7. c语言变量常量知识点,嵌入式C语言之变量与常量详解
  8. 编程分钟转化小时怎么编_贴片机编程教程,编程步骤,编程怎么编
  9. 安卓Andriod使用入门(二)【高仿安卓微信6.0】
  10. 徒手撸了一个 API 网关,理解更透彻了,代码已上传github,自取~
  11. 18966 两两配对差值最小
  12. 给出一个用逗号分隔开的字符串。求各部分之和
  13. 怕抢不到演唱会门票?AI帮你做攻略!
  14. 红米NOTE5 ROOT教程
  15. 远程桌面分辨率取决于服务器还是客户端,关于Windows8.1高分辨率,远程桌面连接的界面显示很小的问题~...
  16. 将Maven配置到Eclipse中
  17. C++ qsort的理解
  18. leetcode98.验证二叉搜索树 Python
  19. 小程序底部导航iphoneX判断
  20. python作业火车票订购系统_Python实现12306火车票查询系统

热门文章

  1. Arcgis主页面字体太小
  2. 报错 error: use of undeclared identifier (AS)
  3. smtp在线发送邮件_基于树莓派3B,利用爬虫、SMTP和发送邮件amp;amp;(爬取墨迹天气预报信息)...
  4. 数学建模——图与网络模型及方法(一)
  5. VM系列振弦采集模块全频段扫频
  6. JS中刷新当前页面的方式
  7. 华为Smart AX MT800设置路由器教程【二】
  8. 调试OpenGL ES应用程序
  9. OWC绘图控件研究(轉)
  10. 从苏宁电器到卡巴斯基(后传)第01篇:讲讲我写完那36篇故事之后的一些事