Hawk是一款开源图形化的爬虫和数据清洗工具,GitHub Star超过2k+,前几代版本介绍如下:

Hawk3: 终于等到你: 图形化开源爬虫Hawk 3发布!

Hawk2: 120项优化: 超级爬虫Hawk 2.0重磅发布!

Hawk1: 如何从互联网采集海量数据?租房,二手房,薪酬…

Hawk从2015年开源,但Hawk5则带来了其历史上最大的更新,解决诸多bug,提供开放的任务市场,手机app嗅探和更强大的调试系统。 因此我们直接跳过Hawk4,发布Hawk5。

Hawk5欢迎界面

那么Hawk5带来哪些让人兴奋的更新呢? 大招在最后!

Hawk5对界面做了进一步的完善和微调,使用更人性化:

front.gif

断点续跑和自动保存

Hawk早期版本不稳定,用户正在编辑任务或处理数据时,Hawk扑街了!

Hawk5能自动保存任务,数据表,甚至当前执行的位置!一旦关闭或崩溃,不要怕!数据一条没丢,重启后,还能从上次中断继续运行!就像断点续传一样,颤抖吧筒子们!

自动回补数据

这是另一革命性功能,由于访问网站经常会超时或不可访问,想一次性抓取且不重不漏是非常困难的。

Hawk5支持批量补数据。当发生异常时,Hawk会将异常和上下文写入数据表,之后即可智能重新执行,将数据不重不漏地回补回来。

丰富的文档,自动更新和多国语言

Hawk5中,帮助文档获得了极大的增强,除了丰富和细致的在线文档之外:

https://ferventdesert.github.io/Hawk/

在线文档系统

还在各个模块下方提供图文并茂的说明,当你不知道该按钮的作用时,鼠标放在该按钮上保持3秒就有贴心提示出现!

更贴心的是,设计完任务后,一键即可生成手把手帮助文档。新手按部就班即可重现该任务!

Hawk5进一步地提供了多国语言,能方便地在中文,English或其他任何语言切换,只要在执行目录增加对应的语言文件即可。

同时,Hawk的自动更新机制,能够让迭代更加敏捷,有新版本的Hawk即可一键更新,妈妈再也不用担心Hawk出现bug了!

全局参数

早期的Hawk,多任务间协同比较复杂,子任务也不能彻底解决该问题。

Hawk5中提供了全局参数系统,可以在任何模块中,使用大括号引用你已经配置的参数,并能在多个参数组间切换。

全局可配置参数

这有什么用呢?举个栗子,当二手房抓取时,每个城市们页面格式和地址都不相同, 需要手工切换多个参数。使用全局参数后,切换配置组即可一键在不同城市间切换!

调试系统和UI交互改进

早期Hawk在配置错误时,一条数据都出不来,卡住的不仅是Hawk,还有用户的心。

Hawk5提供了更加方便的调试系统,每个模块是否正常工作,会以绿色方格提醒,一目了然。当任务的某个模块出现异常时会及时提示。

超级拷贝,可以通过shift键,选择多个模块,在多个任务间拷贝。你甚至还能将Hawk自动嗅探出的网页XPath结构一键拷贝为python代码,极大地简化爬虫工程师的工作!

方便的调试系统

是否已经被网站封锁?总共进行了多少次请求?全局统计系统能够方便的显示当前总的web请求数,异常数,超时数,当错误数达到阈值时,更能自动暂停所有的任务!

系统设置

除此之外,新版的Hawk更是改进了UI设计,例如XPath转换器,能够通过关键字快速定位,几次点选即可获取真实XPath。

社会化协作:任务市场

以前所有的Hawk用户只能各自为政,无法共享和沟通。

在新的Hawk中,你可以浏览任务市场,直接加载远程任务和浏览数据,并方便地组合其他人的任务。像BT站一样,作者发布数据清洗工程后,所有的Hawk用户就会立即受益!

任务市场主页

以前想抓取全国二手房很复杂,且不能应对网站改版。在Hawk市场只要轻轻点击加载任务即可,所见即所得,一键将数据导出到Excel。

这是Hawk本次更新的最重要的功能,它极大地改善了Hawk社会化协作,基于GitHub。由于账号系统的限制,目前还不能在软件中直接上传任务(未来会提供),如果你希望向主仓库贡献任务,可提交git的pull request。

在AI时代,通过大量用户使用Hawk的行为和任务市场的积累,我们能够通过强化学习等技术,自动让AI学出数据清洗和转换算法,让Hawk变得更加智能。

无限想象:自动抢票,翻译,图片识别…

如果你只以为Hawk就是个爬虫,那就错了,Hawk是个通用的流式计算客户端。未来Hawk市场,不仅会有共享的任务,更会引入第三方插件机制,极大地扩展Hawk流式计算的版图。

目前正在开发中的浏览器驱动插件,能够让Hawk自动控制浏览器,模拟点击,翻页等一系列操作,你要做的只是做一遍后导入到Hawk。通过配置数据清洗流,能够实现自动抢票,键盘输入等一系列功能。

Hawk5的手机远程嗅探功能,能方便的抓取手机app的数据,相关教程会在近期放出。

未来的插件能够更方便地调用百度识图,翻译转换以及各类服务存储API,让更多用户能够通过Hawk拖拽就能实现丰富的数据处理,并导出成任何格式。

我们对Hawk的理念,是开源,去中心化和社会化协作。它没有公司去运营,没有中心服务器,只依赖了免费的GitHub仓库,使用文档和教程都是机器自动生成的。但它也在各种艰难中一路走来,但我们对Hawk的愿景,是让数据流变得更加智能,让数据工作者变得更加地敏捷方便。

感谢阅读,点击原文链接,直达Hawk文档。如果Hawk给你提供了帮助,欢迎转发本文给更多的朋友,并欢迎给本项目的GitHub点个star!

公众号二维码

新数据革命:开源图形化数据引擎Hawk5发布相关推荐

  1. grafana图形化数据展示软件介绍

    grafana图形化数据展示软件介绍 http://grafana.org/ 一.从官网上看一下特色 Rich Graphing Fast and flexible client side graph ...

  2. 10自带sftp服务器_WinSCP v5.15.3 免费的 开源图形化 SFTP 客户端

    WinSCP 是一个 Windows 环境下使用的 SSH 的开源图形化 SFTP 客户端.同时支持 SCP 协议.它的主要功能是在本地与远程计算机间安全地复制文件,并且可以直接编辑文件. 主要功能 ...

  3. 无法初始化sftp协议。主机是sftp服务器吗?_WinSCP v5.15.3 免费的 开源图形化 SFTP 客户端...

    WinSCP 是一个 Windows 环境下使用的 SSH 的开源图形化 SFTP 客户端.同时支持 SCP 协议.它的主要功能是在本地与远程计算机间安全地复制文件,并且可以直接编辑文件. 主要功能 ...

  4. 流程图外部数据内部数据图形_数据治理工具:基于SQL图形化数据血缘系统的实现和使用...

    之前文章,提出了基于SQL图形化数据血缘系统的概念和设计. 这里我们提出系统的实现和使用教程. 把这些做成了视频,放在了网站上:https://www.kexuejisuan.com/all_vedi ...

  5. 【Linux】Linux下挂载新硬盘(图形化使用Ubuntu自带Disks)

    参考文章 Ubuntu 每日小贴士 - 在Ubuntu下用桌面图形界面挂载分区 Ubuntu 16.04 扩展/home大小并将其他盘挂载到/home的子目录下 Ubuntu环境下挂载新硬盘 使用工具 ...

  6. Ceph Octopus新版新功能:图形化Dashboard

    新钛云服已为您服务938天 Ceph Dashboard是一个内置的基于Web的管理和监视应用程序,它是开源Ceph发行版的一部分. 与以前的Ceph版本一样,Dashboard开发社区在添加新功能和 ...

  7. ETL异构数据源Datax_图形化数据同步_11

    数据同步全量增量知识SQL和执行频次不一样,其他的都一样 文章目录 一.Oracle同步Mysql(全量) 1. 添加项目 2. 添加数据源 3. 添加任务 4. 构建json 5. 任务执行 6. ...

  8. 开源图形化SFTP客户端winscp入门

  9. Java使用IntelliJ IDEA创建一个基于Swing的GUI图形化程序,打包发布为jar

    1.创建GUI窗体 首先,直接新建一个默认的空的Java模块即可,随便取个名字 之后再src目录下右键,新建,创建一个Swing的GUI窗体,随便取个名字 给主窗体改个名字 到java代码中生成一个窗 ...

最新文章

  1. 小黑小波比.保存密码加密方式
  2. LeetCode686 Repeated String Match(字符串匹配)
  3. YunTable开发日记(3) – BigTable的数据模型和调用接口 (转载)
  4. Linux System and Performance Monitoring
  5. Git关于pull,commit,push的总结
  6. python dataframe取一列_python - 从pandas DataFrame列标题中获取列表
  7. The Preliminary Contest for ICPC Asia Nanjing 2019ICPC南京网络赛
  8. 按钮的android程序闪退,Android实例化控件有什么特殊要求吗??怎么程序加了这一段之后就闪退。。...
  9. RT-Thread uart串口设备驱动代码结构剖析
  10. Spring思维导图,让spring不再难懂(一)
  11. 如何有效开展小组教学_如何有效地开展小组合作学习——数学科主题教研活动...
  12. sqlserver 字符串转换成日期、int与varchar类型转换及保留两位小数
  13. java 四则混合运算_Java实现四则混合运算 - Sabrina amp; Joshua Java Ivory Tower - ITeye博客...
  14. matlab中全局变量的作用域,在simulink中使用全局变量的方法
  15. 数学笔记(四)线性代数知识点总结
  16. ORACLE 11G使用exp或者pl/sql导出空表
  17. Xcode可以清理哪些缓存?
  18. 智能城市dqn算法交通信号灯调度_滴滴张博:智慧交通大脑是支撑城市可持续发展的重要基础设施...
  19. 3d游戏设计读书笔记三
  20. [蓝桥杯单片机 八位共阳数码管](4)

热门文章

  1. 如何将您的Google Authenticator凭证移至新的Android手机或平板电脑
  2. 从0到1简易区块链开发手册V0.3-数据持久化与创世区块
  3. 介绍一个代码管理系统-Git
  4. 初学者必看的文章:在VM12中安装 RedHat RHEL7.2  系统的详细步骤:看我如何操纵RHEL系统...
  5. Java中数据是如何存储
  6. XMPP聊天之Openfire 的安装和配置---Mac OS
  7. 通用路由封装(GRE)×××配置
  8. PHP excel文件导入至mysql中!
  9. WPF 透明窗口在桌面上放虫子。。。
  10. Fiddler抓包一键生成调用代码