新数据革命:开源图形化数据引擎Hawk5发布
Hawk是一款开源图形化的爬虫和数据清洗工具,GitHub Star超过2k+,前几代版本介绍如下:
Hawk3: 终于等到你: 图形化开源爬虫Hawk 3发布!
Hawk2: 120项优化: 超级爬虫Hawk 2.0重磅发布!
Hawk1: 如何从互联网采集海量数据?租房,二手房,薪酬…
Hawk从2015年开源,但Hawk5则带来了其历史上最大的更新,解决诸多bug,提供开放的任务市场,手机app嗅探和更强大的调试系统。 因此我们直接跳过Hawk4,发布Hawk5。
那么Hawk5带来哪些让人兴奋的更新呢? 大招在最后!
Hawk5对界面做了进一步的完善和微调,使用更人性化:
断点续跑和自动保存
Hawk早期版本不稳定,用户正在编辑任务或处理数据时,Hawk扑街了!
Hawk5能自动保存任务,数据表,甚至当前执行的位置!一旦关闭或崩溃,不要怕!数据一条没丢,重启后,还能从上次中断继续运行!就像断点续传一样,颤抖吧筒子们!
自动回补数据
这是另一革命性功能,由于访问网站经常会超时或不可访问,想一次性抓取且不重不漏是非常困难的。
Hawk5支持批量补数据。当发生异常时,Hawk会将异常和上下文写入数据表,之后即可智能重新执行,将数据不重不漏地回补回来。
丰富的文档,自动更新和多国语言
Hawk5中,帮助文档获得了极大的增强,除了丰富和细致的在线文档之外:
https://ferventdesert.github.io/Hawk/
还在各个模块下方提供图文并茂的说明,当你不知道该按钮的作用时,鼠标放在该按钮上保持3秒就有贴心提示出现!
更贴心的是,设计完任务后,一键即可生成手把手帮助文档。新手按部就班即可重现该任务!
Hawk5进一步地提供了多国语言,能方便地在中文,English或其他任何语言切换,只要在执行目录增加对应的语言文件即可。
同时,Hawk的自动更新机制,能够让迭代更加敏捷,有新版本的Hawk即可一键更新,妈妈再也不用担心Hawk出现bug了!
全局参数
早期的Hawk,多任务间协同比较复杂,子任务也不能彻底解决该问题。
Hawk5中提供了全局参数系统,可以在任何模块中,使用大括号引用你已经配置的参数,并能在多个参数组间切换。
这有什么用呢?举个栗子,当二手房抓取时,每个城市们页面格式和地址都不相同, 需要手工切换多个参数。使用全局参数后,切换配置组即可一键在不同城市间切换!
调试系统和UI交互改进
早期Hawk在配置错误时,一条数据都出不来,卡住的不仅是Hawk,还有用户的心。
Hawk5提供了更加方便的调试系统,每个模块是否正常工作,会以绿色方格提醒,一目了然。当任务的某个模块出现异常时会及时提示。
超级拷贝,可以通过shift键,选择多个模块,在多个任务间拷贝。你甚至还能将Hawk自动嗅探出的网页XPath结构一键拷贝为python代码,极大地简化爬虫工程师的工作!
是否已经被网站封锁?总共进行了多少次请求?全局统计系统能够方便的显示当前总的web请求数,异常数,超时数,当错误数达到阈值时,更能自动暂停所有的任务!
除此之外,新版的Hawk更是改进了UI设计,例如XPath转换器,能够通过关键字快速定位,几次点选即可获取真实XPath。
社会化协作:任务市场
以前所有的Hawk用户只能各自为政,无法共享和沟通。
在新的Hawk中,你可以浏览任务市场,直接加载远程任务和浏览数据,并方便地组合其他人的任务。像BT站一样,作者发布数据清洗工程后,所有的Hawk用户就会立即受益!
以前想抓取全国二手房很复杂,且不能应对网站改版。在Hawk市场只要轻轻点击加载任务即可,所见即所得,一键将数据导出到Excel。
这是Hawk本次更新的最重要的功能,它极大地改善了Hawk社会化协作,基于GitHub。由于账号系统的限制,目前还不能在软件中直接上传任务(未来会提供),如果你希望向主仓库贡献任务,可提交git的pull request。
在AI时代,通过大量用户使用Hawk的行为和任务市场的积累,我们能够通过强化学习等技术,自动让AI学出数据清洗和转换算法,让Hawk变得更加智能。
无限想象:自动抢票,翻译,图片识别…
如果你只以为Hawk就是个爬虫,那就错了,Hawk是个通用的流式计算客户端。未来Hawk市场,不仅会有共享的任务,更会引入第三方插件机制,极大地扩展Hawk流式计算的版图。
目前正在开发中的浏览器驱动插件,能够让Hawk自动控制浏览器,模拟点击,翻页等一系列操作,你要做的只是做一遍后导入到Hawk。通过配置数据清洗流,能够实现自动抢票,键盘输入等一系列功能。
Hawk5的手机远程嗅探功能,能方便的抓取手机app的数据,相关教程会在近期放出。
未来的插件能够更方便地调用百度识图,翻译转换以及各类服务存储API,让更多用户能够通过Hawk拖拽就能实现丰富的数据处理,并导出成任何格式。
我们对Hawk的理念,是开源,去中心化和社会化协作。它没有公司去运营,没有中心服务器,只依赖了免费的GitHub仓库,使用文档和教程都是机器自动生成的。但它也在各种艰难中一路走来,但我们对Hawk的愿景,是让数据流变得更加智能,让数据工作者变得更加地敏捷方便。
感谢阅读,点击原文链接,直达Hawk文档。如果Hawk给你提供了帮助,欢迎转发本文给更多的朋友,并欢迎给本项目的GitHub点个star!
新数据革命:开源图形化数据引擎Hawk5发布相关推荐
- grafana图形化数据展示软件介绍
grafana图形化数据展示软件介绍 http://grafana.org/ 一.从官网上看一下特色 Rich Graphing Fast and flexible client side graph ...
- 10自带sftp服务器_WinSCP v5.15.3 免费的 开源图形化 SFTP 客户端
WinSCP 是一个 Windows 环境下使用的 SSH 的开源图形化 SFTP 客户端.同时支持 SCP 协议.它的主要功能是在本地与远程计算机间安全地复制文件,并且可以直接编辑文件. 主要功能 ...
- 无法初始化sftp协议。主机是sftp服务器吗?_WinSCP v5.15.3 免费的 开源图形化 SFTP 客户端...
WinSCP 是一个 Windows 环境下使用的 SSH 的开源图形化 SFTP 客户端.同时支持 SCP 协议.它的主要功能是在本地与远程计算机间安全地复制文件,并且可以直接编辑文件. 主要功能 ...
- 流程图外部数据内部数据图形_数据治理工具:基于SQL图形化数据血缘系统的实现和使用...
之前文章,提出了基于SQL图形化数据血缘系统的概念和设计. 这里我们提出系统的实现和使用教程. 把这些做成了视频,放在了网站上:https://www.kexuejisuan.com/all_vedi ...
- 【Linux】Linux下挂载新硬盘(图形化使用Ubuntu自带Disks)
参考文章 Ubuntu 每日小贴士 - 在Ubuntu下用桌面图形界面挂载分区 Ubuntu 16.04 扩展/home大小并将其他盘挂载到/home的子目录下 Ubuntu环境下挂载新硬盘 使用工具 ...
- Ceph Octopus新版新功能:图形化Dashboard
新钛云服已为您服务938天 Ceph Dashboard是一个内置的基于Web的管理和监视应用程序,它是开源Ceph发行版的一部分. 与以前的Ceph版本一样,Dashboard开发社区在添加新功能和 ...
- ETL异构数据源Datax_图形化数据同步_11
数据同步全量增量知识SQL和执行频次不一样,其他的都一样 文章目录 一.Oracle同步Mysql(全量) 1. 添加项目 2. 添加数据源 3. 添加任务 4. 构建json 5. 任务执行 6. ...
- 开源图形化SFTP客户端winscp入门
- Java使用IntelliJ IDEA创建一个基于Swing的GUI图形化程序,打包发布为jar
1.创建GUI窗体 首先,直接新建一个默认的空的Java模块即可,随便取个名字 之后再src目录下右键,新建,创建一个Swing的GUI窗体,随便取个名字 给主窗体改个名字 到java代码中生成一个窗 ...
最新文章
- 小黑小波比.保存密码加密方式
- LeetCode686 Repeated String Match(字符串匹配)
- YunTable开发日记(3) – BigTable的数据模型和调用接口 (转载)
- Linux System and Performance Monitoring
- Git关于pull,commit,push的总结
- python dataframe取一列_python - 从pandas DataFrame列标题中获取列表
- The Preliminary Contest for ICPC Asia Nanjing 2019ICPC南京网络赛
- 按钮的android程序闪退,Android实例化控件有什么特殊要求吗??怎么程序加了这一段之后就闪退。。...
- RT-Thread uart串口设备驱动代码结构剖析
- Spring思维导图,让spring不再难懂(一)
- 如何有效开展小组教学_如何有效地开展小组合作学习——数学科主题教研活动...
- sqlserver 字符串转换成日期、int与varchar类型转换及保留两位小数
- java 四则混合运算_Java实现四则混合运算 - Sabrina amp; Joshua Java Ivory Tower - ITeye博客...
- matlab中全局变量的作用域,在simulink中使用全局变量的方法
- 数学笔记(四)线性代数知识点总结
- ORACLE 11G使用exp或者pl/sql导出空表
- Xcode可以清理哪些缓存?
- 智能城市dqn算法交通信号灯调度_滴滴张博:智慧交通大脑是支撑城市可持续发展的重要基础设施...
- 3d游戏设计读书笔记三
- [蓝桥杯单片机 八位共阳数码管](4)
热门文章
- 如何将您的Google Authenticator凭证移至新的Android手机或平板电脑
- 从0到1简易区块链开发手册V0.3-数据持久化与创世区块
- 介绍一个代码管理系统-Git
- 初学者必看的文章:在VM12中安装 RedHat RHEL7.2 系统的详细步骤:看我如何操纵RHEL系统...
- Java中数据是如何存储
- XMPP聊天之Openfire 的安装和配置---Mac OS
- 通用路由封装(GRE)×××配置
- PHP excel文件导入至mysql中!
- WPF 透明窗口在桌面上放虫子。。。
- Fiddler抓包一键生成调用代码