超级图形化爬虫Hawk已经发布两年半时间了,2015年升级到第二版,收到上千条用户反馈(tucao),100多个红包,总共666块五毛~一直想攒着这笔钱,去北境之王天通苑的龙德商场买最心爱的阿迪王!

啥,你不知道Hawk是什么?它是智能而强大的网络数据采集工具,全图形化无需编程,一些功能强大到作者自己都不会用(这是真的),下面的文章有更多的细节:

Hawk1: 如何从互联网采集海量数据?租房,二手房,薪酬...

Hawk2: 120项优化: 超级爬虫Hawk 2.0重磅发布!

背景故事: 设计爬虫Hawk背后的故事

Hawk star已经突破1300, 开源地址如下,记得在全世界最大的同性交友网站上给沙漠君点个star~:

Github.com/ferventdesert/Hawk

某天夜里,一位神秘人物突然加我微信,知道我是Hawk的设计者之后,二话不说就发了200块红包!在确认对方不是仙人跳之后。我赶紧给这位客户老爷千恩万谢,明天可以加鸡腿了!

这位VIP客户跟我语音聊了接近一个小时,在无数条对Hawk的赞美之后,话锋一转,说“你这Hawk用户体验好差,界面太丑了,就不能好好优化一下么?”

我说:好啊,你来提需求,我来改?我们一拍即合!这位神秘人物,就叫他升哥吧(可惜不是妹子啊)

从17年10月份开始,我们开始了你织布来我缝衣的模式(好哲♂学),升哥负责测试,用户体验,提需求;我来负责改代码。宝刀未老的沙漠君竟然还能记得四五年前写的C#代码!平时工作太太太太忙了,只能抽周六日坐在马桶上优化代码,差点搞成前列腺炎!平日我们会在地铁和公交上,通过微信讨论各种体验细节,画风是这样的:

image.png-517.5kB

这样的聊天记录少说上万条,我们脑暴更好的体验,更快的算法,抠每个交互细节,在有限的时间内尽可能打磨和优化Hawk这款产品。后来参与内测的同学越来越多,我也收到了更多的反馈。

时间过得好快,朝鲜改革开放了,杭州买房要摇号了,半年多瞬间过去了。经过无数个“死也不改版”,拥有多个重大功能更新,两百多个体验升级后,Hawk3总算千呼万唤屎出来啦!

那Hawk3带来哪些令客官老爷们吃惊的体验呢?我们重点说明Hawk3强化的功能,已有的介绍可参考之前的文章哦。

1. 更智能的网页采集器

输入网址,点击【手气不错】,Hawk就会自动将所有高价值的数据表提取出来,相比上一代,更是支持智能排序和自定义,动动鼠标,就能在多个结果间来回筛选,点击确定就完成了!

手气不错不仅能列表,还能支持详情页,在链家页面上随便输入一个信息,点手气不错,房产的详细信息就都出来了!

网页采集器不仅支持xpath,更能混合使用selector语法,搜索关键词还能实现页面自动定位跳转高亮,智能地让你想哭! 除了显示html源码,还能以浏览器模式预览!

2. 更易用的数据清洗

Hawk最引以为傲的功能是:用户可组装灵活的数据清洗任务,先洗菜再切菜,最后扔锅里爆炒,所见即所得。

Hawk3大幅度改进了用户体验,模仿播放器设计,你可以对任务的各个模块灵活修改,快进后退!处理数据就像播放岛国大片一样流畅刺激!

可以将多个数据清洗任务互相调用,实现更复杂和高级的功能,新版提供了对子任务的更友好的配置界面,让你像写Python函数一样实现子任务。Hawk调用Python实现自定义处理的功能也得到了增强,支持引入一部分第三方库,处理数据更加灵活。

Hawk同样大大强化了调试功能,能够实时监控web请求数和频次,分析任务中模块的工作和异常,快速确定问题,再也不用担心一脸懵逼找不到bug了!

3. 两百多个微创新!

一款软件,增加新功能不是重点,而是打磨核心功能,用无数个细节编织出的微创新。你会发现:

  • 以往需要手工输入的文本框现在都支持下拉菜单自动提示

  • 能更容易地暂停和取消正在运行的任务

  • 错误弹窗更加人性化,支持拼音快速检索模块

4. 超快的导出Excel/数据库

早期版本的Hawk,大数据导出Excel卡得让男人沉默,女人流泪。优化后的Excel导出速度提升了15倍,百万级数据都轻轻松松。

更何况,Hawk还支持了文件级数据库Sqlite,千万数据毫无压力。完全不需要配置,再也不用担心数据太多爆内存了!

5. 想自动化部署的客官有福了!

新的Hawk支持从Windows命令行模式执行,大概是下面的样子:

cmd> HawkScheduler project.xml task_name

在Hawk图形界面上设计工程,命令行输入工程名和任务名,即可直接执行任务,速度更快更轻量,但记得用执行器把数据导出到数据库或者文件里哦!

微软的跨平台战略太不给力,让Hawk支持Linux和Mac的成本实在太高了,所以目前依然只能在Windows上运行。由于更新较多,新的Hawk基本上不能支持以前的工程文件,好在爬虫配置一遍也不是费事,对吧^-^


哎呀太多了写不完,在使用过程中,你能慢慢发现这些细节和惊喜。

考虑到之前用户的使用习惯,大部分改进都是平滑的,但早期工程已经不兼容。界面依然很工科癌。说界面丑的妹子欢迎给我们提意见~

通过阅读文档和视频,研究教学工程,5分钟就能上手使用,半小时就能成为老司机。你肯定迫不及待地想问我在哪里下载?点击阅读原文,即可到达项目主页,那里有下载地址,文档,视频教程,以及你想要的全部资料!

由于时间极度紧张,可能视频和文档还有不完全之处,请关注“沙漠之鹰”微信公众号,Hawk的消息会在第一时间推送给你~最后,如果使用中有任何问题和建议,欢迎加入QQ群546750531,或者在GitHub上发言答疑 ~

祝使用Hawk愉快!

原文地址: https://github.com/ferventdesert/Hawk


.NET社区新闻,深度好文,欢迎访问公众号文章汇总 http://www.csharpkit.com

.NET 图形化开源爬虫Hawk 3发布相关推荐

  1. 新数据革命:开源图形化数据引擎Hawk5发布

    Hawk是一款开源图形化的爬虫和数据清洗工具,GitHub Star超过2k+,前几代版本介绍如下: Hawk3: 终于等到你: 图形化开源爬虫Hawk 3发布! Hawk2: 120项优化: 超级爬 ...

  2. 现今主流计算机语言,现今主流的Python图形化界面主要有哪些

    现今主流的Python图形化界面主要有哪些 发布时间:2020-10-23 20:08:59 来源:亿速云 阅读:114 作者:小新 这篇文章将为大家详细讲解有关现今主流的Python图形化界面主要有 ...

  3. 120项改进:开源超级爬虫Hawk 2.0 重磅发布!

    沙漠君在历时半年,修改无数bug,更新一票新功能后,在今天隆重推出最新改进的超级爬虫Hawk 2.0! 啥?你不知道Hawk干吗用的? 这是采集数据的挖掘机,网络猎杀的重狙!半年多以前,沙漠君写了一篇 ...

  4. python拿什么做可视化界面好-用python打造可视化爬虫监控系统,酷炫的图形化界面...

    原标题:用python打造可视化爬虫监控系统,酷炫的图形化界面 本文并不是讲解爬虫的相关技术实现的,而是从实用性的角度,将抓取并存入 MongoDB 的数据 用 InfluxDB 进行处理,而后又通过 ...

  5. python中turtle画酷炫图案-用python打造可视化爬虫监控系统,酷炫的图形化界面

    本文并不是讲解爬虫的相关技术实现的,而是从实用性的角度,将抓取并存入 MongoDB 的数据 用 InfluxDB 进行处理,而后又通过 Grafana 将爬虫抓取数据情况通过酷炫的图形化界面展示出来 ...

  6. KubeVela v1.2 发布:你要的图形化操作控制台 VelaUX 终于来了

    简介:时间来到 2022 年,KubeVela 也正式进入了第四个阶段,在原先核心控制器 API 基本稳定的基础上,我们以插件的形式增加了一系列开箱即用的功能.让开发者可以通过 UI 控制台的方式,连 ...

  7. PrettyZoo V1.8.0 发布了, 一款值的收藏的 Zookeeper 图形化工具

    PrettyZoo 是我在 19 年闲暇时创作的一款 Zookeeper 桌面图形化工具,不仅颜值极高,而且功能齐全,支持 Windows / Mac / Linux 等主流平台. 新版本直接将整个底 ...

  8. 120项优化: 超级爬虫Hawk 2.0重磅发布!

    沙漠君在历时半年,修改无数bug,更新一票新功能后,在今天隆重推出最新改进的超级爬虫Hawk 2.0! 啥?你不知道Hawk干吗用的? 这是采集数据的挖掘机,网络猎杀的重狙!半年多以前,沙漠君写了一篇 ...

  9. KubeVela v1.2 发布:你要的图形化操作控制台 VelaUX 终于来

    作者:KubeVela 社区 随着云原生的不断发展和成熟,越来越多的基础设施能力逐渐标准化成为 PaaS 平台或者 SaaS 化产品.一个产品的诞生不再像过去那样需要建立一个团队,从开发.测试一直到运 ...

最新文章

  1. Android 多线程下载 显示进度 速度
  2. concurrent.futures dataset
  3. Ansible常用模块详解
  4. Http / Get 和 Post 区别
  5. 老BOJ 07 Fence Repair
  6. 总结Java常见面试题和答案
  7. C语言: ---gdb查看内存和寄存器内容
  8. Fiddler中response乱码的解决方案
  9. 关于纯HTML格式写入word
  10. 前端开发 背景图 0229
  11. c语言编译器turbo,C语言编译器TurboC使用技巧解析
  12. 让你的Windows系统时光倒流
  13. Android 倒计时器工具类
  14. 计算机社团英语宣传海报,英语协会宣传海报
  15. php如何采集有验证码的网页信息,网页数据采集出现验证码的解决方法 - 八爪鱼采集器...
  16. appcan注册功能php,appcan是什么
  17. 秋招手撕代码:4bit转换为1bit,且是慢时钟域到快时钟域
  18. [Debug] 法语输入
  19. 语义分割-CyCADA: Cycle-Consistent Adversarial Domain Adaptation.循环一致对抗领域自适应
  20. 网站建设需要要考虑到哪些细节

热门文章

  1. linux系统启动流程及常见问题的解决
  2. 构建Squid代理服务器-传统代理、透明代理、反向代理
  3. SSIS 执行变量中的脚步输出列顺序与SQL查询列顺序不同
  4. 浅谈C#字符串构建利器StringBuilder
  5. DispatcherCore ,一个WPF异步操作常用功能库
  6. 一行代码完成定时任务调度,基于Quartz的UI可视化操作组件 GZY.Quartz.MUI
  7. .NET6之MiniAPI(五):选项
  8. Blazor中的无状态组件
  9. 如何限制并发的 异步IO 请求数量?
  10. 如何评价一个开源项目——价值流网络