数据继土地、劳动力、资本之后成为新兴的生产要素,各国政府相继制定战略规划,加大对数据汇聚、分析、安全等方面的投入,我国国务院和各地方政府也不断出台政策,在大数据治理研究方面给予支持。

ETL处理做为数据治理的重要环节已有几十年的发展历史,然而目前流行的ETL工具(Informatica、Datastage、ODI、Kettle等)几乎全部由国外各大厂商垄断。国内虽然有出现过几款工具,但是由于使用习惯、市场压制等原因,一直得不到较好发展,部分工具已停止研发,这对我国数据市场的发展无疑是十分不利的。

一、Lanius产品简介

“Lanius大数据治理平台”是由渝州大数据实验室研发推出的一款国产可控的ETL处理及数据调度的产品,拥有生产级、易使用、智能化的特点。以推动国内数据治理发展为目标,向个人及政企单位免费开源。

Lanius主要由数据治理设计器(Lanius Design)、数据治理调度器(Lanius Orchestrate)两部分组成。Lanius Design用于开发人员设计数据ETL任务,Lanius Orchestrate则用于运维人员调度该任务。两部分协调统一,数据处理任务才能有条不紊的执行下去。

二、产品特色

1、Lanius Design

对于Kettle,ETL爱好者都比较熟悉。作为一款国外开源的老牌ETL工具,有着多年的发展历史,但其对国内的支持却不够友好,比如:

  • 国产环境下兼容性不好,汉化不彻底,中英混杂
  • 数据库驱动粒度太大,同一款数据库多个版本间只能使用一个驱动包
  • 插件体系缺乏版本管理机制,在插件功能更迭时需要同时更新相关转换/作业
  • 插件体系缺乏热插拔机制,无法保障生产环境升级时的连续性

不过作为一款优秀的ETL工具,它仍然为该领域的发展提供了坚实的基础和不可磨灭的贡献,因此Lanius Design选择对Kettle进行二次开发,并在此基础之上针对国内环境进行全面改进优化。

目前已完成以下几方面:

  • 国产兼容

Lanius Desgin全面支持国产CPU芯片、操作系统、数据库软件、中间件,代码全部可控;对操作界面做深度汉化,提高其对国内用户的友好性。

  • 驱动绑定

在做数据迁移操作时,部分时候会需要将数据在同一品牌不同版本的数据库之间进行迁移,比如在一个转换中将数据从MySQL5.7迁移到MySQL5.8。由于Kettle的驱动包是全局共享的,无法同时指定两个不同版本的数据库驱动包,而Lanius Design将驱动和转换中的步骤进行绑定,可以在同一转换、同一插件、不同步骤中分别指定不同的驱动。

  • 版本管理

提供插件多版本管理机制,允许同一款插件同时存在多个版本,完美解决插件在新旧版本更迭时出现的兼容性问题。比如上线一款新的插件A1.0,但是可能因为需求分析不到位,存在一些功能上的不足,为此需经过升级再发布插件A2.0。由于A1.0已经在若干项目中使用,不能简单粗暴的替换,而应该确保多个版本的共存使用,此时,版本管理功能就派上用场了。

  • 热插拔

对插件类加载器进行了改良升级,所有插件可以在不停止程序、不重启的情况下实现安装与卸载,提高了生产环境下的连续可用性。

此外,实验室正在同步开发若干其他方面的功能,如执行背压。让一个转换中的步骤之间可以相互感知到数据的处理速度,步调一致的处理数据,防止出现瓶颈导致内存溢出问题,从而提高平台的稳定性。

2、Lanius Orchestrate

在介绍Lanius Orchestrate之前不得不说一下Kettle另一大问题——缺少运维调度,这也导致了Kettle对生产环境的不友好,使用者很难监测和控制转换作业的执行过程,因此在人力的投入上需要增加数量及专业性,导致人力成本增加。

Lanius Orchestrate是一款配合Lanius Design使用的WEB版运维调度平台,产品具有以下特点:

  • 完全开源

Orchestrate代码已经通过Gitee平台完全开源,遵循木兰2.0开源协议,可放心用于商业项目中。

开源地址:

lanius-orchestrate-client: lanius-orchestrate 前端项目https://gitee.com/yuzhou-big-data-laboratory/lanius-orchestrate-client

lanius-orchestrate-server: lanius-orchestrate 后端项目https://gitee.com/yuzhou-big-data-laboratory/lanius-orchestrate-server

  • 调度灵活

实现调度任务的单个或批次的新增、删除、修改、查询、启动、停止等操作,任务和转换/作业相关联,实现转换/作业的自动化调度,支持对任务执行结果进行自动分析,支持根据任务结果进一步触发其他任务事件。

  • 运维方便

提供详细的指标监视页面,以便掌控全局;提供邮件、短信等多种主动通知方式,无需专人值守;汇总各个节点任务执行日志,提供统一的渠道排查相关问题;让运维工作不再困难。

  • 高效稳定

在某些大型项目中,需要部署多套程序来应对高频、量大的数据处理需求。Orchestrate支持同时管理多台服务器、多个ETL任务节点,提高数据处理的效率和稳定性,更贴近生产需求。

Lanius大数据治理平台相关推荐

  1. 大数据治理平台建设方案(文末附PDF下载)

    这份材料我给满分!分享一份非常好的大数据治理平台解决方案材料,这份PPT将理论与实践相结合,值得仔细阅读,建议收藏. 文档目录主要包含了以下几点: 数据治理概述 某行数据现状及问题 数据治理阶段目标 ...

  2. 大数据治理平台有哪些价值

    随着大数据技术在众多领域的广泛应用,大量数据源需要接入大数据平台,多种数据处理引擎和开发语言被各类技术/非技术人员人员使用,复杂业务催生了规模庞大.逻辑复杂的工作流程,数据成为业务的生命线需要重点保护 ...

  3. 14万字数字政府大数据治理平台及大数据中心资源平台建设方案

    本资料来源公开网络,仅供个人学习,请勿商用,如有侵权请联系删除. 部分资料内容: 1.1 数据治理子平台建设 在本次项目中,我们将通过大数据治理子平台的建设,提供数据标准管理.元数据管理.数据质量管理 ...

  4. 10万字智慧政务大数据治理平台解决方案(word)

    本资料来源公开网络,仅供个人学习,请勿商用,如有侵权请联系删除. 1 项目整体建设规划方案 按照<省人民政府关于推进数字政府建设的指导意见>(鄂政发(2019) 4号)的规则要求,结合XX ...

  5. 数据中台大数据治理平台大数据支撑平台建设方案

    原文<数据中台及大数据支撑平台项目建设方案>WORD格式,原文获取来源公众号:优享智库 数据中台总体架构 总体架构 大数据支撑平台 大数据支撑平台是整个单位大数据体系架构的基础,其建设目的 ...

  6. 大数据治理平台建设方案

    一.数据治理意义.作用和价值 意义 · 是构建完善.共享.统一管理数据环境的基本保障和重要组成部分. · 是把数据作为资产来管理的有效手段 作用 · 确定了一系列岗位角色和相应的责任及管理流程 · 保 ...

  7. 41页大数据治理平台建设与应用解决方案(附下载)

    大数据存储应用广泛,具备大数据必备因素 现阶段大数据技术Hive.Spark.Storm.Hbase已使用广泛,解决了大数据存储问题.ETL工具.FLUME组件负责大数据交换问题大数据存储数据的传输问 ...

  8. 90页PPT详细介绍大数据治理平台解决方案|附PPT下载

    企业进行数据治理的最大驱动力来自数据质量,通过提高数据质量实现更多的业务价值.将实现业务目标作为数据管理和服务的核心驱动力,优化数据架构,提升数据仓库/信息化管理系统建设,支持管理能力的提高.精细化和 ...

  9. 大数据治理平台建设规划方案

    推荐阅读: 世界的真实格局分析,地球人类社会底层运行原理 不是你需要中台,而是一名合格的架构师(附各大厂中台建设PPT) 企业IT技术架构规划方案 论数字化转型--转什么,如何转? 华为干部与人才发展 ...

最新文章

  1. do{ ...}while(0)应用技巧
  2. Kafka 六战 RabbitMQ,这差距还不够明显吗?
  3. 静态html使用js发送邮件,html实现邮箱发送邮件_js发送邮件至指定邮箱功能
  4. 每日一皮:当写的程序出现bug时,就是这么奇妙...
  5. 科大星云诗社动态20210427
  6. 7.1 pdo 宝塔面板php_CentOS 7.6下宝塔面板 PHP7.2安装sqlsrv扩展
  7. python位运算符_NumPy按位运算符解析和实例详解
  8. 全Flash网站和单个Flash作品制作的区别
  9. linux的arp指令
  10. linux 串口命令
  11. 分析按键序列以执行不同功能。但又从中抽象出来一个,暂时不知道还能用作别的不。...
  12. Spring @Scheduled定时任务调度配置的详解
  13. GJM:用C#实现网络爬虫(一) [转载]
  14. mssql数据库简繁体互转
  15. EasyUI treegrid 获取编辑状态中某字段的值 [getEditor方法获取不到editor]
  16. HTML5期末大作业:影视视频网站设计——爱影评在线电影(10页面) HTML+CSS+JavaScript 学生DW网页设计作业成品 web课程设计网页规划与设计 计算机毕设网页设计源码
  17. 在linux中安装搜狗输入法,如何在ubuntu下安装搜狗输入法
  18. Vue 按enter键实现登陆
  19. java 正序a~z_java 策略模式,list集合,实现id 姓名年龄正序倒序排序(如果年龄或者姓名重复,按id正序排序)...
  20. 利用ELK技术栈收集nginx日志

热门文章

  1. python解决换零钱问题_多种解法解决“零钱兑换”问题
  2. 历史上的数学危机(转载)
  3. 微信通过JSSDK分享朋友圈
  4. html 设置整体字体,HTML字体的设置
  5. NCR(numeric character reference)字符转换成真实字符
  6. 安装程序配置服务器失败。参考服务器错误日志和C:/WINDOWS/sqlstp.log
  7. RapidScada免费开源Scada组态软件系列教程7-Linux下系统的运行
  8. cf-666 div2: E Monster Invaders (动态规划)
  9. 教妹学Java:接口,抽象的另一种表现方式
  10. gb和gib的区别_GB 和 GiB 的区别