两年前,在文章最全大数据开源组件思维导图中,整理了大数据生态的开源技术组件思维导图,至今有4K的下载量。

尽管数据行业的新词热度,由大数据平台->数据治理->数据中台->数字化转型(现代数据技术栈)转换,做为这些新词的基础组成部分,数据资产管理平台/元数据管理平台/数据目录管理平台等技术方案,依旧处于Gartner曲线的爬升恢复期,相关平台百花齐放,一统江湖的开源平台或者商用产品还没出现,在推进企业数字化转型落地过程中,实现数据治理、数据资产管理平台/元数据管理平台/数据目录管理平台的选型,依旧是一项考验人能力的活。

计划分三篇文章详细介绍12款优秀的开源数据资产/元数据管理平台,在第三篇文章中,将通过一张选型二维表,全面对比12款开源软件的功能特性。

本文整理了其中Apache atlas、Datahub、Marquez、Amundsen四款产品,并简单分析其优缺点,供选项参考:

Apache Atlas


开源地址:https://github.com/apache/atlas 1.5K star

Atlas最早由大数据平台三驾马车(Cloudera,Hortonworks,MapR)之一HortonWorks公司开发,用来管理Hadoop项目里面的元数据,进而设计为数据治理的框架,它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。后来开源出来给Apache社区进行孵化,得到Aetna,Merck,Target,SAS,IBM等公司的支持进行发展演进。因其支持横向海量扩展、良好的集成能力和开源的特点,国内大部分厂家选择使用Atlas或对其进行二次开发。
目前,Cloudera,Hortonworks已经并购,MapR也鲜有新品。大数据技术领域,相较于Hadoop技术平台风头正盛的2016年,已经发生了巨大的变化,Hadoop体系正在逐步淡出舞台中央。MPP、现代技术栈、云原生数据库等登上舞台,例如Clickhouse、Doris、StarRocks、Databend、Materialize、Ringswave。

Atlas的优点:

  • 大厂开源,深度集成Hadoop生态中的Hive,支持表级、字段级血缘
  • 与HDP原生集成,支持对接Ranger实现行列级数据权限管控,安装便捷省心
  • 强大的元数据元模型,支持元数据定制及扩展
  • 源代码不复杂,国内有大量平台基于Atlas定制修改为商用产品

Atlas的不足:

  • 其优势也是劣势,母开源公司已被并购,历史悠久,不再是一种优势,反而是一种负担
  • Hadoop体系已经走向衰退,如何只是完美支持Hive和Hadoop体系,已经无法满足现在快速发展的技术要求
  • 其设计界面复杂,体验老旧、数据目录及数据检索都不够便捷
  • 使用体验复杂及产品功能更聚焦于解决技术人员的问题,而非数据的最终用户,比如业务人员
  • 生态渐渐失去新鲜感、新的类似平台不断发展

相关介绍:https://mp.weixin.qq.com/s/MvaxSF74NE0E43i4rQEb3g
选型建议:1)如果您只有Hadoop生态,可以试试。2)如果您的数据资产是面向数据团队的技术人员,可以试试。

Datahub


开源地址:https://github.com/datahub-project/datahub 7.2K star
DataHub是由Linkedin开源的,官方Slogan:The Metadata Platform for the Modern Data Stack - 为现代数据栈而生的元数据平台。目的就是为了解决多种多样数据生态系统的元数据管理问题,它提供元数据检索、数据发现、数据监测和数据监管能力,帮助大家解决数据管理的复杂性。

DataHub基于Apache License 2开源,采用基于推送的数据收集架构(当然也支持pull拉取的方式),能够持续收集变化的元数据。当前版本已经集成了大部分流行数据生态系统接入能力,包括但不限于:Kafka, Airflow, MySQL, SQL Server, Postgres, LDAP, Snowflake, Hive, BigQuery。

Datahub的优点:

  • 名门开源,与Kafka同家庭。社区活跃,发展势头迅猛,版本更新迭代迅速。
  • 定位清晰且宏远,Slogan可以看出团队的雄心壮志及后期投入,且不断迭代更新的版本也应证了这一点。
  • 底层架构灵活先进,未扩展集成而生,支持推送和拉去模式,详见:https://datahubproject.io/docs/architecture/architecture/
  • UI界面简单易用,技术人员及业务人员友好
  • 接口丰富,功能全面

Datahub的不足:

  • 前端界面不支持国际化,界面的构建和使用逻辑不够中国化
  • 版更更新迭代快,使用后升级是个难题
  • 较多功能在建设中,例如Hive列级血缘
  • 部分功能性能还需要优化,例如SQL Profile
  • 中文资料不多,中文交流社群也不多

相关介绍
https://mp.weixin.qq.com/s/74gK3hTt7-j1lTbKFagbTQ
https://mp.weixin.qq.com/s/iP6sc2DzPaeAKpSWNmf8hQ
选型建议
1)如果有至少半个前端开发人员+后台开发人员;
2)如果需要用户体验较好的数据资产管理平台;
3)如果有需要扩展支持各种平台、系统的元数据。请把Datahub列为最高选择。
尽管列举了一些不足,但是开源产品中Datahub目前是相对最好的选择。笔者也在生产中使用,有问题的可以随时沟通交流。
商用版本: Metaphor(https://metaphor.io/)是Datahub的SaaS版本。

Marquez


开源地址:https://github.com/MarquezProject/marquez 1.3K star
Marquez的优点:

  • 界面美观,操作细节设计比较棒
  • 部署简单,代码简洁
  • 依靠底层OpenLineage协议,结构较好

Marquez的不足:

  • 聚焦数据资产/血缘的可视化,数据资产管理的一些功能,需要较多开发工作

相关介绍:https://mp.weixin.qq.com/s/OMm6QEk9-1bFdYKuimdxCw
选型建议
1)如果您有功能强大的元数据及数据资产管理平台后端,仅需要数据资产的可视化及血缘展示,可以考虑使用体验。
2)界面展示比较棒,支持选择依赖线路高亮及隐藏支线依赖。要做到数据资产管理、元数据采集有较多的工作要做。

商用版本:
Datakin(https://datakin.com/) 是Marquez的SaaS版本. 支持 Apache Hive, Amazon RDS, Teradata, Amazon Redshift, Amazon S3, and Cassandra.

Amundsen

开源地址:https://github.com/amundsen-io/amundsen 3.8K star
Amundsen 是来自Lyft 开源的元数据管理、数据发现平台,功能点很全,有一个比较全的前端、后端以及数据处理框架
Amundsen的优点:

  • Lyft大厂开源,社区活跃,版本更新较多
  • 定位清晰明确,与Datahub类似,致力于成为现代数据栈中的数据目录产品
  • 支持对接较多的数据平台与工具

Amundsen的不足:

  • 中规中矩的UI界面,操作便捷性不足
  • 中文文档不多
  • 血缘、标签、术语等功能方面不如Datahub使用便捷
  • 较多支持友好的组件,国内使用的不多

相关介绍
https://mp.weixin.qq.com/s/yGZ1RJs2seu943sswxYYzw
https://mp.weixin.qq.com/s/5w6euvUWzm5RWXgisB-rMg
https://mp.weixin.qq.com/s/iVocnMV8zuQN-jcID83nSg
选型建议
1)如果有人折腾,建议选择Datahub,如果没人折腾,选择Amundsen够折腾
商用版本: Stemma(https://www.stemma.ai/)是Amundsen的SaaS 版本。

总结

数据治理、数据资产管理等工作,是企业数字化转型中的底层基建,很重要,却又很难体现出效果和价值。上层数据战略、数据架构、数据流程、数据规范等问题,在组织层面没有解决;不论数据资产平台等工作规划和实现得如何好,都只能体现出杯水车薪的效果。

12款开源数据资产(元数据)管理平台选型分析(一)相关推荐

  1. 开源资产/漏洞管理平台使用测评

    ​ 对几款开源资产/漏洞管理平台的简单测评. ​ TideSec/Mars ​ ​ ​ ​ ​ ​ Mars(战神)--资产发现.子域名枚举.C段扫描.资产变更监测.端口变更监测.域名解析变更监测.A ...

  2. 使用 ERD Online元数据管理平台,轻松创建和共享企业元数据

    企业如何在业务场景中建立自己的信息系统,并且实现信息系统与非信息系统之间的有效整合? 对于这些企业来说,数据往往是企业最重要的资产,然而在企业管理中也存在着很多的瓶颈,比如:对数据分析不够深入.整合数 ...

  3. 智能数据构建与管理平台Dataphin的前世今生:缘起

    简介:阿里巴巴提出的OneData方法论帮助企业捋清了数据全生命周期的管理思路,更将其植入到产品Dataphin(智能数据构建与管理)中,通过阿里云为企业提供服务. Dataphin 智能数据构建与管 ...

  4. 安全数据资产统一管理

    安全数据资产 统一管理DataOps,即 Data 和 Operations 的集成,于 2014 年首次提出.Gartner 将 DataOps 定义为"一种协作性的数据管理 实践,专注于 ...

  5. 数据智能构建管理平台Dataphin V2.9.4.3版本发布

    简介:Dataphin发布V2.9.4.3版本升级多项产品能力,该版本在产品功能和用户体验上都进行了优化和提升,旨在为用户提供更完善的产品能力和体验,以加速企业数据中台建设进程. -更多关于数智化转型 ...

  6. 开源项目 ——API接口管理平台数据库原型设计(三)

    开源项目 --API接口管理平台数据库原型设计(三) 背景 日常我们开发人员在开发一些常用的平台时都会用到各种各样的接口,而对于这些接口的有效管理都会成为我们的一些麻烦事,一些常见的接口管理平台我们使 ...

  7. 历经3年的打磨,数据构建及管理平台Dataphin增加了什么新功能?

    简介:自Dataphin产品上线以来,经历3年的迭代打磨,在2021年5月15日发布新版本,主要涉及数据源类型拓展,数据集成.实时研发.数据服务功能升级,运维体验优化等,将满足更多用户场景,提升研发体 ...

  8. 元数据管理平台技术白皮书

    亿信: 元数据管理平台技术白皮书 https://www.esensoft.com/article/show/id/2338.html

  9. 一款开源免费图床聚合平台 ImageHosting

    一款开源免费图床聚合平台 ImageHosting https://github.com/jingxiang/imagehosting 转载于:https://www.cnblogs.com/kalm ...

最新文章

  1. Mysql基础知识—索引
  2. 41. First Missing Positive
  3. Alibaba微服务事务Seata源码深度剖析 - 笔记
  4. mysql在cmd命令行下的相关操作
  5. C++基础17-纯虚函数和抽象类
  6. 深度分析Spring中的构造器注入
  7. django中settings中文解释
  8. flex java blazeds_flex+java+blazeds 多通道好文
  9. jquery里判断数组内是否包含了指定的值或元素的方法
  10. Compile LLVM+CLANG 4.0.1 for RHEL6
  11. python sorted函数倒序_Python sorted函数
  12. 看了这个教程,学会快速找出三等分点
  13. android 密码输入框 星号,input密码框输入后设置显示为星号或其他样式
  14. UNCTF 2022 部分WP
  15. 微信公众号开发之语音消息识别
  16. STM32F4 SPI DMA
  17. 装修甲醛怎么办?自制小程序监控的甲醛检测仪
  18. 数据库常考填空题合集
  19. 【基础知识】CCD与CMOS传感器优劣
  20. 敢问DeFi,路在何方?

热门文章

  1. sql server2008导入导出accdb文件
  2. 《OSPF和IS-IS详解》一1.4 互联网的诞生
  3. 大数据开发笔试题整合
  4. Java String的API方法总结
  5. arcgispython脚本开发工具_06-05【求助】利用python脚本语言开发新的Arctoolbox工具
  6. 基于javaweb的超市库存管理系统(idea+servlet+jsp)
  7. mysql查询排除字段_mysql查询表,指定排除字段
  8. 保护您的 ASP.NET 应用程序
  9. PLC实验:认知实训
  10. 深度学习模型大小的探讨