数据治理意义重大,传统的数据治理采用文档的形式进行管理,已经无法满足大数据下的数据治理需要。而适合于Hadoop大数据生态体系的数据治理就非常的重要了。

大数据下的数据治理作为很多企业的一个巨大的难题,能找到的数据的解决方案并不多,但是好在近几年,很多公司已经进行了尝试并开源了出来,本文将详细分析这些数据发现平台,在国外已经有了十几种的实现方案。

数据发现平台可以解决的问题

为什么需要一个数据发现平台?

在数据治理过程中,经常会遇到这些问题:数据都存在哪?该如何使用这些数据?数据是做什么的?数据是如何创建的?数据是如何更新的?

。。。。。

数据发现平台的目的就是为了解决上面的问题,帮助更好的查找,理解和使用数据。

比如Facebook的Nemo就使用了全文检索技术,这样可以快速的搜索到目标数据。

用户浏览数据表时,如何快速的理解数据?一般的方式是把列名,数据类型,描述显示出来,如果用户有权限,还可以预览数据。

下面是Amundsen的数据列展示功能。

数据ETL是一个大问题,特别是如何把这些展示出来更是非常难,其实数据的ETL是可以用数据的流向图表示的,很多平台都支持这种功能,比如 Databook,还有Metcat。

Amundsen就和数据调度平台Airflow有着非常好的结合。

数据发现平台对比

下面一张表 对比一下各大平台对于上述功能的支持情况

搜索 推荐 表描述 数据预览 列统计 占用指标 权限 排名 数据血统 改变通知 开源 文档 支持数据源
Amundsen (Lyft) Todo Hive, Redshift, Druid, RDBMS, Presto, Snowflake, etc.
Datahub (LinkedIn) Hive, Kafka, RDBMS
Metacat (Netflix) Todo Todo Hive, RDS, Teradata, Redshift, S3, Cassandra
Atlas (Apache) HBase, Hive, Sqoop, Kafka, Storm
Marquez (Wework) S3, Kafka
Databook (Uber) Hive, Vertica, MySQL, Postgress, Cassandra
Dataportal (Airbnb) Unknown
Data Access Layer (Twitter) HDFS, Vertica, MySQL
Lexikon (Spotify) Unknown
这里介绍一下五个开源的解决方案

DataHub (LinkedIn)

LinkedIn开源出来的,原来叫做WhereHows 。经过一段时间的发展datahub于2020年2月在Github开源

https://github.com/linkedin/datahub

可以说是一个非常充满活力的项目,有着表结构,搜索,数据血统等功能,还有用户和组等功能。

官方也提供了文档。开源版本支持Hive,Kafka和关系数据库中的元数据。

所以Datahub的使用率还是非常高的。

Amundsen (Lyft)

Lyft 于2019年4月开发了Amundsen,并与10月开源。

https://github.com/amundsen-io/amundsen

Amundsen提供了搜索与排名的功能,帮助更好的查找数据表。

支持的数据源非常丰富,支持hive ,druid等超过15个数据源,而且还提供与任务调度airflow的融合,并提供了与superset等BI工具的集成方式。

而数据血统的功能也正在开发之中。

Metacat(Netflix)

Netflix在2018年6月开源了Metacat。

Metacat支持Hive,Teradata,Redshift,S3,Cassandra和RDS的集成。

不过虽然Metacat开源,但是官方没有提供文档,资料也很少。

Marquez (WeWork)

Wework于2018年10月开源了Marquez

Marquez也对Airflow有着很好的支持。

可以看到Marquez还在持续的更新中,保持关注。

Apache Atlas(Hortonworks)

作为数据治理计划的一部分,Atlas于2015年7月开始在Hortonworks进行孵化。

Atlas 1.0于2018年6月发布,当前版本是2.1。

Atlas的主要目标是数据治理,支持与HBase,Hive和Kafka的集成。

github地址

https://github.com/apache/atlas

丰富的文档

如何选择

首先说一下笔者的选择,虽然对datahub和amundsen非常的感兴趣,最后还是选择了Atlas。

开源,文档的丰富程度,功能,这些在上文表格中都做了详细的对比,如何选择还是要考虑实际情况。

开源的有五家:Amundsen Datahub Metacat Marquez Atlas

有文档的有三家:Amundsen Datahub Atlas

搜索功能较强 :Amundsen

有数据血统功能:Datahub Atlas

考虑到项目的周期,实施性等情况,还是建议大家从Atlas入门,打开数据治理的探索之路。

当然也有公司同时采用了Atlas和Amundsen,Atlas处理元数据管理,利用Amundsen强大的数据搜索能力来做数据搜索,这也是一种不错的选择。

欢迎大家关注 “实时流式计算”

未来, “实时流式计算” 将推出Atlas 2.1 部署与实践 系列文章,推开数据治理之门。

数据治理方案技术调研 Atlas VS Datahub VS Amundsen相关推荐

  1. 【数据治理】数据治理方案技术调研 Atlas VS Datahub VS Amundsen

    数据治理意义重大,传统的数据治理采用文档的形式进行管理,已经无法满足大数据下的数据治理需要.而适合于Hadoop大数据生态体系的数据治理就非常的重要了. 大数据下的数据治理作为很多企业的一个巨大的难题 ...

  2. Atlas(2):开源数据治理方案

    数据治理意义重大,传统的数据治理采用文档的形式进行管理,已经无法满足大数据下的数据治理需要.而适合于Hadoop大数据生态体系的数据治理就非常的重要了. 一,元数据管理系统 市面上常见的元数据管理系统 ...

  3. 证券期货行业监管大数据治理方案研究

    证券期货行业监管大数据治理方案研究 蒋东兴1, 高若楠2, 王浩宇2 1. 中国证券监督管理委员会信息中心,北京 100033: 2. 中证信息技术服务有限责任公司,北京 100033 摘要:为充分发 ...

  4. 非结构化数据治理方案

    随着互联网技术的日新月异,内容数据逐渐在各行业的业务中占据更重要的地位.日常的业务过程中,需要处理的大量电子文档.图片.音频.视频等,都属于内容数据范畴. 例如,某银行的无人营业网点的远程业务办理中, ...

  5. 【线上直播】数据治理方案探索

    [线上直播]数据治理方案探索 讲师 魏战松  简介: 花名林冲,8年互联网.大数据.金融支付领域的项目设计开发经验,尤为擅长 JAVA项目开发,对金融支付领域要求的高性能,高可靠性,高安全性有深刻认识 ...

  6. 详解6G系统数据治理方案的设计要点和原则

    导读:今天的数字化社会中,数据非常重要.未来6G系统将会产生.收集和交换大量的数据.各种运营管理任务,比如配置.性能监控.故障管理,都需要用到这些数据.这些数据还将作为知识经验与其他系统和业务领域交流 ...

  7. 鄞州银行:符合中小银行质量提升的数据治理方案

    案例简介 在数字化转型的驱动和数据治理"严监管"的推动下,为解决金融机构数据治理体系不健全.数据质量低下等问题,利用数据治理成熟度评估模型进行问题分析定位,重点围绕数据规划.组织机 ...

  8. 案例解析|从数据规划、业务分析到管理决策的数据治理方案

    随着技术的发展,IT逐渐面临越来越多的挑战,尤其是数据治理方面.而九州通医药集团在IT建设方面不畏艰险,自主研发ERP系统.物流系统,在解决企业自身问题的同时还创新投入商业化,为同行业提供服务,树立标 ...

  9. 自然资源数据治理方案

    概述 数据治理是一个对数据进行管控的过程,是对数据生命周期管理,包括数据标准.元数据.数据模型.数据分布.数据存储.数据交换.数据质量.数据安全以及数据共享服务等.数据治理的目标是打造一个全生命周期的 ...

  10. 340页11万字智慧政务大数据资源平台数据治理方案

    一.1.1 数据治理子系统 建设大数据治理子平台,提供数据标准管理.元数据管理.数据质量管理能力,实现对数据的规范治理与管理:提供数据工厂能力,实现对归集的数据进行清洗.加工,支撑业务的数据应用需求. ...

最新文章

  1. 从今天开始收集一些经典的算法。
  2. TCP/IP协议族(一) HTTP简介、请求方法与响应状态码
  3. Jquery操作Cookie取值错误的解决方法
  4. Android实现监测网络状态
  5. 【洛谷 P3304】[SDOI2013]直径(树的直径)
  6. const iterator 和const_iterator的区别
  7. Vue自定义属性的设置及获取
  8. docker 运行windows程序_如何从Windows上运行任何Linux图形GUI程序?
  9. java如何编译运行?
  10. Java程序员不容错过的开发趋势
  11. (十进制高速幂+矩阵优化)BZOJ 3240 3240: [Noi2013]矩阵游戏
  12. java 枚举 扑克牌_Java入门第三季7-1简易扑克牌作业
  13. python integer函数_python - Floor函数消除了Integer科学符号,Python - 堆栈内存溢出
  14. layui 主动验证表单规则
  15. 贝叶斯回归 matlab,逻辑回归模型的贝叶斯分析
  16. 台式计算机如何定时关机,台式电脑设置定时关机
  17. 2020 Stibo Systems全球事业部新财年启动大会胜利召开
  18. 【office考试】Office办公软件考试试题题目
  19. 解决宝塔安装wordpress无法连接到数据库问题
  20. 《精力管理》读书笔记——第一部分

热门文章

  1. loadrunner11破解失败,已解决“ license security violation.Operation is not allowed ”问题
  2. gbadev上的资料搬运贴
  3. python连接阿里云数据库_Python连接MySQL数据库教程演示
  4. python从入门到精通 清华大学出版社-清华大学出版社 python
  5. EPM连接显示服务器不可用,EPM问题汇总之-SmartView没法链接Essbase
  6. 图文混盘之---仿微博表情键盘Objective-C版
  7. python错误:ImportError: DLL load failed: 找不到指定的程序,from PyQt6 import QtCore, QtGui, QtWidgets
  8. C语言编程练习,猜数字游戏实现
  9. TOGAF认证自学宝典V2.0
  10. 瑞禧分享二维晶体表征介绍及定制SnPSe3晶体;CoBi4Te7 磁性拓扑绝缘体/CuInP2S6晶体;Nb2SiTe4晶体/Sb2TeSe2晶体等