数据治理方案技术调研 Atlas VS Datahub VS Amundsen
数据治理意义重大,传统的数据治理采用文档的形式进行管理,已经无法满足大数据下的数据治理需要。而适合于Hadoop大数据生态体系的数据治理就非常的重要了。
大数据下的数据治理作为很多企业的一个巨大的难题,能找到的数据的解决方案并不多,但是好在近几年,很多公司已经进行了尝试并开源了出来,本文将详细分析这些数据发现平台,在国外已经有了十几种的实现方案。
数据发现平台可以解决的问题
为什么需要一个数据发现平台?
在数据治理过程中,经常会遇到这些问题:数据都存在哪?该如何使用这些数据?数据是做什么的?数据是如何创建的?数据是如何更新的?
。。。。。
数据发现平台的目的就是为了解决上面的问题,帮助更好的查找,理解和使用数据。
比如Facebook的Nemo就使用了全文检索技术,这样可以快速的搜索到目标数据。
用户浏览数据表时,如何快速的理解数据?一般的方式是把列名,数据类型,描述显示出来,如果用户有权限,还可以预览数据。
下面是Amundsen的数据列展示功能。
数据ETL是一个大问题,特别是如何把这些展示出来更是非常难,其实数据的ETL是可以用数据的流向图表示的,很多平台都支持这种功能,比如 Databook,还有Metcat。
Amundsen就和数据调度平台Airflow有着非常好的结合。
数据发现平台对比
下面一张表 对比一下各大平台对于上述功能的支持情况
搜索 | 推荐 | 表描述 | 数据预览 | 列统计 | 占用指标 | 权限 | 排名 | 数据血统 | 改变通知 | 开源 | 文档 | 支持数据源 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Amundsen (Lyft) | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | Todo | ✔ | ✔ | Hive, Redshift, Druid, RDBMS, Presto, Snowflake, etc. | ||
Datahub (LinkedIn) | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | Hive, Kafka, RDBMS | |||||
Metacat (Netflix) | ✔ | ✔ | ✔ | ✔ | Todo | Todo | ✔ | Hive, RDS, Teradata, Redshift, S3, Cassandra | |||||
Atlas (Apache) | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | HBase, Hive, Sqoop, Kafka, Storm | ||||||
Marquez (Wework) | ✔ | ✔ | ✔ | ✔ | S3, Kafka | ||||||||
Databook (Uber) | ✔ | ✔ | ✔ | ✔ | ✔ | Hive, Vertica, MySQL, Postgress, Cassandra | |||||||
Dataportal (Airbnb) | ✔ | ✔ | ✔ | ✔ | ✔ | Unknown | |||||||
Data Access Layer (Twitter) | ✔ | ✔ | ✔ | HDFS, Vertica, MySQL | |||||||||
Lexikon (Spotify) | ✔ | ✔ | ✔ | ✔ | ✔ | Unknown |
这里介绍一下五个开源的解决方案
DataHub (LinkedIn)
LinkedIn开源出来的,原来叫做WhereHows 。经过一段时间的发展datahub于2020年2月在Github开源
https://github.com/linkedin/datahub
可以说是一个非常充满活力的项目,有着表结构,搜索,数据血统等功能,还有用户和组等功能。
官方也提供了文档。开源版本支持Hive,Kafka和关系数据库中的元数据。
所以Datahub的使用率还是非常高的。
Amundsen (Lyft)
Lyft 于2019年4月开发了Amundsen,并与10月开源。
https://github.com/amundsen-io/amundsen
Amundsen提供了搜索与排名的功能,帮助更好的查找数据表。
支持的数据源非常丰富,支持hive ,druid等超过15个数据源,而且还提供与任务调度airflow的融合,并提供了与superset等BI工具的集成方式。
而数据血统的功能也正在开发之中。
Metacat(Netflix)
Netflix在2018年6月开源了Metacat。
Metacat支持Hive,Teradata,Redshift,S3,Cassandra和RDS的集成。
不过虽然Metacat开源,但是官方没有提供文档,资料也很少。
Marquez (WeWork)
Wework于2018年10月开源了Marquez
Marquez也对Airflow有着很好的支持。
可以看到Marquez还在持续的更新中,保持关注。
Apache Atlas(Hortonworks)
作为数据治理计划的一部分,Atlas于2015年7月开始在Hortonworks进行孵化。
Atlas 1.0于2018年6月发布,当前版本是2.1。
Atlas的主要目标是数据治理,支持与HBase,Hive和Kafka的集成。
github地址
https://github.com/apache/atlas
丰富的文档
如何选择
首先说一下笔者的选择,虽然对datahub和amundsen非常的感兴趣,最后还是选择了Atlas。
开源,文档的丰富程度,功能,这些在上文表格中都做了详细的对比,如何选择还是要考虑实际情况。
开源的有五家:Amundsen Datahub Metacat Marquez Atlas
有文档的有三家:Amundsen Datahub Atlas
搜索功能较强 :Amundsen
有数据血统功能:Datahub Atlas
考虑到项目的周期,实施性等情况,还是建议大家从Atlas入门,打开数据治理的探索之路。
当然也有公司同时采用了Atlas和Amundsen,Atlas处理元数据管理,利用Amundsen强大的数据搜索能力来做数据搜索,这也是一种不错的选择。
欢迎大家关注 “实时流式计算”
未来, “实时流式计算” 将推出Atlas 2.1 部署与实践 系列文章,推开数据治理之门。
数据治理方案技术调研 Atlas VS Datahub VS Amundsen相关推荐
- 【数据治理】数据治理方案技术调研 Atlas VS Datahub VS Amundsen
数据治理意义重大,传统的数据治理采用文档的形式进行管理,已经无法满足大数据下的数据治理需要.而适合于Hadoop大数据生态体系的数据治理就非常的重要了. 大数据下的数据治理作为很多企业的一个巨大的难题 ...
- Atlas(2):开源数据治理方案
数据治理意义重大,传统的数据治理采用文档的形式进行管理,已经无法满足大数据下的数据治理需要.而适合于Hadoop大数据生态体系的数据治理就非常的重要了. 一,元数据管理系统 市面上常见的元数据管理系统 ...
- 证券期货行业监管大数据治理方案研究
证券期货行业监管大数据治理方案研究 蒋东兴1, 高若楠2, 王浩宇2 1. 中国证券监督管理委员会信息中心,北京 100033: 2. 中证信息技术服务有限责任公司,北京 100033 摘要:为充分发 ...
- 非结构化数据治理方案
随着互联网技术的日新月异,内容数据逐渐在各行业的业务中占据更重要的地位.日常的业务过程中,需要处理的大量电子文档.图片.音频.视频等,都属于内容数据范畴. 例如,某银行的无人营业网点的远程业务办理中, ...
- 【线上直播】数据治理方案探索
[线上直播]数据治理方案探索 讲师 魏战松 简介: 花名林冲,8年互联网.大数据.金融支付领域的项目设计开发经验,尤为擅长 JAVA项目开发,对金融支付领域要求的高性能,高可靠性,高安全性有深刻认识 ...
- 详解6G系统数据治理方案的设计要点和原则
导读:今天的数字化社会中,数据非常重要.未来6G系统将会产生.收集和交换大量的数据.各种运营管理任务,比如配置.性能监控.故障管理,都需要用到这些数据.这些数据还将作为知识经验与其他系统和业务领域交流 ...
- 鄞州银行:符合中小银行质量提升的数据治理方案
案例简介 在数字化转型的驱动和数据治理"严监管"的推动下,为解决金融机构数据治理体系不健全.数据质量低下等问题,利用数据治理成熟度评估模型进行问题分析定位,重点围绕数据规划.组织机 ...
- 案例解析|从数据规划、业务分析到管理决策的数据治理方案
随着技术的发展,IT逐渐面临越来越多的挑战,尤其是数据治理方面.而九州通医药集团在IT建设方面不畏艰险,自主研发ERP系统.物流系统,在解决企业自身问题的同时还创新投入商业化,为同行业提供服务,树立标 ...
- 自然资源数据治理方案
概述 数据治理是一个对数据进行管控的过程,是对数据生命周期管理,包括数据标准.元数据.数据模型.数据分布.数据存储.数据交换.数据质量.数据安全以及数据共享服务等.数据治理的目标是打造一个全生命周期的 ...
- 340页11万字智慧政务大数据资源平台数据治理方案
一.1.1 数据治理子系统 建设大数据治理子平台,提供数据标准管理.元数据管理.数据质量管理能力,实现对数据的规范治理与管理:提供数据工厂能力,实现对归集的数据进行清洗.加工,支撑业务的数据应用需求. ...
最新文章
- 从今天开始收集一些经典的算法。
- TCP/IP协议族(一) HTTP简介、请求方法与响应状态码
- Jquery操作Cookie取值错误的解决方法
- Android实现监测网络状态
- 【洛谷 P3304】[SDOI2013]直径(树的直径)
- const iterator 和const_iterator的区别
- Vue自定义属性的设置及获取
- docker 运行windows程序_如何从Windows上运行任何Linux图形GUI程序?
- java如何编译运行?
- Java程序员不容错过的开发趋势
- (十进制高速幂+矩阵优化)BZOJ 3240 3240: [Noi2013]矩阵游戏
- java 枚举 扑克牌_Java入门第三季7-1简易扑克牌作业
- python integer函数_python - Floor函数消除了Integer科学符号,Python - 堆栈内存溢出
- layui 主动验证表单规则
- 贝叶斯回归 matlab,逻辑回归模型的贝叶斯分析
- 台式计算机如何定时关机,台式电脑设置定时关机
- 2020 Stibo Systems全球事业部新财年启动大会胜利召开
- 【office考试】Office办公软件考试试题题目
- 解决宝塔安装wordpress无法连接到数据库问题
- 《精力管理》读书笔记——第一部分
热门文章
- loadrunner11破解失败,已解决“ license security violation.Operation is not allowed ”问题
- gbadev上的资料搬运贴
- python连接阿里云数据库_Python连接MySQL数据库教程演示
- python从入门到精通 清华大学出版社-清华大学出版社 python
- EPM连接显示服务器不可用,EPM问题汇总之-SmartView没法链接Essbase
- 图文混盘之---仿微博表情键盘Objective-C版
- python错误:ImportError: DLL load failed: 找不到指定的程序,from PyQt6 import QtCore, QtGui, QtWidgets
- C语言编程练习,猜数字游戏实现
- TOGAF认证自学宝典V2.0
- 瑞禧分享二维晶体表征介绍及定制SnPSe3晶体;CoBi4Te7 磁性拓扑绝缘体/CuInP2S6晶体;Nb2SiTe4晶体/Sb2TeSe2晶体等