文章目录

  • WhereHows/Datahub
  • Atlas
  • Amundsen

数据治理里面较关键的元数据管理,元数据打通数据源、数据仓库、数据应用,记录了数据从产生到消费的完整链路。它包含静态的表、列、分区信息(也就是MetaStore);动态的任务、表依赖映射关系;数据仓库的模型定义、数据生命周期;以及ETL任务调度信息、输入输出等。

元数据是数据管理、数据内容、数据应用的基础。例如可以利用元数据构建任务、表、列、用户之间的数据图谱;构建任务DAG依赖关系,编排任务执行序列;构建任务画像,进行任务质量治理;数据分析时,使用数据图谱进行字典检索;根据表名查看表详情,以及每张表的来源、去向,每个字段的加工逻辑;提供个人或BU的资产管理、计算资源消耗概览等。

数据治理解决方案:

WhereHows/Datahub

WhereHows是LinkedIn开源的元数据治理方案。Azkaban调度器抓取job执行日志,也就是Hadoop的JobHistory,Log Parser后保存DB,并提供REST查询。WhereHows太重,需要部署Azkaban等调度器,以及只支持表血缘,功能局限。

  • Wherehows是独立于源系统的,即在部署上wherehows与hive、Azkaban等源系统是无关的,wherehows仅仅是从源系统抓取元数据,这些元数据可以分为数据集类和作业类,其中作业类就是指调度任务信息(从调度系统的数据库中抓取以及从日志服务器抓取),如Azkaban、Oozie的调度信息以及相关执行日志

    • 数据集类源系统:以Hive为例,wherehows从Hive的元数据库如MySQL中抽取元数据并存储在自身的元数据仓库中,从而最终可以从wherehows中查看Hive中的元数据信息,如Hive中有哪些Database、Database下有哪些表等。Wherehows不能直接得到数据集的血缘,wherehows中数据集的血缘是从相关作业的分析中得到的。
    • 作业类源系统:以Azkaban为例,假设运行hive或pig任务,则wherehows可以从Azkaban的元数据库中获取作业信息、并从JobHistory获取实际运行的Hive或pig的日志,并对这些元数据以及日志数据解析形成血缘。

之后Linkedin根据了痛点和新的需求,重构了wherehows,目前datahub包括了四块,metadata, gms, etl, datahub。其中medata定义模型,gms基于模型生成服务,etl进行模型数据加工,datahub提供基于gms的元数据应用展现。
linkedin datahub:
https://github.com/linkedin/datahub

Atlas

Atlas是Apache开源的元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,并提供数据资产的协作功能。

架构包括5大部分:

  1. 存储部分:

    • Metadata Hbase:采用Hbase来存储元数据
    • Index store:采用Solr来建索引
  2. 提取元数据:metadata Sources,目前,Atlas支持以下来源提取和管理元数据:Hbase,Hive,Sqoop, Storm,Kafka。
  3. 应用层:
    • Admin UI:该组件是一个基于Web的应用程序,允许使用者发现和注释元数据,这里最重要的是搜索界面和类似SQl的查询语言,可用于查询Atlas管理的元数据类型和对象。
    • Ranger Tag Policies:权限管理模块
    • Business Taxonomy:业务分类
  4. 核心层:
    • (Ingest/Export)采集/导出:采集组件允许将元数据添加到Atlas。同样,导出组件将Atlas检测到的元数据更改公开为事件。
    • Type System:用户为他们想要管理的元数据对象定义模型。Type System称为“实体”的“类型”实例,表示受管理的实际元数据对象。
    • Graph Engine图形引擎:Atlas再内部使用Graph模型持久保存它管理的元数据对象。
  5. 融合层:
    • API:Atlas的所有功能都通过REST API向最终用户暴露,该API允许创建,更新和删除类型的实体。它也是查询和发现Atlas管理的类型和实体的主要机制。
    • Messaging:除了API之外,用户还可以选择使用基于Kafka的消息传递接口与Atlas集成。

apache atlas:
https://github.com/apache/atlas
http://atlas.apache.org/

Amundsen

Amundsen是一个元数据管理的程序,可以将数据资产(物理表,元数据,用户资源代表,仪表板)可视化,同时建立索引并根据表的使用热度来支持页面上的元数据搜索,它包括三个微服务,一个图数据库,是一个公共库:

1. amundsen frontendlibrary:前端服务,它是带有React前端的Flask应用程序,用于服务请求并充当元数据或搜索服务请求的中介。
2. amundsen searchlibrary:利用Elasticsearch(默认情况下,搜索服务与ElasticSearch 6.x集成在一起,但也可以与Apache Atlas集成,后者与Solr提供类似的搜索功能。)的搜索功能的搜索服务用于增强前端元数据搜索。
- 常规搜索:返回与给定搜索词和特定资源类型最相关的结果。
- 类别搜索:筛选主要搜索词与给定元数据类别匹配的资源(例如,搜索database:hive),然后根据相关性返回与次要搜索词匹配的结果。
- 通配符搜索:允许用户对不同资源执行通配符搜索。
3. amundsen metadatalibrary:元数据服务,利用Neo4j或Apache Atlas作为持久层,默认持久层是Neo4j,以提供各种元数据。

4. amundsen databuilder:用于构建元数据图和搜索索引的数据提取框架。使用Apache Airflow作为Databuilder的编排引擎。每个数据构建器作业都是DAG(有向无环图)中的一个单独任务。每种类型的数据资源都将具有单独的DAG,因为它可能必须以不同的时间表运行。

5. amundsen common:在Amundsen的所有微服务中保存着通用代码。

Lyft Amundsen https://github.com/lyft/amundsen

【数据治理】数据治理工具-元数据管理相关推荐

  1. 数据治理系列2:元数据管理—企业数据治理的基础

    导读:元数据管理是对企业涉及的业务元数据.技术元数据.管理元数据进行盘点.集成和管理,按照科学.有效的机制对元数据进行管理,并面向开发人员.最终用户提供元数据服务,以满足用户的业务需求,对企业业务系统 ...

  2. 数据治理系列(一):元数据管理 、数据血缘数据管理:

    一.什么是元数据管理? 为什么企业对自身内部的数据资产总是混沌不清?其实是缺少一种有效的工具来进行数据资产的梳理和盘点.而元数据管理工具就是一种有有效的盘点工具或手段.  元数据是企业中用来描述数据的 ...

  3. 数据服务基础能力之元数据管理

    一.业务背景 1.应用场景 在多变的数据服务场景中,应用中常见如下的业务需求,通过对多种数据结构的灵活组合,快速实现业务模型构建,整体示意图如下: 像常用的画图工具,左边提供基础图形库,中间是画布,右 ...

  4. sqoop导出solr数据_Apache Atlas - 强大的元数据管理工具

    构建和安装Apache Atlas 构建Apache Atlas 下载 Apache Atlas 1.0.0 发行版源码, apache-atlas-1.0.0-sources.tar.gz, 从 d ...

  5. 数据治理:元数据及元数据管理策略、方法和技术

    导读:这篇文章来自笔者的<一本书讲透数据治理:战略.方法.工具与实践>,可能是电子版流出,不知被哪位大佬摘录到公众号上了.在公众号搜索了下,这篇文章还挺受欢迎,多个数据类公众号都转载了,全 ...

  6. 数据治理【元数据管理】

    目录 1.认识元数据 2.元数据的分类 3.元数据管理成熟度评估模型 4.元数据管理平台架构 4.1 元数据采集服务 4.2 元模型驱动的设计与开发 4.3 元数据管理服务 4.4 元数据访问服务 4 ...

  7. 元数据管理——企业数据治理的基石

    ​数字化时代,不少企业开始数字化转型,开始收集整理数据,但在使用途中,通常会发生数据泄露,安全没办法得到保障:数字管理混乱,查找困难,无效失效数据偏多:数据流程复杂,流程不畅,无法有效赋能业务. 这些 ...

  8. 数据治理系列3:数据标准管理

    转载请注明,作者:石秀峰,公众号:learning-bigdata(谈数据) 导读:提到"标准"二字,我们第一时间能够想到的就是一系列的标准化文档,例如:产品设计标准.生产标准.质 ...

  9. 数据治理-数据质量-数据质量管理方法和工具

    常用质量管理工具 目前,在质量管理领域,有一系列常用的数据质量管理工具,主要分为传统的质量管理工具.新的质量管理工具和其他质量管理工具. 传统的质量管理七大工具 传统的七种工具包含分层法.检查表.帕累 ...

  10. 元数据管理、治理、系统、建设方案、范例等

    [数据治理工具]–元数据系统 1.元数据系统 1.1 概述 如果想建设好元数据系统,需要理解元数据系统的相关概念,如数据.数据模型.元数据.元模型.ETL.数据血缘等等. 首先,要清楚数据的定义.数据 ...

最新文章

  1. Intel Realsense D435 USB线长、光纤线长测试(使用普通USB3.0数据线最长不能超过4M,使用普通USB3.0数据线+USB3.0光纤数据线,不能超过1+5=6M)
  2. mysql 5.6.11 error 1059_mysql5.6.15问题如何解决
  3. 为什么编程语言以及数据库要从1970年1月1日开始计算时
  4. python3 新式类_python新式类和旧式类区别
  5. Java Core系列之ConcurrentHashMap实现(JDK 1.7)
  6. 超图Cesium二三维切换
  7. html跨行使用的属性,HTML表格标记详解4:TD参数中设定跨列跨行属性
  8. Response.Write 用法总结
  9. Android Studio禁止混淆JNI代码
  10. editor修改样式 vue_vue修改富文本中的元素样式
  11. docker安装gamit_ubuntun10.10中安装gamit 10.40
  12. 机器学习 —— 概率图模型(Homework: Structure Learning)
  13. 袁亚湘院士谈如何做好研究生:如果不思考,人再聪明也无济于事
  14. 【经验】AngularJS
  15. c语言看图猜价格小游戏程序,开心利是小程序看图猜谜答案公布
  16. AI_综述----图像分割综述
  17. Stata新命令:readWind-快速读入并转换万德数据
  18. 手把手教你在GitHub上传项目(超详细)
  19. 珞珈-B生所学 跟学笔记 PPT(二)
  20. Python遍历字典的几种方式

热门文章

  1. 怎么完全卸载赛门铁克_Symantec卸载方法,赛门铁克卸载
  2. Proxy-Server
  3. 超星考试浏览器_超星浏览器官方下载
  4. Talib技术因子详解(九)
  5. VS安装VAssistX插件导致WPF-XAML文件输入中文出现乱码问题解决方案
  6. JavaScript 高级程序设计 笔记
  7. php使用blob加密视频,javascript实现blob加密视频源地址的方法
  8. topjui/easyui 表格分页简单实例
  9. 发那科机器人编程软件fanuc roboguide授权补丁_工业机器人离线编程与应用:ROBOGUIDE V8.3版本的工程文件创建...
  10. 人工智能机器学习算法