Marquez是一款开源的元数据服务,用于数据生态系统元数据的收集、汇总及可视化。它维护着数据集的消费和生产,为作业运行时和数据集访问频率提供全局可见性,提供集中的数据集生命周期管理等。WeWork发布并开源了Marquez。

Marquez的特征:

  • 集中式元数据管理支持:

数据血缘(Data Lineage)

数据治理(Data governance)

数据健康检查(Data health)

数据发现+探索(Data discovery + exploration)

  • 精确的高维度数据模型:

作业(Jobs)

数据集(Datasets)

  • 通过指定的元数据 API轻松收集元数据:

重视数据集数据

强化作业和数据集的所有权

  • 以最小的依赖进行简单的操作和设计

  • RESTful API支持与其他系统的复杂集成:

Airflow

Amundsen

Dagster

  • 旨在促进一个健康的数据生态系统,在这个系统中,组织中的团队成员可以信心十足地无缝共享并安全地依赖彼此的数据集。

为什么选择Marquez?

Marquez 支持跨全数据集的高度灵活的数据血缘查询,同时可靠且高效地关联作业及其生成和使用数据集之间的(上下游)依赖关系。

Marquez的设计

Marquez 是一个模块化系统,作为一个可高度伸缩和扩展的去平台化的解决方案,实现元数据管理。它由以下系统组成:

  • 元数据存储库:存储所有作业和数据集元数据,包括作业运行和作业级统计的完整历史记录(如:总运行时间、平均运行时间、成功/失败等)。

  • 元数据API:RESTful API使一组不同的客户端能够围绕数据集的生产和消费收集元数据。

  • 元数据UI:用于数据集发现、连接多个数据集并探索它们依赖关系图。

为了方便采用并使不同的数据处理应用程序能够将元数据收集作为其设计的核心需求,Marquez提供了实现元数据API的特定语言客户端。作为初始版本的一部分,它支持Java和Python。

元数据API是一个抽象的概念,用于记录数据集生产和使用的信息。是一个低延迟、高可用的无状态层,负责封装持久化的元数据、集合血缘信息。API允许客户端收集,且/或从元数据存储库获取数据集信息。

元数据需要被收集、组织和存储,以便通过元数据UI进行丰富的探索性查询。元数据存储库是由元数据API压缩且清洗后的抽象的数据集信息目录。

Marquez的数据模型

Marquez的数据模型强调数据集的不变性和及时处理性。数据集由作业运行生成,价值重要。作业运行与版本代码链接,并生成一个或多个不可变的版本输出。数据集的更改通过轻量级API的调用被记录在作业执行的不同点,包括运行本身的成功或失败。

下图显示了在多次运行中为给定作业收集和编目的元数据,以及应用于其输入数据集的时间序列变化。

  • 作业:作业包含所有者、唯一名称、版本和可选描述。作业会将一个或多个版本输入定义为依赖,并将一个或多个版本输出定义为artifacts。需注意的是,作业可能只定义了输入数据集,也可能仅定义了输出数据集。

  • 作业版本:作业的只读不可变版本,有唯一可引用的链接,以编码存储保证源码的重现。作业版本将一个或多个输入和输出数据集关联到作业定义(数据在各种作业中的流转,对记录血缘信息很重要)。这些关联对源链接进行分类,并提供强大的可视化数据流。

  • 数据集:数据集有所有者、唯一名称、schema、版本和可选描述。数据集包含于数据源。数据源可将物理数据集分组到它们的物理源。每个数据集都有一个指向历史更改集的版本指针,由Marquez来维护。当将数据集更改提交回Marquez时,将生成一个唯一的版本ID,进行存储,然后将其设置为当前版本,并在内部更新指针。

  • 数据集版本:数据集的只读不可变版本。每个版本都可以独立读取,有一个唯一ID,映射到数据集的更改,以保留其在特定时间点的状态。只有当数据集的更改被记录,才会更新最新版本ID。为了计算不同的版本ID,Marquez将版本控制功能应用于与底层数据源的数据集相对应的一组属性。

Marquez,开源的元数据管理工具相关推荐

  1. 图形文件元数据管理工具exiv2

    图形文件元数据管理工具exiv2 图形文件通常都包含多种元数据,如Exif.IPTC.XMP.这些信息往往是渗透人员收集的目标.为了便于管理这些信息,Kali Linux内置了专用工具exiv2.该工 ...

  2. 开源机器学习模型管理工具DVC介绍

    算法工程师往往在使用算法的过程中要不断地调整参数去找到最好的效果,俗称"调参民工".在不断的调参过程中,会产生各种各样的模型,如何记录好这些参数与模型效果对应的关系,往往另算法工程 ...

  3. 元数据管理工具Atlas学习笔记之集成

    文章目录 背景 环境 Atlas安装 solr Atlas Atlas启动 启动Hadoop.ZooKeeper.HBase.Kafka.Hive和MySQL Hadoop 启动ZooKeeper 启 ...

  4. 开源的API管理工具和数据库管理工具分享,前端后端包圆喽

    今天这篇文章给大家推荐两款非常不错的开源工具,一个是API管理工具,一个是数据库管理工具,前端后端我直接给你包圆了[看]. 话不多说,咱直接开始 Hoppscotch Hoppscotch 是一个开源 ...

  5. 一款好用的开源家庭服务器管理工具

    点击上方"芋道源码",选择"设为星标" 管她前浪,还是后浪? 能浪的浪,才是好浪! 每天 10:33 更新文章,每天掉亿点点头发... 源码精品专栏 原创 | ...

  6. 一个让我欲罢不能的开源文档管理工具

      大家好,我是小编南风吹,每天推荐一个小工具/源码,装满你的收藏夹,让你轻松节省开发效率,实现不加班不熬夜不掉头发!   今天小编推荐一款在线文档工具,现有swagger 文档.dubbo文档.数据 ...

  7. [C#项目开源] MongoDB 可视化管理工具 (2011年10月-至今)

    正文 该项目从2011年10月开始开发,知道现在已经有整整5年了.MongoDB也从一开始的大红大紫到现在趋于平淡. MongoCola这个工具在一开始定位的时候只是一个Windows版本的工具,期间 ...

  8. sqoop导出solr数据_Apache Atlas - 强大的元数据管理工具

    构建和安装Apache Atlas 构建Apache Atlas 下载 Apache Atlas 1.0.0 发行版源码, apache-atlas-1.0.0-sources.tar.gz, 从 d ...

  9. 开源CDN加速管理工具 OpenCDN

    为什么80%的码农都做不了架构师?>>>    安装需求 OpenCDN的Beta版目前在Centos5.4 32位下测试通过.内存大小:不低于512M内存.安装前确保主机的80端口 ...

最新文章

  1. 分享几个 Pyecharts 技巧,助你画出更直观/炫酷的图表
  2. shell基础知识总结
  3. 在 vSphere Client(Vcenter 管理中心) 中迁移虚拟机(从一台物理主机迁移到另一台物理主机)
  4. confluencejira集成_集成confluence与jira
  5. n皇后问题(回溯法-递归法和循环法,最小冲突法(较快解决10000级别问题))
  6. Linux学习之系统编程篇:创建线程函数
  7. 关于mysql的wait_timeout参数 设置不生效的问题
  8. 前端学习(3126):react-hello-react之总结props
  9. 阿里发起“0账期”倡议:新增700万网友提前收货
  10. 语言的开题报告范文_【开题系列】刘凤朝:撰写文科博士学位论文开题报告应注意的几个问题...
  11. 关于NGINX下开启PHP-FPM 输出PHP错误日志的设置(已解决)
  12. Helm 3 完整教程(十八):Helm 流控制结构(2)with 语句
  13. 微波雷达传感器模块,人体感应雷达应用,让智能家居更安全
  14. css3静态进度条,CSS3+JS实现静态圆形进度条
  15. 基于java的宠物领养交流网站
  16. 梨花带雨html音乐播放器源码,梨花带雨 - 雨陌文化传媒 - 5SING中国原创音乐基地...
  17. latex中页眉怎么去掉_latex 去掉页眉
  18. Ubuntu部署YAPI
  19. Phyton Flask框架学习记录。
  20. 您需要administrator权限才能对此文件进行更改

热门文章

  1. dw中html中的使用,Dreamweaver使用Div标签
  2. 软考高项:项目质量管理真题及答案
  3. ZJU1003 Crashing Balloon - 踩气球
  4. python各培训机构排名介绍
  5. VCAP6.5-DCV Design Prep-Guide
  6. 传统贸易不好做为什么不做跨境电商?
  7. Oracle:转换 转译
  8. 数据库检索和全文检索的比较(性能,匹配度准确度,相关度排序)
  9. 前端加油鸭!【FCC】JavaScript基础(1)
  10. 携手应对全球医疗呼吸机短缺