引言

Apache Atlas 是托管于 Apache 旗下的一款元数据管理和治理的产品,目前在大数据领域应用颇为广泛,可以很好的帮助企业管理数据资产,并对这些资产进行分类和治理,为数据分析,数据治理提供高质量的元数据信息。

随着企业业务量的逐渐膨胀,数据日益增多,不同业务线的数据可能在多种类型的数据库中存储,最终汇集到企业的数据仓库中进行整合分析,这个时候如果想要追踪数据来源,理清数据之间的关系将会是一件异常头疼的事情,倘若某个环节出了问题,追溯的成本将是巨大的,于是 Atlas 在这种背景下应运而生了,通过它,我们可以非常方便的管理元数据,并且可以追溯表级别,列级别之间的关系(血缘关系),为企业的数据资产提供强有力的支撑和保障。Atlas 支持从 HBase 、Hive、Sqoop、Storm、Kafka 中提取和管理元数据,同时也可以通过 Rest Api 的方式自行定义元数据模型,生成元数据。

本文我们着重介绍一下 Atlas 的相关概念,帮助大家更好的理解 Atlas,同时详细讲解如何通过 Rest Api 的方式自定义数据模型,生成血缘关系,以便开发自己的个性化需求。

元数据

元数据其实就是描述数据的数据,比如表,字段,视图等,每个业务系统可能都会自己定义表,字段,视图,这些数据从哪来到往哪去,数据之间是否存在关联,和其他系统的数据是否存在重复和矛盾字段,这些就是元数据管理要解决的问题,也是 Atlas 要解决的问题。

元数据管理技术--Atlas相关推荐

  1. 深度 | 面向云原生数据湖的元数据管理技术解析

    简介: 作者:沐远.明惠 背景 数据湖当前在国内外是比较热的方案,MarketsandMarkets市场调研显示预计数据湖市场规模在2024年会从2019年的79亿美金增长到201亿美金.一些企业已经 ...

  2. 元数据管理工具Atlas学习笔记之集成

    文章目录 背景 环境 Atlas安装 solr Atlas Atlas启动 启动Hadoop.ZooKeeper.HBase.Kafka.Hive和MySQL Hadoop 启动ZooKeeper 启 ...

  3. 浅谈元数据管理之Atlas和Metacat

    关键字:元数据管理.血统采集.血统生命周期.图数据库.数据地图 元数据管理概述 元数据是描述数据的数据(data about data),是指从信息资源中抽取出来用于描述其特征与内容的数据,从一般意义 ...

  4. 元数据管理-技术元数据解决方案

    ​前言 概念 元数据是描述企业数据相关的数据,指在IT系统建设过程中所产生的有关数据定义,目标定义,转换规则等相关的关键数据,包括对数据的业务.结构.定义.存储.安全等各方面对数据的描述 元数据是数仓 ...

  5. 元数据管理工具Atlas学习笔记之使用

    文章目录 背景 导入元数据 查看元数据 按类型搜索 Hive元数据增量同步 遇到的问题及解决方法 结语 背景 Atlas主要负责同步各服务(主要是Hive)的元数据,并构建元数据实体之间的关联关系,并 ...

  6. CC00068.pbpositions——|HadoopPB级数仓.V02|——|PB数仓.v02|元数据管理工具Atlas|部署配置|账户密码|

    一.安装环境准备 ### --- 安装概述说明~~~ 重点讲解Atlas,不对Atlas的依赖组件做讲解,组件均采用单机模式安装. ~~~ 编译才能安装. ### --- 安装依赖~~~ Maven ...

  7. 数据治理之元数据管理的利器——Atlas入门宝典

    随着数字化转型的工作推进,数据治理的工作已经被越来越多的公司提上了日程.作为Hadoop生态最紧密的元数据管理与发现工具,Atlas在其中扮演着重要的位置.但是其官方文档不是很丰富,也不够详细.所以整 ...

  8. 使用Atlas进行元数据管理之Glossary(术语)

    背景:笔者和团队的小伙伴近期在进行数据治理/元数据管理方向的探索, 在接下来的系列文章中, 会陆续与读者们进行分享在此过程中踩过的坑和收获. 元数据管理系列文章: [0] - 使用Atlas进行元数据 ...

  9. 数据治理:元数据及元数据管理策略、方法和技术

    导读:这篇文章来自笔者的<一本书讲透数据治理:战略.方法.工具与实践>,可能是电子版流出,不知被哪位大佬摘录到公众号上了.在公众号搜索了下,这篇文章还挺受欢迎,多个数据类公众号都转载了,全 ...

  10. 《DAMA数据管理知识体系指南》读书笔记-第十二章(元数据管理)

    目录 一.前言 二.内容结构 三.主要内容 1.引言 2.活动 3.工具 4.方法 5.实施指南 6.元数据治理 四.思考与总结 一.前言 本文是<DAMA数据管理知识体系指南>第12章的 ...

最新文章

  1. Java 面试经典题解析:谈谈你对 Java 平台的理解?
  2. oracle管理用户安全,oracle中管理用户的安全
  3. kibana从入门到精通-Kibana安装
  4. AT4996-[AGC034F]RNG and XOR【FWT,生成函数】
  5. python将一个列表里面的某类元素取出来_03|Python列表常见操作
  6. 小甲鱼 OllyDbg 教程系列 (十二) : inline patch ( 内嵌补丁 ) 之 调用堆栈查找法
  7. 如何在Python中获取当前时间
  8. 【Elasticsearch】Elasticsearch 索引 模板 template
  9. 个人开发—进度记录(十五)
  10. anaconda 换源_Anaconda下安装tensorflow1.15过程记录
  11. 回归模型中截距项的意义_计量经济学第12讲(时间序列计量经济学模型:协整与误差修正模型)...
  12. SHFileOperation的用法
  13. Nova 组件如何协同工作 - 每天5分钟玩转 OpenStack(24)
  14. 自动加减工单结存算法实现
  15. Oracle ora-12514报错解决方法
  16. 笔记本电脑屏幕亮度无法调节
  17. 报表服务器组件,开发者手册概述:Power BI 报表服务器
  18. java自动生成接口文档
  19. Egret 性能优化
  20. 【光学】基于matlab模拟双孔干涉附matlab代码

热门文章

  1. 笛卡尔心形线 matlab,笛卡尔心形线
  2. 图像处理--图像细化处理
  3. 轻松使用中移物联网平台Onenet,MQTT协议快速接入实验,使用Onenet平台MQTT协议开发个人智能设备的解决方案
  4. php unlink 无法删除,php unlink()删除文件实例讲解
  5. Pre-Trained Models: Past, Present and Future
  6. Linux运维工程师发展
  7. 转行做Linux运维工程师,简历
  8. 软件测试周刊(第67期):用一颗浏览的心,去看待人生,一切的得与失、隐与显,都是风景与风情。
  9. Bezier和B样条曲线
  10. css textarea行数_关于textarea元素的cols和rows属性