目录

一、前言

二、概要介绍

三、核心组件

1、Core

2、Integration

3、Metadata source

4、Applications

四、核心特性

1、数据分类

2、集中审计

3、搜索与血缘


多易教育,专注大数据培训; 课程引领市场,就业乘风破浪
多易教育官网地址
https://www.51doit.cn
多易教育在线学习平台
https://v.51doit.cn

一、前言

公司的数据系统中,有各种数据源(存储),各种业务,各种层次;
而数据是公司非常有价值的资产;
这些数据就像公司的各种固定、知识产权资产一样,需要进行有序,有效,统一的管理;
这样就需要一个数据的管理系统;

而数据的管理系统中,最核心的部分就是元数据管理!

元数据管理是数据治理非常重要的一个方向,元数据的一致性,可追溯性,是实现数据治理非常重要的一个环节。传统数据情况下,有过多种相对成熟的元数据管理工具,而大数据时代,基于hadoop,最为成熟的,与Hadoop兼容性最好的元数据治理平台则是Apache Atlas。

二、概要介绍

Atlas 是一个可伸缩且功能丰富的数据管理系统,深度集成了 Hadoop 大数据组件。简单理解就是一个跟 Hadoop 关系紧密的,可以用来做元数据管理的一个系统

整个结构图如下所示:

三、核心组件

1、Core

Type System: Atlas 允许用户为他们想要管理的元数据对象定义一个模型。该模型由称为 “Type” 的定义组成。“类型” 的 实例被称为 “实体” 表示被管理的实际元数据对象。类型系统是一个组件,允许用户定义和管理类型和实体。由 Atlas 管理的所有元数据对象(例如Hive表)都使用类型进行建模,并表示为实体。要在 Atlas 中存储新类型的元数据,需要了解类型系统组件的概念。

Ingest/Export:Ingest 组件允许将元数据添加到 Atlas。类似地,Export 组件暴露由Atlas检测到的元数据更改,以作为事件引发,消费者可以使用这些更改事件来实时响应元数据更改。

Graph Engine:在内部,Atlas通过使用图形模型管理元数据对象。以实现元数据对象之间的巨大灵活性和丰富的关系。图形引擎是负责在类型系统的类型和实体之间进行转换的组件,以及基础图形模型。除了管理图形对象之外,图形引擎还为元数据对象创建适当的索引,以便有效地搜索它们。

Titan:目前,Atlas 使用 Titan 图数据库来存储元数据对象。 Titan 使用两个存储:默认情况下元数据存储配置为 HBase ,索引存储配置为 Solr。也可以通过构建相应的配置文件使用BerkeleyDB存储元数据存储 和使用ElasticSearch存储 Index。元数据存储用于存储元数据对象本身,索引存储用于存储元数据属性的索引,其允许高效搜索。

2、Integration

用户可以使用两种方法管理 Atlas 中的元数据:

API:Atlas 的所有功能都可以通过 REST API 提供给最终用户,允许创建,更新和删除类型和实体。它也是查询和发现通过 Atlas 管理的类型和实体的主要方法。

Messaging:除了 API 之外,用户还可以选择使用基于 Kafka 的消息接口与 Atlas 集成。这对于将元数据对象传输到 Atlas 以及从 Atlas 使用可以构建应用程序的元数据更改事件都非常有用。如果希望使用与 Atlas 更松散耦合的集成,这可以允许更好的可扩展性,可靠性等,消息传递接口是特别有用的。Atlas 使用 Apache Kafka 作为通知服务器用于钩子和元数据通知事件的下游消费者之间的通信。事件由钩子(hook)和 Atlas 写到不同的 Kafka 主题:

ATLAS_HOOK: 来自 各个组件的Hook 的元数据通知事件通过写入到名为 ATLAS_HOOK 的 Kafka topic 发送到 Atlas;

ATLAS_ENTITIES:从 Atlas 到其他集成组件(如Ranger)的事件写入到名为 ATLAS_ENTITIES 的 Kafka topic;

3、Metadata source

Atlas 支持与许多元数据源的集成,将来还会添加更多集成。目前,Atlas 支持从以下数据源获取和管理元数据:

Hive:通过hive bridge, atlas可以接入Hive的元数据,包括hive_db/hive_table/hive_column/hive_process

Sqoop:通过sqoop bridge,atlas可以接入关系型数据库的元数据,包括sqoop_operation_type/ sqoop_dbstore_usage/sqoop_process/sqoop_dbdatastore

Falcon:通过falcon bridge,atlas可以接入Falcon的元数据,包括falcon_cluster/falcon_feed
/falcon_feed_creation/falcon_feed_replication/ falcon_process

Storm:通过storm bridge,atlas可以接入流式处理的元数据,包括storm_topology/storm_spout/storm_bolt

Atlas集成大数据组件的元数据源需要实现以下两点:

首先,需要基于atlas的类型系统定义能够表达大数据组件元数据对象的元数据模型(例如Hive的元数据模型实现在org.apache.atlas.hive.model.HiveDataModelGenerator);
然后,需要提供hook组件去从大数据组件的元数据源中提取元数据对象,实时侦听元数据的变更并反馈给atlas;

4、Applications

Atlas Admin UI: 该组件是一个基于 Web 的应用程序,允许数据管理员和科学家发现和注释元数据。Admin UI提供了搜索界面和 类SQL的查询语言,可以用来查询由 Atlas 管理的元数据类型和对象。Admin UI 使用 Atlas 的 REST API 来构建其功能。

Tag Based Policies: Apache Ranger 是针对 Hadoop 生态系统的高级安全管理解决方案,与各种 Hadoop 组件具有广泛的集成。通过与 Atlas 集成,Ranger 允许安全管理员定义元数据驱动的安全策略,以实现有效的治理。Ranger是由Atlas通知的元数据更改事件的消费者。

Business Taxonomy:从元数据源获取到 Atlas 的元数据对象主要是一种技术形式的元数据。为了增强可发现性和治理能力,Atlas 提供了一个业务分类界面,允许用户首先定义一组代表其业务域的业务术语,并将其与 Atlas 管理的元数据实体相关联。业务分类法是一种 Web 应用程序,目前是 Atlas Admin UI 的一部分,并且使用 REST API 与 Atlas 集成。

四、核心特性

Apache Atlas为Hadoop的元数据治理提供了以下特性:

1、数据分类

为元数据导入或定义业务导向的分类注释
定义,注释,以及自动捕获数据集和底层元素之间的关系
导出元数据到第三方系统

2、集中审计

捕获与所有应用,过程以及与数据交互的安全访问信息
捕获执行,步骤,活动等操作的信息;

3、搜索与血缘

预定义的导航路径用来探索数据分类以及审计信息
基于文本的搜索特性来快速和准确的定位相关联的数据和审计事件
对数据集血缘关系的可视化浏览使用户可以下钻到操作,安全以及数据起源相关的信息
安全与策略引擎
基于数据分类模式,属性以及角色的运行时合理合规策略
基于分类-预测的高级策略定义以防止数据推导
基于cell的属性和值的行/列级别的masking

多易教育,专注大数据培训; 课程引领市场,就业乘风破浪
多易教育官网地址
https://www.51doit.cn
多易教育在线学习平台
https://v.51doit.cn

26_多易教育之《yiee数据运营系统》数据治理-atlas介绍篇相关推荐

  1. 19_多易教育之《yiee数据运营系统》用户画像-算法导论篇

    目录 一.机器学习概念 二.机器学习算法的分类 1.监督学习 2.无监督学习 3.半监督学习 4.向量入门 三.机器学习的常见算法 四.基本数学知识 1.向量入门 2.向量的距离(相似度) 3.矩阵入 ...

  2. 29_多易教育之《yiee数据运营系统》附录:扩展知识点汇总系列二

    目录 一.OLAP多维分析概念及函数 1.cube导论 2.cube核心操作 1).cube核心操作 2).DICE (切块) 3).ROLL UP (上卷) 4).DRILL DOWN (下钻) 5 ...

  3. 用户运营4大策略体系搭建:增长框架+用户建模+场景化分层+数据运营

    用户运营体系是什么样的? 相信每个企业都有一套相对完善的用户运营体系,之前接触一些介绍用户体系的文章,基本将用户运营体系等同于用户分群策略和AARRR运营模型,实则这只是整个运营体系中的一角. 结合运 ...

  4. 游戏数据运营--1. 怎样做好游戏数据分析

    写在前面 下面的这几点全都算是面试的套话, 干货面试经, 对于跨行业做游戏数据运营的数据分析师真心建议先拿出大把时间去了解自己心仪公司的游戏, 从玩家的角度倒推出一份数据分析的demo, 这样面试起来 ...

  5. 从零构建FLINK整合Drools动态规则实时运营系统(项目案例)第2篇(业务介绍篇)

    项目简介 本案例是一个专注于flink动态规则计算的项目,核心技术组件涉及flink.hbase.clickhouse.drools等 项目可根据各类个性化需求进行二次开发后,直接用于实时运营,实时风 ...

  6. 从零构建FLINK整合Drools动态规则实时运营系统(项目案例)-第5篇(用户画像篇)

    前言 项目介绍在线视频: https://www.bilibili.com/video/BV1zv41157yY 本案例是一个专注于flink动态规则计算的项目,核心技术组件涉及flink.hbase ...

  7. 浅谈数据治理、数据管理、数据资源与数据资产管理内涵及差异点(建议收藏)...

    前言 随着信息技术的不断涌现和普及,业务发展加快了数据膨胀的速度,行业内衍生了较多的新名词,如数据治理.数据管理.数据资源管理.数据资产管理等名词的定义很多,概念容易混淆,本文对这些名词术语及内涵进行 ...

  8. 数据填报有什么用?数据填报系统具有哪些优势?_光点科技

    大部分数据填报都是终端用户,或者可以说是我们使用信息系统的业务人员,提供这样一个纯粹的HTML页面表结构设计.发布.管理和填报数据的页面.界面友好.简单易用的统计研究分析渠道. 用户不再需要使用专门的 ...

  9. 好用的数据填报系统应该具备什么功能?_光点科技

    数据填报系统这个现如今每个企业差不多都会接触的系统,已经不是什么高大上的存在了,很多人的日常已经和这些数据报表结合在了一起,而无法分割.比如昨天的营收数据,销售的策略指定等,这些都是依赖数据分析,从而 ...

  10. 报表系统搭建很难?其实选对数据填报系统就简单了一半_光点科技

    随着企业信息化的发展,产生的数据越来越多,对报表的需求也越来越大.业务每天都在增加需求,报表开发每天都在加班,抱怨.随着时间的推移,公司的运营效率降低了.许多企业渴望建立一个完善的数据填报系统来解决报 ...

最新文章

  1. QT 的信号与槽机制介绍
  2. 获取 GPG 密钥失败:[Errno 14] 2011-05-26 14:43
  3. 一步一步将自己的代码转换为观察者模式
  4. import导入工程时出现error:Description Resource Path Location Type Target runtime com.genuitec.runtime.gener
  5. python用辗转相除法求最大公约数
  6. mysql 后十条_mysql几十条常用命令归纳总结
  7. DBUtils连接池,websocket
  8. Java中含有泛型的 JSON 反序列化问题
  9. 腾讯优图×厦大联队夺冠全球AI医疗大赛!刷新肝脏肿瘤影像分割世界纪录
  10. MyBatis源码本地编译
  11. 欧式二元期权的定价公式及实现
  12. 工作中个人注册的媒体账号离职要归公司所有?
  13. 双系统启动引导项配置
  14. ZT 内地20年经典电视剧大全
  15. BMP图片加马赛克C语言C++超简单
  16. DML、DDL、DCL、CRUD指什么?
  17. 关于统计检验中P值的解释
  18. python弹窗tkinter弹窗
  19. Unity3d 技巧(5) 了解VR 游戏开发 美术和资源规范
  20. ESP32联网-MQTT-连接到本地服务器(LInux)

热门文章

  1. 身份证OCR识别SDK
  2. 我自定义安装office 但在ATA计算机考试系统考试时出现“没有正确的安装office” 怎么解决 求解
  3. 2017-12-24 手机编程环境初尝试-用AIDE开发Android应用...
  4. 高质量Python书籍推荐丨Python学习手册(第5版)
  5. ROS配置环境搞错了,每次开终端都有bash: export: `/home/yyq/ork_ws/devel/setup.bash‘: 不是有效的标识符
  6. c语言crc编码函数,C语言:CRC校验
  7. RHEL常用Linux命令操作 第四章实验报告
  8. 在校大学生如何申请软件著作权(超级详细)
  9. 接口测试-解析har文件
  10. 一个好用的不基于时间的同步文件的软件 —— Allway sync 文件同步