第1节 数据治理平台对比

目前数据治理的平台 开源并且有详细文档的话就三个
Apache Atlas(Hortonworks) Atlas于2015年7月开始在Hortonworks进行孵化。 Atlas 1.0于2018年6月发布。
git地址:https://github.com/apache/atlas
官网:http://atlas.apache.org/
DataHub (LinkedIn) LinkedIn开源出来的,原来叫做WhereHows 。经过一段时间的发展,datahub于2020年2月在Github开源
git地址:https://github.com/linkedin/datahub
官网:https://datahubproject.io/
Amundsen (Lyft) Lyft 于2019年4月开发了Amundsen,并于10月开源。
git地址:https://github.com/amundsen-io/amundsen
官网:https://www.amundsen.io/

下图是三个项目在github上面的一些情况对比

从这里看出 其实 Amundsen 功能是最强大的 不过目前处于比较新的阶段,血缘关系还在开发中并且没有Releases版本的,考虑到项目的周期,实施性等情况,还是建议从Atlas入门,后续可以考虑Amundsen ,
目前有的公司同时采用了Atlas和Amundsen,Atlas处理元数据管理,利用Amundsen强大的数据搜索能力来做数据搜索

第2节 Atlas简介

元数据(MetaData)狭义的解释是用来描述数据的数据。广义的来看,除了业务逻辑直接读写处理的那些业务数据,所有其它用来维持整个系统运转所需的信息/数据都可以叫作元数据。如数据库中表的Schema信息,任务的血缘关系,用户和脚本/任务的权限映射关系信息等。元数据管理:说起来重要 做起来丢掉

Atlas是一组可扩展和可扩展的核心基础治理服务,使企业能够有效,高效地满足Hadoop中的合规性要求,并允许与整个企业数据生态系统集成。
Apache Atlas为组织提供了开放的元数据管理和治理功能,以建立其数据资产的目录,对这些资产进行分类和治理,并为数据科学家,分析师和数据治理团队提供围绕这些数据资产的协作功能。

Atlas由元数据的收集,存储和查询展示三部分核心组件组成。此外,还会有一个管理后台对整体元数据的采集流程以及元数据格式定义和服务的部署等各项内容进行配置管理。
Atlas包括以下组件:

  • Core:Atlas功能核心组件,提供元数据的获取与导出(Ingets/Export)、类型系统(TypeSystem)、元数据存储索引查询等核心功能

    • Type System: Atlas允许用户为他们要管理的元数据对象定义模型
    • Ingest / Export:Ingest 组件允许将元数据添加到Atlas。同样,Export组件将Atlas检测到的元数据更改公开为事件。消费者可以使用这些更改事件来实时响应元数据更改。
    • Graph Engine:Altas使用图模型管理元数据对象。图数据库提供了极大的灵活性,并能有效处理元数据对象之间的关系。除了管理图对象之外,图计算引擎还为元数据对象创建适当的索引,以便进行高效的访问。在Atlas 1.0 之前采用Titan作为图存储引擎,从1.0开始采用 JanusGraph 作为图存储引擎。JanusGraph 底层又分为两块:
      • Metadata Store:采用 HBase 存储 Atlas 管理的元数据;
      • Index Store:采用Solr存储元数据的索引,便于高效搜索;
  • Integration:Atlas对外集成模块。外部组件的元数据通过该模块将元数据交给Atlas管理

    • API: Atlas的所有功能都通过REST API向最终用户公开,该API允许创建,更新和删除类​​型和实体。它也是查询和发现Atlas管理的类型和实体的主要机制。
    • Messaging:用户还可以选择使用基于Kafka的消息传递接口与Atlas集成
  • Metadata source:Atlas支持的元数据数据源,以插件形式提供。当前支持从以下来源提取和管理元数据:

    • Hive
    • HBase
    • Sqoop
    • Kafka
    • Storm
  • Applications:Atlas管理的元数据被各种应用程序使用,以满足许多治理用例。 Atlas Admin UI,Tag Based Policies

第3节 安装配置

3.1 安装依赖

  • Maven 3.6.3
  • HBase 1.1.2(不需要安装,可以自己准备软件包)
  • Solr 5.5.1(不需要安装,可以自己准备软件包)
  • atlas 1.2.0(需要编译)
    官方只提供了源码,没有提供二进制的安装版本,因此Atlas需要编译。

3.2 安装步骤

1、准备软件包

apache-atlas-1.2.0-sources.tar.gz(官网下载,目前最新2.1)
solr-5.5.1.tgz(可以不准备)
hbase-1.1.2.tar.gz(可以不准备)

2、解压缩源码,修改配置
# 解压缩
tar zxvf apache-atlas-1.2.0-sources.tar.gz
cd apache-atlas-sources-1.2.0/
# 修改配置
vi pom.xml
# 修改  HADOOP为你自己的版本
645 <npm-for-v2.version>3.10.8</npm-for-v2.version>
652 <hadoop.version>2.9.2</hadoop.version>
3、将HBase、Solr的包拷贝到对应的目录中

如果不拷贝这些包,就需要下载,下载 HBase 和 Solr 时速度很慢。这里提前下载完所需的这两个组件,拷贝到对应目录中。

cd apache-atlas-sources-1.2.0
# 创建目录
cd distro/
mkdir solr
mkdir hbase
# 拷贝软件包
cp solr-5.5.1.tgz ./solr/
cp hbase-1.1.2.tar.gz ./hbase/
4、maven设置阿里镜像

cd $MAVEN_HOME/conf

# 在配置文件中添加
vi settings.xml
<mirror>
<id>alimaven</id>
<name>aliyun maven</name>
<url>http://maven.aliyun.com/nexus/content/groups/public/</url>
<mirrorOf>central</mirrorOf>
</mirror>
5、Atlas编译
cd apache-atlas-sources-1.2.0
export MAVEN_OPTS="-Xms2g -Xmx2g"
mvn clean -DskipTests package -Pdist,embedded-hbase-solr

编译过程中大概要下载600M左右的jar,持续的时间比较长。(中间可能报错,如果是网络原因报错的话 再继续编译就行)

编译完的软件位置:apache-atlas-sources-1.2.0/distro/target
编译完的软件:apache-atlas-1.2.0-bin.tar.gz

6、Atlas安装
cd apache-atlas-sources-1.2.0/distro/target
# 解压缩
tar zxvf apache-atlas-1.2.0-bin.tar.gz
mv apache-atlas-1.2.0/ atlas-1.2.0
# 修改 /etc/profile,设置环境变量 ATLAS_HOME# 启动服务(第一次启动服务的时间比较长,而且会报错,kafka端口连接报错,可能是内嵌的未启动还是怎么,需要启动一次,关闭后在启动第二次就好了的)
cd $ATLAS_HOME/bin
./atlas_start.py
# 检查后台进程 (1个atlas、2个HBase、1个solr后台进程)
ps -ef | grep atlas
/atlas-1.2.0/server/webapp/atlas
hbase-daemon.sh
org.apache.hadoop.hbase.master.HMaster
atlas-1.2.0/solr/server
# 停止服务
./atlas_stop.py

如果与impala的端口冲突的话 可以正在 $ATLAS_HOME/conf/atlas-application.properties 修改端口 (默认的21000)

Web服务:http://linux122:21000/login.jsp
用户名 / 口令:admin / admin
账号的信息存储在文件 conf/users-credentials.properties 中。其中 Password 通过如下方式产生
sha256sum 摘要信息:

echo -n "admin" | sha256sum


第4节 Hive血缘关系导入

(注意 要先成功启动过atlas之后 在进行hive血缘导入操作)

1、配置HIVE_HOME环境变量;将 $ATLAS_HOME/conf/atlas-application.properties 拷贝 到
$HIVE_HOME/conf 目录下
ln -s $ATLAS_HOME/conf/atlas-application.properties $HIVE_HOME/conf/atlas-application.properties
2、拷贝jar包
# $ATLAS_HOME/server/webapp/atlas/WEB-INF/lib/ 目录下的3个jar,拷贝到
$ATLAS_HOME/hook/hive/atlas-hive-plugin-impl/ 目录下
jackson-jaxrs-base-2.9.9.jar
jackson-jaxrs-json-provider-2.9.9.jar
jackson-module-jaxb-annotations-2.9.9.jar
ln -s $ATLAS_HOME/server/webapp/atlas/WEB-INF/lib/jackson-jaxrs-base-2.9.9.jar $ATLAS_HOME/hook/hive/atlas-hive-plugin-impl/jackson-jaxrs-base-2.9.9.jar
ln -s $ATLAS_HOME/server/webapp/atlas/WEB-INF/lib/jackson-jaxrs-json-provider-2.9.9.jar $ATLAS_HOME/hook/hive/atlas-hive-plugin-impl/jackson-jaxrs-json-provider-2.9.9.jar
ln -s $ATLAS_HOME/server/webapp/atlas/WEB-INF/lib/jackson-module-jaxb-annotations-2.9.9.jar $ATLAS_HOME/hook/hive/atlas-hive-plugin-impl/jackson-module-jaxb-annotations-2.9.9.jar
3、修改Hive的配置
hive-site.xml增加 hook
<property>
<name>hive.exec.post.hooks</name>
<value>org.apache.atlas.hive.hook.HiveHook</value>
</property>$HIVE_HOME/conf/hive-env.sh中添加HIVE_AUX_JARS_PATH变量,atlas安装目录下的 hook/hive (如果hive已经配置的话 就吧整个目录放到配置的地方)export HIVE_AUX_JARS_PATH=/apache-atlas-1.2.0/hook/hive
4、导入hive历史元数据

备注:Hive能正常启动;在执行的过程中需要用户名/口令:admin/admin

import-hive.sh

成功导出可以看见最后的提示信息:Hive Meta Data imported successfully!!! 在浏览器中可以看见:Search 中的选项有变化

当后续 新增数据库、表等操作能在页面实时看到,并且执行了sql,有数据变动后 能在对应的表中看到血缘关系,


Hive hook 可捕获以下操作:

  • create database
  • create table/view, create table as select
  • load, import, export
  • DMLs (insert)
  • alter database
  • alter table
  • alter view

数据治理平台对比及atlas的安装和介绍相关推荐

  1. Hadoop生态系统的元数据管理和数据治理平台--Atlas 学习

    最近在规划数据治理的功能,所以研究了一下Apache Altas Atlas 介绍 Atlas 是apache下的大数据的元数据管理和数据治理平台,是Hadoop社区为解决Hadoop生态系统的元数据 ...

  2. 规则引擎在数据治理平台的实践

    一.背景 在数据治理时,经常会遇到个性化统计分析的场景:基于数据的某些属性进行组合筛选,只有符合条件的数据才进行统计分析. 传统的实现方式是:业务人员提供筛选条件,数据开发人员在ETL任务直接开发.这 ...

  3. Lanius大数据治理平台

    数据继土地.劳动力.资本之后成为新兴的生产要素,各国政府相继制定战略规划,加大对数据汇聚.分析.安全等方面的投入,我国国务院和各地方政府也不断出台政策,在大数据治理研究方面给予支持. ETL处理做为数 ...

  4. 14万字数字政府大数据治理平台及大数据中心资源平台建设方案

    本资料来源公开网络,仅供个人学习,请勿商用,如有侵权请联系删除. 部分资料内容: 1.1 数据治理子平台建设 在本次项目中,我们将通过大数据治理子平台的建设,提供数据标准管理.元数据管理.数据质量管理 ...

  5. 2W字剖析数据治理平台建设经验(建议收藏)

    点击上方 "大数据肌肉猿"关注, 星标一起成长 点击下方链接,进入高质量学习交流群 今日更新| 1052个转型案例分享-大数据交流群 00 前言 阿里巴巴一直将数据作为自己的核心资 ...

  6. 数据治理平台工具前世今生

    前言 伴随着企事业单位信息化不断的深入.各种技术持续的发展以及人们对数据治理的认知不断加深,数据治理工具在过去的20年也不断的发展,笔者以某世界500集团企业案例为原型,介绍数据治理工具发展及变迁及未 ...

  7. 2万字揭秘阿里巴巴数据治理平台建设经验

    全网最全大数据面试提升手册! 00 前言 阿里巴巴一直将数据作为自己的核心资产与能力之一,通过多年的实践探索建设数据应用,支撑业务发展.在不断升级和重构的过程中,我们经历了从分散的数据分析到平台化能力 ...

  8. 阿里巴巴数据治理平台建设经验

    阿里巴巴一直将数据作为自己的核心资产与能力之一,通过多年的实践探索建设数据应用,支撑业务发展.在不断升级和重构的过程中,我们经历了从分散的数据分析到平台化能力整合,再到全局数据智能化的时代.如今,大数 ...

  9. 美团酒旅起源数据治理平台的建设与实践

    背景 作为一家高度数字化和技术驱动的公司,美团非常重视数据价值的挖掘.在公司日常运行中,通过各种数据分析挖掘手段,为公司发展决策和业务开展提供数据支持. 经过多年的发展,美团酒旅内部形成了一套完整的解 ...

  10. 云图说|图解DGC:基于华为智能数据湖解决方案的一体化数据治理平台

    摘要:数据湖治理中心DGC,帮助企业快速构建从数据集成到数据服务的端到端智能数据系统,消除数据孤岛,统一数据标准,加快数据变现,实现数字化转型. 本文分享自华为云社区<[云图说]第232期 图解 ...

最新文章

  1. VSCODE打开一个文件,另一个文件就关闭的问题的解决方法
  2. java魔法堂_Java魔法堂:调用外部程序
  3. linux 安装x环境,linux下安装xdebug
  4. 在 CAP 中使用 AOP ( Castle.DynamicProxy )
  5. 2014编程之美初赛第二场
  6. 阶段1 语言基础+高级_1-3-Java语言高级_06-File类与IO流_10 打印流_1_打印流_概述和使用...
  7. 委托作为参数传递时,可以直接传入方法名称
  8. dp交换机命令_H3C-交换机维护命令大全
  9. hibernate 中文文档
  10. 使用近场探头和电流探头进行EMI干扰排查
  11. K8S学习之容器探测 livenessProbe、readinessProbe、startupProbe、lifecycle
  12. 大家好,我是数学家!来抢诺贝尔奖了!
  13. NBA球员生涯数据统计系统(中南大学C语言课设)
  14. Sidecar:让 iPad 成为 Mac Mini 外接显示屏
  15. 调用sleep后,我做了一个噩梦
  16. SAP标准供应商寄售业务自动清账测试
  17. 下一代隐私基础设施的主要介绍
  18. war包访问php,nginx - JAVA 项目WAR包部署的适用场景?
  19. C/C++数学计算库
  20. Foursquare数据集说明与免费下载

热门文章

  1. 40163 php,【PHP】微信支付JsApi 40163错误
  2. 微信公众号前端40163解决办法
  3. 那些被一行代码蒸发1个亿的智能合约,形式化验证了解一下? | 人物志
  4. timestamp 与 nonce 防止重放攻击
  5. uint16 java_java解析UINT16
  6. pycharm中遇到的报错 Unexpected indent / unindent does not match any outer indentation level
  7. xul eclipse插件_将HTML元素添加到XUL插件
  8. wps教育版支持latex公式啦
  9. 安装光盘并重新启动计算机戴尔,戴尔电脑怎么设置光盘启动
  10. 嵌入式在生活中的应用