为什么要做数据治理?业务繁多,数据繁多,业务数据不断迭代。人员流动,文档不全,逻辑不清楚,对于数据很难直观理解,后期很难维护。

在大数据研发中,原始数据就有着非常多的数据库,数据表。

而经过数据的聚合以后,又会有很多的维度表。如果想要对这些数据做好管理,光用文字、文档等东西是不够的,必须用图。

Atlas就是把元数据变成图的工具。

http://atlas.apache.org/

Atlas是一组可扩展和可扩展的核心基础治理服务,使企业能够有效地满足Hadoop中的合规性要求,并允许与整个企业数据生态系统集成。

Apache Atlas为组织提供开放的元数据管理和治理功能,以建立其数据资产的目录,对这些资产进行分类和治理,并为数据科学家,分析师和数据治理团队提供围绕这些数据资产的协作功能。

那么如何安装并使用Altas呢?

Atlas的安装坑较多,本教程将详细介绍Atlas2.1.0整个安装过程,有任何问题欢迎关注 实时流式计算

后台留言~

下载

请前往官网 https://atlas.apache.org/#/Downloads

下载对应版本的源码包 本文使用最新的 2.1.0版本

国内站点 速度要快一些

https://mirrors.tuna.tsinghua.edu.cn/apache/atlas/2.1.0/apache-atlas-2.1.0-sources.tar.gz

编译

比较难受的是 Atlas不提供安装包 下载的是源码包 需要自行编译打包

注意,需要先安装maven,因为这是使用maven开发的java web工程。maven3.6.3版本即可

安装maven

一些下载地址

http://maven.apache.org/download.cgi

https://mirrors.tuna.tsinghua.edu.cn/apache/maven/maven-3/3.6.3/binaries/apache-maven-3.6.3-bin.tar.gz

上传到linux的/usr/local目录

cd /usr/local

解压文件

tar -zxvf apache-maven-3.6.3-bin.tar.gz

配置环境变量

vi /etc/profile
export MAVEN_HOME=/usr/local/apache-maven-3.6.3export PATH=MAVEN_HOME/bin:PATH

刷新环境变量

source /etc/profile

检查版本

mvn -v

配置好maven的环境变量 注意国内需要配置好maven的国内镜像,一般使用阿里,华为,清华等镜像 vi /usr/local/apache-maven-3.6.3/conf/settings.xml

alimavenaliyun mavenhttp://maven.aliyun.com/nexus/content/groups/public/central

把这个setting.xml 拷贝到 ~/.m2/

cp settings.xml .m2/

编译Atlas

解压源码包

tar -zxvf apache-atlas-2.1.0-sources.tar.gz
1.修改atlas源码工程的pom.xml

将hbase zookeeper hive等依赖的版本修改成自己环境中一致的版本(或者兼容的版本)

父工程pom文件3.4.142.2.37.7.2
2.执行maven编译打包

atlas可以使用内嵌的hbase-solr作为底层索引存储和搜索组件,也可以使用外置的hbase和solr 如果要使用内嵌的hbase-solr,则使用如下命令进行编译打包 cd apache-atlas-sources-2.1.0/ export MAVEN_OPTS="-Xms2g -Xmx2g" mvn clean -DskipTests package -Pdist,embedded-hbase-solr

不用内置就这样 mvn clean -DskipTests package -Pdist

改完路径还会非常快的 耐心等待

atlas的webui子模块中依赖了nodejs,会从nodejs的中央仓库去下载相关依赖库

编译完成之后,会产生打包结果,所在位置是:源码目录中的新出现的distro/target目录

  • 注意,这里产出的有压缩包也有解压后的包。这里面的hook包,可以看到有各种平台的hook包。

  • 顾名思义,这就是钩子包,也就是各个大数据框架会提供各种生命周期回调函数,并且将相关信息以数据方式提供出来。这些钩子就可以去监听和接收数据

如果没有错误 并看到一排success就是成功了

踩坑大全:

包下载失败

在Atlas编译过程中,遇到最多的就是包下载失败的问题,这和当前网络有很大的关系。

选择网速较好的网络。

还有一种解决办法就是去官网上找一下,如果真没有就切换到争取的maven源

了解大数据实时计算 感受数据流动之美 欢迎关注 实时流式计算

老是说我编译版本不够_Atlas 2.1.0 实践(1)—— 编译Atlas相关推荐

  1. Atlas 2.1.0 实践之编译Atlas-Hive

    Atlas 2.1.0 实践之编译Atlas-Hive 问题前景: Hive 2.2.0以下的低版本存在bug,字段级的血缘数据不能自动生成,需升级hive版本到2.2.0及以上才能正常生成字段级的血 ...

  2. 手机编译mysql_玩转MySQL 8.0源码编译

    先说第一种,自带boost的源码编译 首先,下载带boost代码的MySQL源码包,在官网下载页面有相应的提示:  解压缩后,就可以开始编译了.首先,指定编译的选项: [root@yejr.me]# ...

  3. freebsd php 编译 mysql sql2005_[伊达原创]FreeBSD8.0源码编译安装MYSQL5 APACHE2.2 PHP5.3.2

    /********************************************** @desc:FreeBSD8.0+APACHE-2.2.15+MYSQL-5.1.45+PHP-5.3. ...

  4. 源码编译打包_Atlas 2.1.0 实践(1)—— 编译Atlas

    为什么要做数据治理? 业务繁多,数据繁多,业务数据不断迭代.人员流动,文档不全,逻辑不清楚,对于数据很难直观理解,后期很难维护. 在大数据研发中,原始数据就有着非常多的数据库,数据表. 而经过数据的聚 ...

  5. atlas安装需要kafka吗_Atlas 2.1.0 实践(2)—— 安装Atlas

    在完成Atlas编译以后,就可以进行Atlas的安装了.Atlas的安装主要是安装Atlas的Server端,也就Atlas的管理页面,并确保Atlas与Kafka Hbase Solr等组件的集成. ...

  6. vc6配置c语言编译环境,驱动WDK7600在VC6.0下的编译开发配置环境

    网上找了很多资料,都不好使.相信有很多像我一样偏好VC6.0的家伙,最新的WDK真的用不了么?必须可以!!! 开始之前要一定要明确一件事情,单独使用WDK+记事本就可以开发驱动,和VC的编译器耗无关系 ...

  7. Maven配置JDK编译版本

    配置JDK编译版本 配置使用JDK 1.8编译运行项目 打开Maven的settings.xml文件 在profiles节点中,加入如下配置 <profile><id>jdk- ...

  8. SpringBoot项目新建之后修改编译版本

    场景 新建的SpringBoot编译版本默认为1.5,要将其修改为1.8. 实现 打开pom.xml <!-- 修改参数 --><properties><!-- 修改JD ...

  9. maven项目修改java编译版本的方式

    简述 使用Maven编译Java项目,默认的jdk编译版本是1.5( 参考官网的说明->https://maven.apache.org/plugins/maven-compiler-plugi ...

最新文章

  1. 路由器:访问控制列表
  2. java解数独_java解数独
  3. android窗口退出动画,如何在Android中为弹出窗口制作动画
  4. consistent gets在Oracle使用特例
  5. BZOJ 3925 [Zjoi2015]地震后的幻想乡 ——期望DP
  6. PHP的表单获取与HHTP请求方式
  7. 用calloc()函数分配内存
  8. C++_类和对象_C++继承_菱形继承_或钻石继承_问题及利用虚继承解决该问题---C++语言工作笔记068
  9. 【图论】【二分图匹配】[POJ 3041]I'm Telling the Truth
  10. 【亲测可用】彻底解决Google谷歌地球启动无法连接到登录服务器、无法启动问题
  11. 一篇文章带你深入了解Dart语言
  12. linux usb 存储设备,找到哪个驱动器对应于Linux中的哪个USB大容量存储设备
  13. 固定时间收敛的控制器设计(基础知识)
  14. 第三周项目 侦察队委派任务
  15. CSP-J 2022年8月第一轮模拟赛 1
  16. 工作汇报 PPT 20PPPT-朴尔PPT
  17. app自动化测试appium教程之三——appium基础命令(python)
  18. 二维数组求周长的问题
  19. leetcode: 517. 超级洗衣机
  20. 云筑网认证_云筑网供应商常见问题

热门文章

  1. “大龄”程序员的出路
  2. 程序员的10个神秘等式
  3. vue实战案例:用学过的知识做一个小demo
  4. 苹果电脑连服务器传文件慢,两个mac之间快速传递文件
  5. 大数据Hadoop2.x与Hadoop3.x相比较有哪些变化
  6. Advanced Science|北京大学第一医院肾脏内科杨莉团队与白凡研究组揭示急性肾损伤中始动和放大炎症巨噬细胞新亚群...
  7. 师弟新作 | NBT:王运浩、区健辉等综述纳米孔测序技术
  8. 河南农大姚文与中科院北京基因组所章张课题组合作发布真核生物长链反向重复序列数据库...
  9. 复现Cell附图 |类器官的单细胞分析
  10. BASH 比较运算小结[转载 小蜗牛五二]