目录

一、atlas编译打包

二、atlas安装配置

1、编译环境

2、编译步骤

3、安装步骤

4、hive-hook钩子配置

5、运行测试

三、atlas配置hive-hook

四、atlas使用介绍

1、Base Search

2、Advanced Search

3、创建Entity

4、CLASSIFICATION

5、GLOSSARY

6、Lineage查看


多易教育,专注大数据培训; 课程引领市场,就业乘风破浪
多易教育官网地址
https://www.51doit.cn
多易教育在线学习平台
https://v.51doit.cn

一、atlas编译打包

首先,在官网下载源码包

  • http://atlas.apache.org/


上传到linux,解压
[root@h2 ~]# tar -zxf apache-atlas-2.0.0-sources.tar.gz -C /opt/app/

进入源码目录,进行maven编译打包
mvn clean -DskipTests package -Pdist,embedded-hbase-solr

编译完成之后,会产生打包结果,所在位置是:源码目录中的新出现的distro/target目录

二、atlas安装配置

1、编译环境

拥有maven-3.6.3以上版本的环境

为maven配置国内镜像源,vi $M2_HOME/conf/settings.xml

<mirror><id>alimaven</id><name>aliyun maven</name><url>http://maven.aliyun.com/nexus/content/groups/public/</url><mirrorOf>central</mirrorOf>
</mirror>

2、编译步骤

上传安装包到linux
解压
修改依赖的版本及相关包下载地址
atlas父工程pom文件

<zookeeper.version>3.4.14</zookeeper.version>
<hbase.version>2.2.2</hbase.version>
<solr.version>7.7.2</solr.version>
distro工程pom文件 <hbase.tar>http://mirrors.tuna.tsinghua.edu.cn/apache/hbase/${hbase.version}/hbase-${hbase.version}-bin.tar.gz</hbase.tar>
<solr.tar>http://mirrors.tuna.tsinghua.edu.cn/apache/lucene/solr/${solr.version}/solr-${solr.version}.tgz</solr.tar>

执行maven编译打包
注意,atlas可以使用内嵌的hbase-solr作为底层索引存储和搜索组件,也可以使用外置的hbase和solr

如果要使用内嵌的hbase-solr,则使用如下命令进行编译打包

cd /opt/atlas2.0
export MAVEN_OPTS="-Xms2g -Xmx2g"
mvn clean -DskipTests package -Pdist,embedded-hbase-solr

视网络速度,耐心等待,并且可能要反复重试几次,最好是能开一个速度不错的vpn

3、安装步骤

挪出atlas编译好之后的安装包

mv distro/target/apache-atlas-2.0.0/ /opt/app/

启动atlas

cd /opt/app/
cd apache-atlas-2.0.0/
bin/atlas_start.py

然后访问21000端口,发现报错503错误,shit!
杀掉atlas进程,手动启动solr服务

cd apache-atlas-2.0.0/solr/
bin/solr start -c -z localhost:2181 -p 8984 -force

为solr创建初始化index库

bin/solr create -c vertex_index -shards 1 -replicationFactor 1 -force

然后打开浏览器访问solr的web服务如下,则solr启动成功

再次重新启动atlas

[root@h1 apache-atlas-2.0.0]# bin/atlas_start.pyThe Server is no longer running with pid 102331
configured for local hbase.
hbase started.
configured for local solr.
solr started.
setting up solr collections...
starting atlas on host localhost
starting atlas on port 21000
.............................
Apache Atlas Server started!!!

访问h1的21000端口
然后,无奈的发现,可能还是503

检查atlas的服务日志
发现如下报错信息:

org.apache.solr.client.solrj.impl.HttpSolrClient$RemoteSolrException: Error from server at http://192.168.33.21:8984/solr: Can not find the specified config set: fulltext_indexat org.apache.solr.client.solrj.impl.HttpSolrClient.executeMethod(HttpSolrClient.java:627)at org.apache.solr.client.solrj.impl.HttpSolrClient.request(HttpSolrClient.java:253)at org.apache.solr.client.solrj.impl.HttpSolrClient.request(HttpSolrClient.java:242)at org.apache.solr.client.solrj.impl.LBHttpSolrClient.doRequest(LBHttpSolrClient.java:4

重复之前步骤创建报错中提示的索引index库
然后再次重启atlas,访问端口,终于大功告成

总结,atlas的安装真的让人很困扰,该软件还极其不完善!

4、hive-hook钩子配置

修改hive-env.sh

export HIVE_AUX_JARS_PATH=/opt/app/apache-atlas-2.0.0/hook/hive

修改hive-site.xml

<property><name>hive.exec.post.hooks</name><value>org.apache.atlas.hive.hook.HiveHook</value>
</property>

5、运行测试

启动hive,创建一个库

hive> create database atlasdemo;
OK
Time taken: 0.267 seconds

在atlas上搜索刚刚创建的库

完美!atlas部署成功

三、atlas配置hive-hook

配置了hive的钩子后,在hive中做任何操作,都会被钩子所感应到,并生成相应的atlas元数据发往atlas进行存储管理;

但是,在atlas安装之前,hive中已存在的表,钩子是不会自动生成相关元数据的;
可以通过atlas的一个工具,来对已存在的hive库或表进行元数据导入;

Usage 1: <atlas package>/hook-bin/import-hive.shUsage 2: <atlas package>/hook-bin/import-hive.sh [-d <database regex> OR --database <database regex>] [-t <table regex> OR --table <table regex>]Usage 3: <atlas package>/hook-bin/import-hive.sh [-f <filename>]

四、atlas使用介绍

Apache Atlas UI 功能详解
ApacheAtlasUI功能包括3部分:SEARCH、CLASSIFICATION、GLOSSARY

SEARCH
Search模块包括Base Search、Advanced Search两种Entity查询功能和Entity创建功能。

1、Base Search


查询条件有Type、Classification、Term、Text。还可以保存常用的查询条件组合。

2、Advanced Search


查询条件包括:Term、Query。也可以保存常用的查询条件组合。
常用的Term值:Asset、avro_collection、avro_enum、avro_field、avro_fixed、avro_primitive、avro_record、avro_schema、avro_type

3、创建Entity

4、CLASSIFICATION

Classification模块包括:Classification列表(扁平结构、树状结构)、Classification创建功能。
扁平结构,如下图所示:

树状结构,如下图所示

创建Classification,如下图所示:

Atlas WebUI Tags添加自定义分类标签,这里添加了fact_table 事实表Tag、dim_table 维度表Tag、agg_table 聚合表Tag。

然后给各Hive表添加对应Tags标签即可,添加完的结果的维度表Tag如下。

5、GLOSSARY

Glossary模块包括:Glossary列表查询(Term、Category),创建Glossary。
Glossary列表查询,如下图所示:

创建Glossary,如下图所示:

6、Lineage查看

Atlas WebUI 搜索到某个表后,可以看到这个表的Lineage,如上边创建的agg_monthbrandsalesamount表。

多易教育,专注大数据培训; 课程引领市场,就业乘风破浪
多易教育官网地址
https://www.51doit.cn
多易教育在线学习平台
https://v.51doit.cn

27_多易教育之《yiee数据运营系统》数据治理-atlas部署使用篇相关推荐

  1. 19_多易教育之《yiee数据运营系统》用户画像-算法导论篇

    目录 一.机器学习概念 二.机器学习算法的分类 1.监督学习 2.无监督学习 3.半监督学习 4.向量入门 三.机器学习的常见算法 四.基本数学知识 1.向量入门 2.向量的距离(相似度) 3.矩阵入 ...

  2. java计算机毕业设计教师继续教育源码+mysql数据库+系统+lw文档+部署

    java计算机毕业设计教师继续教育源码+mysql数据库+系统+lw文档+部署 java计算机毕业设计教师继续教育源码+mysql数据库+系统+lw文档+部署 本源码技术栈: 项目架构:B/S架构 开 ...

  3. 29_多易教育之《yiee数据运营系统》附录:扩展知识点汇总系列二

    目录 一.OLAP多维分析概念及函数 1.cube导论 2.cube核心操作 1).cube核心操作 2).DICE (切块) 3).ROLL UP (上卷) 4).DRILL DOWN (下钻) 5 ...

  4. 用户运营4大策略体系搭建:增长框架+用户建模+场景化分层+数据运营

    用户运营体系是什么样的? 相信每个企业都有一套相对完善的用户运营体系,之前接触一些介绍用户体系的文章,基本将用户运营体系等同于用户分群策略和AARRR运营模型,实则这只是整个运营体系中的一角. 结合运 ...

  5. 游戏数据运营--1. 怎样做好游戏数据分析

    写在前面 下面的这几点全都算是面试的套话, 干货面试经, 对于跨行业做游戏数据运营的数据分析师真心建议先拿出大把时间去了解自己心仪公司的游戏, 从玩家的角度倒推出一份数据分析的demo, 这样面试起来 ...

  6. 从零构建FLINK整合Drools动态规则实时运营系统(项目案例)第2篇(业务介绍篇)

    项目简介 本案例是一个专注于flink动态规则计算的项目,核心技术组件涉及flink.hbase.clickhouse.drools等 项目可根据各类个性化需求进行二次开发后,直接用于实时运营,实时风 ...

  7. 从零构建FLINK整合Drools动态规则实时运营系统(项目案例)-第5篇(用户画像篇)

    前言 项目介绍在线视频: https://www.bilibili.com/video/BV1zv41157yY 本案例是一个专注于flink动态规则计算的项目,核心技术组件涉及flink.hbase ...

  8. 浅谈数据治理、数据管理、数据资源与数据资产管理内涵及差异点(建议收藏)...

    前言 随着信息技术的不断涌现和普及,业务发展加快了数据膨胀的速度,行业内衍生了较多的新名词,如数据治理.数据管理.数据资源管理.数据资产管理等名词的定义很多,概念容易混淆,本文对这些名词术语及内涵进行 ...

  9. 数据填报有什么用?数据填报系统具有哪些优势?_光点科技

    大部分数据填报都是终端用户,或者可以说是我们使用信息系统的业务人员,提供这样一个纯粹的HTML页面表结构设计.发布.管理和填报数据的页面.界面友好.简单易用的统计研究分析渠道. 用户不再需要使用专门的 ...

  10. 好用的数据填报系统应该具备什么功能?_光点科技

    数据填报系统这个现如今每个企业差不多都会接触的系统,已经不是什么高大上的存在了,很多人的日常已经和这些数据报表结合在了一起,而无法分割.比如昨天的营收数据,销售的策略指定等,这些都是依赖数据分析,从而 ...

最新文章

  1. Spring 4 使用Freemarker模板发送邮件添加附件
  2. BigDecimal去除末尾多余的0
  3. Linux Capabilities 入门教程--进阶实战篇
  4. [leetcode] 154.寻找旋转排序数组中的最小值 II
  5. python2.7 pyqt4创建qtapp_python-2.7 – 向TabWidget pyqt4添加加号按钮
  6. Spring Security MVC登录注销示例教程
  7. 自动驾驶路径规划论文解析(5)
  8. 设计模式综和实战项目x-gen系列二
  9. 将PostgreSQL数据库扩展到每个月12亿条记录的经验教训
  10. 【分布式】分布式架构-ESB SOA
  11. android kk界面旋转流程_【技术浅析】基于Android的五轴联动数控系统设计
  12. 那个软件测试cpu温度准确,什么软件测试cpu温度准确_测试cpu温度准确软件汇总...
  13. win10连wifi显示无Internet最全解决方案
  14. Matlab UIAxes中添加图例
  15. LintCode 吹气球
  16. ERP-非财务人员的财务培训教(一.二)------财务基础知识
  17. 如何找回回收站清空的文件
  18. java--实现简单斗地主
  19. 使用Origin绘制图表的方法
  20. 【教程】关于丝杆旋转一周前进的距离

热门文章

  1. 一级计算机25套上网,全国计算机等级考试一级试题(25套)[1]
  2. 计算机中汉字的顺序用什么牌,最常用汉字频率排序
  3. Shiro自定义Token
  4. 传智播客 刘意_2015年Java基础视频-深入浅出精华版 笔记(day01~day10)
  5. 《推荐系统实践》(一)好的推荐系统
  6. 数字证书及CA的详细理解
  7. 谷歌 kaptcha 图片验证码
  8. SVN汉化包安装方法
  9. 小米球外网映射本地tomcat
  10. SolidWorks2022 安装教程