一、启动Atlas

1、启动前置环境

  1. 启动Hadoop 集群
  2. 启动Zookeeper 集群
  3. 启动Kafka 集群
  4. 启动Hbase 集群
  5. 启动Solr 集群

2、启动Atlas服务

  1. 进入atlas的bin目录,命令:cd /home/atlas/atlas/bin
  2. 执行启动脚本,命令:./atlas_start.py,等待2min
  3. 访问hadoop01的21000端口
  4. 使用默认账号登录,用户名:admin,密码:admin

二、初次使用时将Hive中元数据导入

Atlas 提供了一个Hive 元数据导入的脚本,直接执行该脚本,即可完成Hive 元数据的
初次全量导入。

1、导入元数据

  1. 使用hadoop01机器,进入到hook-bin目录,命令:cd /home/atlas/atlas/hook-bin
  2. 执行里面的自动化导入脚本,命令:./import-hive.sh
  3. 中途需要输入密码,输入系统自带的账户:admin,密码:admin
  4. 等待系统提示成功
  5. 去Atlas网页,点击右上角的数据展示,验证导入成功

三、血缘关系功能使用

1、在hive上创建两个表

  1. 用hadoop01进入hive
  2. 创建一张订单事实表
CREATE TABLE dwd_order_info ( `id` STRING COMMENT '订单号', `final_amount` DECIMAL(16,2) COMMENT '订单最终金额', `order_status` STRING COMMENT '订单状态', `user_id` STRING COMMENT '用户id', `payment_way` STRING COMMENT '支付方式', `delivery_address` STRING COMMENT '送货地址', `out_trade_no` STRING COMMENT '支付流水号', `create_time` STRING COMMENT '创建时间', `operate_time` STRING COMMENT '操作时间', `expire_time` STRING COMMENT '过期时间', `tracking_no` STRING COMMENT '物流单编号', `province_id` STRING COMMENT '省份ID', `activity_reduce_amount` DECIMAL(16,2) COMMENT '活动减免金额', `coupon_reduce_amount` DECIMAL(16,2) COMMENT '优惠券减免金额', `original_amount` DECIMAL(16,2)  COMMENT '订单原价金额', `feight_fee` DECIMAL(16,2)  COMMENT '运费', `feight_fee_reduce` DECIMAL(16,2)  COMMENT '运费减免'
) COMMENT '订单表'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
  1. 创建一张地区维度表
CREATE TABLE dim_base_province ( `id` STRING COMMENT '编号', `name` STRING COMMENT '省份名称', `region_id` STRING COMMENT '地区ID', `area_code` STRING COMMENT '地区编码', `iso_code` STRING COMMENT 'ISO-3166 编码,供可视化使用', `iso_3166_2` STRING COMMENT 'IOS-3166-2 编码,供可视化使用'
)  COMMENT '省份表'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

2、使用hive网页功能将数据上传进表中

  1. 访问hive网页,地址:hadoop01ip:9870,点击Utilities下拉菜单的Browse the file system选项
  2. 在搜索栏搜索/user/hive/warehouse/dwd_order_info
  3. 点击右侧上传按钮将数据上传,数据下载地址.
  4. 或者进入hive中使用命令导入
#追加导入
load data local inpath '/home/atlas/1.txt' into table dwd_order_info;
#覆盖导入
load data local inpath '/home/atlas/1.txt' overwrite into table dwd_order_info;

3、根据订单事实表和地区维度表,求出每个省份的订单次数和订单金额

  1. 创建查询结果表
CREATE TABLE `ads_order_by_province` ( `dt` STRING COMMENT '统计日期', `province_id` STRING COMMENT '省份id', `province_name` STRING COMMENT '省份名称', `area_code` STRING COMMENT '地区编码', `iso_code` STRING COMMENT '国际标准地区编码', `iso_code_3166_2` STRING COMMENT '国际标准地区编码', `order_count` BIGINT COMMENT '订单数', `order_amount` DECIMAL(16,2) COMMENT '订单金额'
) COMMENT '各省份订单统计'
ROW FORMAT DELIMITED  FIELDS TERMINATED BY '\t';
  1. 将查询结果装入结果表中
insert into table ads_order_by_province
select '2021-08-30' dt, bp.id, bp.name, bp.area_code, bp.iso_code, bp.iso_3166_2, count(*) order_count, sum(oi.final_amount) order_amount
from dwd_order_info oi
left join dim_base_province bp
on oi.province_id=bp.id
group by bp.id,bp.name,bp.area_code,bp.iso_code,bp.iso_3166_2;

4、查看结果表的血缘关系

  1. 查看总体关系

5、查看表中某一字段的血缘关系

  1. 点击表的Schema
  2. 点击某一字段

Atlas——数据治理工具的使用相关推荐

  1. 【Talend、Informatica、Dataiku都是常用的数据治理工具,它们各有哪些特点和优势?】

    Talend.Informatica.Dataiku都是常用的数据治理工具,它们各有特点和优势. Talend Talend是一个开源的数据集成和数据治理工具,具有以下特点: Talend支持多种数据 ...

  2. 网易数据治理工具产品实践

    作者介绍 @云娜 某大厂数据开发平台的产品: 专注数据治理和数据平台的相关内容: "数据人创作者联盟"成员. 全文一共2800字+,阅读需要10分钟 今天分享的主题是网易数据治理工 ...

  3. 16款国内外数据治理工具对比

    数据治理越来越被企业重视,在这样一个数据驱动增长的时代,数据治理正在成为一些企业或单位数字化转型的必经之路.下面,就来和大家简单介绍一下16款数据治理工具,排名不分先后,包含国内外数据治理工具平台公司 ...

  4. 数据治理工具项目投标书技术部分-V1.6

    本资料来源公开网络,仅供个人学习,请勿商用,如有侵权请联系删除 项目背景 二.项目目标 提供一套后勤数据治理工具部署文件及配套文档,主要技术指标如下: (1)具备数据抽取转换装载.元数据管理.数据标准 ...

  5. Apache Atlas 数据治理-血缘关系工具

    前言: 部门业务数据治理中字段血缘关系的实现,平台使用了工具Apache Atlas,简单查了些内容对自己进行科普,后续再深入 以下摘自文章: 参考文章:https://blog.csdn.net/u ...

  6. 流程图外部数据内部数据图形_数据治理工具:基于SQL图形化数据血缘系统的实现和使用...

    之前文章,提出了基于SQL图形化数据血缘系统的概念和设计. 这里我们提出系统的实现和使用教程. 把这些做成了视频,放在了网站上:https://www.kexuejisuan.com/all_vedi ...

  7. Atlas(2):开源数据治理方案

    数据治理意义重大,传统的数据治理采用文档的形式进行管理,已经无法满足大数据下的数据治理需要.而适合于Hadoop大数据生态体系的数据治理就非常的重要了. 一,元数据管理系统 市面上常见的元数据管理系统 ...

  8. 数据治理平台工具前世今生

    前言 伴随着企事业单位信息化不断的深入.各种技术持续的发展以及人们对数据治理的认知不断加深,数据治理工具在过去的20年也不断的发展,笔者以某世界500集团企业案例为原型,介绍数据治理工具发展及变迁及未 ...

  9. 数据治理 主数据 元数据_我们对数据治理的误解

    数据治理 主数据 元数据 Data governance is top of mind for many of my customers, particularly in light of GDPR, ...

最新文章

  1. P6 根轨迹分析法-《Matlab/Simulink与控制系统仿真》程序指令总结
  2. 如何动态修改uri_maven如何动态统一修改版本号
  3. docker集群管理工具_太多选择:如何选择正确的工具来管理Docker集群
  4. 10kv配电网潮流 matlab,关于用matlab计算配电网三相潮流计算,请大家帮忙检验下!...
  5. springMVC学习-day02
  6. linux网络适配器驱动程序怎么安装,英特尔?服务器适配器 — Linuxixgbe* 基础驱动程序概述和安装...
  7. 公众号内打开提示404_微信公众号文章内如何插入视频?
  8. c语言实现数据结构中的链式表
  9. 训练网络时如何加入噪声_[模型量化] 如何训练一个“耐量化”的网络?
  10. del在php中什么意思,delete键是什么意思
  11. ImportError: DLL load failed while importing _multiarray_umath: 找不到指定的模块(pyinstaller打包的问题)
  12. JDK下载和配置以及java的第一个程序:“Hello Java”
  13. ALWAYS ON 搭建
  14. 基于gensim的Deep learning with paragraph2vec 官方models.doc2vec文档解释
  15. 《 最新中国高校毕业生薪资报告 》
  16. 人工智障和神经病网络对话--30行python让图灵机器人和茉莉机器人无止尽的瞎扯蛋
  17. 服务器需要支持5g,5G时代需要什么样的服务器?
  18. asio(二)、异步定时器
  19. 如何了解Office 365 Plans Pricing
  20. 在线问答与科学管理系统

热门文章

  1. 【目标检测评价指标】
  2. Linux环境变量和命令行参数
  3. C语言入门Part 3—大致梳理(中篇)
  4. IEEE 802 标准概述
  5. 2020 豆瓣API使用(代理方法) 解决无key方法 code 104解决方法
  6. 手机个人征信查询攻略
  7. 模拟a标签实现带header的下载
  8. 个人站长网站建设流程
  9. 关于校招和嵌入式软开的学习路线的总结和一些思考
  10. 【MR】现代机器人学算法库---计算力矩控制