Atlas——数据治理工具的使用
一、启动Atlas
1、启动前置环境
- 启动Hadoop 集群
- 启动Zookeeper 集群
- 启动Kafka 集群
- 启动Hbase 集群
- 启动Solr 集群
2、启动Atlas服务
- 进入atlas的bin目录,命令:
cd /home/atlas/atlas/bin
- 执行启动脚本,命令:
./atlas_start.py
,等待2min
- 访问hadoop01的21000端口
- 使用默认账号登录,用户名:admin,密码:admin
二、初次使用时将Hive中元数据导入
Atlas 提供了一个Hive 元数据导入的脚本,直接执行该脚本,即可完成Hive 元数据的
初次全量导入。
1、导入元数据
- 使用hadoop01机器,进入到hook-bin目录,命令:
cd /home/atlas/atlas/hook-bin
- 执行里面的自动化导入脚本,命令:
./import-hive.sh
- 中途需要输入密码,输入系统自带的账户:admin,密码:admin
- 等待系统提示成功
- 去Atlas网页,点击右上角的数据展示,验证导入成功
三、血缘关系功能使用
1、在hive上创建两个表
- 用hadoop01进入hive
- 创建一张订单事实表
CREATE TABLE dwd_order_info ( `id` STRING COMMENT '订单号', `final_amount` DECIMAL(16,2) COMMENT '订单最终金额', `order_status` STRING COMMENT '订单状态', `user_id` STRING COMMENT '用户id', `payment_way` STRING COMMENT '支付方式', `delivery_address` STRING COMMENT '送货地址', `out_trade_no` STRING COMMENT '支付流水号', `create_time` STRING COMMENT '创建时间', `operate_time` STRING COMMENT '操作时间', `expire_time` STRING COMMENT '过期时间', `tracking_no` STRING COMMENT '物流单编号', `province_id` STRING COMMENT '省份ID', `activity_reduce_amount` DECIMAL(16,2) COMMENT '活动减免金额', `coupon_reduce_amount` DECIMAL(16,2) COMMENT '优惠券减免金额', `original_amount` DECIMAL(16,2) COMMENT '订单原价金额', `feight_fee` DECIMAL(16,2) COMMENT '运费', `feight_fee_reduce` DECIMAL(16,2) COMMENT '运费减免'
) COMMENT '订单表'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
- 创建一张地区维度表
CREATE TABLE dim_base_province ( `id` STRING COMMENT '编号', `name` STRING COMMENT '省份名称', `region_id` STRING COMMENT '地区ID', `area_code` STRING COMMENT '地区编码', `iso_code` STRING COMMENT 'ISO-3166 编码,供可视化使用', `iso_3166_2` STRING COMMENT 'IOS-3166-2 编码,供可视化使用'
) COMMENT '省份表'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
2、使用hive网页功能将数据上传进表中
- 访问hive网页,地址:
hadoop01ip:9870
,点击Utilities下拉菜单的Browse the file system选项
- 在搜索栏搜索
/user/hive/warehouse/dwd_order_info
- 点击右侧上传按钮将数据上传,数据下载地址.
- 或者进入hive中使用命令导入
#追加导入
load data local inpath '/home/atlas/1.txt' into table dwd_order_info;
#覆盖导入
load data local inpath '/home/atlas/1.txt' overwrite into table dwd_order_info;
3、根据订单事实表和地区维度表,求出每个省份的订单次数和订单金额
- 创建查询结果表
CREATE TABLE `ads_order_by_province` ( `dt` STRING COMMENT '统计日期', `province_id` STRING COMMENT '省份id', `province_name` STRING COMMENT '省份名称', `area_code` STRING COMMENT '地区编码', `iso_code` STRING COMMENT '国际标准地区编码', `iso_code_3166_2` STRING COMMENT '国际标准地区编码', `order_count` BIGINT COMMENT '订单数', `order_amount` DECIMAL(16,2) COMMENT '订单金额'
) COMMENT '各省份订单统计'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
- 将查询结果装入结果表中
insert into table ads_order_by_province
select '2021-08-30' dt, bp.id, bp.name, bp.area_code, bp.iso_code, bp.iso_3166_2, count(*) order_count, sum(oi.final_amount) order_amount
from dwd_order_info oi
left join dim_base_province bp
on oi.province_id=bp.id
group by bp.id,bp.name,bp.area_code,bp.iso_code,bp.iso_3166_2;
4、查看结果表的血缘关系
- 查看总体关系
5、查看表中某一字段的血缘关系
- 点击表的Schema
- 点击某一字段
Atlas——数据治理工具的使用相关推荐
- 【Talend、Informatica、Dataiku都是常用的数据治理工具,它们各有哪些特点和优势?】
Talend.Informatica.Dataiku都是常用的数据治理工具,它们各有特点和优势. Talend Talend是一个开源的数据集成和数据治理工具,具有以下特点: Talend支持多种数据 ...
- 网易数据治理工具产品实践
作者介绍 @云娜 某大厂数据开发平台的产品: 专注数据治理和数据平台的相关内容: "数据人创作者联盟"成员. 全文一共2800字+,阅读需要10分钟 今天分享的主题是网易数据治理工 ...
- 16款国内外数据治理工具对比
数据治理越来越被企业重视,在这样一个数据驱动增长的时代,数据治理正在成为一些企业或单位数字化转型的必经之路.下面,就来和大家简单介绍一下16款数据治理工具,排名不分先后,包含国内外数据治理工具平台公司 ...
- 数据治理工具项目投标书技术部分-V1.6
本资料来源公开网络,仅供个人学习,请勿商用,如有侵权请联系删除 项目背景 二.项目目标 提供一套后勤数据治理工具部署文件及配套文档,主要技术指标如下: (1)具备数据抽取转换装载.元数据管理.数据标准 ...
- Apache Atlas 数据治理-血缘关系工具
前言: 部门业务数据治理中字段血缘关系的实现,平台使用了工具Apache Atlas,简单查了些内容对自己进行科普,后续再深入 以下摘自文章: 参考文章:https://blog.csdn.net/u ...
- 流程图外部数据内部数据图形_数据治理工具:基于SQL图形化数据血缘系统的实现和使用...
之前文章,提出了基于SQL图形化数据血缘系统的概念和设计. 这里我们提出系统的实现和使用教程. 把这些做成了视频,放在了网站上:https://www.kexuejisuan.com/all_vedi ...
- Atlas(2):开源数据治理方案
数据治理意义重大,传统的数据治理采用文档的形式进行管理,已经无法满足大数据下的数据治理需要.而适合于Hadoop大数据生态体系的数据治理就非常的重要了. 一,元数据管理系统 市面上常见的元数据管理系统 ...
- 数据治理平台工具前世今生
前言 伴随着企事业单位信息化不断的深入.各种技术持续的发展以及人们对数据治理的认知不断加深,数据治理工具在过去的20年也不断的发展,笔者以某世界500集团企业案例为原型,介绍数据治理工具发展及变迁及未 ...
- 数据治理 主数据 元数据_我们对数据治理的误解
数据治理 主数据 元数据 Data governance is top of mind for many of my customers, particularly in light of GDPR, ...
最新文章
- P6 根轨迹分析法-《Matlab/Simulink与控制系统仿真》程序指令总结
- 如何动态修改uri_maven如何动态统一修改版本号
- docker集群管理工具_太多选择:如何选择正确的工具来管理Docker集群
- 10kv配电网潮流 matlab,关于用matlab计算配电网三相潮流计算,请大家帮忙检验下!...
- springMVC学习-day02
- linux网络适配器驱动程序怎么安装,英特尔?服务器适配器 — Linuxixgbe* 基础驱动程序概述和安装...
- 公众号内打开提示404_微信公众号文章内如何插入视频?
- c语言实现数据结构中的链式表
- 训练网络时如何加入噪声_[模型量化] 如何训练一个“耐量化”的网络?
- del在php中什么意思,delete键是什么意思
- ImportError: DLL load failed while importing _multiarray_umath: 找不到指定的模块(pyinstaller打包的问题)
- JDK下载和配置以及java的第一个程序:“Hello Java”
- ALWAYS ON 搭建
- 基于gensim的Deep learning with paragraph2vec 官方models.doc2vec文档解释
- 《 最新中国高校毕业生薪资报告 》
- 人工智障和神经病网络对话--30行python让图灵机器人和茉莉机器人无止尽的瞎扯蛋
- 服务器需要支持5g,5G时代需要什么样的服务器?
- asio(二)、异步定时器
- 如何了解Office 365 Plans Pricing
- 在线问答与科学管理系统