最近在内部做了个分享,顺便画了一下这次impala数据血缘的架构图:

架构图:

如果想了解如何实现请参照前面几篇文章:

impala数据血缘与数据地图系列:

1. 解析impala与hive的血缘日志

2. 实时采集impala血缘日志推送到kafka

3. 实时消费血缘记录写入neo4j并验证

---------------------------------Impala血缘 架构图-----------------------------------------------------------

红色部分是用户会接触到的部分,绿色部分对于用户无感知。

解读:

1. impala是无主的MPP架构,因此用户每次SQL指定的impala节点就是主节点,当用户通过SQL或jdbc/odbc接口查询impala时,SQL命令首先 会发送到impala daemon节点,由该节点的QueryPlanner解析SQL成执行计划后发送给其他daemon节点分别计算各自的数据然后返回给该impala daemon节点。 所以我们只要在每台impala daemon节点部署filebeat并监控血缘日志即可。

2. 使用Filebeat监控impala血缘日志后发送到kafka集群指定的topic中;

3. 解析kafka内的血缘日志,将元数据(user,timestamp,id等信息),实体(表,字段),关系(表到表,字段到字段,字段到表)识别出来;

4. 将第三步里的结果存储进Neo4J;

5. 用户可以使用CQL或封装的接口对Neo4J里存储的impala血缘进行实时的查询;

功能介绍:

实时血缘:

建视图:逻辑如下
create view vw_lineage_test as
select acc.gid,acc.decrypt_name,ind.company_name ,acc.branch_name
from dl_nccp.account acc
inner join dl_nccp.individual ind on acc.gid=ind.gid and acc.is_deleted='0' and acc.is_valid='0';

修改视图逻辑:新增一个来源表contract以及该表的telephone字段
alter view vw_lineage_test as
select acc.gid,acc.decrypt_name,ind.company_name,acc.branch_name,c.telephone
from dl_nccp.account acc
inner join dl_nccp.individual ind on acc.gid=ind.gid and acc.is_deleted='0' and acc.is_valid='0'
inner join dl_nccp.contact c on acc.gid = c.gid

全类型血缘:

目前已实现字段到表,字段到字段,表到表,表到库级别的全类型血缘关系:

技术元数据管理:

实时更新数据字典、ETL任务元数据:

影响分析:

指定节点向后进行影响分析:

血缘分析:

指定节点向前进行血缘分析:

深度查询:

可指定血缘的查询深度:

如果对你有帮助,请点个赞吧~ 谢谢!

impalahive大数据平台数据血缘与数据地图(四)-impala血缘架构图及功能介绍相关推荐

  1. 建设大数据平台,从“治理”数据谈起

    一 随处可见的数据问题 大数据不是凭空而来,1981年第一个数据仓库诞生,到现在已经有了近40年的历史,而国内企业数据平台的建设大概从90年代末就开始了,从第一代架构出现到现在已经经历了近20年的时间 ...

  2. 数据平台发展史-从数据仓库数据湖到数据湖仓

    数据平台发展史-从数据仓库数据湖到数据湖仓 做数据的同学经常听到一些数据相关的术语,常见的包括数据仓库,逻辑数据仓库,数据湖,数据湖仓/湖仓一体,数据网格 data mesh,数据编织 data fa ...

  3. [转]关于数据中台、数据平台、数据仓库、数据湖等数据概念的对比解析

    前言 2010年左右,还是在上学的时候,学过一门课程叫<数据仓库与数据挖掘>,那还是属于传统数据的时代,我们会讨论什么是数据仓库?什么是数据集市?数据仓库和数据库有什么区别?等等,当我还在 ...

  4. 关于数据中台、数据平台、数据仓库、数据湖等数据概念的对比解析

    前言 2010年左右,还是在上学的时候,学过一门课程叫<数据仓库与数据挖掘>,那还是属于传统数据的时代,我们会讨论什么是数据仓库?什么是数据集市?数据仓库和数据库有什么区别?等等,当我还在 ...

  5. Spring Cloud Alibaba 分布式微服务高并发数据平台化(中台)思想+多租户saas企业开发架构技术选型和设计方案

    基于Spring Cloud Alibaba 分布式微服务高并发数据平台化(中台)思想+多租户saas设计的企业开发架构,支持源码二次开发.支持其他业务系统集成.集中式应用权限管理.支持拓展其他任意子 ...

  6. 诸葛io的技术架构图_大数据平台的三次浪潮和诸葛io自身架构演变历程 (3)

    我们会由统一的数据访问层来输出数据,给应用层进行调用.这一层我们会封装一些分析模型和业务逻辑,数据访问层会分为内部接口和外部接口进行分发. 6) 数据应用系统 我们的数据应用主要包括以下部分: a. ...

  7. 大数据平台的建设思考——数据汇聚

    大数据平台的建设思考(一) 常规大数据建设.数据中心建设,会经过以下阶段:数据汇聚.清洗整合.融合.数据融合,数据输出给各个大数据应用使用. 将整个数据流比作炒一道美味的菜肴,那么对应关系: - 买菜 ...

  8. 格物钛数据平台国内外经典开源数据汇总(自动驾驶、目标检测、人脸识别、人体姿态估计、文本检测、NLP、医疗)

    本文整理了国内外经典的开源数据,包含了目标检测.自动驾驶.人脸识别.自然语言处理.文本检测.医疗等方向,具体如下. 一.自动驾驶领域数据集 KITTI数据集 KITTI数据集由德国卡尔斯鲁厄理工学院和 ...

  9. matplotlib画图_Python数据可视化工具Matplotlib之画图(四)(饼状图)

    概述 在<Python数据可视化工具Matplotlib之画图(三)(柱状图)>中讲述了如何通过Matplotlib画柱状图,本文讲述如何通过Matplotlib画饼状图. matplot ...

  10. 有赞大数据平台安全建设实践

    一.概述 在大数据平台建设初期,安全也许并不是被重点关注的一环.大数据平台的定位主要是服务数据开发人员,提高数据开发效率,提供便捷的开发流程,有效支持数仓建设.大数据平台的用户都是公司内部人员.数据本 ...

最新文章

  1. python控制电机_树莓派Python控制步进电机
  2. TCP端口状态 LISTENING、ESTABLISHED、TIME_WAIT及CLOSE_WAIT详解,以及三次握手,滑动窗口
  3. Debian 新负责人发表演讲:Debian 的现状与面临的一些问题
  4. 常见问题_智能切膜机常见问题
  5. php 9000 端口没起来,ubuntu fpm-php 未监听9000端口问题
  6. Access中编写VBA代码时,如何区分、使用“.”和“!”
  7. Java架构师面试问些什么?微服务之springcloud面试题(共22题,含详细解答)
  8. GPU Architect Functional Verification
  9. 电脑音箱有电流声_你以为音响就是音箱?音响≠音箱
  10. 六、面向对象编程——类和对象
  11. linux安装包安装nginx,Linux tar包安装Nginx
  12. 【FPGA入门一】一个简单的LED流水灯
  13. Python如何按下指定按键后执行特定的操作
  14. 全智通A+常见问题汇总解答—A+库存盘点,点击生成盘点,生成错误的数据
  15. 特殊的搜狗拼音输入法
  16. 微信小程序 java多商家多用户网上商城购物系统#计算机毕业设计
  17. Java中继承和实现的区别【单继承,多实现】
  18. MySQL 6:MySQL存储过程、存储函数
  19. iFixit 拆解 Surface 平板:可维修性不高 (图)
  20. Win11正式发布,新功能炸裂!

热门文章

  1. UC桌面 测试版本发布
  2. U盘启动 WinPE系统维护工具 任意安装GHO/WIM/ESD系统映像 无广告专业版
  3. IPC--印制电路板的一种标准
  4. 堆空间释放后使用的异常
  5. 怎样用计算机二元一次方程,键入公式在计算机如何键入二元一次方程式公式 – 手机爱问...
  6. 高通平台Android源码bootloader分析之sbl1(二)
  7. 南京大学软件学院考研计算机网络汇总
  8. matlab程序设计八个实验报告,MATLAB程序设计实验报告.doc
  9. 中新赛克数据可视化_大道至简,OceanEye大数据可视化工具的高效之道
  10. 高斯白噪声仿真-复信号分析