为了直观的感受数据血缘,先从网上找了两张典型的数据血缘的图。下图特点是按照数据仓库数据管理模型给出了基于表(实体)的数据血缘图。


此图是截取Solidatus软件生成的数据血缘图,该图与上图的区别在于给出了基于属性的数据血缘图,粒度更细。

什么是数据血缘

从上述两个图可以直观的感受数据血缘的本质是什么,数据血缘(Data Lineage)即数据的来龙去脉,记录数据如何转化而来,流向何方,用可视化技术细粒度的刻画了数据从源流向终端用户的路径,帮助数据科学家洞察数据,发现数据错误的根源。

数据血缘和数据起源(Data Provenance)含义相似,主要区别在于数据起源是面向业务人员,在数据更高层级揭示了数据的产生,而数据血缘更加细粒度,在业务层级和技术层级提供了一个更细粒度的视角。

数据血缘号称数据的GPS,在数据治理中隶属于元数据管理的范畴。数据血缘在数据追踪上有三种粒度,分别是实体级别、字段级别和记录级别:

粒度级别 说明 实现的复杂性 使用场景
实体 关系型数据库管理系统 (RDBMS) 的表、 NoSQL 数据库的实体或 Pub/Sub 中的主题 数据治理依赖项识别
字段或列 RDBMS 中的表列或 NoSQL 实体的 字段 数据治理依赖项识别
Record 保存在 RDBMS 表的字段或 Pub/Sub 主题消息中的实际数据值 很高 转换调试数据取证

应用场景

数据血缘的典型应用场景如下:

  1. 识别问题根源:例如在BI中销售数据和财务数据对不上,数据分析人员可以通过数据血缘分析数据流向,查询每个节点的转换,进而发现数据不一致的问题根源。
  2. 系统升级或迁移:当数据迁移时通过数据血缘可以了解到哪些数据集合是重要的,哪些数据集合是废弃的,帮助迁移人员把工作重心放在重要的数据上,避免在废弃或者业务上价值不大的数据上浪费时间。
  3. 影响分析:数据的改变会影响哪些指标哪些方面,通过数据血缘图可以一目了然。

数据血缘构建方案

概念性数据血缘系统需要三个逻辑组件,如下所示:

  • 该提取系统(Ingestion System)用于监控数据仓库的操作日志,以执行操作。提取系统监控数据仓库或数据库系统中的操作日志并检索日志。系统还会将日志监控功能与日志使用者分开。Google Cloud 中的此类系统包括 Debezium、BinLog 监控系统。
  • 数据血缘提取引擎(Lineage Extraction Engine)可解析日志条目以提取血缘信息,例如数据源或任何已应用的转换。血缘提取引擎标识源数据系统,并使用相应的提供程序解析操作日志。数据库或数据仓库拥有具备内置函数和自定义函数的自有查询语法。使用数据系统专用语法和架构提供程序可正确解析操作或执行查询。
  • 血缘存储(Lineage Store)用于保存血缘数据,并使其可用于分析、治理、报告或其他企业需求。您可以将数据库用于适当的分片或分区,从而轻松检索数据。

如下图所示,血缘提取流程包含以下事件:

  1. 血缘提取流程首先会确定用于通过查询生成输出或目标实体的来源实体。识别过程是通过解析转换指令完成的,例如使用语法提供程序在数据仓库系统中解析 SQL 语句。
  2. 解析查询需要查询的来源实体的架构信息。来源实体架构是使用架构提供程序检索的。
  3. 调用语法提供方以识别输出列与源列之间的关系以及应用于每个输出列的函数和转换列表。

参考文章

  1. What Is Data Lineage? Why It’s Important to Track Data Flow
  2. 数据仓库的数据血缘系统
  3. 原文:数据血缘

【数据架构系列-01】数据架构之数据血缘:数据从哪里来,到哪里去相关推荐

  1. 数据可视化系列-01大数据可视化基础

    文章目录 1.概述 2.大数据可视化基础 2.1 数据可视化基础知识 1.数据可视化简史: 2.数据可视化是什么: 3.数据可视化的分类: 4.数据可视化流程: 5.数据可视化的意义: 2.2 认识B ...

  2. Nginx系列--01基本架构及其安装

    前言 早期Nginx 的诞生是为了解决Web中出现的C10K 问题,即服务器如何承受一万的并发量.当时流行的Web server为Apache Httpd,而Httpd的IO模型使用的select() ...

  3. 数字化转型中的架构设计01:架构方法

    随着国家大力推动数字经济发展,产业数字化在政策驱动下也越来越受到重视.经过近2年的企业数字化转型研究,对这个概念和内涵也有了一定的认识.结合之前做一些企业架构实践和读过的几本企业架构的书,发现两者的基 ...

  4. Sharepoin学习笔记—架构系列--01 Sharepoint的网页(Page),网页解析(Parsing)与解析安全处理(Security)

    Microsoft SharePoint Foundation 中主要有两种类型的页面,分别是应用程序页(Application Page) 和网站页(Site Page). 应用程序页(Applic ...

  5. 数据科学系列:plotly可视化入门介绍

    导读 在入道数据岗位之初,曾系列写过多个数据科学工具包的入门教程,包括Numpy.Pandas.Matplotlib.Seaborn.Sklearn等,这些也构成了自己当初的核心工具栈.在这5个工具包 ...

  6. 【大数据Flink系列】Flink教程:详细全部

    [大数据Flink系列]Flink 核心概念综述 [大数据Flink系列]Flink单机模式和集群搭建 [大数据Flink系列] Flink 开发环境搭建 [大数据Flink系列]Flink Data ...

  7. “数据星河”系列沙龙——走进ABC科创企业•哈勃智远活动成功举办

    9月6日下午,"数据星河"系列沙龙--走进ABC科创企业哈勃智远活动成功举办.本期沙龙是在北京科学技术开发交流中心的指导下,由九次方大数据.ABC科创联盟.哈勃智远主办,创业公社联 ...

  8. 【大数据Spark系列】Spark教程:详细全部

    Spark作为Apache顶级的开源项目,是一个快速.通用的大规模数据处理引擎,和Hadoop的MapReduce计算框架类似,但是相对于MapReduce,Spark凭借其可伸缩.基于内存计算等特点 ...

  9. [小白系列][可视化基础]数据可视化视图从入门到不放弃,数据可视化视图都有哪些,怎么选用,我们一起来康康

    文章目录 1.可视化图形的简单分类 2.Python中常用的两个可视化工具 3.九种常用视图及其具体调用代码 1.散点图(Scatter Chart) 2.折线图(Line Chart) 3.条形图( ...

最新文章

  1. 程序员都痛恨开会?多开 1 个会,我少写 1000 行代码......
  2. MyEclipse+Tomcat+MAVEN+SVN项目完整环境搭建
  3. LeetCode Group Anagrams
  4. pat Simulation Test for PAT(B) 9月4日
  5. 【AI视野·今日CV 计算机视觉论文速览 第190期】Fri, 9 Apr 2021
  6. Android 音频开发(一) 基础入门篇
  7. linux系统编程综合练习-实现一个小型的shell程序(四)
  8. oracle如何设置权限,Oracle创建用户并设置权限
  9. java基础 (六)面向对象(一)
  10. SQL50题(MySQL)
  11. 一个女孩跳楼看到的(漫画)
  12. sql语句中GROUP BY 和 HAVING的使用 count()
  13. STM32入门(二十)----DAC
  14. Linux游戏 0 A.D安装及汉化
  15. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
  16. 什么软件可以拍照翻译?4款让你沟通无障碍
  17. Java 8 - 日期和时间实用技巧
  18. ArcGIS学习总结(14)——DEM数据处理与等高线生成
  19. LED显示行业之知识大全1
  20. [JZOJ3809]设备塔

热门文章

  1. 如何杀掉D,Z状态的进程
  2. IE浏览器跳转Edge问题处理
  3. 如何打造一款极速分析型数据库
  4. 除了鲁大师,还有什么软件可以验机?
  5. 书生教你cocos2d-x-保卫萝卜(二)
  6. 屏幕输入三个整数,判断三角形
  7. (人生中的第一篇博客) - 如何更改C盘用户名 - 更改C盘用户名后的注意事项 - 对Pycharm中错误 No Python at ‘C:\Users\...\python.exe‘ 的处理
  8. torch.Tensor和torch.tensor
  9. PMI-ACP知识要点
  10. unity中文字符支持