血缘关系在人类社会中扮演着重要角色。大多数家庭是基于血缘关系形成的,而家庭作为社会的基本单元,对维系社会稳定发挥着重要关系。其实,数据之间也存在类似的血缘关系。数据从产生、加工、流转,一直到消亡,每个环节必然存在一定的联系,这种联系就是数据的血缘关系。

数据血缘关系(Data Lineage) 是对数据在系统内、系统间、业务线之间的流动和转换过程的记录,通过这份记录可以追溯数据的源头,跟踪数据的流转历史,查看数据在某一时刻的状态,寻找数据的最终去向等。数据血缘关系相当于旅游线路图和家谱的结合,既能详细记录数据的出发点、每一个途径点和最终的目的,又能体现数据之间的派生谱系。

数据在节点之间的移动称为一跳。上图展示了数据从 A1 到 D2 的路线和所经节点,即数据的血缘路径。 第一跳从 A1 到 B, 第二跳从 B 到 C,第三跳从 C 到 D2,其中 A1 是数据的源头,D2 是数据的最终归宿。

特征与构成

数据血缘关系和人类的血缘关系相似,但也存在一些不同。数据血缘关系主要具有以下特点:

  • 归属性:特定的数据通常归属于某个组织或个人
  • 多元性:一个数据可能是由多个不同的数据经过加工合成而来的,例如营业收入来自销量和单价两种数据。
  • 可追溯性:数据血缘关系记录了数据的生命旅途,所以能通过血缘关系追溯数据的来源和加工过程以及最终目的地。
  • 层次性:不同层级的数据描述信息体现了数据血缘的层次性。例如,对数据 A 进行描述可以形成新的数据 B, 数据 A 和 B 就构成了简单的二级层次关系。

数据血缘关系的粒度可以分为字段、数据表、服务器、域名、应用程序、业务线等。一个完整的数据血缘系统需要包括以下元素:

  • 代码扫描器,连接到各种代码仓库
  • 语言解析器,解析语法、词汇、令牌等
  • 图论算法,例如遍历、最短路径等
  • 消费端,将得到血缘关系进行可视化处理或者提供相关报告

方式与工具

数据血缘的获取主要有两种方式:人工收录和程序自动解析。人工采集费时费力,而且容易出错,而程序解析则能很好地避免这些问题,因此自动获取数据血缘的解决方案越来越受到用户的青睐,市场呈现欣欣向荣之态。目前市场上的数据血缘关系解决方案主要有 Collibra MANTA、ASG becubic、Informatica Metadata Manager、Gudu SQLFlow 等。当然也可以基于代码解析器或注解自行研发相应的工具。

功能与用途

最初需要耗费大量的资源采集数据血缘关系,但这并未阻止数据血缘市场的蓬勃发展。随着大数据时代的来临,数据血缘分析变得愈加重要,推动着相应解决方案的更新迭代,向着自动化方向发展。各种企业机构出于各种各样的原因需要分析数据血缘关系,主要可以概括为以下几方面:

满足数据合规要求

很多数据管理机构以及各种数据治理法规都要求追溯数据的来源,确保数据的合法性。涉及敏感信息的行业需要严格遵守数据合规要求,例如银行、医疗卫生、汽车、社交通信等行业,否则将就会面临巨额罚款。通过数据血缘分析,可以追溯数据源头,确保数据收集的合理合法性。

分析数据变更影响

借助数据血缘分析结果可以分析数据变更的影响,根据血缘分析图中的链路关系可以预测某项变更将影响到下游的哪些数据,以及最终会产生什么样的结果,从而帮助使用者做出更合理的数据决策。

调试/定位/解决业务问题

数据血缘分析详细展示了数据在各个节点之间的路径,提供了数据的观测性。数据出现问题时,可以追踪数据链路,快速定位问题环节。此外,通过分析数据链路也能发现潜在的数据问题。

提升数据透明性

数据治理人员、使用者、以及其他相关人员可以通过血缘分析结果清楚地了解数据的来龙去脉,确保每一次数据变更都符合预期,从而确保数据的产出质量。

提供数据预警

通过数据血缘关系可以监控数据加工链条中的各个节点,并对下油数据产出进行预测分析。一旦发现可能存在延迟或其他问题,就能及时提供预警,便于尽早处理,减少损失。

未来与挑战

目前数据血缘分析仍面临着诸多挑战。例如,没有通用的统一方案可以有效扫描所有技术代码,这进一步导致目前的数据血缘分析系统多是由数种技术综合搭建而成,加剧了整体的复杂性。一些自研技术还需要定制化的解决方案,而开发人员有时又未能遵循相应的代码标准。这些都提升了数据血缘分析的难度。此外,目前很多人对数据血缘的功能认知仅限于监管需要,认识不到其在数据迁移、数据影响分析、数据可靠性、透明性等方面的巨大作用。因此,缺乏足够的投资,严重制约了数据血缘分析行业的发展。

但是随着大数据、深度学习、机器学习、链路预测等技术的发展,数据血缘分析未来会变得更加智能,更广泛地支持实时分析。相应地,更健壮的数据血缘分析体系也必然能推动数据治理的进一步发展,赋能更多的数据治理方案。

大数据治理入门系列:数据血缘关系相关推荐

  1. 大数据治理入门系列:数据治理

    在信息经济时代,数据是企业的一大关键资产.为了制定科学.有效.合理的决策,企业需要收集大量的数据并进行各种数据分析,为决策提供依据.在此过程中,收集数据的速度.数据的质量和可靠性.对数据的分析过程.合 ...

  2. 如何理解元数据、数据元、元模型、数据字典、数据模型这五个的关系?如何进行数据治理呢?数据治理该从哪方面入手呢?

    如何理解元数据.数据元.元模型.数据字典.数据模型这五个的关系?如何进行数据治理呢?数据治理该从哪方面入手呢? 导读 一.数据元 二.元数据 三.数据模型 四.数据字典 五.元模型 导读 请问元数据. ...

  3. 数据治理:数据治理之道-数据文化-数据思维融入企业文化

    参考<一本书讲透数据治理>.<数据治理>等 大数据的根本价值在于从数据的不确定性中发现规律,获得确定性.想要在繁杂的大数据中快速找到价值数据,并依靠数据发现.分析.解决.跟踪问 ...

  4. dgi数据治理_银行数据治理方法浅析

    数据是银行最核心的资产,数据治理能成就银行的未来.数据治理是一个新兴的并且不断演进的概念,涉及数据质量.数据管理.数据政策.商业过程管理.风险管理等多个领域,同时也受技术革新等因素的影响.在数据治理体 ...

  5. 数据治理服务及数据治理应用解决方案

    本资料来源公开网络,仅供个人学习,请勿商用,如有侵权请联系删除. 一.数据治理概述 (一) 数据治理概念 数据治理是指将数据作为组织资产围绕数据全生命周期而展开的相关管控活动.绩效和风险管理工作的集合 ...

  6. 数据治理:认识数据治理

    参考<一本书讲透数据治理>.<数据治理>等 数据治理是什么 笔者自我理解就是:对数据进行任何规整处理,包括从数据从业务系统接入到最后被业务系统查询应用的这其中整个过程,都是数据 ...

  7. 数据治理:企业数据治理蓝图

    参考<一本书讲透数据治理>.<数据治理>等 文章目录 企业数据治理体系 企业数据治理9个要素 企业数据治理4个层面 企业数据治理之道 企业数据治理之法 企业数据治理之术 企业数 ...

  8. 【数据治理】数据安全-数据脱敏方案

    背景 隐私保护,保障合法权益,2021年9月1日起施行的数据安全法: 防止数据滥用 在数据仓库建设过程中,数据安全扮演着重要角色,因为隐私或敏感数据的泄露,会对数据主体(客户,员工和公司)的财产.名誉 ...

  9. DAMA数据治理学习笔记-数据治理

    数据治理 定义 对数据资产管理行使权力.控制和共享决策(规划.监测和执行)的系列活动. 目标 提升企业数据资产管理能力 定义.规划.批准.执行数据管理的原则.政策.程序.指标.工具.责任. 监控和指导 ...

最新文章

  1. 一位中学计算机老师的英语作文,我的老师英语作文(精选14篇)
  2. NetworkManagementService介绍
  3. 随机投影(Random Projection)降维方法
  4. vue+vant使用图片预览功能ImagePreview的问题
  5. 使用numpy出现DeprecationWarning: The normed argument is ignored when density is provided. 解决方法忽略警告的方法
  6. require.ensure与require AMD的区别
  7. 不具有继承关系的Delegate如何进行类型转换?
  8. java回调函数的生命_Java的回调函数 - choaklin 的个人空间 - OSCHINA - 中文开源技术交流社区...
  9. idea 检测 重复代码_IDEA关掉重复代码波浪线
  10. 【转载】C++ ,C#数据类型对照
  11. 计算机考试后勤保障管理制度,计算机在高校后勤管理的应用
  12. mysql 二次分组_MySQL分组
  13. HTML Purifier解决XSS问题
  14. [内附完整源码和文档] 基于Java的学生学籍管理系统
  15. 人工神经网络的基础数学模型来自哪里
  16. 花之语第七期:栀子花
  17. 关于error C2065 错误
  18. 一文带你深入理解【Java基础】· 枚举类
  19. 双通道内存和单通道的区别是什么
  20. C#游戏开发之炸弹人游戏开发

热门文章

  1. Qlik Sense经验总结
  2. WeUI 为微信 Web打造权限UI框架
  3. 设计能力已得到世界认可
  4. iOS14自带的翻译(Translate)应用操作技巧
  5. 九龙证券|创业板向未盈利企业敞开大门 考验投行估值定价能力
  6. linux版 myeclipse 下载地址
  7. 求1-100以内的质数
  8. TPS7A3301RGWR稳压器 AK4493EQ音频DAC,电路原理图
  9. 由浅入深PE基础学习-菜鸟手动查询导出表、相对虚拟地址(RVA)与文件偏移地址转换(FOA)...
  10. Ubuntu禁用Compiz