在信息经济时代,数据是企业的一大关键资产。为了制定科学、有效、合理的决策,企业需要收集大量的数据并进行各种数据分析,为决策提供依据。在此过程中,收集数据的速度、数据的质量和可靠性、对数据的分析过程、合适的分析工具等,都对最终决策具有显著影响。这些其实都属于数据治理的范围。

数据治理的含义

数据治理包含一整套的流程、角色、政策、标准和指标,旨在确保能够高效、有效地利用信息,助力企业实现数据愿景。数据治理具体可以包括以下几个方面:

  • 数据管理:确定数据的所有者/负责人
  • 数据政策:有关数据管理的各类指南、标准、规则等,通常由数据治理委员会制定
  • 数据标准:捕捉数据、记录数据、维护数据的标准
  • 元数据管理:管理有关数据的数据,例如数据库的名称、版本号等
  • 数据血缘关系:借助数据血缘分析工具(例如马哈鱼数据血缘分析器)追踪数据的来龙去脉
  • 数据目录:记录特定范围内所有数据的清单目录
  • 数据质量:通过各类质量指标评估数据质量
  • 数据安全:涉及数据访问管理、个人信息验证等安全相关的控制

简言之,数据治理规定了,谁可以在什么场景下,通过什么方式,对哪些数据采取何种行动。

为什么需要数据治理

数字时代创造了海量的数据,手机上的各种 APP 就像勤劳的蜜蜂一样乐此不疲地生产数据,导致数据规模一刻不停地疯涨。面对如此之多的数据,如果不加治理,查找数据时不仅效率低下,而且很难保证数据的质量。这就像在杂乱无章的图书馆中寻找一本书,由于图书没有编码、没有分类,没有介绍,你需要不停在书架中穿梭,翻开每一本书查看。一番周折之后,终于找到了你想要的书,但翻看几页之后却发现丢失了很重要的一些内容,这本书如今对你而言毫无价值,花费了大量时间最终却一无所获。

为了避免在数据治理过程中遇到类似的糟糕体验,所以需要对数据进行治理。然而,需要数据治理的原因有很多,上述情形只是触及了冰山的表面。概括来说,需要数据治理的情形主要分为以下几方面。

不同的数据真相

“真相永远只有一个”在名侦探柯南的剧情中永远成立,但对于未经治理的数据而言却并非如此。很多数据机构在过去十几年里都面临的一个问题是,同一数据元素在不同的数据系统中具有不同的值。造成这种现象的原因多种多样,大体包括数据延迟、数据流动路径错误、系统不同步等。

缺席的数据所有者

应用程序所有者、系统所有者、产品所有者均有明确定义。而数据作为程序和系统的基石,却没有明确的所有者。出现问题时无法界定修复责任,无法确定谁来修复,因此进一步造成系统混乱,甚至可能会导致数据遗失。

模糊的数据上下文

有些数据会随着时间的变化而变化,例如每年的收入、支出、负债等。有时这些数据会在短时间内出现显著的增加或减少,后期分析数据时可能难以解释这些变化。因此,需要在数据治理中定义数据上下文,即解释得出某个数据的条件或环境,例如数据的结构、数据量、相关产品的定义、市场范围、宏观的经济环境、政治信息等。有了这些上下文信息就可以解释数据的来源,分析数据的变化,提升数据的可靠性。

不规范的数据文档

数据文档涉及很多内容,包括数据采样、数据收集、数据清洗、数据分析等。标准的结构化数据有利于使用者快速理解数据,降低数据的使用难度。有些数据文档排版美观,配色和谐,看起来很漂亮,但深层次上仍然缺乏一致的文档结构,组织范围内没有明确定义数据集或数据元素的格式。

展望数据治理的未来

Informatica、ASG、IBM 等数据治理领域的头部企业在市场上提供了各种各样的数据治理工具,尝试用最新的科技丰富产品特性,提升竞争力。使用人工智能技术便是其中的重要一环,例如通过 NLP 编制数据目录、通过机器学习追踪数据链路、借助人工智能检测数据质量等。借助强大的科技生产力,以及对数据真相、所有制、上下文、文档等方面的进一步完善,未来的数据收益回报率有望得到大幅提升。

数据治理不仅是对数据的控制和保护,更是对业务的赋能和洞见。

大数据治理入门系列:数据治理相关推荐

  1. 大数据治理入门系列:数据血缘关系

    血缘关系在人类社会中扮演着重要角色.大多数家庭是基于血缘关系形成的,而家庭作为社会的基本单元,对维系社会稳定发挥着重要关系.其实,数据之间也存在类似的血缘关系.数据从产生.加工.流转,一直到消亡,每个 ...

  2. 保存点云数据_PCL入门系列三——PCL进行数据读写

    本节课我们将了解到以下内容: 基本的PCL中的数据类型: 使用PCL进行简单编程:写文件与读文件. 一.PCL库基本数据类型 上一节课,我们使用PCL库在本地写入了一个名为test_pcd.pcd的文 ...

  3. 数据分析师入门_数据分析师入门基础指南

    数据分析师入门 Back in the summer of 2018, I was just starting my first internship as a Data Analyst. 早在201 ...

  4. 数据包接收系列 — 数据包的接收过程(宏观整体)

    本文将介绍在Linux系统中,数据包是如何一步一步从网卡传到进程手中的. 如果英文没有问题,强烈建议阅读后面参考里的两篇文章,里面介绍的更详细. 本文只讨论以太网的物理网卡,不涉及虚拟设备,并且以一个 ...

  5. 读书笔记数据科学入门————可视化数据

    本章摘要 数据可视化是数据科学家的重要部分.创建可视化的目的:探索数据,交流数据. 本章利用一个外置的matplotlib库的配置进行可视化的初步了解 matplotlib的配置 许多工具可以可视化数 ...

  6. 大数据快速入门(03):漫谈数据收集,你的数据值百万

    札记 亲爱的粉丝老爷,好久不见. 这次我为文章增加一个新的栏目,叫"札记",记录一下平时的工作,给冷冰冰的技术文章增加一些温度,给即将到来的冬天暖暖心,大概 200 字左右. 说说 ...

  7. 大数据分析工程师入门15-数据收集

    导语 上一篇文章我们简单介绍了下大数据的基础架构的模块组成和功能以及各模块间是如何协作的.本文开始,我们将对其中比较重要的几个模块来做一个详细的介绍,希望对大家的面试和工作有所帮助. 1.为什么要讲数 ...

  8. 数据可视化学习(数据可视化基本概念)

    本篇文章翻译自数据可视化入门教程 数据可视化(Data Visualization)和信息可视化(Infographics)是两个相近的专业领域名词.狭义上的数据可视化指的是数据用统计图表方式呈现,而 ...

  9. 【交通行业数据治理会议推荐】大湾区交通行业数据要素增值研讨会

    数字化转型已经是各行各业不可阻挡的战略发展方向,中国交通行业在迎来从本地政策支持.开放的市场.到数字化转型等所带来的黄金时代及红利,使其在大数据技术的引入,依托大数据技术的业务及制度创新等促使行业大数 ...

最新文章

  1. mybatis自动生成代码工具
  2. 使用阿里云OSS上传文件
  3. 『前端干货篇』:你不知道的Stylus
  4. 微软System Center 2012推进私有云计算
  5. 使用 dynamic 类型让 ASP.NET Core 实现 HATEOAS 结构的 RESTful API
  6. 1000以内完数c语言程序_C语言经典面试题目及答案详解(二)
  7. 【每日SQL打卡】​​​​​​​​​​​​​​​DAY 21丨报告系统状态的连续日期【难度困难】​
  8. kubernetes pod介绍
  9. ASP.NET WebService 中使用 ASP.NET_SessionId
  10. 南半球左撇子的人是否多一些
  11. 软件开发过程中的一些感悟
  12. 西刺代理python_Python四线程爬取西刺代理
  13. 2018年的43个最佳网络监控工具
  14. 电信网关改造无线打印服务器,电信天翼网关路由改桥接流程
  15. Hulu:视频广告系统中的算法实践
  16. 微信公众号文章如何设置关键词自动回复链接
  17. 第101个五四青年节节目观后感
  18. 细说网络负载均衡技术
  19. P1-2017级第一次算法上机 F SkyLee的艾露猫
  20. pvid与access的关系_关于Trunk、Hybrid、Access、Tag、Untag、Pvid的关系与区别

热门文章

  1. macos root 切换_Mac 终端切换root与普通用户的命令
  2. 中日德三系PLC编程软件对比,各位工控人用的哪款?
  3. 2022年道路运输企业安全生产管理人员考试题库及模拟考试
  4. 关于Snapchat应用被黑客攻击事件
  5. 计算机论文周记200字通用,周记200字(通用10篇)
  6. Qt收缩窗口动态效果
  7. 直追亚马逊,谷歌微软云服务添负载均衡功能
  8. 云图科技,长沙VR全景拍摄来了解下?
  9. EI检索国际学术会议(NMMVE 2023)
  10. CC2530 定时器应用