导读:本文介绍数据治理有关的名词和概念。当然,与数据治理相关的概念非常多,以下仅罗列几个常见的。

作者:用友平台与数据智能团队

来源:大数据DT(ID:hzdashuju)

01 数据元

1. 名词解释

国标[GB/T 18391.1—2002]对数据元的定义为:“用一组属性描述定义、标识、表示和允许值的数据单元。”

数据元由三部分组成:对象、特性和表示。数据元是组成实体数据的最小单元,或称原子数据。例如个人信息中,手机号为数据元,“135********”为数据元的值;性别为数据元,“男”和“女”为数据元的值。

2. 主要作用

作为最小颗粒度的数据,数据元是对数据进行标准化定义的基础,也是构建统一、集成、稳定的行业数据模型的基础。

在企业数据治理中,数据元是需要标准化的对象,一个数据元对象有且只有一个数据特性,每个数据特性对应一个数据表示。例如:人员的性别中的“男”是一个数据元对象,用数字“1”来表示。

3. 应用举例

数据元早期在金融、医疗等领域应用非常广泛,国家相关单位发布了关于数据元管理的一系列技术标准和行业标准,如《CFDAB/T 0301.3—2014食品药品监管信息基础数据元 第3部分:药品》。图1-1所示为食品药品监管信息基础数据元标准。

▲图1-1 食品药品监管信息基础数据元标准

02 元数据

1. 名词解释

元数据是描述数据的数据或关于数据的结构化数据。

你是不是看了这个定义依然一头雾水?那我们来举个例子。一本书的封面和目录向我们展示了这样的元数据信息:图书名称、作者姓名、出版商和版权细节、图书的提纲、标题、页码等。

2. 主要作用

在数据治理中,元数据是对数据的描述,存储着数据的描述信息。我们可以通过元数据管理和检索我们想要的“书”。可见元数据是用来描述数据的数据,让数据更容易理解、查找、管理和使用。

3. 应用举例

元数据是业界公认的数据治理中的核心要素,做好元数据管理,能够更容易地对数据进行检索、定位、管理和评估。用哲学的思维理解元数据的话,元数据其实解决的是我是谁、我在哪里、我从哪里来、我要到哪里去的问题。

元数据是建设数据仓库的基础,是构建企业数据资源全景视图的基础,清晰的血缘分析、影响分析、差异分析、关联分析、指标一致性分析等是数据资产管理的重要一环。

如果说数据是物料,那么元数据就是仓库里的物料卡片;如果说数据是文件夹,那么元数据就是夹子的标签;如果说数据是书,那么元数据就是图书馆中的图书卡。

03 主数据

1. 名词解释

主数据是企业内需要在多个部门、多个信息系统之间共享的数据,如客户、供应商、组织、人员、项目、物料等。与记录业务活动、波动较大的交易数据相比,主数据(也称“基准数据”)变化较慢。主数据是企业开展业务的基础,只有得到正确维护,才能保证业务系统的参照完整性。

主数据具有3大特性、4个超越。

  • 3大特性:高价值性、高共享性、相对稳定性。

  • 4个超越:超越业务,超越部门,超越系统,超越技术。

2. 主要作用

在数据治理中,主数据用来解决企业异构系统之间核心数据不一致、不正确、不完整等问题。主数据是信息系统建设和大数据分析的基础,被认为是企业数字化转型的基石。

3. 应用举例

不同行业、不同领域的主数据的内容不同。例如:在制造型企业中,核心主数据有物料、BOM、设备、客户、供应商、人员等;在金融行业中,客户、客户关系是主数据管理的核心;在政府各部门,人口、法人、证照等是主要的主数据。

04 业务数据

1. 名词解释

业务数据是业务活动过程或系统自动产生的既定事实的数据,也称交易数据。业务数据来自三个方面。

  • 第一,业务交易过程中产生的数据,例如计划单、销售单、生产单、采购单等,这类数据多数是手动生成的。

  • 第二,系统产生的数据,包括硬件运行状况、软件运行状况、资源消耗状况、应用使用状况、接口调用状况、服务健康状况等。

  • 第三,自动化设备所产生的数据,如各类物联网设备的运行数据、生产采集数据等。

不论源自何处,业务数据的共同特点是:时效性强,数据量大。

2. 主要作用

业务数据主要面向应用,为业务应用提供服务,例如生产、销售、采购、设备管理、系统管理等。

3. 应用举例

表1-1是某企业的产品销售记录,这是一种非常重要的业务数据。

▼表1-1 某企业的产品销售记录

05 主题数据

1. 名词解释

主题数据是根据数据分析的需要,按照业务主题对数据所做的一种组织和管理方式,其本质是为了进行面向主题的分析或加速主题应用的数据。

主题数据是分析型数据,是按照一定的业务主题域组织的,服务于人们在决策时所关心的重点方面。一个主题数据可以由多个主数据和交易数据组成。主题数据一般是汇总的、不可更新的、用于读的数据。

2. 主要作用

主题数据是按照一定的业务主题域组织的,服务于各种数据分析或应用开发。

3. 应用举例

主题数据与行业或领域有较大的关系,不同行业关注的主题是不一样的。即使是同一行业,不同企业也有不同的主题数据定义。

例如,某生产制造企业定义了12大主题数据,包括综合服务、人力资源、财务管理、质量管理、生产管理、工艺管理、库存管理、销售管理、采购管理、设备管理、能源管理和安全环保。

06 数据仓库

1. 名词解释

数据仓库(Data Warehouse,DW)是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。数据仓库是数据库的一种概念上的升级,可以说是为满足新需求而设计的一种新数据库,需要容纳更加庞大的数据集。本质上,数据仓库与数据库并没有什么区别。

2. 主要作用

数据仓库是为企业所有级别的决策制定过程提供所有类型数据支撑的战略集合,有以下三个主要作用。

  • 数据仓库是对企业数据的汇聚和集成,数据仓库内的数据来源于不同的业务处理系统,包含主数据和业务数据。数据仓库的作用就是帮助我们利用这些宝贵的数据做出最明智的商业决策。

  • 数据仓库支持多维分析。多维分析通过把一个实体的属性定义成维度,使用户能方便地从多个维度汇总、计算数据,增强了用户的数据分析处理能力,而通过对不同维度数据的比较和分析,用户的数据处理能力得到进一步增强。

  • 数据仓库是数据挖掘技术的关键和基础。数据挖掘技术是在已有数据的基础上,帮助用户理解现有的信息,并对未来的企业状况做出预测。在数据仓库的基础上进行数据挖掘,可以对整个企业的发展状况和未来前景做出较为完整、合理、准确的分析和预测。

3. 应用举例

数据仓库是数据分析和数据可视化的基础,通过将来自不同业务系统的数据汇集到一起,并按照一定的主题进行编号、归类、分组,方便用户快速定位数据源,为数据分析提供支撑。

为了提升数据仓库的数据质量,确保数据分析的准确性,数据仓库的建设需要实施数据治理的策略。很多企业的数据治理项目实施的动因都是解决数据仓库中的数据质量问题,以便获得更准确的分析决策。

07 数据湖

1. 名词解释

根据维基百科的定义,数据湖是一个以原始格式存储数据的存储库或系统。它按原样存储数据,而无须事先对数据进行结构化处理。数据湖可以存储结构化数据(如关系型数据库中的表)、半结构化数据(如CSV、日志、XML、JSON)、非结构化数据(如电子邮件、文档、PDF)和二进制数据(如图形、音频、视频)。

数据湖可以更方便、以更低的成本解决不同数据结构的统一存储问题,同时还能够为机器学习提供全局数据。我们可以将数据湖理解为一个融合了大数据集成、存储、处理、机器学习、数据挖掘的解决方案。

2. 主要作用

关于数据湖的作用,AWS将它与数据仓库进行了类比,如表1-2所示。

▼表1-2 来自AWS的数据湖与数据仓库的对比

3. 应用举例

数据湖不是一个产品或工具,它是融合了数据采集、数据处理、数据存储、机器学习、数据挖掘等技术和工具的解决方案。数据湖支持处理不同类型的数据和分析方法,以获得更深层次的洞见所必需的扩展性、敏捷性和灵活性。亚马逊AWS、Informatica、阿里云、华为云、用友等都推出了数据湖解决方案。

数据湖的出现给数据治理带来了一定的挑战。数据湖将数据全部集中存储,那数据治理是在“湖中”治理还是在“湖外”治理,这是个需要企业研究和探索的问题。

关于作者:罗小江,用友集团助理总裁、平台和数据智能事业部总经理、北京软件和信息服务业协会云计算专委会副会长、中国企业财务管理协会企业风险管控专业委员会副主任委员。专注于企业数字化平台技术应用研究,具有企业管理、IT等复合知识,并且有丰富的实施交付经验,主导过多个千万级项目的规划及设计工作。

石秀峰,用友集团数据治理专家、中国电子商会数据资源服务创新专业委员会受聘专家、数据质量管理智库(DQPro)受聘专家。深耕数据领域十余年,曾主导过多家大型集团的数据治理、数据集成等项目的咨询和落地。

本文摘编自《一本书讲透数据治理:战略、方法、工具与实践》,经出版方授权发布。(ISBN:9787111694489)

《一本书讲透数据治理》

点击上图了解及购买

转载请联系微信:DoctorData

推荐语:这是一本能为数字化转型企业的数据治理提供全面指导的著作。用有集团官方出品,基于国际主流的数据治理框架和用友多年的数据治理经验,从道、法、术、器4个维度全面、深入展开,不仅有数据治理在战略层面的顶层设计,还有数据治理在执行层面的实施方法,既可以作为数据治理的纲领性指南,又可作为数据治理的实操手册。

划重点

详解数据治理相关的7个术语和名词相关推荐

  1. 5000字详解数据治理如何入门(附国际数据治理认证考试-CDMP学习群)

    大家好,我是独孤风,一位曾经的港口煤炭工人,目前在某国企任大数据负责人,公众号大数据流动主理人. 在最近的两年的时间里,因为公司的需求,还有大数据的发展趋势所在,我开始学习数据治理的相关知识. 首先给 ...

  2. 详解数据治理知识体系

    目录 01 数据治理有哪些误区? 误区一:客户需求不明确 误区二:数据治理是技术部门的事 误区三:大而全的数据治理 误区四:工具是万能的 误区五:数据标准难落地 误区六:数据质量问题找出来了,然后呢? ...

  3. 万字详解数据治理自动化体系化实践

    美团住宿数据治理团队从事数据治理工作多年,从最初的被动.单点治理,发展到后来的主动.专项治理,再发展到现在的体系化.自动化治理.一路走来,他们不断进行积累和沉淀,也在持续思考与实践.目前该团队取得了一 ...

  4. 万字长文详解数据治理体系

    01 数据治理有哪些误区? 大数据时代,数据成为社会和组织的宝贵资产,像工业时代的石油和电力一样驱动万物,然而如果石油的杂质太多,电流的电压不稳,数据的价值岂不是大打折扣,甚至根本不可用,不敢用,因此 ...

  5. oracle 增加ora容量_案例:Oracle报错ORA-01144 详解数据文件大小32GB的限制的原因

    天萃荷净 Oracle数据文件大小的限制,运维DBA在向Oracle数据库添加一个32G的数据文件的时候报错ORA-01144,分析原因为数据库针对文件有32G限制 1.添加数据文件报错ORA-011 ...

  6. 详解数据中心灾备切换技术

    <详解数据中心灾备切换技术> 目录 1.网络切换技术 (1)基于IP地址的切换 (2)基于DNS服务器的切换 (3)基于负载均衡设备的切换 2.应用切换技术 (1)主备集群 (Cluste ...

  7. 电机标幺化、PI标幺化、锁相环PLL标幺化 详解电机模型相关标幺化处理

    电机标幺化.PI标幺化.锁相环PLL标幺化 详解电机模型相关标幺化处理 电流环PI控制器的标幺化处理 观测器中PLL锁相环的标幺化处理 采样时间处理 这是文档,不是代码,文档中的代码均为引用举例子的 ...

  8. 电机标幺化、PI标幺化、锁相环PLL标幺化 详解电机模型相关标幺化处理 电流环PI控制器的标幺化处理

    电机标幺化.PI标幺化.锁相环PLL标幺化 详解电机模型相关标幺化处理 电流环PI控制器的标幺化处理 观测器中PLL锁相环的标幺化处理 采样时间处理 这是文档,不是代码,文档中的代码均为引用举例子的 ...

  9. 90分钟详解网络编程相关的细节处理丨 reactor丨网络io丨epoll丨C/C++丨Linux服务器开发丨后端开发丨Linux后台开发

    90分钟搞懂网络编程相关细节处理 1. 网络编程四要素 2. io多路复用 3. reactor三种基础封装方式 视频讲解如下,点击观看: 90分钟详解网络编程相关的细节处理丨 reactor丨网络i ...

最新文章

  1. 2018-3-14(论文-优化问题的智能算法及其哲学内涵)笔记二(智能算法与人类智能以及遗传算法与生物进化对比)
  2. Python内置函数(44)——len
  3. JAVA实现inotify一样的功能_哪些操作系统支持在Java中查看本机(类似inotify)文件
  4. c++类名字查找与类的作用域
  5. 异步fifo_【推荐】数字芯片异步FIFO设计经典论文
  6. spring 数组中随机取几个_准备几个月,面试阿里耗时两周,最终凭借这些知识拿下阿里offer...
  7. js实现关于分页的一种实现方式
  8. 新兴IT企业特斯拉(五)——中国救命
  9. HTML静态网页作业——仿天猫购物商城(7页) 网页设计作业,网页制作作业, 学生网页作业, 网页作业成品, 网页作业模板
  10. BAT32G137 移植threadX
  11. 凌晨 计算机博士,凌晨三点,被我的博士老婆喊起来写程序……
  12. hotspot解释器和JIT
  13. 基于ASP.NET+SQL Server实现(Web)企业进销存管理系统【100010296】
  14. RuntimeError: stack expects each tensor to be equal size, but got xxx at entry 0 at entry 1
  15. elasticsearch7.0.1集群搭建(最后有ES6.7的配置)
  16. 世界黑客大会演示了如何轻易破坏投票机?网友:不服真不行
  17. bootsqm.dat是什么文件 bootsqm.dat可以删除吗
  18. 区块链技术正向积极乐观的智能前景发展
  19. 计算机网络学习笔记(三)——网络核心、接入网与物理媒体
  20. 雷神javaweb缺失--》Ajax:异步 JavaScript 和 XML

热门文章

  1. canvas笔记-在canvas中使用其他HTML元素
  2. Linux笔记-centos7源码安装Mysql5.6(图解详细)
  3. Qt文档阅读笔记-加载HeightMap(高度图)构造3D地形图
  4. java 用户线程如何修改界面内容_java 加入一个线程、创建有响应的用户界面 。 示例代码...
  5. node 获取mysql数据类型,node连接mysql获取数据
  6. 流畅的python第一章_《流畅的Python》第一章学习笔记
  7. 单片机c语言三种经典程序结构,单片机C语言程序的结构和设计精选.docx
  8. 实体服务与虚拟服务迎来数字化发展新契机 中关村助力首都全球数字经济标杆城市建设
  9. (操作系统题目题型总结)第三章:同步与互斥
  10. (软件工程复习核心重点)第十二章软件项目管理-第三节:人员组织和质量保证