随着数据治理工作的深入,数据标准的理念逐步为人所知、所识。但是,数据架构是什么,如何管理,谁来负责,还没有形成一致的共识。早前,在技术领域,系统架构、应用架构、信息架构相对为人了解,近年来一些企业级架构师也开始提出业务架构等概念。就数据架构而言,实践还呼唤一些理论的澄清,理论也亟需实践的反馈。

关于数据架构,本公号曾用“一句话”的方式来说明,包括提出数据架构管理是贯彻和维护数据治理的职能单元,和数据资产互为HOW和WHAT的关系。今天我们再谈数据架构,主要是想谈谈近期工作推进过程的当下,对于数据架构的新的理解和认识。

1 企业架构划分

数据架构是什么?此前有多重解读和方案。但是随着业界理论体系的不断完善,以及企业级数据治理工作的不断深入,目前的领先企业、数据治理组织、甚至包括监管当局的理论准备工作已经逐步收敛到四个方向,即:

  • 数据资产目录

  • 数据标准

  • 数据模型

  • 数据分布

以上,可以称为数据架构体系的“四个基本内容”。而作为数据架构的制定、管理和维护者,企业的数据架构部门需承担对应的职责,具体而言应该包括:

  • 梳理企业的数据资产

  • 制定数据标准并持续维护

  • 建立数据模型,包括概念模型、逻辑模型和物理模型

  • 管控数据分布,包括数据源头和流向

这其中,数据模型是数据架构的重要抓手,也是数据架构管理体系构建的基础和连通其他架构管理措施的纽带。

表1 数据架构行业参考

01

数据架构的管理价值

DAMA-DMBOK认为,数据架构是企业架构的一部分。从企业运作的角度来说,数据架构定义了企业运作过程中所涉及到的各类对象和其治理模式;从数据资产的角度来说,数据架构是管理数据资产的蓝图;从数据管理的角度来说,数据架构是企业各部门的共同语言,是数据管理的高层视角。

在企业管理中,往往会面临这样的问题,业务部门和技术部门在自说自话,对于同样的业务对象,我有我的话术,你有你的流程,大家隔着一层窗户纸,拖累了企业的运作效率,也削减了企业的数据竞争力。在业务战略和技术实现之间建立起一座畅通的桥梁,捅破这层窗户纸,是数据架构的本质目标,也是它的核心价值。成熟的数据架构,可以迅速地将企业的业务需求转换为数据和应用需求,能够管理复杂的数据和信息并传递至整个企业,在数据层面保证业务和技术的一致性,最终为企业改革、转型和提高适应性提供支撑。

02

数据架构四个基本内容的解析

DMBOK对于数据架构的阐述是抽象的、理论化的,是对全行业数字化转型的普适法则。在不同的语境下,对于数据架构应有不同的“解签”,这里不妨看看全国金融标准技术委员会的意见。在《金融数据能力建设指引》中,金标委认为数据架构应该包含元数据管理,建立创建、存储、整合和控制元数据的一系列流程;也包括构建数据模型,将业务经营、管理和决策中遇到的数据需求结构化;以及数据分布和数据集成,明确数据责任人、管控数据流、制定数据标准,达成组织内各系统各部门的数据互联互通。

华为等企业作为大数据时代的互联网行业先锋者,也对数据架构有自己的理解,但其范围也不会越出数据标准、数据流、数据建模等内容。我们更加关注的,是数据架构体系里各个组件的结构内容及其存在的意义,这里从数据架构的四个基本内容展开来说。

图 2 数据架构的四个基本内容

1.数据资产目录

数据资产目录,也是企业的数据资产地图,是企业数据治理的指引。一般而言,数据资产目录可以分为五个层级:

  • 主题域分组

  • 主题域

  • 业务对象

  • 实体

  • 属性

主题域和主题域分组用于描述企业数据管理的分类依据和集群边界。主题域是互不重叠的数据分类,管理一组密切相关的业务对象,通常同一主题域有相同的数据主人。主题域分组则是依据业务管理边界对于主题域的分组,是描述公司数据管理的顶级分类。

业务对象是数据架构的搭建的基石,是业务领域中重要的人、事、物在数据架构中的代理,数据架构建设和治理是围绕着业务对象和对象间的关系展开的,而实体则是描述业务对象在某方面特征的一类属性集合,而属性则用于描述业务对象在某方面的性质和特征。

数据架构的其他组件,无论是数据标准的制定,数据模型的建立还是数据分布的管控,无一不是建立在数据资产目录的基础之上的,并以其为中心和出发点。同时,数据资产目录是企业数据资产的宏观概述,确定了数据架构的外层边界和核心骨架。

2.数据标准

数据标准要求企业各部门、各群组使用统一化、标准化的语言描述数据,是实现企业数据一致性的关键。然而,对于传统的大型企业,例如数字化转型过程中的商业银行,实现数据标准统一绝非易事,它既要有面向未来的对象和属性的命名规范,也要有面对过去的留存数据的规划和既有逻辑的整合;它既要适应业务部门的工作习惯,也要符合技术部门的开发原则。在这样的语境下,数据标准并非孤立一体,而需要演变为渐进的、多面的体系,这个体系应该包括:

  • 业务术语

  • 数据标准

  • 数据字典

业务术语是有业务部门提出的、对于自身业务活动的提炼,最终形成的企业各部门认可的业务词汇。业务术语代表了数据标准的初级形式,通过标准编码、业务定义、分类分级和质量规范,业务术语得以升华为数据标准。在数据标准的基础上,技术部门为了对数据模型进行管控而产生了表结构和字段定义规范,即是所称的数据字典。

数据标准的统一对于数据架构的意义,不亚于语言的统一对于国家的意义。纵向上,数据标准消化了存量的历史数据,赋予他们以新的解读、应用和价值;横向上,数据标准沟通了部门内的条线和组织,也沟通了部门间的职能和团队,消解了由业务集群造成了数据跨集群的重复和歧义。数据标准的建设,让企业所容纳的数据真正成为了企业所拥有的资产。

3.数据模型

数据模型是最为外界所熟知的数据架构的组件,它是数据视角下对现实世界规则的抽象与概括,根据业务需求抽取信息的主要特征,反映业务对象之间的关联关系。从概念抽象,到物理固化,数据模型有三个阶段:

  • 概念模型

  • 逻辑模型

  • 物理模型

其中概念模型基于真实世界的关系语意,数据需求的提出者将所需的业务对象和业务流程表达厘清、简化和抽象,并表达为“实体-关系”(E-R)图,它的实现代表了自然语言的退场;逻辑模型则是技术侧对于概念模型的解读,数据逻辑在此时替代了实体关系;物理模型则是逻辑模型的落地,是对于真实数据库表的描述,包含了表、视图、字段、数据类型等等要素,物理模型的达成代表了业务流程与实体关系已经被固化为了数据库中的表关系,可以被使用、验证、加工和维护,自此完整的数据模型正式达成。

从某种意义上来说,数据模型是数据架构最重要的产出物,它完成了业务需求从自然语言到数据语言的转化。

4.数据分布

如果说数据架构的前三个组件是从静态角度对数据、数据关系进行了定义,那么数据分布则动态地定义了数据产生的源头和数据在各流程、各系统间的流动情况。管控数据的流动,需从三个方面入手:

第一是数据源头,物理上是数据源,主体上是数据主人,管理上是数据责任。数据源头需要把控数据质量,拥有源数据标准制定的权利,可以提请业务术语的新增、修订和废止,同时也是数据的责任主体;

第二是管控部门,管控部门是企业内的数据管理部门,承接自数据源头,传递到数据的消费者,是企业数据流的中间人。管控部门负责协调数据标准的制定,维护业务需求到数据实现的通路;

第三是管控流程,也就是控制数据的流向。已经建立标准、明确源头的数据需在企业各组织、部门间保持一致,数出同源;数据在生命周期中的流动路径、数据的取用须遵循数据安全的原则。

作为数据架构的最后一个部分,数据分布的意义在于使得已经被规整的企业数据真正被使用,表现出价值,同时也保证数据在使用过程中不变形、数据在生命周期中可以被维护。数据分布的加入,数据架构得以理论完备,并且有了“生命”。

03

数据架构的设计和管理

在拎清数据架构的组件之后,更加实际的问题是如何设计数据架构,实现理论的落地。无疑,数据架构的设计因行业而异,也因企业而异,但是也有一些共性和原则。总结而言无非是:面向业务对象进行架构设计,以及面向业务对象实现架构落地。

所谓面向业务对象进行架构设计,即是企业数据架构的设计应当以业务对象为基石,展现业务对象的属性特征,描摹业务对象间的关联关系。脱离业务对象的架构设计是无意义的,它因无法指导企业运作、无法辅助企业成长而失去了自身的意义。面对业务对象的架构设计,基点在于确定业务对象,参照的标准是:成为业务对象的实体须有唯一的标识信息、有属性描述、可实例化。

面向业务对象实现架构落地则是针对数据模型而言的,因为数据架构最为重要的交付产物就是数据模型。为了确保架构在落地过程中不变形,从数据模型的定义与结构来看,必须保证:其一,概念模型须与逻辑模型一致,这主要通过逻辑模型从数据实体出发而实现;其二,逻辑模型须与物理模型一致,这要求技术部门建模管理一体化,严格遵照逻辑模型的结构设计物理表。

04

结语

自此,我们完整阐述了数据架构的定义、作用、结构和方法论。随着企业数字化转型的风口愈演愈烈,云技术的成熟,以及一些头部公司企业级数据建设的成功,数据管理越来越成为各个行业企业管理的热门词汇,而不同企业对于数据管理、数据架构的认识也不尽相同。这篇文章,从数据架构的行业共识出发,到一个特定的、相对成熟完备的数据架构拆解,再到简谈数据架构的落地结尾,是希望从一定的高度展现数据架构的全貌和脉络,不仅说数据架构是什么,也说数据架构能做什么;不仅说数据架构的作用,也说达成目标的途径;这既是我们对于数据架构的理解,也可以成为企业团队构建数据架构时的一点方向和过程中的参照,其中更多的细节,值得我们在实践中不断思考和改进。

美团酒旅数据治理实践

华为数据管理组织是如何发展的?

读透《华为数据之道》

数据治理:90%的人搞不清的事情

如何解决企业各个部门间的“数据孤岛”问题?

元数据的生死时速

点击左下角“阅读原文”查看更多精彩文章,公众号推送规则变了,如果您想及时收到推送,麻烦右下角点个在看或者把本号置顶

????分享、点赞、在看,给个3连击吧!????

到底什么叫作数据架构?相关推荐

  1. 到底什么是数据架构,如何管理,谁来负责?

    到底什么是数据架构,如何管理,谁来负责? 理解概念是理解数据管理的第一步,很多概念我们知道,但内涵却不清楚,或者你以为清楚,这类澄清概念的文章可以很好的帮到你! 源于数据治理周周谈 ,作者徐康 随着数 ...

  2. 到底什么叫作数据集成?

    ? 作者丨石秀峰 全文共2956个字,建议阅读需12分钟 笔者08年就开始参与企业应用集成项目建设,经历了点对点数据集成.总线式数据集成.离线批量数据集成,流式数据集成等数据集成方式.所以,没有人比我 ...

  3. 到底什么是数据湖?全面解读数据湖的缘起、特征、技术、案例和趋势

    正文开始 本文有1.5万字,预计阅读30分钟,可以先收藏 数据湖近几年迅速蹿红,今天笔者做一个综述,包括数据湖的缘起.数据湖的定义.数据湖的特征.数据湖的技术.数据湖的趋势和数据湖的案例六大部分,如果 ...

  4. 数据架构的本质到底是什么 by 傅一平

    我们搞数据的,按道理对数据架构应该比较熟悉吧,但自己最近却越来越迷糊了,因为发现很多讲数据管理的书,对数据架构的定义并不一致,有些出入还比较大. 自己赶紧去找权威的定义,发现搜出来的信息也是一地鸡毛, ...

  5. 实时数据架构实时数据仓库,你到底了解多少?

    随着互联网的发展进入下半场,数据的时效性对企业的精细化运营越来越重要, 商场如战场,在每天产生的海量数据中,如何能实时有效的挖掘出有价值的信息, 对企业的决策运营策略调整有很大帮助.此外,随着 5G ...

  6. 数据中台已成气候!大数据架构师如何站上风口?

    你被大数据杀过熟吗?当今企业对数据的重视度越来越高,在大数据系统架构设计层面,大数据架构师需要完成技术决策.技术选型,还需要根据不同时期的业务场景,不断优化和演进软件架构,最终攻克技术难点.化解技术风 ...

  7. 大数据架构详解_【数据如何驱动增长】(3)大数据背景下的数仓建设 amp; 数据分层架构设计...

    背景 了解数据仓库.数据流架构的搭建原理对于合格的数据分析师或者数据科学家来说是一项必不可少的能力.它不仅能够帮助分析人员更高效的开展分析任务,帮助公司或者业务线搭建一套高效的数据处理架构,更是能够从 ...

  8. 数智化时代合格数据架构师如何养成?

    简介: 数智化时代,"数据架构师"这样的角色起到越来越重要的作用.能力越大责任也就越大,因此对于这个角色也有了越来越高的要求.那到底对于数据架构师有什么要求呢?对于想成为数据架构师 ...

  9. 数据湖 VS 数据仓库之争?阿里提出大数据架构新概念:湖仓一体

    作者 |关涛.李睿博.孙莉莉.张良模.贾扬清(from 阿里云智能计算平台) 黄波.金玉梅.于茜.刘子正(from 新浪微博机器学习研发部) 编者按 随着近几年数据湖概念的兴起,业界对于数据仓库和数据 ...

  10. 阿里巴巴飞天大数据架构体系与Hadoop生态系统

    很多人问阿里的飞天大数据平台.云梯2.MaxCompute.实时计算到底是什么,和自建Hadoop平台有什么区别. 先说Hadoop 什么是Hadoop? Hadoop是一个开源.高可靠.可扩展的分布 ...

最新文章

  1. 稀疏矩阵三元组 严蔚敏_Sparse稀疏矩阵主要存储格式总结
  2. SQL 语句中 where 条件后 写上1=1 是什么意思
  3. mysql1714_linux环境安装mysql
  4. 什么是大数据「实时流计算」?深度解析它的4大应用及4个特点
  5. Java面试23种设计模式之单例模式的8种实现方式
  6. AI需要你帮忙 | 把两栖爬行动物框出来,提高AI识别准确率
  7. 手机查看pcap文件_Linux下如何操作 pcap 文件
  8. 芝加哥犯罪率数据集(数据分析与特征处理)
  9. android开发 app消息提醒功能,Android中利用App实现消息推送机制的代码
  10. 2023中职网络安全竞赛Web安全应用任务解析答案
  11. 欧几里得算法和扩展欧几里得算法——杨子曰数学
  12. HCL华三模拟器三层交换机DHCP实验
  13. Typescript 笔记
  14. beecloud对接——微信支付
  15. [转载]Win7中的页目录
  16. AuthorizeAttribute 加token验证特性
  17. vnc远程桌面,六款好用又免费的vnc远程桌面软件
  18. java编写的简单工厂模式
  19. shiroConfig配置
  20. 数据思维:开启数据认知素养之旅

热门文章

  1. goeasy java_Java GoEasy 实现服务端推送和Web端推送
  2. 简单循迹小车实验心得_智能小车实验报告
  3. 在termux中利用安卓的vulkan库加速NCNN
  4. java dms项目流程_Xinco DMS
  5. excel小写转大写公式_excel数字小写转大写公式的教程
  6. SpringMVC 访问html页面乱码
  7. 华为的薪酬福利与激励体系
  8. C语言-除法和取模运算正负号问题
  9. dll文件保存到服务器,dll是什么文件?dll文件怎么打开?
  10. DigitalFilmTools Rays 2.1.2汉化版|丁达尔光束耶稣光滤镜插件