分享“谈数据”公众号主理人石秀峰在帆软《决胜数字化转型》直播上的演讲内容~

今天我给大家分享的主题是数据治理之数据标准管理。数据标准管理是数据治理的偏向落地的话题。我自己在数据治理领域,工作在数据治理的前线,有十几年的工作的经历,主要负责企业数据治理、企业数字化转型项目的咨询还有交付。

1

什么是数据标准?

提到数据标准大家肯定会想到公司也有相关的产品设计的标准、质量检验的标准、安全环保的标准,对于金融企业的话,还有市场监管相关的一些标准。这些标准其实都不是我们要讲的数据标准,以上的标准最多只能被称作规范。

在我看来,其实数据标准不能只停留在文件层面上的内容,数据标准更应当是为业务运营和管理决策提供相应的保障。中国信通院在《数据标准管理实践白皮书》中对数据标准给出了定义,我个人认为定义是非常贴切的,但是好多小伙伴反应定义感觉有点不太理解,怎么通俗的去理解数据标准?

根据我自己的理解,数据标准是企业各部门、各利益干系人在数字化环境中使用的一种共同的语言,就像我们大家交流的语言一样,是在数字化环境中使用的一种语言。

2

数据标准为什么重要?

中国有一种传统文化——大一统文化。大一统文化的前提,或者叫背后支撑的钥匙,就是标准化。在国家治理层面,从秦始皇统一六国,他统一了货币、统一了文字、统一了度量衡,废弃分封制,建立郡县制,加强中央集权。他采取了一系列国家治理的措施,我们可以发现他做的最核心的一件事情——标准化。所谓的车同轨、书同文,把以前七零八落的、没有统一的东西都统一起来。

到我们建国以后,包括普通话的推广,它其实也是国家治理的一部分内容。我们试想一下,如果大家在一间屋里面开会,你说四川话,他说东北话,有的说闽南话,有的说粤语。先不提会议能不能达成共识?起码会议的效率肯定会大打折扣的。这就是标准化在国家治理层面上的重要性。

刚才我们说了中国的故事,关于标准化不仅在中国有故事,在国外也有。传说古时候全天下所有的人都说同一种语言。在向东迁移的时候,走到施娜,古巴比伦的一个城市。走到这个地方,发现了111片平原,就住了下来。人们开始修建一座通往天堂的高塔,高塔就叫通天塔,以显示人们的团结跟力量。但是上帝知道了这件事情,特别不喜欢他们的做法和目的。

于是在塔快要建成的时候,上帝教会了人们说不同的语言,使人们之间无法正常的交流,塔就没能继续修建下去。后来些人散到世界各地,各自说各自的语言,就导致了我们现在人类的语言没有统一,可见语言还有文字在国家治理过程中的重要性。其实我还有一种观点就是语言、文字的标准化在国家治理中有多重要,数据标准在企业数字化环境中就有多重要。

说到数据治理我们不得不提一下DAMA体系,其实我本身也是DAMA的忠实粉丝,给我的工作提供了指导。细心的小伙伴会发现,刚才我们提到数据标准,既然它在企业数字化环境中那么重要,为什么DAMA没有专门拿出数据标准作为知识领域专门去写。这也是我的公众号后台有小伙伴给我留言会问的问题,问题问得特别好。

我也特意对比了DAMA-DMBOK1和DAMA-DMBOK2确实是没有数据标准体系。但是你看过那本书,就会发现其实在DAMA的体系里面,在各个领域都包含了数据标准的一些内容。

但在我看来,数据治理它是顶天立地的事情。我认为数据战略是天,数据战略为企业的数字化转型、为企业的数据治理,指明了整个的方向。所谓的数据标准,就像我们盖房子打地基一样,做数据建模也好,做数据仓库也好,还是做数据质量,做数据安全也好,还是做原数据管理,那么数据标准都是其他领域的基础,它是核心的基础。

第一,数据标准是所有数据指令关键领域的基础
第二,数据标准为我们建立业务系统或者是操作性系统分析新系统提供数据之间的依据
第三,数据标准是用原数据来体现的。在这套体系里原数据管理的章节,更多的是体现了数据标准相关的一些概念
第四,数据标准管理,我认为它是包含了主数据与参考数据管理
第五,数据标准其实为企业数据质量管理提供了规则和约束,也要做数据质量结合,数据标准是给我提供相关的一些规则。
第六,数据标准对数据安全的分类对数据的分级也提供了相关的参考和依据。
第七,数据标准跟数据模型的关系,它是指导企业来构建数据模型,同时在建模的过程中又可以为数据标准的制定提供相应的参考

3

企业数据资源环境构成

那有人就会问,数据标准到底包含哪些内容?那么在聊这个问题之前,我们先看一看企业数据环境都包含哪些内容?

其实我们在说企业的数据环境的时候,总会说企业有多少个业务域,其实每个业务域都有对应的数据。比如说财务与人力资源管理与生产、销售、采购等等,都是相关的数据域。数据下面还有相应的数据主题。比如说市场营销、市场领域、营销领域,包括了市场、销售、回款等等些数据的一些主题。数据主题下面涵盖了相应的数据的属性。

如果我们把企业数据资源看作是一棵树的话,我认为基础数据是它的数干,基础数据描述企业核心业务对象的数据。它具有一致且统一的属性,是企业开展业务的基础,我们叫它基础数据。比如说现在提到的产品基础数据、客户基础数据、供应商基础数据,还有一些所谓的代码基础数据,也是基础数据的一部分内容。
业务数据是树叶。业务数据是在业务活动过程中产生的交易数据,每发生一笔业务交易,就会产生一条交易数据,它的变化频率是比较大的。比如说营销活动的一些数据,销售订单的一些数据等等。
第三个部分是果实,我们叫它指标数据。种指标数据是用于统计分析,为管理决策提供参考。比如说新增客户数、客户的转化率、投资回报率等等。我们把它叫做指标数据。

那数据标准到底涵盖哪些部分?业内一般会认为,数据标准涵盖了两个部分,第一部分是基础数据,第二部分是指标数据。有人会问业务数据能不能做标准化?其实如果做过数据标准化的项目,你会发现只要你把基础数据做好,业务数据自然而然就会规范了,一般不会针对某业务去定义标准。

4

数据标准的三个视角

刚才我们讲了数据标准的四个层面,从数据域到数据的主题或者叫数据分类,再到数据的实体,再到数据的属性,是数据标准梳理的四个层面。那我们怎么去完成数据标准化,还有三个视角。

一般来说,我们会从以下三个维度去分析数据标准:

第一是业务维度。从业务维度的话,数据标准一般包含业务的定义、标准的名称、标准的分类、标准的业务含义,还有业务的规则等等。
第二个是技术视角。包括了数据的类型、长度、格式、编码规则等等。
第三个是管理视角。从管理的视角看,数据标准的管理者是谁,新增人员是谁,修改人员是谁,谁来使用,来源的系统,使用的系统等等。

说到数据标准的三个维度可能有人就会联想到元数据,元数据一般也会提到业务元数据,技术元数据,管理元数据,跟我讲的数据标准的三个视角是完全对应的。接下来看如何去制定标准,其实是非常复杂的过程。

5

如何制定数据标准?

首先你要了解企业为何要去制定标准?企业的需求是什么?现状是什么?外部环境的要求是什么?建标准的时候,有没有相关的一些参考?有没有相关的国家标准?行业标准的一些参考?如果没有的话,行业有没有最佳实践可以拿过来参考。要结合以上的些需求去规划数据标准的体系,先要把范围先确定出来。

首先,要基于业务的一些痛点,最需要解决哪些问题,先把些要解决的问题找到,再针对要解决的些问题去梳理,到底哪些业务与哪些数据的主题,哪些数据的实体来定数据的标准?

在定准过程中一般有以下的业务步骤:

第一资料收集。做it的人员都很清楚要收集现有的一些材料,包括数据的质量情况、数据的管理情况、数据的标准化情况等等。
第二个调研访谈。要解决做项目或者数据,你是要解决样的业务问题?
第三个分析评估。对整体的情况做分析评估,评估和最佳实践或者最理想情况的标准的差距是多少?
第四个标准制定。根据上述的些条件来定义数据,制定标准。
第五个意见征集。标准定义完之后,形成的标准文件还需要下发到各个业务单位去收集意见,再根据意见的反馈情况,修订标准。
第六步标准发布。

标准发布了就代表数据标准化的工作就完成了?其实标准发布才是做数据标准化走出的第一步,后续的重点工作其实需要把标准真正的用起来,要在业务过程中、业务系统中能够使用起来标准,数据标准的贯标跟应用就显得十分重要。在标准贯标和应用的过程中,又会发现标准定义的不准确。那还需要对标准进行迭代和更新。

在这里穿插一种数据标准的梳理方法,叫BOR法。刚才讲数据标准的四个层面,从数据域到数据主题,到数据活动,那到了活动之后该怎么去梳理、提炼数据的标准。

根据每个业务活动,比如说销售的活动,那就会提炼出销售业务相关的数据对象;比如说客户、销售的产品、销售订单,这些都是相应的实体数据。实体的数据都有相应的属性信息,需要把它的每一项属性信息从三个角度,业务角度、技术角度、管理角度,进行统一的梳理,最后归纳出来与实体之间的关系,形成数据的整体模型。

刚才我前面讲的数据标准,包括两个部分内容,部分叫基础数据标准,另部分叫做指标数据标准。基础数据标准的话,从三个维度去看,包括业务、技术和管理属性。右边有具体的示例,比如说企业的组织部门人员,机构、客户供应商人员、组织等等,这些都是基础数据。

其实跟主数据是十分相似的,讲主数据的时候,也经常讲主数据是企业的空间数据,是企业需要被共享的在各个业务系统、各个部门之间的具有高价值的数据。其中主数据,它下面包含了参考数据。拿人员为例,那它的参考数据,包括性别、民族、学历、职级、岗位等等,都是参考数据。

在做数据标准化的过程中,除了要定义实体,还需要把参考数据进行标准化。比如1代表男,2代表女,那就不能用F、N去代表男和女。我认为基础数据标准是包含主数据和参考数据的。基础数据一旦被共享,那就可以把它当作主数据去看待。

接下来是指标数据的标准。指标数据该从哪几方面进行标准化?其实也包含三个层面。

第一个方面业务属性。比如说指标分类、指标的名称、指标的定义、指标的计算规则、指标的应用场景,部分的内容是需要业务人员来定义出来的。
第二个方面是技术属性。包括数据的来源、数据的值域、统计周期、统计维度、计算精度,是it人员需要提供的。
第三个方面是管理属性。比如指标的归口部门是哪?数据提供部门是哪?虽然负责管理,指标是从哪个系统生成的?到哪个系统进行使用?也是为后续的整个元数据管理或者建议指标库提供支撑。

接下来如何管理好数据标准。我觉得有一张图六边形图给出来很好的方法论,叫数据治理的基本环境要素,是把之前展示的车轮图加上六边形图的六大基本要素组成矩阵,就形成了针对每域的数据治理的方案。基本环境要素包括目标与原则、组织与文化、工具、活动、角色和职责、交付成果、技术等等。

我认为数据标准完全可以作为域去独立管理,当然你也可以把数据标准放到其他的解决方案中去处理。因为DAMA体系引领到中国,我觉得中国人对标准还是有一定的情怀在里面,不过去做数据项目第提到的数据标准化,到底该如何去构建标准的体系?

接下里说一下数据标准的落地办法,其实刚才我们已经提到,把基础数据的标准库还有指标数据的标准库搭建出来了,最终还是要用到系统中来,用到信息化的环境中来。信息化的环境一般分成两个部分去看,一部分是操作型系统,一部分是分析型系统。

操作型系统我们经常看的企业的ERP系统、CRM系统、SRM系统,这些系统有的用的是套装软件,有的是自己开发的。梳理好数据标准要落地的时候主要有以下三种解决方案:

第一个解决方案就是刚才我们提到的主数据的解决方案。主数据的解决方案解决机构系统之间的数据统一的问题,要实现一码一目一数一元,统一数据来源。这是数据标准落地的解决方案,主数据是解决方案。
第二个解决方案是构建标准数据库。新业务系统来了,所有的需要运行的基础数据都可以从数据标准库里面来取,通过数据服务厂把数据标准提供出去,为业务系统的构建提供相应的支撑。
第三个解决方案是在分析性系统。将来要做数据分析的时候,要解决分析指标透明不透明的问题,也需要调指标库,有的企业叫指标中心,有的企业叫指标库。指标中心为数据仓库、报表平台、智能分析平台提供了维度和度量,数据标准其实为数据分析提供了重要的支撑。
6

数据标准管理的4个最佳实践

最后结合自己的工作实践介绍下数据标准管理的四个实践。

第一个,谁来主导?

也是很多客户或者很多人问我最多的问题,是业务来主导还是it来主导?如果从书上看,大家都会建议你由业务来主导,因为业务更懂数据。其实不是it特别擅长的。但是在实践的过程中,你会发现做这个事情往往都是老板拍下来,事情就交给it来做。

那这时候我们该怎么做?那其实我一般会给我们的客户提供两个建议,一个叫借势,一个叫造势。

所谓的借势,既然企业想做出数据,那一定会找到支持状况,也就是说一定有领导支持你才会立项目,也一定会找到比较积极的业务部门。那你到时候就可以借他们的势去做数据标准梳理的工作,哪个业务部门积极那我就先梳理哪个业务部门的,这是一个层面。第二层面,刚才我们讲的各个政策,跟国家相关的一些政策,一些驱动的因素,去借这个势去说服老板和领导。

第三个从技术的角度,目前数据治理是我们数字化转型的基础,不管是在推进国有企业数字化转型通知上也好,还是在各个数据体系分析的报告上来说,数据治理其实都是最核心的基础。我们可以借技术趋势的势去引导数据治理的工作,来把数据标准制定出来。

第三个层面,我们还是要学会造势。我们可以请一些外国的专家甚至是咨询公司给我们的领导来做相关的一些宣传,带他去参观相关行业的标杆。

第二个实践叫循序渐进。

因为数据治理的事情绝对不是一口吃不出个胖子的事情,一下子是解决不了所有的数据问题的。我们要从企业的整个主价值链,从业务的角度去分析,哪些业务是紧迫需要的,哪些数据标准对业务的影响程度是比较大的?哪些数据在各个系统之间共享程度是比较高的?以及数据在实施过程中的难易程度。我们要把所有的治理需求优先级排出来,给到我们的领导。比如说先治理营销领域,因为现在说实话,转型最提倡的就是数字营销,因为营销更贴近于客户,更容易成功,更容易见效。另外,可以从内部管理,比如说先治理财务的人员,或者先治理生产的人员都是可以的,要根据企业的优先级来进行排序。

第三个实践叫数据标准的动态管理。

因为整个外部环境是动态变化的,不管是商业环境还是技术环境都是变化的,数据标准也要与时俱进。比如今天制定好的标准,明天可能就会发生相关的一些变化,那就不能定了标准以后所有的业务都按照标准执行。前提是标准合不合理,合不合规。如果不能与事俱进的话,就会面临项目的数据标准用不起来。我们要建立好数据标准的更新机制和更新机制配套相关的组织管理流程、相关的管理办法。

第四个实践是应用为王。

最后数据标准还是要应用起来,需要贯彻到各个业务系统里面去,那我们给出来的建议是以对现有系统影响最小为原则去落地数据标准。不要为了落地标准把所有的系统都打乱都重新来一遍,我觉得是很不现实的事情。

请多多评论转发分享,会给大家带来更多干货内容的!

数据治理资深大咖分享:一文详解数据标准管理相关推荐

  1. 亿信华辰:一文详解数据标准管理

    近日,中国人民银行.市场监管总局.银保监会.证监会联合印发<金融标准化"十四五"发展规划>,其中重点提出要完善金融大数据标准体系,探索制定金融大数据采集.清洗.存储.挖 ...

  2. 大数据应用分类标注比赛前三名方案总结与2022年最新方案分享(万文详解)

      该比赛分为初赛和复赛,初赛为文本分类问题.复赛为应用名称.文本数据.包名的多维度数据分类问题. 文章目录 1. 比赛学习方法论 2. 大数据应用分类赛题讲解 2.1 赛题背景 2.2 赛题任务和数 ...

  3. 深眸科技分享—一文详解工业视觉系统构成及应用

    一.工业视觉系统的构成 工业视觉是什么,工业怎么又和视觉搞一起了?这本是八竿子打不着的事情,面对这个新出现的名词大多数人不甚其解:我们将这一名词分开解释,即工业和视觉的组合,工业很好解释就是工业生产活 ...

  4. 一文速学(十八)-数据分析之Pandas处理文本数据(str/object)各类操作+代码一文详解(三)

    目录 前言 一.子串提取 提取匹配首位子串 提取所有匹配项(extractall)

  5. 一文详解VarScan肿瘤体细胞突变检测的的安装和实践

    ​目录 VarScan 简介 VarScan 安装和使用说明:安装.说明.配置.运行 VarScan 案例实战:数据下载.配置.运行.输出 使用sixbox快速运行 hello,大家好,今天为大家带来 ...

  6. 大咖分享|姚秀清:数据资产管理平台如何建设?

    讲师介绍 姚秀清(秀清) 华南交付中心负责人&数据专家.10余年行业数据经验,擅长为企业数字化转型提供专业的技术方案和实施服务,帮助企业高效的建立数据中台,提高企业数据资产的使用效率.曾服务客 ...

  7. 大咖分享会 | 百度首次揭秘如何构建用户画像与移动统计

    从11年开始,互联网进入大数据时代,相比传统的调查分析,大数据是企业通过互联网便利的获取用户更广泛的反馈信息,为进一步精准.快速地分析用户行为习惯.消费习惯等重要商业信息,提供了足够的数据基础.本次P ...

  8. 【PMCAFF大咖分享会】揭秘大数据驱动下的京东供应链体系

    报名方式:回复"报名线下"至公众号,即可进入报名环节 时间:10月24日(周六)14:00-18:00 地点:待定(录取后统一发送邮件通知地址) 费用:免费 讲师简介 ▍翟松涛个人 ...

  9. 腾讯云大学大咖分享 | 自然语言处理技术(NLP)究竟能做些什么?

    自然语言处理(Natural Language Processing,缩写作 NLP)是人工智能(AI)领域的一个重要分支,被广泛应用于聊天机器人.机器翻译和搜索引擎等场景.为帮助大家更好地理解NLP ...

最新文章

  1. 《Programming WPF》翻译 第7章 3.笔刷和钢笔
  2. Uber 开源 Piranha,可自动删除过时代码
  3. 国二vb计算机过的办法,国二计算机VB教程10.ppt
  4. YUV / RGB 格式及快速转换算法总结(转载)
  5. ARC079F - Namori Grundy(构造,基环树)
  6. 加载页面就触发ajax,AJAX post方法,有时会在页面加载时触发,有时不会
  7. linux系统get命令详解,Ubuntu Linux系统下apt-get命令详解
  8. 彻底理解python递归_Python开发之-Python递归图示理解
  9. 盘点前端HTML基础知识
  10. 浅谈压缩感知(二十二):压缩感知重构算法之正则化正交匹配追踪(ROMP)
  11. 题目:将一个正整数分解质因数
  12. OPERA重要密码学习一
  13. DRM-X 4.0加密保护与Widevine DRM平台的区别
  14. 《Walden》单词词频统计
  15. 贝叶斯算法(新闻分类任务)
  16. 非线性最小二乘求解方法总结
  17. 一幅长文细学华为MRS大数据开发(一)——大数据时代的挑战和机遇
  18. LeetCode,无它,唯手熟尔(二)
  19. 可爱精灵宝贝 动态规划讲解
  20. 了解与MDIO/MDC接口相关的22号、45号条款

热门文章

  1. php接口返回一个数组怎末写_php api返回json数组
  2. 和平精英android怎么写符号,和平精英名字符号大全 可用的名字特殊符号有哪些...
  3. css3中animation动画、浏览器私有前缀、文字阴影
  4. Eclipse和IDEA 简单对比说明
  5. java大作业私人管家系统_重庆管家婆软件丨管家婆工贸PRO的E-MES管理详解
  6. 2021双十一电商行业研究报告:重塑消费决策链条,内容种草成电商新标配
  7. 拉面说:如何成为速食拉面独角兽
  8. 2020程序员人群洞察报告
  9. 3 css 奖品出现弹出动画_基于jquery css3实现点击动画弹出表单源码特效
  10. 《大数据》2015年第3期“网络大数据专题”——大数据时代的互联网分析引擎...