编 辑:彭文华

来 源:大数据架构师

彭友们好,我是老彭。春天来了,各种项目已经开始规划了,有些速度快的已经开始做了。

上周,我去某国企交流,本来是聊数据标准的事情,结果他们还有数据资产目录整理的工作,结果又唠了半天数据资产目录的嗑。

他们在做数据资产目录建设的时候遇到大麻烦了,一堆人讨论目录该怎么建,讨论了好几个月,都没个定论,然后过来问我该咋办...

我又不懂你们的业务,我能咋办?臣妾也做不到啊哇...

数据治理“洗澡论”

其实他们之前做过数据一轮数据资产盘点,做了一个分类,也挂到系统上了,但是后来就没有后来了。治理做一半,等于啥也没干

我之前在群里开了一个玩笑,数据治理这种事情,就跟洗澡一样,首先得勤快点洗。一天不洗澡,身上就臭了。

另外,标准也很重要,南方和北方对“洗干净”的定义不一样。南方洗澡的时候,只要泡泡冲干净,就算洗干净了。北方洗澡的时候,身上不搓下来二斤泥都不叫洗干净了。

还有,洗澡得全面,有些人洗澡不洗头还说得过去,但是洗澡只洗左胳膊,这算咋回事?

最后,洗完澡得维护,水得擦干啊,衣服得换干净的,不要到外面踩泥巴,要讲卫生啊!

但是很多人认为数据治理就是弄个项目就完事的。这就像是中世纪的欧洲,一生就洗三次澡,出生一次,结婚一次,入殓一次。其他时间都靠香水度日

所以数据治理不是立一个项目就完事的,要么在家弄个浴室,要么定期去外面大众浴室,条件好可以再叫个搓澡的师傅,上个奶盐。

数据分类原则

这不,跟长时间没洗澡一样,长“数据虱子”了,各种指标爆炸数据质量低下等问题让数据部门的彭友非常难受,所以他们又要开始做数据治理了。

首先要做的就是数据资产盘点,建立数据资产目录。盘点的时候好说,就是各种整理呗。

但是到建立数据资产目录的时候就傻眼了,他们先是按照自己的理解整了一版目录结构。

但是在把数据资产装进去的时候就发现有些数据资源不属于现有的任何一个分类,然后又来调整,但是一会儿又发现有些数据资源放这里也行,放在那里也行,这就蒙圈了

这是因为没有把握住数据分类的原则。具体可以分为:

1、全量:能够容纳组织全量数据资产;

2、系统:数据分类必须系统化、体系化,层次清晰、逻辑鲜明,形成具有隶属和并列关系的分类体系,展示数据之间的联系和区别;

3、规范:目录名称要能准确的表达该类目的实际内涵和外延,在整个目录中保持规范;

4、唯一:目录体系内,各自界限分明,尽可能保证不重复、不交叉、相互独立且唯一;

5、稳定可扩展:建立的数据分类要保持一定的稳定性,保持一段时间内的可持续使用,并保留可扩展的余地。

数据分类方法

数据分类其实来源于信息分类法,一共有三种:线分类法、面分类法、混合分类法。

线分类法:简单来说,就是将数据按选定的若干个属性或特征,逐次分为若干层级, 每个层级又分为若干类别。

同一分支的同层级类别之间构成并列关系,不同层级类别之间构成隶属关系。同层级类别互不重复,互不交叉。

线分类法适用于针对一个类别只选取单一分类维度进行分类的场景。最典型的线分类法就是生物分类系统,有一个学科专门研究这个,叫“生物分类学”。

你仔细看看上面的图,就知道线分类法有很大的局限:一个分类只能描述单一的逻辑复杂一点就没法弄了,比如集团中有好几个不同的业态...

面分类法:就是把数据依据各种属性或特征,分成相互之间没有隶属关系即彼此独立的面,每个面中都包含了一组类别。

还可以将某个面中的一种类别和另外的一个或多个面的一种类别组合在一起,可以组成一个复合类别。

比如服装,有材料、颜色、款式等多个面,可以自由搭配组成任意内容。下面这个例子则是螺丝的面分类法,可以分为材料、直径、钉头、表面处理:

面分类法是并行化分类方式,同一层级可有多个分类维度。面分类法适用于对一个类别同时选取多个分类维度进行分类的场景。

混合分类法:顾名思义,就是线分类+面分类结合咯。一般来说,还是得以某一个方法为主,另外一个为辅

这下就能集合两种方式的优点,规避它们各自的缺点了。比如用面分类法解决多业态的问题,再用线分类法细化;或者用线分类法搞定前面几层,再用面分类法进行细化。

数据分类的层次关系

会后,彭友还找我要PPT。讲真,不是老彭我小气,关键是我还真没有专门为这个事情做一个PPT。

因为这些内容其实早就有很全的指导了,比如《证券期货数据分类分级指南》里就很全:

这张图把业务、数据和数据表现形态之间的关系表现的很清楚。我们需要从业务、数据和形态三个视角对数据分类进行理解。

其中,最先要了解的,就是业务。业务可以按条线和子类进行拆分,就算是集团公司,也能拆的很清晰。

然后从业务角度,向下再进行拆解,从数据角度进行分类。所以数据角度的第一个层级应该是业务主题域,而不是纯粹的数据角度

数据分类应该从主题域不断细分,直到最细颗粒度。一般来说,在数据资产目录里,是要能看到详细的样例数据,并能申请API访问权限的。在这个时候,我们需要对数据进行分级,便于进行权限分配和安全管控。

最下面,其实不是数据的分类,而是数据的展示形态。数据最终是要在系统中用业务流程、数据查询、报表分析、大屏展示等各种形态利用起来的。

小结

数据分类分级看上去很简单,但是其中的道道还是蛮多的,一旦没弄好,会影响后续很多的事情。也不知道你对此感不感兴趣啊?

如果感兴趣,就点个在看分享到朋友圈,给老彭一点码字的动力

扩展阅读:公众号“大数据架构师”后台回复“分类分级”即可下载【数据分类分级的1份标准2份指南和1个模板】。

更多精彩:

    数据分级分类标准、指南和模板

    怎么做好大数据安全访问管控?

    数据治理工作的8种推进套路(上)

    数据治理工作的8种推进套路(下)

    客户标签管理办法【附下载】

    互联网的秘密武器-标签体系流程篇

排版 | 老彭

审校 | 老彭  主编 | 老彭

数据资产目录建设之数据分类全解(上)相关推荐

  1. 数据资产目录构建指南

    以信息技术为核心的第四次经济革命使得全球经济进入到数字化转型时期,对于今天的企业来说, 数字化转型已经不是可做可不做的自选题, 而是必须付诸行动的必选题. 从数字化转型的实践经验中我们可以得知,企业的 ...

  2. 企业数据资产管理:数据资产目录应该如何规划

    数字化对现代社会的影响已经从赋能变成了根本上的重构,其所产生的影响最明显的就是数字经济和数字化转型的崛起.数字经济是在世界经济增长减缓的格局下,依旧保持高速增长的新动能,据<全球数字经济白皮书( ...

  3. 石油数据资产目录梳理方法与技术

    数据是石油行业主要的资产,近几年越来越多的石油企业开展了企业级的数据管理平台,对数据资产进行系统性.体系化的管理,以便充分挖掘数据的潜在战略.战术价值.鉴于此,对数据资产进行全面盘点.构建企业级的数据 ...

  4. 第四章第九节数据资产盘点-数据资产目录分类

    第四章第九节数据资产盘点-数据资产目录分类 在形成数据资产清单以后,如何将清单进行分类?关于数据资产目录的分类,有几种方法,一是参考行业数据分类框架.二是参考监管数据分类.三是根据数据管理实践,结合企 ...

  5. 一文看懂企业数据资产目录

    精益数据方法强调通过共享.开放.协同的方式,让企业的数据流动起来,共享起来,充分的协作起来,同时将数据治理融入业务场景中,在数据生产的全链路中实施数据治理工作. 为了实现这一个目标,企业需要对应的技术 ...

  6. 第四章第十节数据资产盘点-形成数据资产目录

    第四章第十节数据资产盘点-形成数据资产目录 在形成数据资产目录分类以后,需进一步拆解主要业务活动,识别业务活动涉及的业务对象对应的属性分类以及属性信息.形成分类统一.层级稳定.名称规范.分布明确的数据 ...

  7. 数据治理第1享:数据资产目录

    在数据治理工作中,不可避免的会提到"数据资产目录"这个概念,本文从定义.数据资产目录与数据目录. 1.定义 数据资产目录是公司数据资产的清单,方便用户快速找到所需的信息.该目录包含 ...

  8. Echarts数据可视化series-scatter散点图,开发全解+完美注释

    全栈工程师开发手册 (作者:栾鹏) Echarts数据可视化开发代码注释全解 Echarts数据可视化开发参数配置全解 6大公共组件详解(点击进入): title详解. tooltip详解.toolb ...

  9. Echarts数据可视化series-pie饼图,开发全解+完美注释

    全栈工程师开发手册 (作者:栾鹏) Echarts数据可视化开发代码注释全解 Echarts数据可视化开发参数配置全解 6大公共组件详解(点击进入): title详解. tooltip详解.toolb ...

最新文章

  1. LPC2132的IOPIN
  2. java调用第三方dll文件 源码_C++调用python文件(包含第三方库)
  3. OpenCV使用Facemark API
  4. C#多线程学习(一) 多线程的相关概念(转自xugang的blog)
  5. python-字符串方法
  6. php 传递类名,php 对象和数组序列化 serialize()返回字符串方便存储和传递 unserialize()反序列化 不丢失类型和结构...
  7. JVM001_类文件结构
  8. “不务正业”的化学奖又发给了生物
  9. PHP Web Shell in browser
  10. Javascript中括号“[]”的多义性
  11. python集成包地址 Anaconda 一键安装拥有所有包
  12. 分享一段飞天R502读卡器的JAVA读卡代码
  13. 理财通 for N9
  14. SM1、SM2 、SM3、 SM4算法
  15. windbg学习23(!peb和PEB结构)
  16. 【图文详解】入职必备——SVN使用教程
  17. linux音频alsa-uda134x驱动分析之一(over-view)
  18. Scrapy爬取起点中文网小说信息 绝对领域cosplay
  19. 数据库 | PostgreSQL从入门到精通
  20. 智慧路灯网关下的校园智慧路灯照明解决方案

热门文章

  1. 大数据埋点那些事儿,手机 APP 是不是在偷听我说话?
  2. 使用java实现输出图形(三角形、菱形等四个图形)
  3. 读《曾国藩》笔记2--慈不掌兵
  4. C#技术分享【Word转换成图片和PDF——2种方案】
  5. 2021 强网杯 pwn notebook
  6. 青龙羊毛——酷狗放羊娃(搬运)
  7. 眼球追踪技术在用户体验中的应用
  8. 帕德逼近matlab算法,一种基于帕德逼近的通信误差函数逼近方法与流程
  9. dom4j的一些总结
  10. STM32学习笔记(四)丨TIM定时器及其应用(定时中断、内外时钟源选择)