写在前面:

这是一个系列文章,沉淀了我在数据治理领域的一些实践和思考。共分为5篇。分别是:

一、大数据治理:那些年,我们一起踩过的坑

主要讲讲数据治理工作中常见的一些误区。

二、要打仗,你手里先得有张地图:数据治理之元数据管理

这一篇讲讲元数据的概念和具体应用场景。

三、不忘初心方得始终:数据治理之数据质量管理

提升数据质量,始终是数据治理工作中最重要的目标之一。本篇讲述如何科学地进行数据质量管理。

四、书同文车同轨:数据治理之数据标准管理

数据标准的落地始终是难题。本篇希望能提供一些数据标准建设的思路。

五、大数据的淘金之旅,数据治理之数据资产管理

不管厂商把它们叫什么:业务标签,数据资产,还是知识图谱管理,本质上都是从数据中提炼出来的资产。怎么管理和应用好这些资产,是现今数据治理的重要研究课题

这些观点是一家之言,欢迎同仁们商榷,可以发邮件给我:jiangzhenbo.hi@163.com,或者加我微信:401172028,共同探讨数据治理相关领域的问题。

谢谢。

正文:

大数据时代,数据成为社会和组织的宝贵资产,像工业时代的石油和电力一样驱动万物,然而如果石油的杂质太多,电流的电压不稳,数据的价值岂不是大打折扣,甚至根本不可用,不敢用,因此,数据治理是大数据时代我们用好海量数据的必然选择。

但大家都知道,数据治理是一项长期而繁杂的工作,可以说是大数据领域中的脏活累活,很多时候数据治理厂商做了很多工作,但客户却认为没有看到什么成果。大部分数据治理咨询项目都能交上一份让客户足够满意的答卷,但是当把咨询成果落地到实处的时候,因为种种原因,很可能是另一番截然不同的风景。如何避免这种情况发生,是每一个做数据治理的企业都值得深思的问题。

可以说在业界,大家都为如何做好数据治理而感到困惑。

笔者涉猎大数据治理领域有6年多的时间,负责过政府、军工、航空、大中型制造企业的数据治理项目。在实践当中有过成功的经验,当然也经历过很多失败的教训,在这些过程中,我一直在思考大数据治理究竟是在治理什么?要达到什么样的合理目标?中间应该怎么避免走一些弯路?今天就借这个机会跟各位分享一下我曾经趟过的坑,希望对大家有一些借鉴意义。

误区一:客户需求不明确

客户既然请厂商来帮助自己做数据治理,必定是看到了自己的数据存在种种问题。但是做什么,怎么做,做多大的范围,先做什么后做什么,达到什么样的目标,业务部门、技术部门、厂商之间如何配合做……很多客户其实并没有想清楚自已真正想解决的问题。数据治理,难在找到一个切入点。

以笔者的经验来看,如果客户暂时想不清楚需求,建议先请厂商帮助自己做一个小型的咨询项目,通过专业的团队,大家一起找到切入点。这个咨询项目工作的重点应该是数据现状的调研。通过调研数据架构、现有的数据标准和执行情况,数据质量的现状和痛点,客户目前已经具有的数据治理能力现状等,来摸清楚数据的家底。

在摸清家底的基础上,由专业的数据治理团队帮助客户设计切实可行的数据治理路线图,双方取得一致的基础上,按照路线图来执行数据治理工作。

其实客户很多时候并不是没需求,只是需求相对比较笼统,模糊不清晰,双方可以花费一定的时间和精力找到真正目标,磨刀不误砍柴工,这样才不致于后续花更多的钱来交学费。

总结:数据治理工作,一定要先摸清楚数据的家底,规划好路线图,切忌一上来就搭平台。

误区二:数据治理是技术部门的事

在大数据时代,很多组织认识到了数据的价值,也成立了专门的团队来负责管理数据,有的叫数据管理处,有的叫大数据中心,有的叫数据应用处,名称不一而足。这些机构往往由技术人员组成,本身的定位也属于技术部门,它们的共同点是:强技术,弱业务。当数据治理项目需要实施的时候,往往就是由这些技术部门来牵头。技术部门大多是以数据中心或者大数据平台为出发点,受限于组织范围,不希望扩大到业务系统,只希望把自已负责的范围管好。

但数据问题产生的原因,往往是业务>技术。可以说大部分的数据质量问题,都是来自于业务,如:数据来源渠道多,责任不明确,导致同一份数据在不同的信息系统有不同的表述;业务需求不清晰,数据填报不规范或缺失,等等。很多表面上的技术问题,如ETL过程中某代号变更导致数据加工出错,影响报表中的数据正确性等,在本质上其实还是业务管理的不规范。我在与很多客户做数据治理交流的时候,发现大部分客户认识不到数据质量问题发生的根本原因,只想从技术维度单方面来解决数据问题,这样的思维方式导致客户在规划数据治理的时候,根本没有考虑到建立一个涵盖技术组、业务组的强有力的组织架构,能有效执行的制度流程,导致效果大打折扣。

总结:数据治理既是技术部门的事,更是业务部门的事,一定要建立多方共同参与的组织架构和制度流程,数据治理的工作才能真正落实到人,不至于浮在表面。

误区三:大而全的数据治理

出于投资回报的考虑,客户往往倾向于做一个覆盖全业务和技术域的,大而全的数据治理项目。从数据的产生,到数据的加工,应用,销毁,数据的整个生命周期他们希望都能管到。从业务系统,到数据中心,到数据应用,里面的每个数据他们希望都能被纳入到数据治理的范围中来。

但殊不知广义上的数据治理是一个很大的概念,包括很多内容,想在一个项目里就做完通常是不可能的,而是需要分期分批地实施,所以厂商如果屈从于客户的这种想法,很容易导致最后哪个也做不好,用不起来。所以,我们需要引导客户,从最核心的系统,最重要的数据开始做数据治理。

怎么引导客户呢?这里要引入一个众所周知的概念:二八原则。实际上,二八原则在数据治理中同样适用:80%的数据业务,其实是靠20%的数据在支撑;同样的,80%的数据质量问题,其实是由那20%的系统和人产生的。在数据治理的过程中,如果能找出这20%的数据,和这20%的系统和人,毫无疑问,将会起到事半功倍的效果。

但如何说服客户,从最重要的数据开始做起呢?这就是我们在误区一中谈到的:在没有摸清楚数据的家底之前,切忌贸然动手开始做。通过调研,分析,找出那20%的数据和20%的系统和人,提供真实可靠的分析报告,才有可能打动客户,让客户接受先从核心系统,核心数据开始做起,再渐渐覆盖到其他领域。

总结:做数据治理,不要贪大求全,而要从核心系统,重要的数据开始做起。

误区四:工具是万能的

很多客户都认为,数据治理就是花一些钱,买一些工具,认为工具就是一个过滤器,过滤器做好了,数据从中间一过,就没问题了。结果是:一方面功能越做越多,另一方面实际上线后,功能复杂,用户不愿意用。

其实上面的想法是一种简单化的思维,数据治理本身包含很多的内容,组织架构、制度流程、成熟工具、现场实施和运维,这四项缺一不可,工具只是其中一部分内容。大家在做数据治理最容易忽视的就是组织架构和人员配置,但实际上所有的活动流程、制度规范都需要人来执行、落实和推动,没有对人员的安排,后续工作很难得到保障。一方面治理推广工作没人做,流程能否坚持执行得不到保障。另一方面没有相关的数据治理培训,导致大家对数据治理的工作不重视,认为与我无关,从而导致整个数据治理项目注定会失败。建议大家在做数据治理的时候将组织架构放在第一位,有组织的存在,就会有人去思考这方面的工作,怎么去推动,持续把事情做好,以人为中心的数据治理工作,才更容易推广落地。

有一位国外的数据治理专家说得好,Data Governance is governance of people; Data behaves what people behave。翻译过来就是:数据治理是对人的行为的治理。对于组织而言,无论是企业还是政府,数据治理实质上是一项覆盖全员的、有关数据的“变革管理”,会涉及到组织架构,管理流程的变革。

当然,这是一种理想的状态。话说回来,我们看看国内的情况,在金融业和一些大的企业,可能会建立专门的组织来负责数据治理工作,但是某些政府和中小型企业,他们出于成本的考虑,往往没有这方面的预算。这种时候就需要折衷考虑,让已有岗位上的人,兼职负责数据治理的某个流程或功能。这样会加大现有岗位人员的工作负担,但是不失为一种折衷的方式,重点是要责任到人。

现场的实施和运维也非常重要,尽管数据治理有向自动化的方向发展的趋势,但是到目前为止,数据治理更多还是一种服务工作,而不仅仅是一套产品。因此,配置足够强的实施顾问和实施人员,帮助客户逐步打造自身的数据治理能力,是一项非常重要的工作。

总结:记住,做数据治理不是去逛逛shopping mall,选几样称心应手的工具回来就万事大吉了。开展好数据治理不能迷信工具,组织架构、制度流程、现场的实施和运维也非常重要,缺一不可。

误区五:数据标准难落地

很多客户一说到数据治理,马上就说我们有很多数据标准,但是这些标准却统统没有落地,因此,我们要先做数据标准的落地。数据标准真正落地了,数据质量自然就好了。

但这种说法其实混淆了数据标准和数据标准化。首先要明白一个道理:数据标准是一定要做的,但是数据标准化,也就是数据标准的落地,则需要分情况实施。

要做数据标准,我们首先需要全面梳理数据标准。而数据标准的全面梳理,范围很大,包括国家标准,行业标准,组织内部的标准等等,需要花费很大的精力,甚至都可以单独立一个项目来做。所以,首先需要让客户看到梳理数据标准的广度和难度。

其次,就算是花很大精力梳理,也很难看到效果,结果往往是客户只看到了一堆Word和Excel文档,时间一长,谁也不会再去关心这些陈旧的文档。这是最普遍的问题。

在金融业,或者像国家安全等一些特殊行业,数据标准的执行力度较好,而在政府和普通企业,数据标准基本上就是一种摆设。

造成这种问题的原因有两个:

一是大家对数据标准工作的不重视。

二是国内的企业做数据标准,动机往往不是为了做好数据治理,而是应付上级检查,很多都是请咨询公司,借鉴同行业企业的标准本地化修改而成,一旦咨询公司撤离,企业本身是没有数据标准落地的能力的。

但数据标准的落地,也就是数据标准化,其实一定要注意分情况进行,至少要分两种情形:

一类是已经上线运行的系统,对于这部分信息系统,由于历史原因,很难进行数据标准的落地。因为改造已有系统,除了成本以外,往往还会带来不可知的巨大风险。

第二类是对于新上线的系统,是完全可以要求其数据项严格按照数据标准落地的。

当然,数据标准是否能顺利落地,还与负责数据治理的部门所获得的权限直接相关,倘若没有领导的授权和强力支持,你是无论如何无法推动“书同文车同轨”的,要做到这一点,请先确认你背后站着说一不二的秦始皇,或者你本身就是秦始皇。别抱怨,这就是每个做数据治理的团队面临的现状。

总结:数据标准落地难是数据治理中的普遍性问题,实施过程中需要区要分遗留系统和新建系统,分别来执行不同的落地策略。

误区六:数据质量问题找出来了,然后呢?

辛辛苦苦建立起来平台,业务和技术人员通力合作,配置好了数据质量的检核规则,也找出来了一大堆的数据质量问题,然后呢?半年之后,一年之后,同样的数据质量问题依旧存在。

发生这种问题的根源在于没有形成数据质量问责的闭环。要做到数据质量问题的问责,首先需要做到数据质量问题的定责。定责的基本原则是:谁生产,谁负责。数据是从谁那里出来的,谁负责处理数据质量问题。

这种闭环不一定非要走线上流程,但是一定要做到每一个问题都有人负责,每一个问题都必须反馈处理方案,处理的效果最好是能够形成绩效评估,如通过排名的方式,来督促各责任人和责任部门处理数据质量问题。

这其实还是要追溯到我们在误区二里谈到的:要建立组织架构和制度流程,否则数据治理工作中的种种事情,没有人负责,没有人去做。

总结:数据质量问题的解决,要形成每一个环节都有确定责任人的闭环机制和反馈机制。

误区七:你们好像什么也没做?

很多数据治理的项目难验收,客户往往有疑问:你们做数据治理究竟干了些啥?看你们汇报说干了一大堆事情,我们怎么什么都看不到?发生这种情况,原因往往有前面误区一所说的客户需求不明确,误区三所说的做了大而全的数据治理而难以收尾等,但还有一个原因不容忽视,那就是没有让客户感知到数据治理的成果。用户缺乏对数据治理成果的感知,导致数据治理缺乏存在感,特别是用户方的领导决策层,自然不会痛快地对项目进行验收。

遇到这种情况,一句“宝宝心里苦,但宝宝不说”是无济于事的。一个项目从销售、售前、到组织团队实施,多少人付出了辛勤的汗水。重要的是让客户认识到项目的重要价值,最终为所有人的付出买单啊。

在我看来,在数据治理的项目需求阶段,就应该坚持业务价值导向,把数据治理的目的定位在有效地对数据资产进行管理,确保其准确、可信、可感知、可理解、易获取,为大数据应用和领导决策提供数据支撑。并且在这个过程中,一定要重视并设计数据治理的可视化呈现效果,诸如:

管理了多少元数据,是否应该用数据资产地图漂亮地展示出来。

管理了多少数据资产,哪些来源,哪些主题,来自于什么数据源,是否应该用数据资产门户的方式展示出来。

数据资产用什么方式对上层应用提供服务,这些对外服务是如何管控的,谁使用了数据,用了多少数据,是否应该用图形化的方式进行统计和展现。

建立了多少条清洗数据的规则,清洗了多少类数据,是否应该用图表展示出来。

发现了多少条问题数据,处理了多少条问题数据,是否应该有一个不断更新的统计数字来表示。

数据质量问题逐月减少的趋势,是否应该用趋势图展现出来。

数据质量问题根据部门、系统的排名,是否应该加在数据质量报告中,提供给决策层,帮助客户进行绩效考核。

数据分析、报表等应用,因为数据问题而必须回溯来源和加工过程的次数,是否应该统计逐月下降的趋势;之前的回溯方式,和现在通过血缘管理更清楚地定位问题数据产生的环节,这两者之间进行对比,节省了客户多少时间和精力,是否应该有一个公平的评估,并提交给客户。

用户之前找数据平均使用的时间,现在找数据平均需要的时间,是否能通过访谈的方式得到公平的结论,提交给客户。

……

以上这些都是提升数据治理存在感的手段。除了这些之外,时常组织交流和培训,引导客户认识到数据治理的重要性,让客户真正认识到数据治理工作对他们业务的促进作用,逐步转移数据治理的能力给客户等,这些都是平时需要注意的工作。

总结:传统的数据治理工作不重视效果的呈现,我们做数据治理工作,一定要从需求开始,就想办法让客户直观地看到成果。

总结:

在激烈的市场竞争下,大数据厂商提出来数据治理的各种理念,有的提出覆盖数据全生命周期的数据治理,有的提出以用户为中心的自服务化数据治理,有的提出减少人工干预、节省成本的基于人工智能的自动化数据治理,在面对这些概念的时候,我们一方面要对数据现状有清晰的认识,对数据治理的目标有明确的诉求,另一方面还要知道数据治理中各种常见的误区,跨越这些陷阱,才能把数据治理工作真正落到实处,项目取得成效,做到数据更准确,数据更好取,数据更好用,真正地用数据提升业务水平。

作者信息

蒋珍波,大数据专家,擅长为客户提供科学合理的大数据解决方案,尤其擅长数据治理、数据中台解决方案。曾先后供职于东南融通、普元信息、数澜科技、数梦工场等公司,负责过数据仓库、大数据平台、数据中台、数据治理等售前咨询工作,和技术团队的管理工作,有政府、大中型企业等多个行业经验。著有畅销专业书籍《数据中台》、《一本书讲透IT售前》。

欢迎同仁们商榷,加入知识星球“IT售前大本营”,星球号:46651559。共同探讨售前、大数据、数据治理、数据中台等相关领域的问题。

大数据治理:那些年,我们一起踩过的坑相关推荐

  1. 对于坐拥海量数据的金融企业来说,大数据治理意味着什么?

    玉不琢不成器,一块没有经过雕琢的美玉,需要经过琢磨打造之后,才能显现出它的真正价值.对于金融企业来说,数据不只包括自身业务系统中为支撑正常业务流转的数据,还包括从外界交易流中收获的大量第三方数据,这些 ...

  2. 一文读懂 Spring Boot、微服务架构和大数据治理三者之间的故事

    微服务架构 微服务的诞生并非偶然,它是在互联网高速发展,技术日新月异的变化以及传统架构无法适应快速变化等多重因素的推动下诞生的产物.互联网时代的产品通常有两类特点:需求变化快和用户群体庞大,在这种情况 ...

  3. 大数据治理需要具备哪些能力和关键技术?

    在企业数据建设过程中,大数据治理受到越来越多的重视.从企业数据资产管理和提升数据质量,到自服务和智能化的数据应用,大数据治理的内容在不断发展和完善,其落地实施的过程中会遇到各种各样的难题和挑战.本篇文 ...

  4. 大数据治理工程师_大数据治理关键技术解析(转自EAWorld)

    在企业数据建设过程中,大数据治理受到越来越多的重视.从企业数据资产管理和提升数据质量,到自服务和智能化的数据应用,大数据治理的内容在不断地发展和完善,其落地实施的过程中会遇到各种各样的难题和挑战.本篇 ...

  5. 证券期货行业监管大数据治理方案研究

    证券期货行业监管大数据治理方案研究 蒋东兴1, 高若楠2, 王浩宇2 1. 中国证券监督管理委员会信息中心,北京 100033: 2. 中证信息技术服务有限责任公司,北京 100033 摘要:为充分发 ...

  6. 【2016年第3期】大数据治理的数据模式与安全

    马朝辉1,聂瑞华1,谭昊翔1,林嘉洺1,王欣明1,唐华2,杨晋吉1,赵淦森1 1. 华南师范大学计算机学院,广东  广州  510630: 2. 华南师范大学软件学院,广东  佛山  528225 摘 ...

  7. 政府大数据治理的挑战及对策

    范灵俊1,洪学海1,黄晁2,华岗3,李国杰1 1.中国科学院计算技术研究所信息技术战略研究中心,北京 100190:2.宁波中国科学院信息技术应用研究院,浙江宁波 315048:3.宁波市智慧城市规划 ...

  8. 一文透析 Spring Boot、微服务架构和大数据治理三者之间的故事

    微服务架构 微服务的诞生并非偶然,它是在互联网高速发展,技术日新月异的变化以及传统架构无法适应快速变化等多重因素的推动下诞生的产物.互联网时代的产品通常有两类特点:需求变化快和用户群体庞大,在这种情况 ...

  9. Spring Cloud与微服务学习总结(8)——Spring Boot、微服务架构和大数据治理三者之间的故事

    前言 微服务的诞生并非偶然,它是在互联网高速发展,技术日新月异的变化以及传统架构无法适应快速变化等多重因素的推动下诞生的产物.互联网时代的产品通常有两类特点:需求变化快和用户群体庞大,在这种情况下,如 ...

最新文章

  1. 命令行程序增加 GUI 外壳
  2. 【我翻译的文章】你还需要数据层吗?
  3. 有无符号的整数、二进制
  4. 如何用计算机声卡,外置声卡怎么连接电脑
  5. AJAX技术入门 第五节 Javascript高级知识
  6. FFMPEG H264/H265 编码延迟问题
  7. 图像滤波 Image Filtering
  8. POJ3104 Drying [二分]
  9. 计组之总线:1、总线(分类、特性、定义、性能指标)
  10. oracle中树形数据,ORACLE树形数据解决方法
  11. android:launchMode=“singleTask“
  12. spring 项目中设置maven镜像源
  13. 基于STM32CubeIDE的STM32H750 DCMI接口驱动OV2640读取JPEG结合自编上位机实现可以用的数字图传
  14. 南阳oj入门题-兰州烧饼
  15. [UE5蓝图基础一]13.类似”人类一败涂地”掉落一定距离会回到空中 最终着落点还是设定地形上
  16. 小学计算机画图课件第一册,小学信息技术- 有趣的画图工具 课件.ppt
  17. matlab 统计数组频数_matlab如何找出一个数在数组中出现次数
  18. 学海无涯!如何在Android-Studio下进行NDK开发,全网疯传
  19. 人民币贬值如何影响你的生活
  20. mysql 查询当前年份

热门文章

  1. 354. 俄罗斯套娃信封问题
  2. stricmp linux 头文件,Windows下程序向Linux下移植细节
  3. UE4 C++入门之路1-C++和蓝图的关系和介绍
  4. 一键改计算机名字,上万文件如何快速批量重命名?原来只要一键就能搞定!-批量改文件名...
  5. OLED12864裸屏驱动电路
  6. oracle 查看指标 tps(Transactions Per Second)
  7. SEO互帮团真诚奉献:一百多个站长论坛!
  8. 开发板ARM+FPGA架构运动控制卡 运动控制器
  9. 网易2018编程题之游历魔法王国
  10. mysql索引与md5_谈Mysql索引