作者介绍

@Super超

空间计算与城市大数据

塑造未来的科幻迷

持续更新大数据与数据科学系列

01

数据治理的背景

从1969年开始,互联网已经走过了PC、移动,向产业互联网时代迈进,人类活动被全面数字化。

数字化技术革命给商业带来前所未有的机会,大数据让我们更懂用户和这个世界,这一切看上去很美好,但是危机已经在悄然中来临。

随着业务的发展,数据规模也在以滚雪球的速度膨胀,带来了一系列棘手的问题:

1. 高昂的成本支出

据测算,存储1PB数据的硬件投入总成本在80万左右,对于那些业务遍布全国的互联网公司来说数据量达到60-80PB是很常见的事,这就意味着一年的存储成本要花5000-8000万左右。而且数据中心的机架容量是有限的,建设新的数据中心不是易事。这一切都在制约着企业的发展,吞噬着企业的利润。

2. 数据质量风险增加

海量的数据带来了复杂的链路依赖,数据质量风险濒临失控。随着数据量的增长,运维压力也越来越大,故障告警次数显著增多。

3. 组织协作出现问题

庞大的数据规模,纷乱的命名和存储,以及理不清的业务逻辑,让团队协同越来越难,推进大型项目需要参与的团队人数越来越多。体现在企业集中力量办大事的能力逐渐丧失。

4. 数据孤岛开始出现

想要获得一项指标,找不同的人可以得到不同的查询结果,这其中出现的问题主要是口径对焦。不同的人对于业务的理解也并不相同,缺少统一的标准,这是很多公司发展过程中都存在的问题。数据不好找,找到不敢用、不能用,迫使业务只能选择重复建设资产,而重复建设资产更进一步加剧了数据不好找不好用的问题,形成了恶性循环,数据孤岛壁垒越垒越高。

这一系列的问题如果任由其继续发展,数据对于业务只会变成鸡肋,甚至会成为企业的负债。

02

数据治理的目标

数据治理是一项复杂的工程,想要做好数据治理首先要做的事是定好目标。关于数据治理的目标,可以简单理解——数据治理的目标就是要让数据成为资产而不是负债。

数据资产的概念在上一篇文章中讲过,是能给企业带来经济效益的资源。想要让数据成为资产,不外乎是”开源”、”节流”,前者指的是释放数据价值,为业务带来增长,后者指的是节约成本。这里的节约成本不单单是涉及到数据存储成本,还包括了管理成本、数据风险成本等隐形的部分,让数据变成高质量的数据。

03

数据治理的核心

几乎所有关于数据治理的定义都在谈论建立”组织”、明确”权责”、制定”方法/制度/标准”。事实上,数据之所以需要治理,问题的根源在于”无序”。而数据治理的核心就是制定数据世界的游戏规则,让数据世界重归有序。

1. 组织设计

明确数据治理的权责是开展数据治理工作的首要步骤。因为一切问题都可以归根于人的问题。资源的调动,制度的设计、执行、监督,最终都要落实在人上。很多时候问题难以推进,原因就在于人的重视不够,级别不够,相关方不配合。

某金融科技独角兽公司在从事数据治理的过程中识别到主要问题表现在数据架构腐坏,而数据架构的腐坏的根源在于缺少推进全局数据架构持续演进的组织。这个组织是数据治理顶层设计的灵魂,为数据治理的最终成果负责。为此,该公司成立了数据超域架构师小组。

橙色集团十余年来的数据架构经验表面,一个稳定的持续迭代的中间层是保持数据架构有序的关键。跟随业务奔跑过程中总需要有人停下来修缮屋顶。为此,该集团将数据资产研发和数据应用研发角色剥离开来,以沉淀资产、中间层建设、资产架构优化为主要职责,设立数据资产工程师岗位和独立晋升通道。

2. 规则制定

规则规范的指定是开始具体工作的前提,目的在于统一标准,打破由于标准不一致带来的数据孤岛问题。

某金融科技独角兽制定了三项核心规范:”数据资产必须先定义后研发”、”数据资产不能重复建设”、”应用资产依赖公共服务资产建设”。这三项核心规范具备纲领性质,易于记忆和传播。

在核心规范指导下,更贴近于执行层面的,有一系列更详细的指导规范。例如如何保障指标的一致性、如何确保标签资产实现互通互享、如何避免数据资产重复建设等。

3. 机制设计

机制设计的目的是解决组织协作的效率问题,可以分成研发协作机制和数据互通机制两方面来讲。

研发协作机制:要解决的是”找谁做(资源问题),如何做(架构问题),何时做(排期问题),如何用(沟通问题)”,建议采用独立资源统一架构统一排期模式,输出产物为数据中台全景图和操作手册。

数据互通机制:遵循”宽进严出、全链路可追踪可审计”的策略原则,兼顾效率提升和安全风控两方面。

今天主要跟大家分享了大数据治理的背景、目标及核心,下节我们来聊聊到底如何做大数据治理。

数据人交流和学习的社区,关注我们,掌握专业数据知识、结识更多的数据小伙伴。

带你探索数据的神奇奥秘

如何获取中间层的结果_如何从0开始做大数据治理(上)相关推荐

  1. python做大数据可视化软件_一般用哪些工具做大数据可视化分析?

    大家都回答的是工具产品,似乎都没有人讲讲R语言和Python,怒答. -------------------------------------------多图预警! R-ggplot2 ggplot ...

  2. 大数据治理工程师_大数据治理关键技术解析(转自EAWorld)

    在企业数据建设过程中,大数据治理受到越来越多的重视.从企业数据资产管理和提升数据质量,到自服务和智能化的数据应用,大数据治理的内容在不断地发展和完善,其落地实施的过程中会遇到各种各样的难题和挑战.本篇 ...

  3. 深度学习数据集中数据差异大_使用差异隐私来利用大数据并保留隐私

    深度学习数据集中数据差异大 The modern world runs on "big data," the massive data sets used by governmen ...

  4. 大数据 深度 分页_机器学习、深度学习、大数据 ?傻傻分不清楚?

    提起机器学习四个字,不知你的脑海中是否会有一丝印象?毕竟身处信息时代,在日常生活中,无论通过什么媒介,接触到这个名词概念的机会还是挺大的.与之类似,还有以下这些名词概念:数据分析.数据挖 掘.深度学习 ...

  5. 多层数组如何遍历_带你从零学大数据系列之Java篇---第五章:数组

    温馨提示:如果想学扎实,一定要从头开始看凯哥的一系列文章(凯哥带你从零学大数据系列),千万不要从中间的某个部分开始看,知识前后是有很大关联,否则学习效果会打折扣. 系列文章第一篇是拥抱大数据:凯哥带你 ...

  6. string能存多大数据_信息技术助力精准教学:大数据到底有多好用?

    当今时代,数据已经成为人类最宝贵的资产之一.对于发展现代化教育而言,想要实现信息技术与学科的深入融合,更是离不开教育大数据的作用.眼下,突如其来的疫情使老师们纷纷化身"线上主播", ...

  7. python 写入excel 日期_详解:Python实现大数据收集至excel的思路大牛分享(建议收藏)...

    一.在工程目录中新建一个excel文件 二.使用python脚本程序将目标excel文件中的列头写入,本文省略该部分的code展示,可自行网上查询 三.以下code内容为:实现从接口获取到的数据值写入 ...

  8. 数据查询和业务流分开_一文带你了解大数据管道

    介绍 如果您从大数据开始,通常会被众多工具,框架和选项所困扰. 在本文中,我将尝试总结其成分和基本配方,以帮助您开始大数据之旅. 我的目标是对不同的工具进行分类,并试图解释每个工具的目的以及它如何适应 ...

  9. python 免费空间_用python做大数据

    不学Python迟早会被淘汰?Python真有这么好的前景? 最近几年Python编程语言在国内引起不小的轰动,有超越Java之势,本来在美国这个编程语言就是最火的,应用的非常非常的广泛,而Pytho ...

  10. python大数据免费_用python做大数据

    不学Python迟早会被淘汰?Python真有这么好的前景? 最近几年Python编程语言在国内引起不小的轰动,有超越Java之势,本来在美国这个编程语言就是最火的,应用的非常非常的广泛,而Pytho ...

最新文章

  1. 2.1 帮助命令、用户管理、压缩
  2. 关于SharePoint部署Webpart的十个必读链接(downmoon)
  3. Android Studio修改编译JDK
  4. java Unicode转码
  5. hadoop 开启防火墙_hadoop上搭建hive
  6. OpenCV之图像的平滑(笔记09)
  7. vfp生成菜单时文件不存在_如何在VFP项目中创建菜单
  8. python怎么创建变量balance_在Python中将变量从一个函数修改为另一个函数
  9. ios icon尺寸问题
  10. VS代码中明明有NO_BITMAP字串,提示找不到
  11. html在ie中img地址为https,关于IE10以下的img标签问题解决
  12. 基于微信小程序的课堂考勤系统设计与实现
  13. QGIS教程—缓冲区buffer
  14. win7电脑怎么录屏?如何使用电脑录屏软件
  15. 组成计算机网络必备的条件是什么,要组成计算机网络必须具备的三要素
  16. 杂记之罗翔语录:要爱具体的人,而不要爱抽象的人
  17. 四则运算——单元测试(测试方法:Right-BICEP )
  18. Tessent scan ATPG(7) 设计规则检查 (DRC)
  19. 【正点原子MP157连载】 第十章 U-boot使用-摘自【正点原子】【正点原子】STM32MP1嵌入式Linux驱动开发指南V1.7
  20. Android 仿微信语音聊天音量大小显示控件

热门文章

  1. python在类中创建线程
  2. TTC - Building a Better Vocabulary
  3. 190418每日一句
  4. Atitit QL查询语言总结 目录 1. QL = Query Language, 是查询语言的简称 1 2. 具体实现 1 2.1. Apcl 流程控制语言 1 2.2. 脚本流程控制 2 2.
  5. Atitit object 和class的理解 目录 1.1. 发现很多Object的方法都是相同的,他们被重复地放在一个个对象当中,太浪费了。 1 1.2. 那我们怎么把这些Object给创建起来
  6. Atitit oil painting article list sumup s55 C:\Users\Administrator\Desktop\油画技术资料包\Atitit Atitit 图像
  7. Atitit s2018 s3 doc list alldvc.docx .docx s2018 s3f doc compc s2018 s3f doc homepc sum doc dvcCom
  8. Atitit 界面接口技术 cli gui nui cui管理 attilax总结 1. NUI 1 1.1. 问:什么是“自然用户界面”? 1 2. Cli到gui到nui CUI 2 2.1.
  9. Atititjs javascript异常处理机制与java异常的转换.js exception process
  10. paip.提升安全---网站登录密码明文传输的登录高危漏洞解决方案