现在数据开放成了数据治理的热点,但数据开放是没法一步到位的,每个企业都要基于实际需要走出自己的路,下面就讲讲我所经历的数据开放演化史,整个过程长达近20年,大致经历了五个阶段:

(1)数据仓库时期-应用开放模式(2004-2007)

(2)数据集市时期-数据集开放模式(2007-2014)

(3)大数据平台时期-租户开放模式(2014-2017)

(4)数据中台时期-API开放模式(2017-2021)

(5)企业级数据治理时期-统一开放模式(2021-至今)

每个时期的数据开放模式也折射出了那个时期业务对数据的真正诉求,同时带有明显的时代特征。

1、数据仓库时期-应用开放模式(2004-2007)

业务驱动:

主要是为了满足公司财务管理、市场经营,客户服务等生产经营需要,属于被动的刚性要求。

数据来源:

通过数据仓库归集业务系统的数据,加工处理后形成模型、报表和指标数据。

数据范围:

单领域级,以业务B域为主。

开放形式:

模式A-通过web门户等渠道向业务部门提供数据,后增加了自助等形式。

模式B-通过定制化取数工单的形式提供数据。

数据特点:

模式A-加工完成的应用数据,以报表、指标为主,数据粒度较粗,一次使用完成后无法再重复利用,数据灵活性低,数据安全程度高。

模式B-报表、指标及结果数据为主,一次使用完成后无法再重复利用,数据灵活性高,数据安全程度高。

开放时效:

模式A-所见即所得。

模式B-依赖于数据团队的开发速度,一般为几天到几周。

开放成本:

模式A-一次性开发投入后持续自动更新和开放,受众范围广,性价比高。

模式B-每次开放都需要定制化开发,受众范围小,性价比低,开放成本随着需求的增加线性增长。

开放组织:

经营分析室。

2、数据集市时期-数据集开放模式(2007-2014)

业务驱动:

应用开放模式以开放固定的统计数据和结果数据为主,难以满足市场快速灵活的数据分析需求,一线要求开放可再利用的原生数据和模型数据,即采取“授人以渔”模式。

数据来源:

通过数据仓库归集的业务系统的原生数据及加工处理后形成的模型数据。

数据范围:

单领域级,以业务B域为主。

开放形式:

在模式A、B基础上,新增模式C-即通过数据交换需求工单的形式提供数据集到数据集市,一线自主加工后使用。

数据特点:

原生数据或者模型数据,以细粒度清单级数据为主,数据灵活性高,数据安全管控要求高。

开放时效:

一方面依赖于数据团队的交换配置时长和审批时长,另一方面也依赖一线数据团队的二次加工速度,一般为几天到一周。

开放成本:

一次性的数据交换成本及一线的二次开发成本。

开放组织:

数据运营部。

3、大数据平台时期-租户开放模式(2014-2017)

业务驱动:

移动互联网时代开启,流量数据爆发式增长,市场竞争日趋激烈,公司一方面要求加强用户上网行为分析,进一步加快数据响应速度,另一方面也要求探索对外数据价值变现,这对数据开放支撑模式和开放范围都提出了更高要求。

数据来源:

通过大数据平台归集的业务系统的原始数据及加工处理后形成的模型数据。

数据范围:

多领域,包括B域规模数据,O域高价值数据(DPI,位置等),M域个别数据。

开放形式:

在模式A、B及C基础上,新增模式D-即大数据租户的开放形式,相对于数据集市,大数据租户不仅可以授权开放,省去了数据交换的环节,而且开通的速度和灵活性大幅增加,这让“授人以渔”的开放模式逐步普及,数据租户开始百花齐放。

数据特点:

原生数据或者模型数据,以细粒度清单级数据为主,数据安全管控要求高,数据灵活性高。

开放时效:

所见即所得。

开放成本:

由于要直接给业务人员使用,开放数据的加工成本和解释成本很高。

开放组织:

大数据中心。

4、数据中台时期-API开放模式(2017-2021)

业务驱动:

针对数据开放运营中暴露的业务场景理解不深、能力无法沉淀和复用、开放过程无法掌控、开放效果无法评估、资源消耗过大,安全风险较高等问题,要求优化数据开放模式,提升数据开放的效率和效益。

数据来源:

在原来基础上,减少了原生数据的开放,加强二次加工后的数据模型的开放比例。

数据范围:

范围和类别基本不变,但基于业务需要不断丰富原有数据的属性和质量。

开放形式:

在模式A、B、C及D基础上,新增模式E-即API的开放形式,并对API进行闭环运营。

数据特点:

以模型数据及统计数据为主,时效性强、业务价值高、可解释性强,安全性较高。

开放时效:

所见即所得。

开放成本:

API封装需要一定的开发周期,需求方对接的开发成本较高。

开放组织:

大数据中心。

5、企业级数据治理时期-统一开放模式(2021-至今)

业务驱动:

数字化转型要求公司实施流程重构,实现全局流程最优,这就要求建立企业级数据治理体系,实现公司全域数据的贯通、采集和开放。

数据来源:

通过数据湖归集的业务系统的原始数据及加工处理后形成的数仓模型数据。

数据范围:

全领域,BOM全域数据,全面的跨域开放。

开放形式:

整合C、D、E三种开放模式,打造统一的数据目录和开放流程,通过数据地图提供一站式的针对各类开放类型的数据订阅开放服务,确保一致的开放体验。

数据特点:

原生数据+模型数据为主,业务价值高、可解释性强。

开放时效:

明确C、D、E的开放服务承诺并进行闭环运营。

开放成本:

通过平台化、集约化、标准化、自助化推进开放成本降低。

开放组织:

企业数据管理部牵头,明确数据拥有方、数据申请方,安全管理方等的职责。

从21世纪初数据仓库出现到现在已经过去近20年,数据开放的形式也在不断演化,不同的开放形式其实适配了不同领域数据分析的要求,在同一个公司,不同开放形式也往往同时存在,比如我所在的公司,ABCDE五种开放模式就同时存在。

要承认,模式A和B仍然是大多数公司的开放现状,但按照数据开放最新的定义,A和B甚至不能叫作数据开放,因为其仅能为特定应用目的服务,很难二次利用,流动起来也没多大价值,因此,一个公司报表和取数做的再多,也不代表数据开放水平和利用水平有多高。

相应的,C、D和E是更具价值的开放形式,但对这些原生数据的开采利用门槛会高很多,需要公司组织、机制、流程和平台的保障。

比如数据首先要找得到,读得懂,这就对公司的数据架构管理水平提出很高要求,至少要建立基本的数据目录和数据标准,又比如数据开放出去需要有人会用,这就对公司数据需求方的技术能力提出要求,再比如数据开放出去安全风险很大,这就对公司的数据安全管理能力提出更高要求,再比如要确保开放出去的数据质量,这就要求数据提供方能给出SLA承诺,所有这些,都离不开企业数据治理体系的保驾护航。

在相当长时间内,大多数公司只能将数据开放限制在特定的领域和特定的人群,这既受限于业务需要,也受制于生产关系,而数字化转型则是当前驱动数据进一步开放的催化剂。

报告 | 中国数据交易实践趋势

国办印发:全国一体化政务大数据体系建设指南

大多数企业数据治理方案都难以收到实效

数据治理咨询项目:《XX集团数据管理办法》.doc

数据治理:如何建立部门数据共享机制?(案例+图解)

主数据的实践和思考 by 傅一平

8000字详解银行业数据治理架构体系搭建

查看全部文章

点击左下角“阅读原文”查看更多精彩文章,公众号推送规则变了,如果您想及时收到推送,麻烦右下角点个在看或者把本号置顶

纵横20年,我所经历的数据开放演化史 by 傅一平相关推荐

  1. 万字长文:深度解读最新发布的《国家数据安全法》 by 傅一平

    来源:与数据同行本文约9900字,建议阅读15分钟本文将深度解读<国家数据安全法>. 2021年6月10日,第十三届全国人民代表大会常务委员会第二十九次会议通过<数据安全法>三 ...

  2. 商汤科技20年秋招智慧城市-数据运营工程师笔试题(2019.8.19)

    套题 商汤20年秋招智慧城市-数据运营工程师笔试题 题型 选择 * 20 + 问答 * 3 完成时间 60分钟 ❤️ 「更多数据分析真题」 <数据分析真题日刷 | 目录索引> ❤️ 「更多 ...

  3. 网络在20秒内没有下行RTP数据包,被叫终端主动中断VoLTE通话链路

    问题描述 被测终端在预定测试地点进行"语音数据业务并发的eSRVCC"测试时 终端A进行FTP上传和下载,数据业务在测试过程中一直保持: 终端A语音呼叫终端B,测试20次: 1次出 ...

  4. 小猪的Python学习之旅 —— 20.抓取Gank.io所有数据存储到MySQL中

    小猪的Python学习之旅 -- 20.抓取Gank.io所有数据存储到MySQL中 标签:Python 一句话概括本文: 内容较多,建议先mark后看,讲解了一波MySQL安装,基本操作,语法速成, ...

  5. 2015年《大数据》高被引论文Top10文章No.3——我国政府数据开放现状和保障机制...

    2015年<大数据>高被引论文Top10文章展示 [编者按]本刊将把2015年<大数据>高被引论文Top10的文章陆续发布,欢迎大家关注!本文为高被引Top10论文的No.3, ...

  6. 《大数据》第2期“专题”——我国政府数据开放现状和保障机制

    我国政府数据开放现状和保障机制 周大铭 (工业和信息化部赛迪智库软件和信息服务业研究所 北京 100846) 摘要:基于国外政府数据开放的发展现状,总结了国外政府数据开放的重要特点,包括完善的法律法规 ...

  7. 开放科学背景下的科学数据开放共享:国家青藏高原科学数据中心的实践

    开放科学背景下的科学数据开放共享:国家青藏高原科学数据中心的实践 潘小多1,2, 李新1,2, 冉有华3, 郭学军2 1 中国科学院青藏高原研究所国家青藏高原科学数据中心,北京 100101 2 中国 ...

  8. 实现数据开放共享的方法

    实现数据开放共享的方法 当前之所以存在严重的信息孤岛问题.数据难以开放共享,根本原因在于当前的信息系统设计的理论体系有问题.信息孤岛犹如爱滋病,一旦产生就不可医治,BI.EAI.EDI.ETL.ESB ...

  9. 傅一平:运营商的大数据变现实践

    3月29日,由东湖大数据发起.数据观作为合作媒体参与的大数据百人会·线上沙龙第9期活动圆满结束,浙江移动大数据中心傅一平博士就<运营商大数据变现实践>主题与大家分享了数据利用的心得与经验, ...

最新文章

  1. 从信息熵到Codec
  2. python和java一样吗-Java与Python到底有什么区别和共同点详细对比
  3. 利用python发送邮件_利用python实现简单的邮件发送客户端示例
  4. CentOS 6.7 FTP安装配置之pure-ftpd
  5. canvas 插件_基于canvas的JavaScript 二维码生成工具——QRCanvas
  6. SD-WAN三大部署方式 用户现身说法谈优劣势
  7. 内网信息安全厂商对客户的误导
  8. com.mysql.jdbc.connection和java.sql.connection的区别
  9. ES6 String和Number扩展
  10. redhat7 linux修改语言,RedHatLinux7.1中语言化完全攻略(二)
  11. 如何从seo的维度来选择网站的关键词
  12. 硬盘显示无法访问由于IO设备错误的文件找到办法
  13. 【安全资讯】熊猫烧香之后15年,网络变安全了吗?
  14. 怎么关闭Deep Freeze (冰点还原精灵单机版)
  15. 2021最新 从零开始搭建terraria(泰拉瑞亚)云服务器
  16. Mock.js有什么用
  17. 基础地图-在线地图-天地图(标注)
  18. java实现微信、手机号登陆_Java后端解密微信小程序手机号数据
  19. 程序员必备网站和工具
  20. 以小刀会“的成败论当今创业成败

热门文章

  1. c语言两个for语句并列执行_C语言for循环(for语句)详解
  2. 蝴蝶键盘 Linux,Macbook蝴蝶键盘与普通键盘有什么不一样? 蝶式结构键盘解析
  3. 安信可LoRaWAN网关 RG-02 接入TTN平台,控制多节点LoRaWAN模组。
  4. Ant Design Vue 的 table 隐藏特定列
  5. 如何言语上更好的激励别人?
  6. C语言——字符串+转义字符+注释
  7. python是一种跨平台、开源、免费的高级动态编程语言吗_智慧职教: §Python是一门跨平台、开源、免费的解释型高级动态编程语言。...
  8. 浅谈USB设备的VID和PID
  9. AWS创建并连接云虚拟机 - Linux(结尾附视频)
  10. python模块-win32clipboard-访问windows剪切板-实现复制粘贴