【与数据同行】已开通综合、数据仓库、数据分析、产品经理、数据治理及机器学习六大专业群,加微信号frank61822702 为好友后入群。新开招聘交流群,请关注【与数据同行】公众号,后台回复“招聘”后获得入群方法。

正文开始

本文根据 ITPUB 技术栈直播「数据中台建设」之思考演讲实录整理。

位朋友,大家晚上好,我给大家分享的是《关于数据中台建设之思考》。

本人断断续续从事数据仓库约有五六年经验,在移动公司前三年是负责数据仓库项目实施,后四年开发搞大数据平台,见证了从传统数据仓库转型到大数据平台的全历程,见证了大数据平台从0到1的全部过程,包括第一个MPP数据集市、第一个Hadoop集群项目、第一个流式数据处理项目,第一个完整的大数据平台的融合和构建,混搭式大数据平台的融合构建,大数据平台的迁移等等,我所经历的大数据平台从规模说大不大说小不小,每天处理数据量将近20T(实时处理月10T左右),总集群约300台(其中Hadoop节点约200台),总容量约8P,实际使用容量约5P;包括了从数据仓库到大数据平台数据模型的重构,数据模型的拓展;也包括了大数据平台提供各种对内应用的规划,和向外提供大数据应用。因此对数据仓库和大数据平台的优缺点、各自存在的问题、疑惑、发展方向,也算有一定的认知,包括对新生的数据中台的发展方向,结合自己过往的经验,谈谈自己的一些想法。

什么是数据中台?

说实在的,互联网是制造新名词的地方,现在各种新名词层出不穷,顶层的有数字城市、智慧地球、智慧城市、城市大脑;企业层面的有数字化转型、互联网经济,数字经济、数字平台;平台层面的有物联网,云计算,大数据,5G,人工智能,机器智能,深度学习,知识图谱;技术层面的有数据仓库、数据集市、大数据平台、数据湖、数据中台、业务中台、技术中台等等,总之是你方唱罢他登场,各种概念满天飞…

在比拼新经济的过程中,其实比拼的是流量也就是用户,但流量不等于用户,用户也不完全等同于流量;有了流量和用户,就等于比拼了对用户的话语权。各种互联网概念也是如此,单纯从传统的数据仓库或是大数据平台而言,金融或通信运营商在数据治理、数据管理、企业模型、应用效能、高可靠性上做的绝对不比BAT差的,但这些行业有着国企的内敛、同时承担了太多的安全、隐私、稳定要求,空有用户和数据,却很难对外发挥应有的作用,导致在整个信息技术行业内的话语权不高;互联网公司在对数据使用的灵活性、技术的前瞻性、经济效益的引导性、适度容错方面做的远远超出其他行业,所以行业之间的相互吸收和借鉴也是值得探讨的。

新名词的推出,要被大众所能接受,在背后是要有话语权支撑的,而目的当然只有利益了,也不排除个别技术人员自己美好的想法和初衷。

回到正文,不管怎么说,数据中台这个概念已逐步火了起来,但数据中台是什么?

1、数据中台是聚合和治理跨域数据,将数据抽象封装成服务,提供给前台以业务价值的逻辑概念。

2、数据中台是一套可持续“让企业的数据用起来”的机制,一种战略选择和组织形式,是依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑,构建一套持续不断把数据变成资产并服务于业务的机制。

3、数据中台连接数据前台和后台,突破数据局限,为企业提供更灵活、高效、低成本的数据分析挖掘服务,避免企业为满足具体某部门某种数据分析需求而投放大量高成本、重复性的数据开发成本。

4、数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。

5、数据中台,包括平台、工具、数据、组织、流程、规范等一切与企业数据资产如何用起来所相关的。

以上概念是从互联网上搜索并拷贝出来的,总的来说中台也好,数据中台也好,还缺乏一个标准的定义,仅从字面上理解,数据中台是解决如何用好数据的问题,既然是概念,数据中台也被赋予了很多扩大的外延,也上升到了数据的采集、计算、存储、加工和数据治理等方面,这就和传统的大数据平台在功能和作用上产生了很大的重叠;而大数据平台又是从数据仓库发展起来的。那到底这三者的关系是怎么样的呢?

我个人认为数据中台就是数据服务化,服务化的核心是数据模型化和服务组件化,服务化的基础是大数据平台

数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策和全局信息共享。所谓主题:是指用户使用数据仓库进行决策时所关心的重点方面,如:收入、客户、销售渠道等;所谓面向主题,是指数据仓库内的信息是按主题进行组织的,而不是像业务支撑系统那样是按照业务功能进行组织的。所谓集成:是指数据仓库中的信息不是从各个业务系统中简单抽取出来的,而是经过一系列加工、整理和汇总的过程,因此数据仓库中的信息是关于整个企业的一致的全局信息。所谓随时间变化:是指数据仓库内的信息并不只是反映企业当前的状态,而是记录了从过去某一时点到当前各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

数据仓库的主题建模思想是1. 面向主题:采用范式模型理论中的主题划分方法对业务数据进行分类。2. 一致性保证:采用维度模型理论中的总线结构思想,建立统一的一致性维度表和一致性事实表来保证一致性。3. 数据质量保证:无论范式建模还是维度建模都非常重视数据质量问题,综合使用两个理论中的方法保证数据质量。4. 效率保证:合理采取维度退化、变化维、增加冗余等方法,保证数据的计算和查询效率。

中国移动的经营分析系统数据仓库

基础数据反映了省级经营分析系统涉及的中国移动核心数据,包括参与人、事件、服务、资源、帐务、营销和财务七大主题域,并依据实体-关系理论,遵照第三范式进行建模。

汇总数据来源于对基础数据中的常用指标数据进行轻量汇总,并对关键业务实体进行标准化处理。汇总数据服务于信息子层,用以减少数据转换步骤,提高数据提供的效率。

信息子层是经营分析系统加工后的结果数据,通过数据封装服务,对外提供统一的信息视图。

汇总数据逻辑模型体现了基础数据中部分数据的轻度汇总。汇总数据逻辑模型的设计采用自底而上和自顶向下两种方法相结合,首先将清单等汇总形成清单汇总,然后对应信息子层的数据需求,设计个人客户、集团客户、他网客户等主题的汇总。

信息子层逻辑模型的设计采用自顶向下方法,通过分析数据封装和业务规范的需求,形成基础数据视图(如KPI、报表)、个人客户、集团客户、家庭客户、他网客户、产品、渠道、终端、校园客户、垃圾短信客户、网络和营销资源统一视图。信息子层逻辑模型的设计采用自顶向下方法,通过分析数据封装和业务规范的需求,形成基础数据视图(如KPI、报表)、个人客户、集团客户、家庭客户、他网客户、产品、渠道、终端、校园客户、垃圾短信客户、网络和营销资源统一视图。

  数据集市是?

数据集市将数据仓库中的数据按照不同角度进行组织和存储,主要面向地市分公司或者特定业务部门、特定需求的业务,建立相应的应用专题。数据集市的特点是数据粒度较粗,数据采取星型或雪花型结构,较少保留历史数据,便于访问分析和快速查询。数据集市具有面向特定用户群、合理的查询响应时间、便于扩展的特点。数据集市目前细分为地市数据集市和专业数据集市,其中专业数据集市又分为增值业务数据集市、集团客户数据集市和互联网数据集市。

数据集市通常是数据仓库的子集;它等数据通常来自数据仓库 – 尽管还可以来自其他来源。数据集市的数据专门针对特定的用户社区,以便他们能够快速找到所需的数据。通常,数据保存在那里用于特定用途,例如财务分析。

数据湖是什么?

数据湖(Data Lake)是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。数据湖是以其自然格式存储的数据的系统或存储库,通常是对象blob或文件。数据湖通常是企业所有数据的单一存储,包括源系统数据的原始副本,以及用于报告、可视化、分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库(行和列)的结构化数据,半结构化数据(CSV,日志,XML,JSON),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像,音频,视频)。如果没做好企业数据模型构建,我个人认为数据湖是懒人数仓。

大数据平台是什么?

企业级大数据平台实现结构化、半结构化和非结构化数据统一存储计算功能,通过数据封装提供服务功能,提供自助报表工具,面向市场、网络以及企业外部提供服务。

  • 数据采集中心:负责采集多样化数据。

  • 数据计算存储中心:负责对数据进行加工、转换和汇总等工作,并将数据加载到不同的存储系统中。

  • 开放共享中心:统一数据服务接口。

  • 数据管理中心:负责系统数据的元数据、数据质量、数据模型和数据安全管理。

  • 运营管控中心:负责系统运行任务的编排、调度,以及设备、平台和应用的全景运维监控视图。

随着平台厂家和应用厂家的分离,应用的凸显,为了实现数据价值,以数据应用为中心构建企业数据模型,为实现内外部应用支撑,又建设了开放共享平台,提供数据服务和Open API服务,为了支持多应用厂家协作开发,又提供了多租户管理,安全管理、数据目录管理。但在构建过程上缺乏标准化,大家看看是不是这就是数据中台的雏形。

什么是数据中台?

数据中台是数据服务工厂。

数据中台对于业务的价值是“加速从数据到价值的过程,提高企业的响应能力“。

数据中台对是聚合和治理跨域数据,将数据抽象封装成服务,提供给前台以业务价值的逻辑概念。

后文是对数据仓库、大数据平台、数据中台的一些总结性的架构材料,也是对自己这些年来的一些汇总和思考吧,看懂了前面的文字,后面的各种架构图也就无需赘述了。

数据仓库硬件架构

数据仓库包括了文件服务器、调度服务器、数据仓库服务器、数据集市服务器、邮件服务器、4A认证服务器、应用服务器、数据备库,后来发展到分布式调度、MPP,都是一点点演进出来的。

数据仓库功能架构

数据仓库技术架构

第一个Hadoop平台硬件架构

每天接入5T上网信令

1、小机+数据库计算存储能力不足

2、小机+数据库扩容成本太高

3、单机文件采集吞吐量不足

主要是为了解决海量离线数据的计算和存储,在Hadoop集群中实现明细数据、汇总数据存储,在mysql中实现报表数据存储。

Hadoop管理和存储集群:负责海量数据存储和计算

分布式文件采集集群:负责海量数据的文件采集

分布式ETL调度集群:负责海量数据的ETL编排和调度

应用服务器:负责应用系统的构建

MySQL服务器:负责报表层数据的存储。

第一个流式处理平台硬件架构

每天接入7T上网信令+5T位置信令

1、对信令的实时采集

2、对信令的实时计算

3、对信令的实时事件捕捉

主要是为了解决海量实时数据的流式采集和计算,在Hadoop集群中实现明细数据、汇总数据存储,在mysql中实现报表数据存储;并通过实时事件处理集群实现流式事件的匹配。

Kafka集群:负责将信令数据或数据库日志数据转入消息队列供下游消费

实时事件处理集群:负责获取消息队列数据,并进行数据实时统计和实时计算

实时服务集群:负责将实时事件数据放入redis缓存中,并结合静态数据进行结果输出。

▍大数据平台系统规划

规划是建设的基础

大数据平台系统规划-硬件规划

大数据平台系统规划-磁盘规划

大数据平台系统规划-平台软件规划

大数据平台系统规划-内存库规划

大数据平台系统规划-数据流向规划

大数据平台系统规划-平台监控规划

大数据平台-技术栈

大数据平台-逻辑部署图

大数据平台-功能视图

大数据平台-数据流向图

大数据平台-数据流向图

大数据平台-硬件架构

大数据平台-整体硬件架构

大数据平台-Lambda架构和kappa架构

数据中台

数据中台整体架构

数据仓库实现了企业数据模型的构建,大数据平台解决了海量、实时数据的计算和存储问题,数据中台要解决什么呢?数据如何安全的、快速的、最小权限的、且能够溯源的被探测和快速应用的问题。

数据中台不应该被过度的承载平台的计算、存储、加工任务,而是应该放在解决企业逻辑模型的搭建和存储、数据标准的建立、数据目录的梳理、数据安全的界定、数据资产的开放,知识图谱的构建,通过一系列工具、组织、流程、规范,实现数据前台和后台的连接,突破数据局限,为企业提供更灵活、高效、低成本的数据分析挖掘服务,避免企业为满足具体某部门某种数据分析需求而投放大量高成本、重复性的数据开发成本。

厚平台,大中台,小前台;没有基础厚实笨重的大数据平台,是不可能构建数据能力强大、功能强大的数据中台的;没有大数据中台,要迅速搭建小快灵的小前台也只是理想化的。

我想这才是数据中台的初衷。

作者简介:王保强

21年IT工作经验,IT老兵一枚。

关注领域包括证券、航空、制造、电信、电网等。

在数据库开发和优化、数据仓库、系统架构、大中型项目管理、数据治理、数据分析、大数据方 面有一定研究。

ITPUB数据仓库和MSSQL等版块版主,dataguru网站电信版版主,CSDN专家博客,曾获ITPUB 最佳博客和ITPUB数据库大版最佳版主,曾受微软邀请参与2012年西雅图举办的DTCC大会。

《剑破冰山–Oracle开发艺术》一书合著者;《IT项目管理那些事儿》一书主编。

已申请多项IT方面发明专利。

参与移动集团经营分析系统5.0、企业级大数据平台1.0相关规范的编写和审计;

集团公司移动大数据专家。

你的数据中台需要做一个成熟度评估了

“上中台吗?会送命的那种!”

中台搞了2年,项目叫停,CIO被裁!本以为中台是道送分题,没想到是送命题!

中台的问题,是技术的问题,还是人的问题

有赞数据中台建设实践

漫画:什么是中台?

你需要的不是中台,而是一名合格的架构师(附各大厂中台建设PPT)

不做中台当然会死!

数据中台应该包含什么?

中台的末路

浙江移动数据中台的建设和应用实践

不做中台会死吗?

OPPO数据中台之基石:基于Flink SQL构建实数据仓库

数据中台已成下一风口,它会颠覆数据工程师的工作吗?

数据中台不是技术平台,没有标准架构!

超越平台,数据中台的业务化、服务化及开放化!

读透《阿里巴巴数据中台实践》,其到底有什么高明之处?

什么才是运营商数据中台最大的竞争力?

为什么企业要从离线数据中台走向实时数据中台?

艰难的旅程,你的数据中台到底能为一线提供多少火力?

如何清晰的实施“大中台,小前台” 大数据运营策略?

数据中台到底是什么?

企业的数据中台的价值

艰难的抉择,阿里“小前台、大中台”的解读

关于数据中台建设之思考相关推荐

  1. 千万QPS毫秒响应:快手数据中台建设实践

    " 本文整理自快手数据平台部,数据服务化中台负责人倪顺发表的<快手数据中台建设-大数据服务化之路>的演讲. 围绕数据资产服务化,服务于业务产生商业价值进行了分享: 第一部分是背景 ...

  2. 数据中台建设中的得与失

     本文根据新康众数据中台负责人闫顺成<数据中台建设中的得与失>的演讲整理.主要内容如下: 一.什么是数据中台 每个企业.每个岗位.每个人对数据中台的理解都有所不同.在阿里,数据中台与方法论 ...

  3. 新康众闫顺成:数据中台建设中的得与失

    本文根据新康众数据中台负责人闫顺成<数据中台建设中的得与失>的演讲整理.主要内容如下: 一.什么是数据中台 每个企业.每个岗位.每个人对数据中台的理解都有所不同.在阿里,数据中台与方法论. ...

  4. 钱大妈数据中台建设最佳实践

    简介:钱大妈数据中台建设最佳实践 公司简介 钱大妈是在社区生鲜连锁中,以"不卖隔夜肉"作为品牌理念的的行业开拓者.在成立之初即从新鲜角度重新梳理传统生鲜行业的标准,对肉菜市场进行新 ...

  5. 有道精品课数据中台建设实践

    今天给大家带来有道精品课数据中台负责人李荣谦所做的分享<有道精品课数据中台建设实践.pdf>,关注数据中台等的伙伴们别错过啦!(到小程序:省时查报告 中搜索"中台".& ...

  6. 爱奇艺数据中台建设方案.ppt

    大家好,今天给大家分享下爱奇艺数据中台建设时间方案,本文主要内容包含以下几部分: 数据中台的产生:数据工作的痛点.数据中台的产生.中台的实质 爱奇艺数据中台的定义:理解数据中台.数据中台的发展历程.输 ...

  7. 民生银行的“数据中台”建设实践!

    引言 银行是传统行业中非常重视信息化的,而且起步早,信息化程度高,但是由于技术的高速发展,互联网思维的冲击使得银行纷纷面临数字化转型的挑战,这里的转型不仅是业务转型,也有技术转型. 如今,许多业务不用 ...

  8. 关于数据中台建设,“新旧”两种思路对比

    数据中台是商业模式从IT时代进入DT时代的必然产物,是从流程驱动转向数据驱动的必然结果.以数据中台为导向,凭借数据证明或判断决策,形成数据服务思维,最终实现企业数字化转型. 数据中台建设模式颠覆了传统 ...

  9. 数据中台:宜信敏捷数据中台建设实践

    2019独角兽企业重金招聘Python工程师标准>>> [宜信技术沙龙]是由宜信技术学院主办的系列技术分享活动,活动包括线上和线下两种形式,每期技术沙龙都将邀请宜信及其他互联网公司的 ...

最新文章

  1. NASA将天文数据转换为音频,来听听银河系的声音!
  2. python处理图片隐写分析_Python3简单实现隐写术
  3. django-redis中redis.conf配置详细说明
  4. mysql 8.0.25 取巧解决修改密码报错问题
  5. 计算机网络之网络层:12、网络层设备
  6. Ubuntu 下无法Tab键自动补全功能解决办法
  7. POJ1275Cashier Employment(查分约束系统)
  8. 存量客户管理之提额降息
  9. SpringCloud Config手动刷新及自动刷新
  10. mybatis collection标签_MyBatis第二天(结果映射+动态sql+关联查询)
  11. node on mac
  12. 二阶系统响应指标图_频率响应介绍_二阶系统的频率响应
  13. 安卓逆向助手反编译apk后文件夹为空
  14. C语言malloc函数详解
  15. 人民大学联合今目标成立企业行为研究中心
  16. 软件测试思想者(Software Testing - Thinker) - Logo一览
  17. [朴智妍][또르르][轱辘轱辘]
  18. 夜神模拟器SD卡文件存储位置
  19. 半夜撸 flap bird
  20. git入职第一天快速使用指南

热门文章

  1. 服务器宝塔面板配置远程连接数据库
  2. qq 企业邮箱 php群发邮件,腾讯企业邮箱PHP SDK
  3. FiddlerScript 注入cooke实现自动登录,Fiddler实现免登陆,浏览器通代理实现自动登录
  4. 【SQL】sql的数学基石之关系代数与关系运算详解
  5. 场景图生成论文阅读笔记 之 Neural Motifs
  6. 中国电信在OpenStack上的层层突破与步步进取
  7. 个人工作总结和计划怎么写
  8. java去除前后空格_js去除字符串前后空格的多种方法
  9. Catia 第一界至第八界CaTiCs 3D竞赛解析视频教程
  10. 岭深常得蛟龙在 梧高自有凤凰栖