现在,数据的新名词层出不穷,顶层的有数字城市、智慧地球、智慧城市、城市大脑…企业层面的有数字化转型、互联网经济,数字经济、数字平台… 平台层面的有物联网,云计算,大数据,5G,人工智能,机器智能,深度学习,知识图谱…技术层面的有数据仓库、数据集市、大数据平台、数据湖、数据中台、业务中台、技术中台等等,总之是你方唱罢他登场,各种概念满天飞…

今天结合“数据中台”,以作者从事数仓行业多年的实战经验来看,数仓—大数据平台—数据中台的区别和本质联系,希望能拨云见雾!(13张架构图在文末,自取)

中台也好,数据中台也好,一直缺乏一个标准的定义,仅从字面上理解,数据中台是解决如何用好数据的问题,既然是概念,数据中台也被赋予了很多扩大的外延,也上升到了数据的采集、计算、存储、加工和数据治理等方面,这就和传统的大数据平台在功能和作用上产生了很大的重叠;而大数据平台又是从数据仓库发展起来的。那到底这三者的关系是怎么样的呢?

按照传统的定义,数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。从数据角度,数据仓库更适合传统的数据库,离线采集,数据一般为结构化的,每天处理数据量不易超过TB集,数据仓库一般在数十T到几百T以内,数据仓库一般为满足内生的应用,满足内部决策支持分析需求,当然随着数据仓库数据采集的要求越来越高,数据仓库本身也在不断的改进,从单机的ETL到集群的ETL,从传统的小机+DB,向PC服务器+分布式DB拓展,数据治理也逐渐增强,从元数据管理到数据质量管理,再到数据运维管控和数据安全管控,但其实数据仓库给企业留下的最大财富是企业数据模型,这些模型随着前端业务系统的发展变化,不断变革,不断追加,不断丰富和完善,即使系统不再了,也可以在短期内快速重建起来,这也是大数据平台能够快速建设起来的一个重要原因。

大数据平台则是指以处理海量数据存储、计算及流数据实时计算等场景为主的一套基础设施,包括了统一的数据采集中心、数据计算和存储中心、数据治理中心、运维管控中心、开放共享中心和应用中心。大数据平台之所以能够建设起来,不外乎内因和外因,外因是棱镜门事件带来的去IOE要求、外部硬件的变革和分布式开源技术的涌现;内因是非结构化、实时数据和海量数据的计算和存储压力,企业也寄希望从大数据平台除了满足对内需求,也能够实现一定的对外收益。

大数据平台的建设出发点是节约投资降低成本,但实际上无论从硬件投资还是从软件开发上都远远超过数据仓库的建设,大量的硬件和各种开源技术的组合,增加了研发的难度、调测部署的周期、运维的复杂度,人力上的投入已是最初的几倍;还有很多技术上的困难也非一朝一夕能够突破,但无论如何大数据平台还是建设起来了,人员能力也在不断成长。大数据平台解决了海量数据、实时数据的计算和存储,也基于原来的企业数据模型实现了重构,但也面临着一系列的问题。

首先是数据的应用问题,无论是数据仓库还是大数据平台,里面包含了接口层数据、存储层数据、轻度汇总层、重度汇总层、模型层数据、报表层数据等等,各种各样的表有成千上万,这些表有的是中间处理过程,有些是一次性的报表,不同表之间的数据一致性和口径也会不同,而且不同的表不同的字段对数据安全要求级别也不同,此外还要考虑多租户的资源安全管理,如何让内部开发者快速获取所需的数据资产目录,如何阅读相关数据的来龙去脉,如何快速的实现开发,这些在大数据平台建设初期没有考虑周全;另外一个问题是对外应用,随着大数据平台的应用建设,每一个对外应用都采用单一的数据库加单一应用建设模式,独立考虑网络安全、数据安全、共享安全,逐渐又走向了烟囱似的开发道路。

数据仓库实现了企业数据模型的构建,大数据平台解决了海量、实时数据的计算和存储问题,数据中台要解决什么呢?数据是如何安全的、快速的、最小权限的、且能够溯源地被探测和快速应用的问题。

数据中台不应该被过度的承载平台的计算、存储、加工任务,而是应该放在解决企业逻辑模型的搭建和存储、数据标准的建立、数据目录的梳理、数据安全的界定、数据资产的开放,知识图谱的构建,通过一系列工具、组织、流程、规范,实现数据前台和后台的连接,突破数据局限,为企业提供更灵活、高效、低成本的数据分析挖掘服务,避免企业为满足具体某部门某种数据分析需求而投放大量高成本、重复性的数据开发成本。

厚平台,大中台,小前台,没有基础厚实笨重的大数据平台,是不可能构建数据能力强大、功能强大的数据中台的。没有大数据中台,要迅速搭建小快灵的小前台也只是理想化的。

我想这才是数据中台的初衷。

后文是对数据仓库、大数据平台、数据中台的一些总结性的架构材料,也是对自己这些年来的一些汇总和思考吧,看懂了前面的文字,后面的各种架构图也就无需赘述了。

1、数据仓库硬件架构

2、数据仓库功能架构

3、数据仓库技术架构

4、第一个Hadoop平台硬件架构

主要是为了解决海量离线数据的计算和存储,在Hadoop集群中实现明细数据、汇总数据存储,在mysql中实现报表数据存储。

5、第一个流式处理平台硬件架构

主要是为了解决海量实时数据的流式采集和计算,在Hadoop集群中实现明细数据、汇总数据存储,在mysql中实现报表数据存储;并通过实时事件处理集群实现流式事件的匹配。

6、大数据平台系统规划

对于大数据平台各种软硬件各种组件的规划

7、大数据平台系统定位

8、大数据平台逻辑部署架构

9、大数据平台功能视图

10、大数据平台数据流向

11、大数据平台对内硬件架构

12、大数据平台整体硬件架构

13、数据中台整体架构

源: python与大数据分析

专注企业数据分析应用和数字化转型。关注公众号“商业智能研究”,回复“资料”,整理了6G的数仓、数据中台、数据治理、企业数据化管理案例,供免费领!

从数据仓库到大数据平台再到数据中台(内附13张架构图)相关推荐

  1. 人人都在说的数据中台是什么?附9张架构图优质模板!

    数据中台的概念由阿里巴巴首次提出,它的目的是将企业沉睡的数据变成数据资产,从而实现数据价值变现的系统和机制.本文从什么是数据中台.数据中台的价值.数据中台必备的能力和一些优质的数据中台的架构图模板来展 ...

  2. 数据中台是什么?附9张架构图优质模板

    数据中台的概念由阿里巴巴首次提出,它的目的是将企业沉睡的数据变成数据资产,从而实现数据价值变现的系统和机制.本文小编从什么是数据中台.数据中台的价值.数据中台必备的能力和一些优质的数据中台的架构图模板 ...

  3. 设计一个60T数据仓库及大数据分析平台,医院数字化该怎么做?

    入行不久的程序员,最容易对自己和技术产生怀疑.整天担心学不到技术,不能在日活1亿的好项目里锻炼.其实完全没必要.项目一旦成为项目,它的新奇感也就没有了.剩下的就是苦的活儿,码字. 如何获取更多项目经验 ...

  4. 大数据平台下的数据治理

    文章目录 什么是数据治理 难题 大数据平台下的数据生命周期 数据治理关键场景 数据治理面临的挑战 数据治理关键问题 1. 海量系统规模 2. 复杂存储 3. 复杂采集 数据治理目标 数据治理平台与周边 ...

  5. 百度CTO王海峰:AI大生产平台再升级 助力中国科技自立自强

    12月27日,百度首席技术官王海峰在百度 Create 2021(百度 AI 开发者大会)上,公布了百度 AI 最新技术进展及落地成果.百度 AI 多年技术积累和产业实践的集大成--百度大脑已发展成为 ...

  6. 典型工业企业大数据平台解决方案(含数据治理)

    一.总体思路 当前,工业企业产生的数据日与俱增,如何利用大数据为企业产生驱动力.竞争力成为工业企业面临的重要问题.工业企业大数据平台建设的总体思路是将现有PLC.MES.ERP.CRM.SRM.SCM ...

  7. 政府大数据平台标准规范-数据接入

    搞政府大数据平台的,标准规范是一个绕不过去的内容,而且政府项目对标准规范貌似都特别看重,这是与做企业项目很大的不同.政府大数据平台的标准规范可以从以下几个方面制订: 数据接入,包括结构化.非结构化数据 ...

  8. 第四代数据平台技术:数据云平台

    当前社会已经进入一个企业数据高速膨胀的时代,近几年,每年全球的数据规模平均以40%的速度增长.在云计算.大数据技术并驾齐驱发展几年后,两个技术逐渐融合,数据平台的技术在云计算的助力下,能够支持更复杂的 ...

  9. 常用地理数据平台及环境数据资源 (GIS)

    一.标准地图服务系统 (yyds) 标准地图服务系统 自然资源部标准地图服务(http://bzdt.ch.mnr.gov.cn)的页面上,提供了各省.自治区.直辖市的标准地图服务网站的链接. 1 国 ...

最新文章

  1. RabbitMQ学习总结 第一篇:理论篇
  2. (转)hibernate 注解的问题(异常)集合
  3. best,best,best ......何恺明开挂之路
  4. 华为nova好不好 先看图
  5. java8新特性(4)— Stream流
  6. 信息学奥赛一本通 2019:【例4.4】求阶乘
  7. ​全网首发,TensorFlow 2.0 中文视频教程来啦
  8. 树莓派ROS配置指南
  9. 设备树语法和多任务处理
  10. android apk 微信登入_Android集成微信登录的步骤详解
  11. IPQ4019/QCA9531/MT7628/MT7621系嵌入式无线双频AP核心模块选型探讨
  12. SQL Server 数据库学习
  13. 小米手机删除的便签怎么找回
  14. Python中最强大的错误重试库
  15. vue3编写组件的几种方式
  16. 报错:[Banner] The number of titles and images is different
  17. python获取文件夹大小_S3 API for python–创建bucket文件夹统计文件夹大小
  18. 大家都怎么评价自己的研究生导师?
  19. 计算机办公软件应用教学总结,2018年office办公软件教学总结(精选)
  20. 让软件开发民主化的低代码

热门文章

  1. 交叉编译iproute2
  2. java闰年满五换行_CoreJava练习题
  3. 网络嗅探器如何嗅探_SQL Server中的运行时常量嗅探
  4. sql server 循环_学习SQL:SQL Server循环简介
  5. C语言中static的用法
  6. Hibernaate 详解
  7. springMVC配置
  8. 五、概念数据模型(CDM生成LDM,PDM和OOM)
  9. 成员函数的重载,覆盖与隐藏
  10. 1392. Dreaming of Stars