目前,外界与业内很多人对于数据中台的理解存在误区,一直只是在强调技术的作用,强调技术对于业务的推动作用,但在商业领域落地的层面上,更多时候技术的发展和演进都是需要跟着业务走,技术的发展和进步需要基于业务方的需求与数据场景应用化的探索来反向推动。

这个也就是为什么最近知乎都在疯传阿里在拆“大中台”?

个人猜想,原因是没有真正理解中台的本质,其实阿里在最初建设数据中台的目的主要是为了提升效率和解决业务匹配度问题,最终达到降本增效,所以说“拆”是假的,在“拆”的同时一定在“合”,“拆”的一个方面是企业战略布局层面上的规划,架构升级,如果眼界不够高,格局不够大,看到的一定只是表面;

另一方面不是由于组织架构庞大而做“拆”的动作,而是只有这样才能在效率和业务匹配度上,做到最大利益化的解耦

数据中台出现的意义在于降本增效,是用来赋能企业沉淀业务能力,提升业务效率,最终完成数字化转型。前一篇数据中台建设的价值和意义,提到过企业需要根据自身的实际情况,打造属于自己企业独有的中台能力。

01

数据中台演进的过程

从数据处理的维度来聊一聊数据中台经历的四个阶段:数据库阶段、数据仓库阶段、数据平台阶段、数据中台阶段。

1、数据库阶段:OLTP(事务处理)是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,记录及时的增、删、改、查。比如银行交易、电商交易等

2、数据仓库阶段:数据仓库系统的主要应用主要是OLAP(联机分析处理),支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。比如复杂的动态报表分析、用户价值分析等

3、数据平台阶段:其实,目前业界并没有对大数据平台做统一的定义,一般情况下,只要使用了Hadoop/Spark/Storm/Flink等这些分布式的实时或者离线计算框架,建立计算集群,并在上面运行各种计算任务,具有数据互联互通、支持多数据集实时同步、支持数据资源管理、实现多源异构数据的整合管控;

提供完善的大数据分析基础运行环境,提供统一二次开发接口等能力的,就算的上理解上的大数据平台。主要是为了解决大数据存储计算 + 数据应用管理 + 任务监控 + 数据资产管理 + 开发管理 + 可视化报表需求等

4、数据中台阶段:指具有全域级、可复用的数据资产中心与数据能力中心,对海量数据进行采集、计算、存储、加工,同时统一标准和口径,提供干净、透明、智慧的数据资产与高效、易用的数据能力来,能够对接OLTP(事务处理)和OLAP(报表分析)的需求,从业务架构设计到模型设计,从数据研发到数据服务,做到数据可管理、可追溯、可规避重复建设,强调的是数据业务化的能力

02

数据仓库、数据平台和数据中台的架构

【数据仓库架构图】

1、采集层

从各种数据源中采集数据和存储到数据到存储在基于Hadoop分布式文件系统HDFS上,期间做ETL操作。其中数据采集一般采用Flume收集日志,采用Sqoop将RDBMS以及NoSQL中的数据同步到HDFS上

数据源主要有:日志数据(服务器日志 + 系统日志等)+ 业务数据库(Mysql、Oracle等)+ 埋点数据(服务端埋点 + 移动端埋点数据等)+ 其他数据(Excel手工录入的数据、合作伙伴提供的接口数据、第三方爬虫数据、合法购买的第三方数据等)

2、存储与分析层

主要有离线计算 + 实时计算

存储系统:基于Hadoop分布式文件系统对采集层的数据进行存储

消息系统:加入Kafka防止数据丢失

离线计算:是对实时性要求不高的部分,通常将计算结果保存在Hive中

实时计算:使用Spark Streaming、Storm消费Kafka中收集的日志数据,然后通过实时计算,将结果保存在Redis中

机器学习:用Spark MLlib提供的机器学习算法

3、共享层

通过离线和实时计算的数据分析与计算后的结果存储在数据共享层,做数据共享层,主要做数据分发和调度中心。因为通过Hive、MR、Spark、SparkSQL分析和计算的结果,是存储在HDFS上,业务和应用不可能直接从HDFS上获取数据。其中使用Kylin作为OLAP引擎做多维度分析

4、数据应用

报表展示 + 数据分析 + 即席查询 + 数据挖掘

5、任务调度与监控

【数据平台架构图】

1、采集层

基于Hadoop分布式文件系统对采集层的数据进行存储。

  • 结构化数据:通过两种途径抽取并存放到HDFS分布式文件系统中,能够序列化的数据,直接存放到HDFS中;不能够序列化的数据,通过数据整理后统一存放在分布式数据库环境中, 再经过序列化后和整理后还不能序列化的数据一样直接存放到HDFS中;
  • 半结构化和非结构化数据:各种日志数据(通常序列化半结构化数据)直接存放到HDFS中;点击流和数据接口中的数据(通常序列化半结构化数据)直接存放到HDFS中;非结构化的数据直接存放到HDFS中

2、数据层

一方面,把相关业务结构化数据和有一定格式关系的半结构化的数据存放在Hadoop Hive数据仓库中,基于业务需求,按照特定的业务主题域进行数据集市的构建;另一方面把相关业务中半结构化的数据直接存放在HDFS分布

3、计算层

离线计算 + 实时计算

4、应用层

可视化数据分析报表 + 具体的场景应用

5、任务调度与监控

04

数据仓库、数据平台和数据中台的区别与联系

数据仓库、数据平台和数据中台的区别与联系:

1、在概念层面上

数据平台和数据中台的技术能力都是基于数据仓库发展而来的,在数据建设理论上一脉相承,他们处理的对象都是海量数据,服务目的、商业价值也同样类似。其实中平台和中台,两者在能力上都有对外都提供Open API服务。

一方面,中台是业务应用,不具体代表着某种技术,它不是最终用户能直接使用的,必须结合企业的各个数据业务场景;另一方面,平台是不带有业务特征性质的,主要汇集其他人的能力,整合成平台的能力,相对来说是静态的,而中台是动态变化的本身,需要通过数据驱动的方式来滋养业务,不断训练调整业务模型和业务算法提供的能力,提供给其他系统和平台集成的能力。

2、在数据层面上

数据仓库的数据来源主要来源于RDBMS,其中存储的数据格式以结构化数据为主,这些数据并非企业全量数据,而是根据企业业务需求做针对性整合、抽取。数据平台和数据中台的数据来源的期望都是全域级的数据,主要有结构化数据、半结构化数据、非结构化数据等

3、在目标层面上

  • 数据仓库基于单机的,一旦数据量变大,会受单机容量、计算以及性能等方面的限制。主要用来做报表分析,目的性相对来说单一,只是针对相关分析报表用到基础数据,进行抽取、整合、数据清洗和分析。比如,新增一张报表,就要从底层到上层再做一次,流程上相对来说繁琐;
  • 数据平台建立是为了解决数据仓库不能处理非结构化数据和报表开发周期长的问题以及计算和性能等问题。汇集整合打通数据,数据清洗后,当业务提出需求的时候,把业务方需要的若干个小数据集单独提取出来,以数据集的形式提供给业务方去使用;
  • 数据中台通常会对来自多方面的基础数据进行数据清洗后,然后按照主题域的概念建立多个以事物为主的主题域;和数据平台在底层建设上都是基于分布式计算平台和存储平台,理论上可以通过无限扩充平台的计算和存储能力。目标是都是为了融合整个企业的全域级数据,打通数据之间的隔阂,消除数据标准和口径不统一的问题。

4、在应用层面上

建立在数据中台上的数据应用场景,不仅仅只是面向于数据报表开发分析与展示处理,更多是将数据变成服务化的方式,然后提供给业务系统,比如面向用户的画像系统,搜索/推荐/广告营销系统等。

数仓、数据平台和中台还分不清楚?大佬的10年经验之谈,看完懂了相关推荐

  1. 数仓服务平台在唯品会的建设实践

    00 导读 数据服务是数据中台体系中的关键组成部分.作为数仓对接上层应用的统一出入口,数据服务将数仓当作一个统一的 DB 来访问,提供统一的 API 接口控制数据的流入及流出,能够满足用户对不同类型数 ...

  2. 华数大数据平台解决方案

    http://www.soft78.com/article/2016-03/8a2389fd5310d3e40153300fbe9901c0.html 第1章 华数大数据分析平台方案介绍 1.1 华数 ...

  3. 2.4 离线数仓—数据采集模块总结

    离线数仓-数据采集模块总结 前言 一.数据采集模块整体架构图 二.日志数据采集 1.日志数据采集流程图 三.业务数据采集 1.业务数据采集流程图 1)全量表同步说明 2)增量表同步说明 前言 数据采集 ...

  4. Spring Cloud Alibaba 分布式微服务高并发数据平台化(中台)思想+多租户saas企业开发架构技术选型和设计方案

    基于Spring Cloud Alibaba 分布式微服务高并发数据平台化(中台)思想+多租户saas设计的企业开发架构,支持源码二次开发.支持其他业务系统集成.集中式应用权限管理.支持拓展其他任意子 ...

  5. 数据平台、大数据平台、数据中台……还分的清不?

    造概念,在IT行业可不是一件陌生的事儿,中文博大精深,新名词.新概念往往简单准确,既可以被大众接受,又可以被专家把玩,真正做到雅俗共赏.各有趣味.近年来,数据中台之火爆,什么数据平台.数据中台.数据湖 ...

  6. 阿里云云原生一体化数仓 — 数据治理新能力解读

    一.数据治理中心产品简介 阿里云DataWorks:一站式大数据开发与治理平台 架构大图 阿里云 DataWorks定位于一站式的大数据开发和治理平台,从下图可以看出,DataWorks 与 MaxC ...

  7. 千字搞定数据产品选型!报表、BI、大数据平台、中台都在这了

    来吧,废话不多说,直接上干货! 到现在还在做报表的,已经很少了.上面三家都是中国主流报表厂商.不过在国外BI厂商的市场压力面前,也都做了BI套件.主流的就帆软,水晶报表最近见的少了. 普通小厂,1.2 ...

  8. 基于MaxCompute的数仓数据质量管理

    声明 本文中介绍的非功能性规范均为建议性规范,产品功能无强制,仅供指导. 参考文献 <大数据之路--阿里巴巴大数据实践>--阿里巴巴数据技术及产品部 著. 背景及目的 数据对一个企业来说已 ...

  9. 阿里数加大数据平台发布,将培养5万大数据科学家

    1月20日,阿里云栖大会在上海召开,宣布了阿里大数据平台与大合作战略. "数加"平台,让大数据能力淘宝化 阿里云大数据事业部资深总监徐常亮宣布一站式大数据平台"数加&qu ...

最新文章

  1. ComplexHeatmap()函数解析
  2. SAP 开发陷阱一箩筐(01)——创建了函数组却无法激活
  3. addEntriesFromDictionary用法
  4. linux 文件服务,Linux操作系统之文件服务(ftp、nfs)
  5. python循环实验心得_2019.06.18学习python循环总结
  6. SpringCloud Hoxton版微服务- Ribbon实现负载均衡
  7. 机房(厂房)温度环境监控系统
  8. inno setup 环境变量 立即生效_CentOS7设置环境变量
  9. 学习.net 2.0需要讲究一下策略
  10. checking build system type... ./config.guess: unable to guess system type/you must specify one
  11. JAVA实现成语大全-成语接龙,给小孩的应用
  12. Palo Alto推出全新Traps高级终端功能,强化勒索软件防御优势
  13. 我的世界服务器物品锁bug,【MOD教程】已知MOD服BUG物品解析
  14. 小知识点日记 2013-1-17 至 2013-6-13
  15. 阴阳师2017 7服务器维护,《阴阳师》手游4月17日维护更新公告
  16. 操作系统--05输入输出
  17. 数据挖掘(NUFE理论版)
  18. ArcGISPro制作辐射4风格地图
  19. 概率论0—概率初步简介
  20. STM32F10xx中独立看门狗(IWDG)和窗口看门狗(WWDG)介绍

热门文章

  1. sql 触发器未触发_学习SQL:SQL触发器
  2. sql2012 ssrs_SQL Server Reporting Services(SSRS)共享数据集
  3. sleep与wait的区别? 以及wait(long timeout)中timeout的含义
  4. 【BZOJ5457】城市(线段树合并)
  5. Numpy:通过算数运算取值、替换值
  6. ASP.NET MVC4中的异步控制器
  7. java--线程--习题集锦
  8. 常见压缩/解压缩及打包命令
  9. Hdu - 1210 - Eddy's 洗牌问题
  10. C#2.0 泛型初探 (特性一览)