一、数据中台功能架构

数据中台建设是一个宏大的工程,涉及整体规划、组织搭建、中台落地与运营等方方面面的工作,本节重点从物理形态上讲述企业的数据中台应该如何搭建。一般来讲,企业的数据中台在物理形态上分为三个大层:工具平台层、数据资产层和数据应用层。

1. 工具平台层

工具平台层是数据中台的载体,包含大数据处理的基础能力技术,如集数据采集、数据存储、数据计算、数据安全等于一体的大数据平台;还包含建设数据中台的一系列工具,如离线或实时数据研发工具、数据联通工具、标签计算工具、算法平台工具、数据服务工具及自助分析工具。

以上工具集基本覆盖了数据中台的数据加工过程。

1)数据开发平台

大数据的4V特征决定了数据处理是一个复杂的工程。建设数据中台需要搭建建设数据中台的基建工具,要满足各种结构化、非结构化数据的采集、存储与处理,要根据场景处理离线和实时数据的计算与存储,要将一个个数据处理任务串联起来以保障数据的运转能赋能到业务端。

2)数据资产管理

数据中台建设的成功与否,与数据资产是否管理有序有直接关系。前文提到,数据中台是需要持续运营的。随着时间的推移,数据不断涌入数据中台,如果没有一套井然有序的数据资产平台来进行管理,后果将不堪设想。

3)标签工厂

标签工厂又称标签平台,是数据中台体系内的明星工具类产品。标签建设是数据中台走向数据业务化的关键步骤。因此,一个强大的标签工厂是数据中台价值体现的有力保障。

标签工厂按功能一般分为两部分:底层的标签计算引擎与上层的标签配置与管理门户。标签计算引擎一般会采用MapReduce、Spark、Flink等大数据计算框架,而计算后的标签存储可采用Elasticsearch或者HBase,这样存储的好处是便于快速检索。

4)ID-Mapping

ID-Mapping又称ID打通工具,是数据中台建设的可选项。可选不代表不重要,在一些多渠道、多触点的新零售企业,离开了这个工具,数据质量将大打折扣。

5)机器学习平台

在整个机器学习的工作流中,模型训练的代码开发只是其中一部分。除此之外,数据准备、数据清洗、数据标注、特征提取、超参数的选择与优化、训练任务的监控、模型的发布与集成、日志的回收等,都是流程中不可或缺的部分。

2、数据资产层

数据资产层是数据中台的核心层,它依托于工具平台层,那么这一层又有什么内容呢?答案是因企业的业务与行业而异,但总体来讲,可以划分为主题域模型区、标签模型区和算法模型区。

1)主题域模型

主题域模型是指面向业务分析,将业务过程或维度进行抽象的集合。业务过程可以概括为一个个不可拆分的行为事件,如订单、合同、营销等。

为了保障整个体系的生命力,主题域即数据域需要抽象提炼,并且长期维护和更新,但是不轻易变动。在划分数据域时,既要涵盖当前所有业务的需求,又要保证新业务能够无影响地被包含进已有的数据域中或者很容易扩展新的数据域。

2)标签模型

标签模型的设计与主题域模型方法大同小异,同样需要结合业务过程进行设计,需要充分理解业务过程。标签一般会涉及企业经营过程中的实体对象,如会员、商品、门店、经销商等。这些主体一般来说都穿插在各个业务流程中,比如会员一般都穿插在关注、注册、浏览、下单、评价、服务等环节。

3)算法模型

算法模型更加贴近业务场景。在设计算法模型的时候要反复推演算法模型使用的场景,包括模型的冷启动等问题。整个模型搭建过程包含定场景、数据源准备、特征工程、模型设计、模型训练、正式上线、参数调整7个环节。

3、数据应用层

数据应用层严格来说不属于数据中台的范畴,但数据中台的使命就是为业务赋能,几乎所有企业在建设数据中台的同时都已规划好数据应用。数据应用可按数据使用场景来划分为以下多个使用领域。

1)分析与决策应用

分析与决策应用主要面向企业的领导、运营人员等角色,基于企业的业务背景和数据分析诉求,针对客户拉新、老客运营、销售能力评估等分析场景,通过主题域模型、标签模型和算法模型,为企业提供可视化分析专题。

用户在分析与决策应用中快速获取企业现状和问题,同时可对数据进行钻取、联动分析等,深度分析企业问题及其原因,从而辅助企业进行管理和决策,实现精准管理和智能决策。

2)标签应用

标签旨在挖掘实体对象(如客户、商品等)的特征,将数据转化成真正对业务有价值的产物并对外提供标签数据服务,多应用于客户圈选、精准营销和个性化推荐等场景,从而实现资产变现,不断扩大资产价值。

标签体系的设计立足于标签使用场景,不同使用场景对标签需求是不同的,譬如在客户个性化推荐场景下,需要客户性别、近期关注商品类型、消费能力和消费习惯等标签。

3)智能应用

智能应用是数智化的一个典型外在表现。比如在营销领域,不仅可实现千人千面的用户个性化推荐,如猜你喜欢、加购推荐等,还可借助智能营销工具进行高精准度的用户触达,推动首购转化、二购促进、流失挽留等。

二、数据中台技术架构

随着大数据与人工智能技术的不断迭代以及商业大数据工具产品的推出,数据中台的架构设计大可不必从零开始,可以采购一站式的研发平台产品,或者基于一些开源产品进行组装。企业可根据自身情况进行权衡考虑,但无论采用哪种方案,数据中台的架构设计以满足当前数据处理的全场景为基准。

以开源技术为例,数据中台的技术架构如图所示,总体来看一般包含以下几种功能:数据采集、数据计算、数据存储和数据服务;在研发、运维和公共服务方面包括离线开发、实时开发、数据资产、任务调度、数据安全、集群管理。

1、数据采集层

按数据的实时性,数据采集分为离线采集实时采集。离线采集使用DataX和Sqoop,实时采集使用Kafka Connect、Flume、Kafka。

在离线数据采集中,建议使用DataX和Sqoop相结合。DataX适合用在数据量较小且采用非关系型数据库的场景,部署方式很简单。Sqoop适合用在数据量较大且采用关系型数据库的场景。

2. 数据计算层

数据计算采用YARN作为各种计算框架部署的执行调度平台,计算框架有MapReduce、Spark及Spark SQL、Flink、Spark MLlib等。

3. 数据存储层

数据存储层所有的存储引擎都基于Hadoop的HDFS分布式存储,从而达到数据多份冗余和充分利用物理层多磁盘的I/O性能。在HDFS上分别搭建Hive、HBase作为存储数据库,在这两个数据库的基础上再搭建Impala、Phoenix、Presto引擎。

4. 数据服务层

数据服务层采用的技术与业务应用类似,主要基于开源Spring Cloud、Spring Boot等构建,使用统一的服务网关。

终于有人将数据中台讲清楚了,原来根本不算啥相关推荐

  1. 终于有人把数据中台讲明白了

    导读:要建设数据中台,我们首先需要明确什么是数据中台,以及数据中台能为企业带来什么价值. 作者:陈新宇 罗家鹰 江威 邓通 等 来源:大数据DT(ID:hzdashuju) 01 数据中台定义 数据中 ...

  2. 终于有人把业务中台、数据中台、技术中台都讲明白了

    导读:2015年阿里巴巴提出"大中台,小前台"的中台战略,通过实施中台战略找到能够快速应对外界变化,整合阿里各种基础能力,高效支撑业务创新的机制.阿里巴巴中台战略最早从业务中台和数 ...

  3. 终于有人把数据科学、机器学习和人工智能讲明白了

    导读:本文讨论与人工智能相关的概念和技术,包括机器学习.深度学习.数据科学和大数据.还将讨论人类和机器如何学习,及其与人工智能当前和未来状态之间的关系.最后介绍数据如何推动人工智能,以及人工智能成功所 ...

  4. 终于有人把数据湖讲明白了

    作者:彭锋 宋文欣 孙浩峰 来源:数仓宝贝库 作为全局数据汇总及处理的核心功能,数据湖在数据中台建设中必不可少.那么它与数据仓库.数据中台是什么关系? 图10-1显示了一个典型的从数据采集到数据湖.数 ...

  5. 终于有人把数据治理讲明白了

    导读:数据治理:说起来容易,做起来难. 作者:石秀峰 来源:谈数据(ID:learning-bigdata) "数据治理"这个10多年前就已经出现的名称,在最近这几年时间一下子火了 ...

  6. 终于有人把数据、信息、知识讲明白了

    导读:我们把关于信息处理的理论称为信息论,它是20世纪40年代从通信实践中发展并总结出来的一门学科,专门研究有关信息处理和可靠传输的一般规律.这一理论对计算机技术的发展具有重要意义.为了更好地阐述这一 ...

  7. 终于有人把深度学习讲清楚了!

    作者:黄申  编辑:Emma 来源| 技术领导力(ID:jishulingdaoli) 近些年,随着人工智能和深度学习的兴起,相应的专业书籍也越来越多.有的朋友可能刚刚开始接触这个领域,需要一些入门的 ...

  8. 终于有人把“低代码”讲清楚了!

    一.背景 低代码对于我本身而言是挺矛盾的,毕竟工作中我几乎用不到它.一开始接触到低代码的时候我也是有抵触或者鄙视心理的,毕竟手写代码的快乐,沉浸式的那种感觉很少能体验到了. 我也通过最近几年的工作经历 ...

  9. 区块链 - 侠客岛:终于有人把区块链讲清楚了

    上个月,我岛在杭州举办了线下沙龙,邀请了蚂蚁金服技术实验室高级技术专家邓福喜,和大家聊了聊最近大热的区块链技术. 在千呼万唤中,岛叔今天终于把文字整理好了.大家不用在后台催了! 三千多字的文字整理稿中 ...

最新文章

  1. 新生选课系统使用指南
  2. python画图标题_使用pyplot.matshow()函数添加绘图标题
  3. 留意TCP/IP筛选和IP安全策略
  4. 基于Lucene/XML的站内全文检索解决方案:WebLucene 【转】
  5. System.gc()调用 - 适用的场景
  6. python冒泡算法_python_冒泡算法
  7. “macOS Catalina下TeXstudio内置PDF阅读器无法正常显示中文”的解决办法
  8. 30 秒裁剪的很大一部分作用是观察什么对别人是重要的
  9. [ERR]com.microsoft.sqlserver.jdbc.SQLServerException: 结果集没有当前行
  10. jpcap的配置方法
  11. 均线颜色怎么区分_六种颜色的均线包括哪六种颜色,其代表的含义分别是什么?...
  12. ps命令查看进程详解
  13. 基于docker实现openwrt软路由与OMV(NAS)应用
  14. 计算机图形学入门-线性代数复习
  15. 井盖智能监测终端——井盖状态监测仪
  16. matlab修改图像分辨率_matlab imresize 改变图像大小
  17. 图书推荐5:《企业应用架构模式》
  18. [USACO12JAN]视频游戏的连击Video Game Combos
  19. 计算机网络——数据链路层之封装成帧和透明传输
  20. 学习linux 11

热门文章

  1. python3迭代器是什么,python3 迭代器
  2. 互联网晚报 | 3月24日 星期四 |​ ​国务院安委办:立即开展民航安全隐患排查;​新东方新公司经营范围含电竞赛事策划...
  3. 2021年度618品牌营销分析报告
  4. 2020新时尚之都指数报告
  5. 产品经理如果有捷径,那可能是多读书
  6. python中星号数字乘字符串_Python系列-数字和字符串
  7. c语言循环10次代码,C语言教学(七-上)for循环
  8. linux部署jar项目报错_Spring boot项目部署linux系统tomcat报错解决办法
  9. 基于ISM的大数据在建筑领域中的应用障碍分析
  10. “新一代互联网安全(BII)管理:理论与实践研讨会”在西安交通大学成功举办...