作者丨魏文庆

www.infoq.cn/article/Zyq4a*yEI1Uz2iwHFJuF

作者:魏文庆,现任网易严选数据技术及产品部总监。2007年浙江大学计算机硕士毕业后入职网易杭州研究院,从事前端开发,后历任技术主管、技术经理、技术总监。曾负责网易摄影、网易企业邮箱、易信公众号等产品开发,以及网易前端微专业。

数据中台最早是阿里提出的,但真正火起来是 2018 年,我们能感受到行业文章谈论数据中台的越来越多。大量的互联网、非互联网公司都开始建设数据中台。

为什么很多公司开始建设数据中台?尽管数据中台的文章很多,但是一千人眼里有一千个数据中台,到底什么是数据中台?数据中台包含什么?

2017 年开始,当网易严选有了一定量的数据,我们就开始规划建设我们的数据中台,目前我们已经完成了数据中台体系的搭建,我将根据我们建设数据中台的经验和方法论试图解答上面这些问题。

为什么大家开始建设数据中台?

2018 年开始,朋友圈里讲数据中台的文章开始逐渐变多,当然拿着手机看世界并不一定看到真实的世界。我也跟各个行业的一些大公司的 CIO 交流,发现很多行业的大公司都开始组建大数据团队,建设数据中台。

结合文章和交流获取的信息,我切身感受到宏观经济对技术的影响。2018 年开始经济下行,生意不好做了,粗放的经营已经不行了,越来越多的企业想通过数据驱动来进行精细化的运营和数据化转型。

如上图所示,企业需要数字化转型,需要更多的触点去跟自己的用户 / 客户建立联系,很多企业就需要做自己的公众号、小程序 (各家的小程序) 甚至 app。

我们希望用户更容易找到我们的商品 / 服务,我们就需要搜索。我们希望用户更多的浏览 / 使用我们的商品 / 服务就需要推荐。我们维护用户 / 客户的生命周期,根据生命周期采取不同的营销动作,就需要 CRM。我们需要拉来更多的新用户,就需要投放广告,为了更好的投放效果,我们需要建设我们的 DMP。当我们生意做大,我们需要对抗黑产 (羊毛党),让我们的优惠能让真正的用户享受,我们需要风控。这一切都需要底层大数据的支持。

企业需要精细化运营,就需要不断地提升运营的频次 (如下图所示) 和粒度。我们需要把运营的节奏提升到周级、天级甚至实时。我们随时随地了解我们企业经营状况,需要不断地更精细 (细粒度) 地分析我们的业务,快速做出业务决策。我们就需要能够快速地构建大量的 BI 报表,在一些重要的节点 (大促) 时,甚至需要盯着数据大屏。如果我们有能力,还可以建设场景化的数据产品来支持业务的决策。这一切都需要底层大数据的支持。

如何快速地利用底层大数据的支持,让我们的数据化转型、精细化运营能够高频的迭代,这就需要我们的数据中台提供强有力的支持。

这里也提醒一点,当我们需要大规模的数据应用时 (搜索 / 推荐 /BI 报表...),我们才需要构建数据中台。因为建设数据中台的投入大。

打个比方,当我一家人要吃饭,我自己买菜,在自己的厨房用普通的厨具自己做就好了,如果是富士康,几万几十万人吃饭,就需要建食材的加工配送中心 (类比数据中台)。本质上是“需求规模量级的变化,导致解决方案的质变”。

所以我们看到的,基本是大公司在建设数据中台。尽管你们可能现在不适合建设数据中台,但数据中台的思想大家都可以借鉴。

小结一下,当企业需要数据化转型、精细化运营,进而产生大规模数据应用需求的时候,就需要建设数据中台。

什么是数据中台?

这是一个千人千面的问题。我们的定义是“数据中台是高质量、高效赋能数据前台的一系列数据系统和数据服务的组合”。

因为规范最终是在系统和服务中落地的,所以定义中就没有包含规范部分。

数据中台的核心职责是高效地赋能数据前台为业务提供价值。要想理解数据中台先要理解数据前台,上文说到的搜索、推荐、BI 报表、数据大屏等都属于数据前台。

我们来看下面网易严选数据体系的图就更清楚数据中台的定位了。

数据中台的下层是数据平台,数据平台主要解决跟业务无关的问题,主要是大数据的存储和计算问题。

数据中台的上层就是数据前台,主要包括 BI 报表、数据产品和业务系统。

数据中台首先赋能分析师通过 BI 报表的形式来驱动业务精细化运营。

如下图所示,基于数仓里已经半加工好的数据,分析师使用严选有数敏捷 BI 平台可以快速地根据业务需求进行数据可视化和数据分析。

严选有数现在每周的 UV 超过 800,每天报表浏览次数超过 12w,目前的图表数超过 7w。对于一个事业部级的 BI 平台,应该算是一个非常好的成绩。这里特别感谢下我们的分析师团队,她们的辛勤工作才会有这样的成绩。

数据中台还会赋能业务系统开发通过统一查询服务 (主要是统一查询服务和标签服务) 来辅助业务过程中的决策。

基于数仓里面加工好的数据模型,业务系统开发人员使用统一查询服务获取到的模型数据在业务系统中增加辅助决策功能。

比如供应商系统需要对供应商进行评级,供应商评级需要供应商的商品销售数据、评论数据、退货数据、质量数据,供应商采购的交期数据等等。

数仓会根据这些数据加工模型,供应商系统可以通过统一查询获取模型在供应商系统中使用。在严选,统一查询服务已经接入了 67 个应用、670 个模型、每天有 300w 的调用。

我们自己做的数据产品(如下图所示),基本会用到我们数据中台所有的能力支持,包括统一查询服务、标签服务、指标监控服务、数据产出服务等数据服务,也会使用严选有数创建 BI 报表挂载到数据产品中。

数据中台包含什么?

从上文的图中,我们已经初步了解了数据中台包含了哪些系统和服务。概括来说,数据中台包含数仓体系、数据服务集和 BI 平台。

1、数仓体系

数仓体系是数据中台的核心,数据是新能源,是生产资料。

数仓体系包含数仓和一系列的管理系统,用来管理数据,保证数据的完整、一致和准确。

数仓体系的构成和关系,如下图所示。数仓是数仓体系的核心,也是整个中台的核心。数仓的开发和存储,主要依赖网易猛犸数据平台。

夸父 - 埋点管理系统和精卫 - 数据填报系统从供应侧保障数据的完整性和质量。

埋点数据由于来源广 (web 端、ios、android、小程序等)、链路长、格式 (日志的 scheme 约束) 等问题,一直是数据质量的重灾区。

夸父 - 埋点管理系统提供了埋点的管理、埋点流程协同和埋点测试,提供了埋点日志的 scheme,保障了埋点数据质量。

精卫 - 数据填报系统提供数据导入数仓及导入时的验证功能,提升数据的完整性。

整个电商的业务过程非常多,所有业务过程都线上化的过程非常漫长。当我们下游的数据应用需要某个业务过程的数据,而这个业务过程还没有线上化时,就可以通过精卫 - 数据填报系统导入数据到数仓,下游就可以使用这份数据。

仓颉 - 指标管理系统和燧人 - 指标地图是从需求侧提升数据 (指标) 的一致性。

仓颉 - 指标管理系统顾名思义是管理指标定义,在提供指标统一管理的同时,提供了指标定义规范的约束。数据开发可以根据指标定义里的指标口径来进行指标开发。

燧人 - 指标地图是提供给业务方查看当前的指标分类与指标定义。

数仓开发本身要解决的核心问题是质量和效率 (所有开发也都需要解决),无论是质量和效率都需要好的架构设计。

北斗 - 数仓设计管理系统就是来完成数仓设计的。数仓的开发原本总是非常的经验化,很多知识都是存在数据开发的脑子里。我们通过北斗 - 数仓设计管理系统来推行数仓先设计再开发,通过北斗 - 数仓设计管理系统将数仓开发的经验知识化、标准化、工具化。

数据质量中心 (如下图所示) 提供全链路的数据保障体系,提供任务监控、数据监控、应用监控、影响范围评估和恢复的支撑。

2、数据服务集

数据服务主要是数据场景下的解决方案的沉淀。数据服务集极大的加速了数据应用开发效率。

核心的数据服务是统一查询服务和标签服务,提供指标模型和标签模型对数据应用系统 (业务系统和数据产品) 的统一配送。

统一查询服务核心提供表转接口和数据网关的功能。数仓管理的是数据模型表,通过统一查询,数据应用系统就可以通过接口的形式来访问数据模型表。统一查询服务是数据体系和数据应用系统之间的总网关,需要提供模型级限流、熔断等网关功能。

3、BI平台

BI 平台我们用的是严选有数,也就是在网易有数在严选的版本。网易有数是一款敏捷 BI 平台,在设计上通过以终为始的设计理念和类 PPT 操作模式,在保障灵活性的基础上,提供了极大的操作便利。

在性能方面,我们结合数据产出服务做的基于数据产出的缓存策略极大地提升了报表的性能。图表首访缓存命中率基本稳定在 100%,整体缓存命中率超过 80%。

数据中台的内容非常长,本文非常概括地从严选实践介绍了数据中台。

总结一下:当企业需要数据化转型、精细化运营,进而产生大规模数据应用需求的时候,就需要建设数据中台。数据中台是高质量、高效赋能数据前台的一系列数据系统和数据服务的组合。数据中台包含数仓体系、数据服务集和 BI 平台。

特别推荐一个分享架构+算法的优质内容,还没关注的小伙伴,可以长按关注一下:长按订阅更多精彩▼如有收获,点个在看,诚挚感谢

数据中台应该包含什么?相关推荐

  1. 数据中台VS业务中台、数据中台VS数据仓库,到底有什么区别?

    导读:本文主要阐述数据中台的定义和核心能力. 作者:付登坡 江敏 任寅姿 孙少忆 等 来源:大数据DT(ID:bigdatadt) 01 数据中台VS业务中台 1. 数据中台与业务中台的区别 业务中台 ...

  2. 数据中台、业务中台、数据仓库、现有信息架构

    背景    伴随着云计算.大数据.人工智能等技术的迅速发展,以及这些技术与传统行业快速融合,企业数字化.智能化转型的步伐逐渐加快. IDC(Internet Data Center)预测,到2021年 ...

  3. 一文搞懂业务中台、数据中台、AI中台区别及联系

    导读 自从阿里提出中台的概念后,近年来业务中台.数据中台.AI中台等有关中台的名词相继涌现出来,相关概念如雨后春笋一般应运而生,如何去认识并区分这些中台呢,今天小亿对它们进行一个简要的介绍.以便大家更 ...

  4. 业务中台和数据中台的区别

    中台里面有两个很重要的中台,一个是业务中台,一个是数据中台. 业务中台是提供可复用的业务,API数据中台是提供数据洞察和智能的. 不管什么中台,它实际上都是平台思想的一个体现,一种具象. 二者的联系 ...

  5. 有赞数据中台建设实践

    "与数据同行"开通了三类微信群,综合群.专业群(数据仓库.数据分析.产品经理.数据治理及机器学习五大专业)加微信号frank61822702 为好友后入群.新开招聘交流群,请关注' ...

  6. 数据中台的API网关替换传统的ESB总线可行性分析

    大家都清楚传统的IT架构和集成一般都采用ESB服务总线进行集成,这是一种典型的中心化架构,但是可以充分的利用ESB总线的适配,协议转换,消息拦截等能力进行各种SOA治理和管控操作. 那么在传统企业IT ...

  7. 数据中台到底是解决什么问题的

    数据中台到底是解决什么问题的 文章目录 数据中台到底是解决什么问题的 概述 让数据用起来 业务数据化,数据业务化 企业发展与信息化建设中的痛点 企业数字化转型 数据中台的出现 数据资产管理 数据中台 ...

  8. 关于数据中台建设之思考

    [与数据同行]已开通综合.数据仓库.数据分析.产品经理.数据治理及机器学习六大专业群,加微信号frank61822702 为好友后入群.新开招聘交流群,请关注[与数据同行]公众号,后台回复" ...

  9. 以数据中台为“发动机”,易观方舟5.0的全新蜕变

    作者 | Just 出品 | AI科技大本营(ID:rgznai100) "如果我们把数字企业比作一辆车,那么易观所提供的数据能力就是发动机,有了数据能力就能将数据能源转化为数字企业澎湃的发 ...

最新文章

  1. 办公文档加密,企业文档加密,强制性透明加密技术,fasoft
  2. 在一表中设置组合主键(两个字段组合成一个主键)
  3. Redis和Memcached:数据类型 过期策略 持久策略 虚拟内存 Value大小
  4. Atom工具总结笔记
  5. java流程控制及控制键盘输出文字 —(6)
  6. Java状态和策略设计模式之间的差异
  7. 误删表数据,如何恢复过来
  8. 数组指针 sizeof 实现_C++数组指针!
  9. Net设计模式实例系列文章总结[转]
  10. 潘石屹回应丁磊“5G言论”:生活在4G的人理解不了5G
  11. ON DELETE CASCADE和ON UPDATE CASCADE
  12. 华尔街日报:微软告别盖茨时代
  13. Android 工具
  14. Mysql数据库和表的操作
  15. r语言html函数,【R语言】《R语言初学者指南》:函数、自定义函数、循环
  16. 中国美女黑客攻击4G网络?详解
  17. 2019上半年个人成长复盘
  18. 人生杂感随笔-观佛教与道教(六道轮回)
  19. Win10 AMD610显卡驱动安装出现错误206安装失败
  20. 【Linux】制作U-Boot烧写镜像到SD卡的过程(下篇:Makefile文件)

热门文章

  1. 迁移学习之EfficientNetBX(图像识别)
  2. Codeforces Round #641 (Div. 2)A~E题解(数论场)
  3. android gridview 加载图片大小,Gridview有两列和自动调整大小的图像
  4. UVA1396 Most Distant Point from the Sea(AM - ICPC - Tokyo - 2007)(计算几何,半平面交 + 二分答案)
  5. Linux用户配置密码,linux用户配置文件passwd和密码配置文件shadow,用户管理,组管理...
  6. python操作word填表_Python 自动化办公—Word 文本操作命令
  7. 7、Spring -Cloud-路由网管Spring Cloud Zuul
  8. m-orchastration system
  9. 高可用集群之RHCS
  10. 在web项目中使用SpringMVC