彭锋 宋文欣 孙浩峰

《云原生数据中台》

读完需要

7

分钟

速读仅需 3 分钟

1

数据中台概念的起源

尽管大数据产生于硅谷,数据中台与大数据关系密切,但硅谷却没有数据中台这个名词,因此,我们首先要来看看“数据中台”的概念是如何在其倡议者阿里巴巴内部产生的。下面的故事想必很多人都听说过。

2015 年年中,马云带领阿里巴巴集团高管拜访了一家芬兰的小型游戏公司 Supercell。让马云及其高管团队感到惊讶的是,这家仅有不到 200 名员工的小型游戏公司竟创造了高达 15 亿美元的年税前利润!该公司典型的开发模式是以小团队为单位的单独“作战”,每个团队不超过 7 名员工。每个团队都可以自己决定开发什么样的游戏产品,然后以最快的速度推出公测版,如果不受欢迎,就立刻放弃,寻找新的方向。这种开发模式使 Supercell 能非常快速和敏捷地找到玩家喜欢的方向,从而更容易开发出能够迎合玩家需求的游戏产品。

而 Supercell 之所以能够支持多个团队快速、敏捷地推出高质量的游戏作品,其强大的中台能力功不可没。因此,在拜访 Supercell 的旅程结束之后,马云决定对阿里巴巴的组织和系统架构进行整体调整,建立阿里产品技术和数据能力的强大中台,构建“大中台,小前台”的组织和业务体制。

当然,Supercell 的研发模式并不是什么革命性的创新,绝大部分硅谷公司也有类似的模式:本来就不大的公司被分成若干个小组。这样做的好处是各小组可以快速决策、研发并将产品推向市场,而不需要重复开发游戏引擎、数据分析、服务器等后台基础设施和服务。这里,“游戏引擎”可以看作业务中台,“数据分析”可以看作数据中台,“服务器等后台基础设施”可以看作 PaaS/IaaS 平台,也就是有些文章中所说的技术中台。

实际上,虽然硅谷并没有“数据中台”这一叫法,但硅谷的公司早已自然形成了中台的意识。从早期的中间件(Middleware)、面向服务的架构(SOA)到后来的 IaaS/PaaS/DaaS 平台、微服务(Microservice),都有中台思想的影子,都来源于避免重复造轮子、快速迭代、数据驱动、业务驱动这些硅谷工程师文化的核心理念。

国内类似的概念“技术中台”就源于中间件、PaaS 平台。但是这种中间件、平台、中台的功能一般并非由一个顶层设计得出,而是一步步建立起来的。

在硅谷的企业中有一个非常重要的理念就是不要做 “过早优化”(Premature Optimization),也就是说,不要在不需要的时候进行优化。一定要先完成功能再优化,因此不需要中台的时候没有必要刻意建一个大而全的中台。当然,在建设数据中台的不同阶段可以使用不同的技术,只要保证中台建设能够平滑过渡即可。

下面就来简单介绍笔者曾在硅谷负责建设的两个典型大数据项目,看看它们和数据中台的关系。

1.1

艺电的“数据中台”改造

EA(艺电)是一家总部位于硅谷的知名跨国游戏公司,创造和发行了众多深受游戏迷喜爱的游戏,例如《FIFA 足球》《Madden 橄榄球》《NHL 冰球》和《NBA 篮球》等体育游戏,令军迷们狂热的《战地》及《星球大战》系列游戏,以及经久不衰的《模拟城市》《模拟人生》《植物大战僵尸》等游戏。

这些游戏都是由 EA 位于全球各地的游戏工作室开发的,但是游戏里所涉及的数据分析工具却是由位于硅谷总部的大数据团队提供的。在有统一的大数据平台之前,EA 的每个工作室都需要开发自己的大数据平台,编写自己的大数据分析程序。各个工作室的数据能力参差不齐,数据质量得不到保证,有的产品甚至完全没有数据分析。各个工作室之间无法共享数据和用户资源,总部在汇总全集团的营业数据时也费时费力。这可以说是一个非常典型的数据孤岛的情况。

2011 年,EA 开始逐步建立全局大数据平台(类似于具有数据中台功能的平台),将各个工作室的数据逐渐汇聚到这个全局大数据平台上,并为各个工作室提供统一的数据分析和数据服务工具。各个工作室不再需要自己维护大数据平台,也无须自己雇用大数据平台开发人员,它们既可以使用集团的数据分析系统得到自己需要的业务报表,又可以使用系统提供的反欺诈、产品推荐等服务,专注于业务使它们能够快速推出新产品。同时,由于各个游戏的数据得以打通,用户数据得到统一,EA 可以构建更全面的用户画像,帮助工作室更精准地为用户提供个性化服务,提升用户体验。而且,集团总部能够快速且自动地获得全局的运营信息,而无须等到各个业务部门提交月度报表之后再手工合并和审核。

通过大数据平台的建设,在 2012 年和 2013 年被评为最差劲体验游戏公司、营收逐年下降的 EA,一举华丽转身,2014 年被评为最佳体验游戏公司之一,2015 年更是创下 43 亿美元的营收历史新高。

本书作者之一宋文欣作为主要技术和团队负责人带领了 EA 大数据平台团队的组建以及该平台的设计和建设。第 16 章将详细描述其类似于 Supercell 的平台的建设历程。

1.2

Twitter 的数据驱动

Twitter 是硅谷社交三驾马车之一,其陌生人/公开社交与 Facebook 的熟人/私有社交、LinkedIn 的职场社交都对互联网产生了极大影响。这三驾马车出现于 2006~2008 年,在时间上与此相耦合的一个现象是大数据的发展。Facebook 成立于 2004 年,Twitter 成立于 2006 年,LinkedIn 成立于 2002 年(但发展期是 2006~2010 年),而作为大数据的启动项目,Hadoop 的首发时间是 2006 年。

熟悉大数据早期发展历程的业内人士都知道,虽然 Hadoop 起源于 Google,由 Yahoo!开源,但是 Facebook、Twitter 和 LinkedIn 却是硅谷早期推动大数据发展的核心力量,Hive、Pig、HBase、Mesos、Kafka、Spark、Storm、Thrift、Presto、Parquet 以及其他很多现在广泛使用的大数据组件,都是由这三家公司开源或提供最早的企业级应用和支持的。究其原因,除了这几家公司的工程师文化和对开源的推崇之外,更重要的是实际业务的数据驱动需求,因为它们都需要通过分析海量的数据来推动产品研发、用户拓展和核心营收的增长。

以 Twitter 为例,整个公司的管理都基于数据驱动的理念,而其底层支撑是一个全局共享的大数据平台。从 CEO 需要的 BI 部门实时业务报表、广告部门的精准定位、产品部门的个性化推荐,到用户拓展部门的增长黑客技术、反欺诈部门的异常监控、研发部门的实时产品反馈、运维部门的智能运维,相关的数据应用都通过统一的数据工具运行在同一个大数据平台之上。

整个平台中的数据能力共享和复用随处可见:产品部门研发的用户画像可以被广告部门用来精准定位目标客户,社交图谱被用来实现用户拓展;反欺诈部门的机器人识别功能被广告部门用来识别恶意点击,被 BI 部门用来精确统计日活用户;广告部门开发的实时数据处理体系被产品部门用来提升推荐的实时性;诸如此类。

公司从 2011 年的 300 人发展到 2014 年的 4000 人,大数据平台从 80 台服务器的单纯 Hadoop 集群扩展到 8000 台服务器的核心数据处理平台,都没有出现数据孤岛、应用孤岛及重复造轮子的问题。

更为重要的是,因为有了强大的数据能力核心平台,Twitter 的产品迭代速度得到大幅提升。在 2011 年以前,开发和发布产品的流程非常冗长,产品经理需要到各个部门调研可以使用的数据,并协调数据的生产化问题。在产品推出之后,需要专门的数据工程师支持,定制单独的数据看板和报表才能拿到产品的反馈。在大数据平台逐渐完善之后,产品经理可以直接在平台上探索现有的数据和各种 API,与研发人员合作使用各种数据服务快速形成产品原型,然后通过数据平台提供的测试框架快速发布测试,在发布后可以直接通过平台提供的数据看板查看用户反应,而无须自己编写程序。整个产品的开发和迭代流程从以月计改为以周计,活跃用户数也从 2011 年不到 1 亿增长到 2014 年接近 3 亿。

本书作者之一彭锋作为 Twitter 架构师委员会中负责大数据体系的高级架构师,在大数据平台的建设中负责架构设计和项目审计,经历了从 80 台机器的 Hadoop 集群到 8000 台服务器集群的整个建设历程。本书会穿插介绍 Twitter 大数据平台建设的一些思路和经验。

以上内容摘自《云原生数据中台:架构、方法论与实践》,经出版方授权发布。

2

《云原生数据中台:架构、方法论与实践》

前 Twitter 大数据平台主任工程师撰写,融合硅谷与国内经验,全面讲解云原生数据中台架构、选型、方法论、实施路径,国内外专家联袂推荐

精彩文章推荐

微服务架构设计总结实践

2021-05-10

万字长文精华之数据中台构建五步法

2021-05-07

从零开始搭建创业公司后台技术栈

2021-04-29

代码重构技巧宝典,学透本篇就足够了!

2021-04-27

梁鑫:美股交易架构实践

2021-04-26

王启军:云原生架构下如何拆分微服务?

2021-04-20

原创精华:剖析亿级请求下的多级缓存

2021-04-19

梁鑫:重构 - 在美股行情系统的实践

2021-04-09

浅谈架构:架构的缘起与目标

2021-04-07

重构 - 美股行情系统APP推送改造

2021-05-11

点击“阅读原文”了解更多数字化转型好书

追根溯源 - 数据中台概念的起源相关推荐

  1. 云原生数据中台:架构、方法论与实践

    前言 第一部分 数据中台与硅谷大数据平台 第1章 全面了解数据中台 1.1 数据中台概念的起源 3 1.1.1 艺电的"数据中台"改造 4 1.1.2 Twitter的数据驱动 6 ...

  2. 数据中台,概念炒作还是另有奇效? | TVP思享

    导语 | 数据中台被誉为大数据的下一站,成为了人们谈论的焦点,2019年也被称为数据中台元年.但是数据中台是什么?它和数据仓库.商业智能.大数据平台有什么区别?它的主要功能是什么?本文是对TVP史凯老 ...

  3. 震惊!这篇文章解读数据仓库、数据湖、数据中台等概念,竟然写了4万字!

    点击上方 "zhisheng"关注, 星标或置顶一起成长 Flink 从入门到精通 系列文章 如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天 ...

  4. 4万字 全面解读数据中台、数据仓库、数据湖等概念!建议收藏!

    作者丨修鹏李 建议阅读需50分钟 如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天大约有超过2.5亿亿字节的各种各样数据产生.这些数据需要被存储起来并且能够被方便 ...

  5. 「名词」数据管理、数据治理、数据中心、数据中台、数据湖、数据资产等

    以下内容仅供参考: 随着信息技术的不断涌现和普及,业务发展加快了数据膨胀的速度,行业内衍生了较多的新名词,如数据治理.数据管理.数据资源管理.数据资产管理等名词的定义很多,概念容易混淆,本文对这些名词 ...

  6. 2020年中国服装行业数据中台研究报告

    简介:36kr研究院全新出炉<2020年中国服装行业数据中台研究报告>显示:数据中台赋能企业数字化转型,成为降本增效新引擎. -更多关于数智化转型.数据中台内容请加入阿里云数据中台交流群- ...

  7. Quick Audience精准营销之后 良品铺子还将借力阿里云数据中台有更多动作

    简介:今年天猫618消费季期间,良品铺子就使用阿里云数据中台核心产品之一Quick Audience进行消费者人群洞察及精准营销,"其中过程数据又能够通过Quick BI进行可视化实时展现& ...

  8. “数据驱动”时代来临,阿里云数据中台如何赋能金融业?(附重磅报告下载)

    简介:为了金融行业对数据中台有更全面.系统的认知,<2020阿里云金融数据中台报告>为金融行业展示数据中台建设之道和实践路径. 前言: -更多关于数智化转型.数据中台内容请加入阿里云数据中 ...

  9. 阿里云交通数据中台解决方案,打造“数字化生产力”

    简介:在交通行业中,阿里云不仅具备成熟的方法论和工具,还联合高德.支付宝.阿里达摩院等,构成了一个内部协同生态,外部也积极与生态伙伴展开合作,全方位渗透交通各个领域和场景,是建设智能计算和催生智能分析 ...

最新文章

  1. 用bitmap实现中位数的算法
  2. 易邮邮箱服务器的安装和配置
  3. Silverlight – Datagrid,Dataform数据验证和ValidationSummary
  4. 开发日记 20210311 重新定义未来
  5. 尾递归及示例(JAVA)
  6. monkeyrunner自动登录脚本
  7. python全栈开发内容_Python全栈开发之Day02
  8. [Objective-c 基础 - 1.3] OC带返回值的类方法
  9. c语言函数调用排序用插入法,C语言:编写查找和排序函数(二分查找,冒泡排序,选择排序法,插入排序)...
  10. Flutter ImageFilter 高斯模糊效果 BackdropFilter 实现过滤效果
  11. html css 表头,css固定表格表头(各浏览器通用)
  12. VS2010编译驱动程序
  13. 1062. 最简分数(20)-PAT乙级真题
  14. 性能测试——loadrunner_添加多个主机发送请求
  15. 洛谷——P1420 最长连号
  16. asp.net 提取html div,asp.net – 将div固定在html中的某一点
  17. Dediprog EM100Pro-G2 CmdLine教程
  18. CMMI认证的周期是多久?费用是多少?
  19. ENSEMBLE DISTILLATION APPROACHES FOR GRAMMATICAL ERROR CORRECTION翻译
  20. 线下广告投放方案_线下推广方案

热门文章

  1. zabbix2.4 mysql模板_zabbix自带的模板监控mysql
  2. Java Set接口详细讲解 TreeSet的定制排序和自然排序
  3. String类型的算法题(获取子串在主串中出现的次数)和(获取两个字符串中最大相同子串)-Java代码实现
  4. Fiddler的下载安装与使用(流量抓包、手机抓包、拦截包、编辑包、重发包)
  5. 网络请求中常见的加密机制和加密算法理解
  6. shell 管道命令 、、||、>、>>(精)
  7. python ThreadPoolExecutor线程池(实例)
  8. 使用Huploadify上传文件并动态传递参数到后台
  9. 关于使用jquery修改hover伪标签的样式
  10. postgresql,pgadmin4安装后出错,界面只有文字