今天开始阅读《大数据大创新:阿里巴巴云上数据中台之道》,对数据中台的建设非常感兴趣,也是我日后的求职方向,冲鸭!

大数据发展价值

  • 数据量飞速增长

从TB到PB用了20年,从PB跃升至ZB仅用了不到10年,IDC等权威机构的预算,全球数据量以每年40%左右的速度持续增长,2020年全球数据量将达到40ZB。
用“4V”来总结大数据的核心特征——volumn(大量),Variety(多样),velocity(快速),value(价值密度低)
数据量在增长,数据结构的复杂性也在增长,伴随着大数据概念的发展,数据领域的研究在广度和深度上得到了拓展:从早期与硬件制造相关的数据中心备份及网络管理等单一的领域分类,拓展到如今平台化及场景化的数据仓库、元数据管理、主数据管理、数据质量、数据泄露、数据科学等多元的领域分类。

云上中台建设

1.云上数据中台的业务模式

数据中台处于计算后台和业务前台之间,其内核能力是以业务视角而非技术视角智能化构建数据、管理数据资产,并提供数据调用、数据监控、数据分析和数据展示等多种服务。
承技术后台,启业务前台。基于数据,深入业务。
主要方法论:OneData、OneEntity、OneService
OneData:致力于实现数据的标准和统一,让数据成为资本而非成本
OneEntity:致力于实现实体统一,让数据融通而非以孤岛的形式存在
OneService:致力于实现数据服务统一,让数据复用而不是复制

2.阿里数据中台建设过程

问题所在:

(1)业务上的困扰
从数据标准方面引发的数据信任问题
从数据服务方面引发的数据及时性和有效性问题
例如,UV(Unique Visitor)这个常用指标因为业务规划、商业要求等不同会产生多种不同的统计规则。如淘系业务,在PC端UV的统计规则有三套,即三个同名但是不同计算逻辑的UV,无线端的UC又不同于PC,会衍生出多个UV。除了UV,还有GMV、转换率等指标,这些指标的不统一会给业务带来困扰,不合理的消耗其背后的数据资源。
数据部门光是提供业务支持已经够呛了,导致缺乏全局的规划,服务的效果不足,从而导致及时性和有效性不强。

(2)技术上的不合理消耗
阿里巴巴从电商起步,本身就是海量数据的玩家。如果缺乏统一高效的管理,将浪费大量的技术资源。
因此有一定抽象的数据仓库中间层模型能环节业务变化对数据模型的冲击;数据规范定义能有效避免数据的重复计算和存储,降低甚至消除业务人员的困惑;合理的数据生命周期管理能避免数据计算特别是数据存储的浪费。

实际落地:

(1)第一阶段,完成全局架构

(2)第二阶段,抓关键业务的数据建设

方向1:7个离线数据公共层(ODS数据基础层,DWD+DWS数据中间层)建设子项目,包括淘系数据基础层治理,日志数据公共层建设,小微金服依赖淘系数据重构,聚划算数据中间层建设,搜索数据中间层建设,航旅数据中间层建设以及1688数据公共层与数据应用建设。
方向2:3个离线数据公共层面向应用的建设(ADS数据应用层+报表+产品)子项目,第一个方向专注于建设离线数据公共层,而应用才是直接目的。
方向3:1个数据技术领域专项
(数据模型,存储治理,数据质量,安全权限,平台运维和研发工具6大数据技术领域)
方向4:1个技术探索专项(实时数据公共层建设专项)

(3)第三阶段,全面铺开
计划包括:元数据打通,天猫数据中间层建设,数据资产管理平台,基于元数据的数据建模工具,OneData体系全流程工具化,数据公共层运营

3.从零散的数据到统一的数据

一开始是烟囱式的开发,即数据中心基于单个项目建设,特点是烟囱式的垂直体系结构,每一个系统都有自己的存储和IT设备,以及独立的管理工具和数据库,不同的系统不能共享资源,不能交互访问,形成了资源孤岛和信息孤岛,导致出现了效率低和技术资源的浪费。

例如常见的GMV指标就会存在多种指标和定义,例如“最近1天的下单金额”,“最近1天的支付金额”,“最近7天的支付金额”,“最近30天支付宝确认收货额”等,业务人员看到的都是GMV,但是由于是不同的数据团队的产出,所以定义的含义也是不一样的。且不同的ETL开发团队由于信息不畅为保证数据的真实性更愿意“相信自己”,由此都基于ODS基础数据层的数据去做从零向上开始的烟囱式开发。
造成业务痛点和技术痛点的原因,概括起来就是“烟囱式”开发造成的数据不标准和不规范。所以云上数据中台的切入点就是以“阿里巴巴数据公共层建设”消除因“烟囱式”开发给业务带来的困扰和造成的技术上的浪费。

(1)数据仓库规划和数据规范定义
OneData方法论是解决上述问题的指导思想。如何实现?
首先,我们需要基于业务和数据的理解,对数据进行基于业务本身但是超越和脱离业务需求限制的抽象。即抽象出业务板块,如“电商”,“金融”,“云业务”等,在业务模块之下再抽象出数据域,比如电商下会有“交易”,“会员”,“商品”,“浏览”,“搜索”,“广告”,“公共”等不以团队为中心转移的数据域,再在数据域下抽象出业务过程,如对于“交易”数据域,可抽象出“加入购物车”,“下单”,“支付”,“确认收货”,“申请退款”等业务过程和“订单”维度,“买家”维度和“卖家”维度等。
其次,在抽象出的业务流程过程和维度进一步定义,包括定义原子指标,定义业务限定,定义计算周期,定义计算粒度。

最后,基于原子指标,业务限定,计算周期,计算粒度可以结构化定义出派生指标,如“最近30天天猫支付宝支付订单金额”,如果需要““最近7天天猫支付宝支付订单金额”只需要改下计算周期便可以快读定义。

(2)数据模型设计
第一步:统一ODS数据基础层
第二步:基于业务应用或者需求来源端抽象数据域治理,特别关注核心业务模型,通过DWD明细数据中间层处理预join处理、DWS汇总数据中间层沉淀常用统计维度和复用性高的指标,再结合数据技术本身的热度分析和数据应用预估,丰富和完善数据中间层数据建设
第三步:从数据层向上整合ADS数据应用层数据

【读书笔记】《大数据大创新:阿里巴巴云上数据中台之道》相关推荐

  1. 读书笔记 | 墨菲定律

    1. 有些事,你现在不做,永远也不会去做. 2. 能轻易实现的梦想都不叫梦想. 3.所有的事都会比你预计的时间长.(做事要有耐心,要经得起前期的枯燥.) 4. 当我们的才华还撑不起梦想时,更要耐下心来 ...

  2. 读书笔记 | 墨菲定律(一)

    1. 有些事,你现在不做,永远也不会去做. 2. 能轻易实现的梦想都不叫梦想. 3.所有的事都会比你预计的时间长.(做事要有耐心,要经得起前期的枯燥.) 4. 当我们的才华还撑不起梦想时,更要耐下心来 ...

  3. 洛克菲勒的38封信pdf下载_《洛克菲勒写给孩子的38封信》读书笔记

    <洛克菲勒写给孩子的38封信>读书笔记 洛克菲勒写给孩子的38封信 第1封信:起点不决定终点 人人生而平等,但这种平等是权利与法律意义上的平等,与经济和文化优势无关 第2封信:运气靠策划 ...

  4. 股神大家了解多少?深度剖析股神巴菲特

    股神巴菲特是金融界里的传奇,大家是否都对股神巴菲特感兴趣呢?大家对股神了解多少?小编最近在QR社区发现了<阿尔法狗与巴菲特>,里面记载了许多股神巴菲特的人生经历,今天小编简单说一说关于股神 ...

  5. 2014巴菲特股东大会及巴菲特创业分享

     沃伦·巴菲特,这位传奇人物.在美国,巴菲特被称为"先知".在中国,他更多的被喻为"股神",巴菲特在11岁时第一次购买股票以来,白手起家缔造了一个千亿规模的 ...

  6. 《成为沃伦·巴菲特》笔记与感想

    本文首发于微信公众帐号: 一界码农(The_hard_the_luckier) 无需授权即可转载: 甚至无需保留以上版权声明-- 沃伦·巴菲特传记的纪录片 http://www.bilibili.co ...

  7. 读书笔记002:托尼.巴赞之快速阅读

    读书笔记002:托尼.巴赞之快速阅读 托尼.巴赞是放射性思维与思维导图的提倡者.读完他的<快速阅读>之后,我们就可以可以快速提高阅读速度,保持并改善理解嗯嗯管理,通过增进了解眼睛和大脑功能 ...

  8. 读书笔记001:托尼.巴赞之开动大脑

    读书笔记001:托尼.巴赞之开动大脑 托尼.巴赞是放射性思维与思维导图的提倡者.读完他的<开动大脑>之后,我们就可以对我们的大脑有更多的了解:大脑可以进行比我们预期多得多的工作:我们可以最 ...

  9. 读书笔记003:托尼.巴赞之思维导图

    读书笔记003:托尼.巴赞之思维导图 托尼.巴赞的<思维导图>一书,详细的介绍了思维发展的新概念--放射性思维:如何利用思维导图实施你的放射性思维,实现你的创造性思维,从而给出一种深刻的智 ...

  10. 产品读书《滚雪球:巴菲特和他的财富人生》

    作者简介 艾丽斯.施罗德,曾经担任世界知名投行摩根士丹利的董事总经理,因为撰写研究报告与巴菲特相识.业务上的往来使得施罗德有更多的机会与巴菲特亲密接触,她不仅是巴菲特别的忘年交,她也是第一个向巴菲特建 ...

最新文章

  1. spring boot 邮件端口_不会吧,SpringBoot还能发送邮件发送邮件?快来看看如何操作吧
  2. php_rce-攻防世界-web-ThinkPHP版本5的相关漏洞
  3. android源码下载方式
  4. Codeforces 976F
  5. TYVJ 1557 MST+LCA
  6. java重入锁_java并发编程:可重入锁是什么?
  7. 2008软考网络工程师题
  8. 数据库高级知识——MySql锁机制
  9. 计算机视觉论文-2021-07-05
  10. 前端开发大师修炼指南
  11. keepalive+nginx实现负载均衡高可用_高可用、负载均衡 集群部署方案:Keepalived + Nginx + Tomcat...
  12. 数据库pgAdminIII导入sql文件
  13. 让canvas绘图更清晰
  14. Oracle range分区values less than代表的是小于
  15. 字节字符流与错误的处理方法
  16. 美团2020后台校招题目--美团骑手包裹区间分组
  17. 迁移学习概述(Transfer Learning)
  18. WifiManager自动连接wifi接入点
  19. [Unity3D]-协程的介绍和使用
  20. Q2 逆势扭亏为盈,群雄环伺之下朴新如何“虎口脱险”?

热门文章

  1. 通信模组中的常见术语
  2. ipython notebook简易使用教程
  3. [小玄的刷题日记]《LeetCode零基础指南》(第二讲) 函数
  4. DeepLabV2网络简析
  5. 2015年3月荔枝FM前端笔试题
  6. Win11太拉胯!Linux 取代 Windows 日常使用可行吗?来看实测~
  7. .NET项目开发—浅谈面向对象的纵横向关系、多态入口,单元测试(项目小结)...
  8. 好未来“守”,新东方“闯”
  9. 世界第一台电子计算机名称是什么,I1世界第一台电子计算机的英文名称是.doc
  10. AIX的KSH切换到BASH