企业发展初期,数据研发是紧贴业务发展而演变的,数据体系基于业务单元垂直建立,形成多个垂直化业务数据体系。

随着企业发展,业务需要的数据不再是垂直化的,向数据研发提出了多数据类型的数据使用需求。

跨垂直单元的数据问题繁多:

1)数据标准不统一

在建立OneData之前,阿里数据有30000多个指标,其中,即使是同样的命名,但定义口径却不一致。例如,仅uv这样一个指标,就有十几种定义。带来的问题是:都是uv,我要用哪个?都是uv,为什么数据却不一样?

2)服务业务能力

由于数据模式是跟着垂直业务,导致一开始只支持了淘宝、天猫、1688等少数业务团队。而更多有个性化需求的业务团队却无法提供更多支持。

3)计算存储成本

由于没有统一的规范标准管理,造成了重复计算等资源浪费。而数据表的层次、粒度不清晰,也使得重复存储严重,仅淘系的数据表就超过了25000张,集团总数据的存储量每年以2.5倍的速度在增长,可以预见的未来的将会带来巨大的数据成本负担,我们不得不去做一些改变。

4)研发成本

每个工程师都需要从头到尾了解研发流程的每个细节,对同样的“坑”每个人都会重新踩一遍,对研发人员的时间和精力成本造成浪费

阿里数据中台战略中的OneData统一数据标准和实时数据分析就解决了打通垂直化业务数据的需求。

OneData是阿里数据中台的核心,OneData体系建立在集团数据公共层,从设计、开发、部署和使用上保障了数据口径的规范和统一,实现数据资产全链路管理,提供标准数据输出。

OneData数据公共层对原30000多个数据指标进行了口径规范和统一,梳理缩减为3000余个。

OneData体系

OneData体系即建立企业统一的数据公共层,从设计、开发、部署和使用上保障了数据口径的规范和统一,实现数据资产全链路管理,提供标准数据输出。

以Kimball的维度建模为核心理念基础的模型方法论,同时对其进行了一定的升级和扩展,构建了阿里集团的数据架构体系——OneData

该体系包含:数据规范定义体系、数据模型规范设计、ETL规范研发以及支撑整个体系从方法到实施的工具体系。

1数据规范定义

OneData体系中将此前个性化的数据指标进行规范定义,抽象成:原子指标、时间周期、其他修饰词等三个要素。

如:业务方提出的需求:最近7天的成交

分解为:原子指标(支付订单金额)+修饰词-时间周期(最近7天)+修饰词-卖家类型(自营)

2数据模型架构

将数据分为ODS(操作数据)层、CDM(公共维度模型)层、ADS(应用数据)层。

ODS层主要功能

同步:结构化数据增量或全量同步到ODPS;

结构化:非结构化(日志)结构化处理并存储到ODPS;

累积历史、清洗:根据数据业务需求及稽核和审计要求保存历史数据、数据清洗;

CDM层主要功能

CDM层又细分为DWD层和DWS层,分别是明细宽表层和公共汇总数据层,采取维度模型方法基础,更多采用维度退化手法,减少事实表和维度表的关联,加强维度到事实表强化明细事实表的易用性;

同时在汇总数据层,加强指标的维度退化,采取更多宽表化的手段构建公共指标数据层,提升公共指标的复用性,减少重复的加工。

ADS层主要功能

个性化指标加工:不公用性;复杂性(指数型、比值型、排名型指标)

基于应用的数据组装:大宽表集市、横表转纵表、趋势指标串

其模型架构图如下,阿里通过构建全域的公共层数据,极大的控制了数据规模的增长趋势,同时在整体的数据研发效率,成本节约、性能改进方面都有不错的结果。

3研发流程和工具落地实现

将OneData体系贯穿于整个研发流程的每个环节中,并通过研发工具来进行保障。

阿里数据中台与OneData相关推荐

  1. 第二篇:阿里数据中台之OneData体系1

    今天来介绍数据中台的第二篇,第二篇共分为三个大部分分别对应的是阿里的数据中台三大体系(阿里的数据中台体系架构见上一篇),OneData体系,OneEntity体系,OneService体系,三大体系相 ...

  2. 全面分析阿里数据中台,小白也能看懂 | CSDN原力计划

    扫码参与CSDN"原力计划" 作者 | yuanziok 来源 | CSDN原力计划获奖作品 数据中台被誉为大数据的下一站,由阿里兴起,核心思想是数据共享,2015年阿里提出&qu ...

  3. 阿里数据总监分享《阿里数据中台建设实践案例》,PPT+语音讲解!

    戳蓝字"CSDN云计算"关注我们哦! 作者 |  技术领导力 责编 | 阿秃 本文整理自,阿里巴巴集团数据部商业应用总监列文,在"2019年阿里云(上海)峰会" ...

  4. 企业中台最佳实践--阿里数据中台最佳实践(九)

    阿里业务中台架构图 基础设施服务,即IAAS层,提供硬件底层支持. 基础服务层,即PAAS层,包括分布式服务框架.分布式数据库.分布式消息.分布式存储.分布式事务.实时监控服务等等. 互联网业务中台, ...

  5. 很简单能看懂阿里数据中台分析

    数据中台被誉为大数据的下一站,由阿里兴起,核心思想是数据共享,2015年阿里提出"大中台,小前台"的策略.2018 年因为"腾讯数据中台论",中台再度成为了人们 ...

  6. 阿里数据中台建设之道,阿里专家10张图从理念到实践,干货解读!

    文| 技术领导力社区 编辑| Emma 阿里数据中台建设过程.方法论.主要核心的产品.技术架构等等,对技术圈来说一直非常神秘.并且,阿里已经将中台建设方法论形成了解决方案,向行业输出,这也导致了阿里中 ...

  7. 企业中台最佳实践--阿里数据中台解读(十二)

    数据中台被誉为大数据的下一站,由阿里兴起,核心思想是数据共享,2015年阿里提出"大中台,小前台"的策略.2018 年因为"腾讯数据中台论",中台再度成为了人们 ...

  8. 直面最大挑战双11 阿里数据中台为商家带来确定性保障

    2020双11将成为史上最具科技含量的一届双11. 11月3日,在阿里巴巴双11技术沟通会上,阿里巴巴集团首席技术官程立公布了大规模运用于2020双11的十大前沿技术,既有基于数字技术的原生商业创新, ...

  9. 阿里数据中台底座的12年建设实践

    阿里巴巴数据平台发展的四大阶段 构建数据中台,一个强大的数据平台作为底座必不可少. 阿里巴巴数据平台发展的四个阶段,一定程度上其实也是阿里巴巴数据中台发展的四个阶段.这四个阶段里,你可以看到阿里巴巴对 ...

  10. 阿里数据中台OneID核心能力之ID-Mapping

    这篇文章是我的一个好友彭文华彭总写的, ID Mapping是阿里巴巴数据中台的核心能力之一.欢迎大家添加彭总微信:shirenpengwh ,一起探讨大数据相关技术. 网上  ID Mapping ...

最新文章

  1. ceph osd 相关命令
  2. oracle+测试权限,Oracle测试题
  3. 我的10年富士康故事
  4. 牛客题霸 最少素数拆分 C++题解/答案
  5. php中的空转为什么意思,php 长期更
  6. Fast Image Cache – iOS 应用程序高性能图片缓存
  7. 前端学习(1963)vue之电商管理系统电商系统之控制级联选择框的选择范围
  8. css的工作原理及使用规则
  9. nacos配置中心信息 nacos版本2.0.3
  10. linux进程的线程信息,Linux 下查看线程信息
  11. MFC基于 单文档为状态栏添加进度条
  12. Android集成谷歌定位sdk,Android 地图sdk,集成了百度、高德、谷歌三种地图
  13. Dest0g3 520迎新赛WP
  14. PHP使用web3还原助记词
  15. SaaS是什么,目前主流的国内SAAS平台提供商有哪些?
  16. matlab 向量_Matlab:向量点积和叉积及求模
  17. MSRA-TD500数据集坐标转换
  18. 不要再说微服务可以解决一切问题了
  19. 【无忧美名网-一款根据诗经、古诗词等国学给宝宝起名的小程序-uniapp端】
  20. wasm转c调用与封装至dll案例

热门文章

  1. 培训linux系统下载,非常好的Linux培训教程集合下载
  2. 0804Python总结-单继承,多继承,菱形继承,__init__魔术方法(构造方法)
  3. 阿里云ECS服务器使用限制及不允许做的事情
  4. Android ICON生成及优化
  5. win7计算机时间显示错误,Win7电脑时间同步出错怎么办?Win7电脑时间同步出错的解决方法...
  6. php有个schost.exe_svchost.exe是什么
  7. 魔方还原代码 python_如何用C语言还原三阶魔方?
  8. buu [QCTF2018]Xman-RSA
  9. 阿里云服务器实例规格选型推荐(根据使用场景、典型应用推荐)
  10. 一个优秀的系统分析员应该具备的三个素质