大数据领域建模概述


文章目录

  • 大数据领域建模概述
  • 一、为什么需要数据建模
  • 二、关系数据库系统和数据仓库(OLTP和OLAP)
    • 定义
    • 场景和应用的区别
    • 集中度不同
  • 三、维度模型建模方法论
  • 四、阿里巴巴数据模型实践综述

一、为什么需要数据建模

目标:将数据进行有序、有结构地分类组织和存储。 如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置。数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。大数据系统需要数据模型方法来帮助更好地组织和存储数据,以便在性能、成本、效率和质量之间取得最佳平衡。也可以归为两个方面成本和效率,其中成本分为存储成本和计算成本(性能),数据质量好,效率肯定更好。

二、关系数据库系统和数据仓库(OLTP和OLAP)

定义

OLTP(on-line transaction processing)为联机事务处理
OLAP(On-Line Analytical Processing)为联机分析处理
两者简单的区别为OLTP是做事务处理,OLAP是做分析处理。
站在数据库的操作层面来看,OLTP主要是对数据的增删改,侧重实时性,OLAP是对数据的查询,侧重大数据量查询。

场景和应用的区别

OLTP主要用来记录具体某类业务事件的发生,如交易行为,当行为产生后,数据库会记录这个事件是谁在什么时候什么地方做了什么事,这样的一行(或多行)数据会以(增删改)的方式在数据库中进行数据的更新处理操作,要求实时性高、稳定性强、确保数据及时更新成功,常见的业务系统如商场系统,ERP,客服系统,OA等系统都是基于OLTP开发的系统。

当业务发展到一定程度,积累了一些数据的时候,对过去发生的事情做一个总结分析的需求就会产生,这类需求往往需要把过去一段时间内产生的数据拿出来进行统计分析,从中获取我们想要的信息,为公司做决策提供支持,我们管这类场景就叫做OLAP。

集中度不同

OLTP数据往往是一个业务系统一个数据库,因此会分散在不同的业务系统中。

OLAP数据仓库往往是夸多业务的,因此需要将不同的业务数据集中到一起进行统一综合的分析,这时候就需要根据业务分析需求做对应的数据清洗后存储在数据仓库中,然后由数据仓库来统一提供OLAP分析。所以我们常说OLTP是数据库的应用,OLAP是数据仓库的应用,两者主要的区别如下图。

总的来说,可以认为OLAP的产生是因为一些特性OLTP无法满足,所以一些OLTP异变了一些特性,变成了OLAP,OLAP可以看做是OLTP的一种延展,一个让OLTP产生的数据发现价值的过程。

三、维度模型建模方法论

ER、Anchor和Data Vault 模型,了解的不多,不做介绍

维度模型是数据仓库领域的 Ralph Kimball 大师所倡导的,他的 The Data rehouse olkit-The Complete Guide to Dimensional Modeling数据仓库工程领域最流行的数据仓库建模的经典。维度建模从分析决策的需求出发构建模型,为分析需求服务,因此它重点关注用户如何更快速地完成需求分析,同时具有较好的大规模复杂查询的响应性能。其典型的代表是星形模型,以及在一些特殊场景下使用的雪花模型。其设计分为以下几个步骤。

  1. 选择需要进行分析决策的业务过程。业务过程可以是单个业务事件,比如交易的支付、退款等;也可以是某个事件的状态,比如当前的账户余额等;还可以是一系列相关业务事件组成的业务流程,具体需要看我们分析的是某些事件发生情况,还是当前状态,或是事件流转效率。
  2. 选择粒度。在事件分析中,我们要预判所有分析需要细分的程度,从而决定选择的粒度。粒度是维度的一个组合。
  3. 识别维表。选择好粒度之后,就需要基于此粒度设计维表,包括维度属性,用于分析时进行分组和筛选。
  4. 选择事实。确定分析需要衡量的指标

四、阿里巴巴数据模型实践综述

原文冗长,我简单介绍下
第一个阶段: 完全应用驱动的关系型数据库时代: 阿里巴巴的第一代数据仓库系统构建在 Oracle 上,数据完全以满足报表需求为目的。
第二个阶段: 尝试提升性能的MPP 架构体系时代: 始尝试将工程领域比较流行的 ER模型+维度模型方式应用到阿里巴巴集团,构建出 个四层的模型架构,ODL (操作数据层) +BDL (基础数据层) +IDL (接口数据层) +ADL(应用数据层)。最后失败了,原因主要是:业务不太成熟、快速变化。
第三个阶段: 拥抱以 Hadoop 为代表的分布式存储计算平台,选择了以维度建模为核心理念的模型方法论: 阿里巴巴数据公共层建设的指导方法是一套统一化的集团数据整合及管理的方法体系(在内部这一体系称为“OneData ”),OneData三个部分包括一致性的指标定义体系 、模型设计方法体系以及配套工具,抢两个都是理论上的方法体系,最后一个是用来支持,约束,指导理论的工具(比如dataworks、dataphin)。

数据模型篇:一、大数据领域建模概述相关推荐

  1. 数据模型篇之大数据领域建模综述

    第8章 大数据领域建模综述 1.为什么需要数据建模 为了更好的将数据进行有序.有结构地分类组织和存储.数据模型就是数据组织和存储方法,它强调从业务.数据存取和使用角度合理存储数据. 数据建模的好处: ...

  2. 《大数据之路:阿里巴巴大数据实践》-第2篇 数据模型篇 -第8章 大数据领域建模综述

    <大数据之路:阿里巴巴大数据实践>系列丛书  第1章 总述 第1篇 数据技术篇  第2章 日志釆集  第3章 数据同步  第4章 离线数据开发  第5章 实时技术  第6章 数据服务  第 ...

  3. 互联网金融大数据架构概述与应用 - 大数据应用案例

    如果需转载,请注明:乐投网-互联网金融大数据架构概述与应用 IBM分析事业部 IBM分析事业部是在过去一两年间逐步成型的,成立后分成了若干个小部门,如AnalyticsPlatform.CLOUDDA ...

  4. 大数据技术概述复习(一)

    大数据技术概述复习(一) 本文整理复习自用,仅供参考 引用: 1<大数据技术原理与应用(第3版)> 2 https://blog.csdn.net/weixin_45207388/arti ...

  5. 大数据算法—大数据算法概述

    大数据--当下人人津津乐道的话题.然而对于大数据的公认定义以及完美体系还没有完全诞生,但大街小巷已遍布云计算.大数据,这些领域的经典案例更是层出不穷.由于认知的有限,就不继续发表拙见了.只是因为很喜欢 ...

  6. 大数据技术概述与入门

    一.大数据概述 大数据概念最初来自于2009年的<自然>杂志, Ginsberg采用大数据搜索引擎查询数据并对流行性流感活动进行检测,之后在2011年2月<科学>杂志通过社会调 ...

  7. 数据仓库系列篇——唯品会大数据架构

    https://zhuanlan.zhihu.com/p/45123018 What--大数据&数据仓库 什么是大数据? * 广义的大数据是指:无法用现有的软件工具提取.存储.搜索.共享.分析 ...

  8. 华住数据库_华住内控人系列故事(四)技术领先篇——搭建大数据风险数据仓,实现自助取数...

    我们不断的学习和引入好的"利器",以新的技术提升内控内审工作效率,工欲善其事必先利其器. 01.从"依赖,等待"到"靠自己",搭建大数据风险 ...

  9. 解读2015之大数据篇:大数据的黄金时代

    2015年,整个IT技术领域发生了许多深刻而又复杂的变化,InfoQ策划了"解读2015"年终技术盘点系列文章,希望能够给读者清晰地梳理出技术领域在这一年的发展变化,回顾过去,继续 ...

  10. 大数据入门-大数据技术概述(一)

    目录 大数据入门系列文章 1.大数据入门-大数据是什么 一.概念 二.技术详解 1.基础架构:Hadoop 2.分布式文件系统:HDFS 3.数据仓库:Hive 4.存储引擎:Kudu 5.分布式数据 ...

最新文章

  1. iOS 中KVC、KVO、NSNotification、delegate 总结及区别
  2. 【Android 插件化】Hook 插件化框架 ( 通过反射获取 “插件包“ 中的 Element[] dexElements )
  3. 如果诸葛亮用C++写出师表。。。。
  4. 简单java在线测评程序
  5. 移动玩具(信息学奥赛一本通-T1453)
  6. Dubbo(十二)dubbo的服务版本配置以及本地存根使用介绍
  7. Advanced Wlan Attacks (RADIUS)
  8. 关于Activity的四种启动模式详解
  9. Gradle之maven-publish插件发布到nexus私有仓库
  10. 我的基金组合和选择标准
  11. android开发方法数,Android方法数methods超过65536详解
  12. 最长公共子序列的问题
  13. Origin——全局垂直光标
  14. 资产计提折旧日志查询(AFBP)和数据反查(FB03 / AW01N)
  15. 基于YOLOv3的车辆号牌定位
  16. 错误:App Transport Security has blocked a cleartext HTTP (http://) resource load since it is insec
  17. 智能镜子制作_更智能的镜子及其制作方法
  18. 实体键和虚拟键不同的menu显示方式
  19. ei拼音的四个声调对应的字_【ei的四个声调有汉字】作文写作问答 - 归教作文网...
  20. 头条发布文章如何一篇文章发布道30+自媒体平台?

热门文章

  1. 2020最新注册卡密微信在线充值购卡功能(适用于各种网络验证开发)【易语言源码】
  2. 解谜游戏 | 感受算法的魅力
  3. 【已完美解决】由于找不到MSVCR100.dll,无法继续执行代码。重新安装程序可能会解决此问题。DirectX修复工具下载
  4. 高级API快速入门之多线程01【07】
  5. 反汇编工具OD(OllyDebug)
  6. Spring Thymeleaf无法显示图片
  7. ps:HSB色彩模式
  8. 注塑加工过程中需要注意的事项
  9. Ubuntu 18.04 ibus安装配置中文拼音输入法
  10. 试题 算法训练 调和数列问题---蓝桥杯