第8章 大数据领域建模综述

8.1,为什么需要数据建模

  数据爆发增长,如何将这些数据进行有序、有结构地分类组织存储
(数据太多了,怎么办才能将数据放规矩点,方便后续查找,不要到处散乱)

  数据模型建立后好处:

  • 性能 :良好的数据模型能帮助我们快速查询所需要的数据,减少数据的I/O吞吐。 (查询速度快)
  • 成本:良好的数据模型能极大地减少不必要的数据冗余,也能实现计算结果复用,极大地降低大数据系统中的存储和计算成本。 (降本增效)
  • 效率 :良好的数据模型能极大地改善用户使用数据的体验,提高使用数据的效率。 (降本增效)
  • 质量:良好的数据模型能改善数据统计口径的不一致性,减少数据计算错误的可能性。(降低错误率)

8.2,关系数据库系统和数据仓库

  数据仓库的关系模型来源自数据库(本是同根生,你却榜上富婆,一下子农转非)

8.3,OLTP OLAP 系统的区别看模型方法论的选择

  1. OLTP 系统通常面向的主要数据操作是随机读写,主要采用满足3NF的实体关系模型存储数据,从而在事务处理中解决数据的冗余和一致性问题;
  2. OLAP 系统面向的主要数据操作是批量读写,事务处理中的一致性不是OLAP所关注的,其主要关注数据的整合,以及在一次性的复杂大数据查询和处理中的性能,因此它需要采用 些不同的数据建模方法

8.4,典型的数据仓库建模方法论

8.4.1,ER 模型

  采用ER模型建设数据仓库模型的出发点是整合数据,将各个系统中的数据以整个企业角度按主题进行相似性组合和合并,并进行一致性处理,为数据分析决策服务,但是并不能直接用于分析决策。

8.4.2,维度模型(重点)

由Ralph Kimball倡导
设计步骤:

  • 选择业务过程
      业务过程可以是单个业务事件,比如交易的支付、退款等
      也可以是某个事件的状态,比如当前的账户余额、物流信息等
  • 选择粒度
      在事件分析中,我们要预判所有分析需要细分的程度,从而决定选择的粒度。粒度是维度的一个组合(个人理解如人的身份证号、人的姓名、人的性别是一对一,但是人的银行卡账号,手机号却不是一对一,那么身份证号,姓名,性别是相同粒度,银行卡和手机号却不是相同粒度)
  • 识别维表
      选择好粒度之后,就需要基于此粒度设计维表,包括维度属性,用于分析时进行分组和筛选
  • 选择事实
      确定分析需要衡量的指标

8.4.3,Data Vault 模型

  不常用

8.4.4,Anchor 模型

  不常用

8.5 阿里巴巴数据模型实践综述

  OneData
  其包括一致性的指标定义体系模型设计方法体系以及配套工具

我是dyson不只是吹风机,若是对大数据-数据仓库技术感兴趣的可以加我沟通交流,一起进步。VX:daijun1211

ps:若文章侵权、触犯隐私请联系作者删除,谢谢~~

学习笔记-大数据之路-数据模型篇-建模综述相关推荐

  1. 阿里巴巴大数据之路——数据模型篇

    阿里巴巴大数据之路--数据模型篇 一.概述 1.什么是数据模型? 数据模型就是数据的组织和存储方法.主要关注的是从业务.数据存取和使用角度合理存储数据. 2.典型数据仓库建模方法论 ER模型 纬度模型 ...

  2. 读《大数据之路-阿里巴巴大数据实践》数据模型篇笔记

    读<大数据之路-阿里巴巴大数据实践>数据模型篇 七 建模综述 OLTP 面向数据 随机读写 3NF OLAP 批量读写 不关注一致性更关心数据整合 ER模型–衍生出dataVault 维度 ...

  3. DAMA数据治理学习笔记-大数据和数据科学

    大数据和数据科学 定义 对多种不同类型的数据进行收集(大数据)和分析(数据科学.分析.可视化),以此来为在分析的初始阶段未知的问题找到答案 目标 发现数据和业务的联系 支持将数据源迭代集成到企业中 发 ...

  4. 学习笔记 - 大数据导论

    1 数据仓库 1.1 数据仓库(Data Warehouse) 简称DW.数据仓库顾名思义,是⼀个很⼤的数据存储集合,出于企业的 分析性报告和决策支持⽬的而创建,对多样的业务数据进⾏筛选与整合.它为企 ...

  5. 大数据学习笔记—大数据概论

    大数据概论 一. 大数据的概念 二.大数据的特点(4V) 三. 大数据的应用场景 四.大数据的发展前景 五.大数据部门的业务流程/组织结构 一. 大数据的概念 大数据(big data),指无法在一定 ...

  6. 学习笔记-大数据基础实训(python语言+可视化)

    实训指导书 一.实训目的 利用python从指定接口爬取广东省各个地市的气象数据,存储并进行数据分析和可视化 二.实训任务列表 给定以下3个接口: 1.http://www.nmc.cn/f/rest ...

  7. 1-spark学习笔记-大数据概述

  8. 数据仓库进阶 《阿里大数据之路》第二篇 数据模型篇 (完整版)

    第8章 大数据领域建模综述 此文章为学习笔记,有兴趣的小伙伴可以根据以下指引获取更多,学习内容链接如下: 视频:[一起啃书]阿里大数据之路数据仓库建模基础理论研读(已完结)_哔哩哔哩_bilibili ...

  9. 数据仓库理论进阶 - 01 《阿里大数据之路》第二篇数据模型篇

    第8章 大数据领域建模综述 此文章为学习笔记,有兴趣的小伙伴可以根据以下指引获取更多,学习内容链接如下: 视频:[一起啃书]阿里大数据之路数据仓库建模基础理论研读(已完结)_哔哩哔哩_bilibili ...

  10. 《大数据之路:阿里巴巴大数据实践》-第2篇 数据模型篇 -第8章 大数据领域建模综述

    <大数据之路:阿里巴巴大数据实践>系列丛书  第1章 总述 第1篇 数据技术篇  第2章 日志釆集  第3章 数据同步  第4章 离线数据开发  第5章 实时技术  第6章 数据服务  第 ...

最新文章

  1. python 爬取svg数据_python处理svg数据
  2. linux子系统停止运行,linux 系统部署spring boot 退出连接端后项目停止运行问题
  3. 代码生成器插件实现方案征集投票
  4. java兔子问题流程图_C语言编程狼追兔子问题代码解析
  5. 教你在 CentOS 8上安装GCC实现开发编译功能
  6. flutter android 权限,Flutter permission_handler 权限插件的使用详解
  7. avx指令+openmp多线程实现一个基本算法作业 c++
  8. CSS实现折角样式效果
  9. factory(工厂) 模式简单示例
  10. 超级表格全新升级,这些功能你不可能在其他软件上看到
  11. WebView中的视频全屏的相关操作
  12. 图形的一点透视和平移
  13. 报表工具轻松搞定卡片式报表
  14. 计算机机械硬盘的一个扇区,机械硬盘分区结构
  15. 大数据时代医疗大数据建设,主要存在哪些问题?
  16. stata F值缺失_一文读懂Stata做格兰杰因果检验命令总结
  17. MSP430异步通信(发送)不阻塞CPU,含注释
  18. 念黄霑 之《只记今朝笑》
  19. Astra相机的ROS开发环境配置与使用
  20. 全球顶级域名及国家域名列表

热门文章

  1. 慕课软件工程(第二十章.ISO9000标准)
  2. 想要在工作中脱颖而出?这几款优秀的PC软件能够帮你
  3. 微信小程序搭建tabbar
  4. 写一个线程安全的单例模式
  5. 大数据:HBase安装、配置及使用
  6. word模板中替换文本中自定义字符串生成月报
  7. 空间三维技术重现“山水林田湖草”管理沙盘
  8. 信捷PLC应用-三轴钻孔机
  9. psftp的用法(超级详细)
  10. 电子或者自动化同学以后做什么