点击查看全文

随着DT时代互联网、智能设备及其他信息技术的发展,数据爆发式增长,如何将这些数据进行有序、有结构地分类组织和存储是我们面临的一个挑战。 为什么需要数据建模 如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;如果把数据看作城市的建筑,我们希望城市规划布局合理;如果把数据看作电脑文件和文件夹,我们希望按照自己的习惯有很好的文件夹组织方式,而不是糟糕混乱的桌面,经常为找一个文件而不知所措。

随着DT时代互联网、智能设备及其他信息技术的发展,数据爆发式增长,如何将这些数据进行有序、有结构地分类组织和存储是我们面临的一个挑战。

为什么需要数据建模

如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;如果把数据看作城市的建筑,我们希望城市规划布局合理;如果把数据看作电脑文件和文件夹,我们希望按照自己的习惯有很好的文件夹组织方式,而不是糟糕混乱的桌面,经常为找一个文件而不知所措。

数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。Linux的创始人Torvalds有一段关于“什么才是优秀程序员”的话:“烂程序员关心的是代码,好程序员关心的是数据结构和它们之间的关系”,其阐述了数据模型的重要性。有了适合业务和基础数据存储环境的模型,那么大数据就能获得以下好处。

性能:良好的数据模型能帮助我们快速查询所需要的数据,减少数据的I/O吞吐。

成本:良好的数据模型能极大地减少不必要的数据冗余,也能实现计算结果复用,极大地降低大数据系统中的存储和计算成本。

效率:良好的数据模型能极大地改善用户使用数据的体验,提高使用数据的效率。

质量:良好的数据模型能改善数据统计口径的不一致性,减少数据计算错误的可能性。

因此,毋庸置疑,大数据系统需要数据模型方法来帮助更好地组织和存储数据,以便在性能、成本、效率和质量之间取得最佳平衡。

点击查看全文

阿里巴巴大数据实践之数据建模相关推荐

  1. 大数据实践:数据指标中心的建设思路

    来源:数据治理体系 做好业务分析的重点在于要有良好的专业素养:一方面要有过硬的专业技能.了解业务:另一方面要能够通过合作和协调,让分析策略可以落地并正向影响业务.这篇文章将从数据认知开始,给大家讲讲数 ...

  2. 阿里巴巴大数据计算平台MaxCompute(原名ODPS)全套攻略(持续更新20171127)

    概况介绍 大数据计算服务(MaxCompute,原名ODPS,产品地址:https://www.aliyun.com/product/odps)是一种快速.完全托管的TB/PB级数据仓库解决方案.Ma ...

  3. 连载:阿里巴巴大数据实践—数据建模综述

    简介:数据模型就是数据组织和存储方法,它强调从业务.数据存取和使用角度合理存储数据. 前言: -更多关于数智化转型.数据中台内容请加入阿里云数据中台交流群-数智俱乐部 和关注官方微信公总号(文末扫描二 ...

  4. 阿里巴巴大数据实践数据建模篇读书笔记001-大数据建模的意义

    为什么需要数据建模? 数据建模就是数据组织和存储方法,它强调从业务,数据存取和使用角度合理存储数据. 良好的适合业务和基础数据存储环境的模型有以下优点. 1.性能:良好的数据模型可以帮助我们快速查询所 ...

  5. 连载:阿里巴巴大数据实践—实时技术

    简介:相对于离线批处理技术,流式实时处理技术作为一个非常重要的技术补充,在阿里巴巴集团内被广泛使用. 前言: -更多关于数智化转型.数据中台内容请加入阿里云数据中台交流群-数智俱乐部 和关注官方微信公 ...

  6. 阿里巴巴大数据实践:OneData模型实施介绍

    如何从具体的需求或项目转换为可实施的解决方案,如何进行需求分析.架构设计.详细模型设计等,则是模型实施过程中讨论的内容.本节先简单介绍业界常用的模型实施过程,然后重点讲解阿里巴巴OneData模型设计 ...

  7. 品《阿里巴巴大数据实践-大数据之路》一书(上)

    7月有人推荐阿里巴巴刚出的这本书<阿里巴巴大数据实践-大数据之路>,到亚马逊一看才是预售状态,拍下直到8月才拿到. 翻看目录一看,欢喜的很,正好出差两天就带在身边,由于在机场滞留超过12个 ...

  8. 大数据之路 阿里巴巴大数据实践 读书笔记

    一 .总述 人类正在从IT时代走向DT时代.现在的数据呈爆炸式增长,其潜在的巨大价值有待发掘.但是如果不对数据进行有序.有结构的分类组织和存储,它将变成一场灾难. 在阿里内部,数据的存储达到EB级别. ...

  9. 读《大数据之路-阿里巴巴大数据实践》数据模型篇笔记

    读<大数据之路-阿里巴巴大数据实践>数据模型篇 七 建模综述 OLTP 面向数据 随机读写 3NF OLAP 批量读写 不关注一致性更关心数据整合 ER模型–衍生出dataVault 维度 ...

最新文章

  1. Python从入门到精通- 什么是NumPy? (上)
  2. ar开发 ue4_Oculus计划将UE4“500万美元营收版权分成免除计划”扩展到UE5
  3. [Jobdu] 题目1504:把数组排成最小的数
  4. python代码规范链接
  5. MyBatis 插件怎么编写和使用?原理是什么?
  6. 从思维图到基础再到深入,java空间查询
  7. GTN-Graph Transformer Network 图变换网络 NeurIPS2019
  8. 存储过程、游标和触发器
  9. 【论文笔记】NLP 预训练模型综述
  10. Linux 常用命令——不看白不看
  11. python里isalpha_Python 2.7中isalpha 不支持 unicode
  12. Matlab学习第一部分:基础知识
  13. max3232ese_MAX3232CSE使用指南,MAX3232CES和MAX3232ESE有什么区别?
  14. 我奋斗了18年才和你坐在一起喝咖啡
  15. [HAOI2006]旅行comf(枚举+最小生成树)
  16. 柠檬班python自动化百度云_柠檬班python
  17. 三星临时取消Galaxy Fold中国发布会;视觉中国网站部分恢复上线?官方回应:并未恢复;特斯拉周一发布完全自动驾驶将网络直播 | 雷锋早报...
  18. 深度学习之 DCGAN 及TensorFlow 实现
  19. 数学系小仙女不写代码求“破圈”,一年把华为这个社区做火了
  20. 有趣的Python:Python控制键盘鼠标

热门文章

  1. 十大宽带共享组网方式推荐
  2. 思科交换机指示灯全解
  3. 计算机主页为什么打不开怎么办,为什么我的电脑腾讯主页打不开
  4. 让图片动起来——Real_Time_Image_Animation
  5. 用pip freeze >requirements.txt命令迁移模块
  6. yys opencv自动图片识别 学习交流
  7. 【YOLOv5实战2】基于YOLOv5的交通标志识别系统-自定义数据集
  8. PHP开发h5棋牌源码curl用法
  9. 公开我的 星际帝国 辅助程序源代码
  10. JAVA、PHP统一社会信用代码、身份证号算法解析验证