阿里巴巴大数据实践之数据建模
点击查看全文
随着DT时代互联网、智能设备及其他信息技术的发展,数据爆发式增长,如何将这些数据进行有序、有结构地分类组织和存储是我们面临的一个挑战。 为什么需要数据建模 如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;如果把数据看作城市的建筑,我们希望城市规划布局合理;如果把数据看作电脑文件和文件夹,我们希望按照自己的习惯有很好的文件夹组织方式,而不是糟糕混乱的桌面,经常为找一个文件而不知所措。
随着DT时代互联网、智能设备及其他信息技术的发展,数据爆发式增长,如何将这些数据进行有序、有结构地分类组织和存储是我们面临的一个挑战。
为什么需要数据建模
如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;如果把数据看作城市的建筑,我们希望城市规划布局合理;如果把数据看作电脑文件和文件夹,我们希望按照自己的习惯有很好的文件夹组织方式,而不是糟糕混乱的桌面,经常为找一个文件而不知所措。
数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。Linux的创始人Torvalds有一段关于“什么才是优秀程序员”的话:“烂程序员关心的是代码,好程序员关心的是数据结构和它们之间的关系”,其阐述了数据模型的重要性。有了适合业务和基础数据存储环境的模型,那么大数据就能获得以下好处。
性能:良好的数据模型能帮助我们快速查询所需要的数据,减少数据的I/O吞吐。
成本:良好的数据模型能极大地减少不必要的数据冗余,也能实现计算结果复用,极大地降低大数据系统中的存储和计算成本。
效率:良好的数据模型能极大地改善用户使用数据的体验,提高使用数据的效率。
质量:良好的数据模型能改善数据统计口径的不一致性,减少数据计算错误的可能性。
因此,毋庸置疑,大数据系统需要数据模型方法来帮助更好地组织和存储数据,以便在性能、成本、效率和质量之间取得最佳平衡。
点击查看全文
阿里巴巴大数据实践之数据建模相关推荐
- 大数据实践:数据指标中心的建设思路
来源:数据治理体系 做好业务分析的重点在于要有良好的专业素养:一方面要有过硬的专业技能.了解业务:另一方面要能够通过合作和协调,让分析策略可以落地并正向影响业务.这篇文章将从数据认知开始,给大家讲讲数 ...
- 阿里巴巴大数据计算平台MaxCompute(原名ODPS)全套攻略(持续更新20171127)
概况介绍 大数据计算服务(MaxCompute,原名ODPS,产品地址:https://www.aliyun.com/product/odps)是一种快速.完全托管的TB/PB级数据仓库解决方案.Ma ...
- 连载:阿里巴巴大数据实践—数据建模综述
简介:数据模型就是数据组织和存储方法,它强调从业务.数据存取和使用角度合理存储数据. 前言: -更多关于数智化转型.数据中台内容请加入阿里云数据中台交流群-数智俱乐部 和关注官方微信公总号(文末扫描二 ...
- 阿里巴巴大数据实践数据建模篇读书笔记001-大数据建模的意义
为什么需要数据建模? 数据建模就是数据组织和存储方法,它强调从业务,数据存取和使用角度合理存储数据. 良好的适合业务和基础数据存储环境的模型有以下优点. 1.性能:良好的数据模型可以帮助我们快速查询所 ...
- 连载:阿里巴巴大数据实践—实时技术
简介:相对于离线批处理技术,流式实时处理技术作为一个非常重要的技术补充,在阿里巴巴集团内被广泛使用. 前言: -更多关于数智化转型.数据中台内容请加入阿里云数据中台交流群-数智俱乐部 和关注官方微信公 ...
- 阿里巴巴大数据实践:OneData模型实施介绍
如何从具体的需求或项目转换为可实施的解决方案,如何进行需求分析.架构设计.详细模型设计等,则是模型实施过程中讨论的内容.本节先简单介绍业界常用的模型实施过程,然后重点讲解阿里巴巴OneData模型设计 ...
- 品《阿里巴巴大数据实践-大数据之路》一书(上)
7月有人推荐阿里巴巴刚出的这本书<阿里巴巴大数据实践-大数据之路>,到亚马逊一看才是预售状态,拍下直到8月才拿到. 翻看目录一看,欢喜的很,正好出差两天就带在身边,由于在机场滞留超过12个 ...
- 大数据之路 阿里巴巴大数据实践 读书笔记
一 .总述 人类正在从IT时代走向DT时代.现在的数据呈爆炸式增长,其潜在的巨大价值有待发掘.但是如果不对数据进行有序.有结构的分类组织和存储,它将变成一场灾难. 在阿里内部,数据的存储达到EB级别. ...
- 读《大数据之路-阿里巴巴大数据实践》数据模型篇笔记
读<大数据之路-阿里巴巴大数据实践>数据模型篇 七 建模综述 OLTP 面向数据 随机读写 3NF OLAP 批量读写 不关注一致性更关心数据整合 ER模型–衍生出dataVault 维度 ...
最新文章
- Python从入门到精通- 什么是NumPy? (上)
- ar开发 ue4_Oculus计划将UE4“500万美元营收版权分成免除计划”扩展到UE5
- [Jobdu] 题目1504:把数组排成最小的数
- python代码规范链接
- MyBatis 插件怎么编写和使用?原理是什么?
- 从思维图到基础再到深入,java空间查询
- GTN-Graph Transformer Network 图变换网络 NeurIPS2019
- 存储过程、游标和触发器
- 【论文笔记】NLP 预训练模型综述
- Linux 常用命令——不看白不看
- python里isalpha_Python 2.7中isalpha 不支持 unicode
- Matlab学习第一部分:基础知识
- max3232ese_MAX3232CSE使用指南,MAX3232CES和MAX3232ESE有什么区别?
- 我奋斗了18年才和你坐在一起喝咖啡
- [HAOI2006]旅行comf(枚举+最小生成树)
- 柠檬班python自动化百度云_柠檬班python
- 三星临时取消Galaxy Fold中国发布会;视觉中国网站部分恢复上线?官方回应:并未恢复;特斯拉周一发布完全自动驾驶将网络直播 | 雷锋早报...
- 深度学习之 DCGAN 及TensorFlow 实现
- 数学系小仙女不写代码求“破圈”,一年把华为这个社区做火了
- 有趣的Python:Python控制键盘鼠标