数据库和数据湖的关键概念性差异
在数据库和数据湖的工作中,有几个关键的概念性差异。在这篇文章中,让我们来确定其中的一些差异,这些差异在第一眼看到时可能并不直观,特别是对于具有强大关系型数据库背景的人来说。 |
服务器是一次性的。数据在云中。
解耦存储和计算。在谈论数据湖时,这是一个典型的问题。
在传统的数据库系统(以及最初的基于Hadoop的数据湖)中,存储与计算服务器紧密结合。服务器要么有内置的存储,要么直接连接到存储。
在现代基于云的数据湖架构中,数据存储和计算是独立的。数据被保存在云对象存储(例如:AWS S3、Azure Storage)中,通常是以一种开放的格式,如parquet,而计算服务器是无状态的,它们可以在必要时启动/关闭。
拥有一个解耦的存储和计算使。
- 降低计算成本。服务器在必要时运行。当不使用时,它们可以被关闭,从而降低了计算成本。
- 可扩展性。你不必为高峰期的使用而购置硬件。服务器/中央处理器/内存的数量可以根据当前的使用情况动态地增加/减少。
- 沙盒化。相同的数据可以被多个计算服务器/集群同时读取。这使得你可以让多个团队在不同的集群中并行工作,读取相同的数据,而不影响彼此。
- RAW数据才是王道!策划的数据只是衍生的。
在数据库范式中,来自源系统的数据被转化并加载到数据库表中后,它就不再有用了。在数据湖范式中,RAW数据被保留为真理的源泉,最终永远保留,因为它是真正的资产。
然而,RAW数据通常不适合商业用户的消费,因此它要经过一个策划过程,以提高其质量,提供结构并方便消费。经过整理的数据最终被储存起来,供数据科学团队、数据仓库、报告系统以及业务用户的一般消费使用。
典型的数据湖消费者只看到策划过的数据,因此他们对策划过的数据的重视程度远远超过产生这些数据的RAW数据。
然而,数据湖的真正资产是RAW数据(连同策展管道),从某种意义上说,策展的数据类似于一个可以随时刷新的物化视图。
主要收获:
- 可以在任何时候从RAW中重新创建。
- 可以通过改进策展过程来重新创建。
- 我们可以有多个策划好的视图,每个视图都用于特定的分析。
今天做出的模式决定不会制约未来的需求
通常情况下,信息需求会发生变化,一些原先没有从源头/运营系统中收集的信息需要被分析。
在一个典型的情况下,如果原始的RAW数据没有被存储,历史数据就会永远丢失。
然而,在数据湖架构中,今天决定不把某个字段加载到策划的模式中,以后可以推翻,因为所有的详细信息都安全地存储在数据湖的RAW区域,历史策划的数据可以用额外的字段重新创建。
主要收获:
- 如果你现在不需要,就不要花大量的时间去创建一个通用的一刀切的策划模式。
- 迭代地创建一个策划的模式,从添加你现在需要的字段开始。
- 当需要额外的字段时,将它们添加到策展过程中并重新处理。
最后的思考
数据湖不是数据库的替代品,每种工具都有它的优势和致命弱点。
将数据湖用于OLTP可能是一个坏主意,就像使用数据库来存储数千兆字节的非结构化数据一样。
我希望这篇文章有助于阐明两个系统之间的一些关键设计差异。
数据库和数据湖的关键概念性差异相关推荐
- 数据库、数据湖、数据仓库、湖仓一体、智能湖仓,分别都是什么鬼?
最近被大数据相关的小词儿,整的有点懵. 索性我们就来个专题,聊透数据库.数据仓库.数据湖以及风头正劲的"Lake house"--湖仓一体化. 数据仓库是个啥?和数据库有什么不同? ...
- 4万字全面掌握数据库, 数据仓库, 数据集市,数据湖,数据中台
↑↑↑关注后"星标"简说Python 人人都可以简单入门Python.爬虫.数据分析 简说Python推荐来源:数据社 作者修鹏李One old watch, like brief ...
- 数据库、数据仓库与数据湖
1 数据库 数据库包含关系型数据库存和非关系型数据库.我们通常所说的数据库指的是关系型数据库.关系数据库是指采用了关系模型来组织数据的数据库,其以行和列的形式存储数据.关系型数据库的主要用于联机事务处 ...
- 30人团队的数据架构师:谈谈数据湖这个风口吧,你们说的都没价值
不知道你们有没有感觉到,传统的数据仓库模式,在快速发展的企业面前已然显得力不从心. 数据湖,是可以容纳大量的原始数据的存储库和处理系统,已经成为企业应用大数据的重要工具.数据湖可以更好地加速从数据到价 ...
- Dremio 数据湖以及数据仓库
Dremio 数据湖以及数据仓库 一. 数据湖和数据仓库 什么是数据湖? 数据湖的目的和优势 什么数据仓库? 数据湖和数据仓库之间差异 数据湖引擎 二. Dremio 分离数据和计算 使用基于Apac ...
- 一文读懂数据仓库、数据湖、湖仓一体
目录 1.数据仓库 数据仓库的特征 2.数据湖 数据湖的特征 数据仓库和数据湖的对比 3.湖仓一体 湖仓一体的特征 湖仓一体的优势 智能湖仓 数据仓库.数据湖.湖仓一体对比 1.数据仓库 数据仓库,英 ...
- 数据湖(Data Lake)-剑指下一代数据仓库
数据湖是数据仓库的补充,是为了解决数据仓库漫长的开发周期,高昂的开发.维护成本,细节数据丢失等问题出现的. 数据湖大多是相对于传统基于RDBMS的数据仓库,而从2011年前后,也就是数据湖概念出现的时 ...
- 震惊!这篇文章解读数据仓库、数据湖、数据中台等概念,竟然写了4万字!
点击上方 "zhisheng"关注, 星标或置顶一起成长 Flink 从入门到精通 系列文章 如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天 ...
- 4万字 全面解读数据中台、数据仓库、数据湖等概念!建议收藏!
作者丨修鹏李 建议阅读需50分钟 如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天大约有超过2.5亿亿字节的各种各样数据产生.这些数据需要被存储起来并且能够被方便 ...
最新文章
- Maven教程(3)--Maven导入工程常见问题(编码、MavenArchiver、Lifecycle Mapping、maven install 没有反应)...
- android xml 未能解析文件,Android Studio提示“无法解析符号”,但项目已编译
- 推荐两个检索和分类小工具Carrot2 OSS
- 64 位SQL Server 2005通过DB link链接32位SQL Server 2000 的bug解决
- python同花顺实时_python同花顺自动交易_基于python的炒股软件
- php 验证手机号规则,PHP最完整的验证手机号码
- 小米笔记本pro充电测试软件,小米笔记本 Pro 评测:高端已成,性价比不变
- win10重置网络命令_Win10怎么重置网络 Win10重置网络命令使用方法
- Android 汇率换算对比小工具
- android通知的内容图标都不显示,android状态栏通知Notification如何设置为下拉不显示通知内容和图标...
- 拉普拉斯矩阵(Laplace Matrix)与瑞利熵(Rayleigh quotient
- apache+tomcat 集群学习 点滴1
- Python中yield的用法详解——最简单,最清晰的解释
- 读书笔记:汇编语言 第三版 王爽 清华出版社 章六 章七 章八 章九 章十
- LED光源的种类与LED光源与灯具的定义介绍
- ORA-28000: the account is locked/帐户已被锁定解决办法
- 基于(springmvc+tomcat+JavaScript)实现化妆品商城系统
- 数电基础-基本逻辑门和逻辑代数的基本定律
- svn提交代码提示Previous operation has not finished; run ‘cleanup‘ if it was interrupted
- Dxoygen语法规范