在数据库和数据湖的工作中,有几个关键的概念性差异。在这篇文章中,让我们来确定其中的一些差异,这些差异在第一眼看到时可能并不直观,特别是对于具有强大关系型数据库背景的人来说。

服务器是一次性的。数据在云中。

解耦存储和计算。在谈论数据湖时,这是一个典型的问题。

在传统的数据库系统(以及最初的基于Hadoop的数据湖)中,存储与计算服务器紧密结合。服务器要么有内置的存储,要么直接连接到存储。

在现代基于云的数据湖架构中,数据存储和计算是独立的。数据被保存在云对象存储(例如:AWS S3、Azure Storage)中,通常是以一种开放的格式,如parquet,而计算服务器是无状态的,它们可以在必要时启动/关闭。

拥有一个解耦的存储和计算使。

  1. 降低计算成本。服务器在必要时运行。当不使用时,它们可以被关闭,从而降低了计算成本。
  1. 可扩展性。你不必为高峰期的使用而购置硬件。服务器/中央处理器/内存的数量可以根据当前的使用情况动态地增加/减少。
  1. 沙盒化。相同的数据可以被多个计算服务器/集群同时读取。这使得你可以让多个团队在不同的集群中并行工作,读取相同的数据,而不影响彼此。
  1. RAW数据才是王道!策划的数据只是衍生的。

在数据库范式中,来自源系统的数据被转化并加载到数据库表中后,它就不再有用了。在数据湖范式中,RAW数据被保留为真理的源泉,最终永远保留,因为它是真正的资产。

然而,RAW数据通常不适合商业用户的消费,因此它要经过一个策划过程,以提高其质量,提供结构并方便消费。经过整理的数据最终被储存起来,供数据科学团队、数据仓库、报告系统以及业务用户的一般消费使用。

典型的数据湖消费者只看到策划过的数据,因此他们对策划过的数据的重视程度远远超过产生这些数据的RAW数据。

然而,数据湖的真正资产是RAW数据(连同策展管道),从某种意义上说,策展的数据类似于一个可以随时刷新的物化视图。

主要收获:

  1. 可以在任何时候从RAW中重新创建。
  1. 可以通过改进策展过程来重新创建。
  1. 我们可以有多个策划好的视图,每个视图都用于特定的分析。

今天做出的模式决定不会制约未来的需求

通常情况下,信息需求会发生变化,一些原先没有从源头/运营系统中收集的信息需要被分析。

在一个典型的情况下,如果原始的RAW数据没有被存储,历史数据就会永远丢失。

然而,在数据湖架构中,今天决定不把某个字段加载到策划的模式中,以后可以推翻,因为所有的详细信息都安全地存储在数据湖的RAW区域,历史策划的数据可以用额外的字段重新创建。

主要收获:

  1. 如果你现在不需要,就不要花大量的时间去创建一个通用的一刀切的策划模式。
  1. 迭代地创建一个策划的模式,从添加你现在需要的字段开始。
  1. 当需要额外的字段时,将它们添加到策展过程中并重新处理。

最后的思考

数据湖不是数据库的替代品,每种工具都有它的优势和致命弱点。

将数据湖用于OLTP可能是一个坏主意,就像使用数据库来存储数千兆字节的非结构化数据一样。

我希望这篇文章有助于阐明两个系统之间的一些关键设计差异。

数据库和数据湖的关键概念性差异相关推荐

  1. 数据库、数据湖、数据仓库、湖仓一体、智能湖仓,分别都是什么鬼?

    最近被大数据相关的小词儿,整的有点懵. 索性我们就来个专题,聊透数据库.数据仓库.数据湖以及风头正劲的"Lake house"--湖仓一体化. 数据仓库是个啥?和数据库有什么不同? ...

  2. 4万字全面掌握数据库, 数据仓库, 数据集市,数据湖,数据中台

    ↑↑↑关注后"星标"简说Python 人人都可以简单入门Python.爬虫.数据分析 简说Python推荐来源:数据社 作者修鹏李One old watch, like brief ...

  3. 数据库、数据仓库与数据湖

    1 数据库 数据库包含关系型数据库存和非关系型数据库.我们通常所说的数据库指的是关系型数据库.关系数据库是指采用了关系模型来组织数据的数据库,其以行和列的形式存储数据.关系型数据库的主要用于联机事务处 ...

  4. 30人团队的数据架构师:谈谈数据湖这个风口吧,你们说的都没价值

    不知道你们有没有感觉到,传统的数据仓库模式,在快速发展的企业面前已然显得力不从心. 数据湖,是可以容纳大量的原始数据的存储库和处理系统,已经成为企业应用大数据的重要工具.数据湖可以更好地加速从数据到价 ...

  5. Dremio 数据湖以及数据仓库

    Dremio 数据湖以及数据仓库 一. 数据湖和数据仓库 什么是数据湖? 数据湖的目的和优势 什么数据仓库? 数据湖和数据仓库之间差异 数据湖引擎 二. Dremio 分离数据和计算 使用基于Apac ...

  6. 一文读懂数据仓库、数据湖、湖仓一体

    目录 1.数据仓库 数据仓库的特征 2.数据湖 数据湖的特征 数据仓库和数据湖的对比 3.湖仓一体 湖仓一体的特征 湖仓一体的优势 智能湖仓 数据仓库.数据湖.湖仓一体对比 1.数据仓库 数据仓库,英 ...

  7. 数据湖(Data Lake)-剑指下一代数据仓库

    数据湖是数据仓库的补充,是为了解决数据仓库漫长的开发周期,高昂的开发.维护成本,细节数据丢失等问题出现的. 数据湖大多是相对于传统基于RDBMS的数据仓库,而从2011年前后,也就是数据湖概念出现的时 ...

  8. 震惊!这篇文章解读数据仓库、数据湖、数据中台等概念,竟然写了4万字!

    点击上方 "zhisheng"关注, 星标或置顶一起成长 Flink 从入门到精通 系列文章 如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天 ...

  9. 4万字 全面解读数据中台、数据仓库、数据湖等概念!建议收藏!

    作者丨修鹏李 建议阅读需50分钟 如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天大约有超过2.5亿亿字节的各种各样数据产生.这些数据需要被存储起来并且能够被方便 ...

最新文章

  1. Maven教程(3)--Maven导入工程常见问题(编码、MavenArchiver、Lifecycle Mapping、maven install 没有反应)...
  2. android xml 未能解析文件,Android Studio提示“无法解析符号”,但项目已编译
  3. 推荐两个检索和分类小工具Carrot2 OSS
  4. 64 位SQL Server 2005通过DB link链接32位SQL Server 2000 的bug解决
  5. python同花顺实时_python同花顺自动交易_基于python的炒股软件
  6. php 验证手机号规则,PHP最完整的验证手机号码
  7. 小米笔记本pro充电测试软件,小米笔记本 Pro 评测:高端已成,性价比不变
  8. win10重置网络命令_Win10怎么重置网络 Win10重置网络命令使用方法
  9. Android 汇率换算对比小工具
  10. android通知的内容图标都不显示,android状态栏通知Notification如何设置为下拉不显示通知内容和图标...
  11. 拉普拉斯矩阵(Laplace Matrix)与瑞利熵(Rayleigh quotient
  12. apache+tomcat 集群学习 点滴1
  13. Python中yield的用法详解——最简单,最清晰的解释
  14. 读书笔记:汇编语言 第三版 王爽 清华出版社 章六 章七 章八 章九 章十
  15. LED光源的种类与LED光源与灯具的定义介绍
  16. ORA-28000: the account is locked/帐户已被锁定解决办法
  17. 基于(springmvc+tomcat+JavaScript)实现化妆品商城系统
  18. 数电基础-基本逻辑门和逻辑代数的基本定律
  19. svn提交代码提示Previous operation has not finished; run ‘cleanup‘ if it was interrupted
  20. Dxoygen语法规范

热门文章

  1. TensorFlow 2.2.0-rc0,这次更新让人惊奇!
  2. 中科院学生经常看的几个公众号
  3. AI竟然可以预测性取向,女装大佬在算法面前不堪一击!
  4. 代码覆盖率原理分析:sys.settrace流程分析
  5. 文本分类的基本思想和朴素贝叶斯算法原理
  6. Linux之查找文件命令
  7. 刚刚!中国高校毕业生薪酬排名Top100出炉!
  8. 【从零学习OpenCV 4】Mat类介绍
  9. PAT计算出2~N所有素数
  10. 聊聊《柒个我》这部剧