问题4:数据库不仅仅是数据仓库的重访吗?

我们中的一些人更多地了解了数据湖,特别是在过去的六个月里。有些人告诉我们,数据湖只不过是数据仓库的转世,本着“去过那里”的精神,其他人则专注于这个“有光泽的,新的”数据湖有多好,而另一些则是站在海岸线尖叫,“不要进去!这不是一个湖 - 这是一个沼泽!“

所有的开玩笑,我看到两者之间的共同点是,他们都是数据存储库。而已。但是我正在超越自己。我们首先定义数据湖,确保我们都在同一页面上。Pentaho的创始人兼首席技术官James Dixon被认为是提出这个术语。这就是他如何描述一个数据湖:

“如果你想把一个数据集市看作一个瓶装水的存储 - 清洁和包装,并容易消费的结构 - 数据湖是一个更自然状态的大量水。数据湖的内容从一个源头填充到湖中,湖的各种用户可以来检查,潜水或采样。

今年早些时候,我的同事Anne Buff和我参加了关于数据湖的在线辩论。我的集会呼声是#GOdatalakeGO,而Anne坚持#NOdatalakeNO。以下是我们在辩论中使用的定义:

“数据湖是一个存储库,以原生格式存储大量原始数据,包括结构化,半结构化和非结构化数据。在需要数据之前,数据结构和需求是没有定义的。“

下表帮助充实这个定义。它还突出了数据仓库和数据湖之间的一些主要差异。这绝不是一个详尽的清单,但它确实使我们超越了这个“在那里,做到了”的心态:

我们来简单的看看每一个:

数据。数据仓库仅存储已建模/结构化的数据,而数据库不包含数据。它将其存储为全结构化,半结构化和非结构化的。[看我的大数据是不是新的图形。数据仓库只能存储橙色数据,而数据湖可以存储所有的橙色和蓝色数据。]

处理。在将数据加载到数据仓库之前,我们首先需要给它一些形状和结构,即我们需要对其进行建模。这就是所谓的写模式。有了数据湖,您只需按原样加载原始数据,然后在准备好使用数据时,就是在给定数据的形状和结构时。这就是所谓的模式在读。两种截然不同的方法。

存储。像Hadoop这样的大数据技术的主要特点之一是与数据仓库相比,存储数据的成本相对较低。这主要有两个原因:首先,Hadoop是开源软件,所以许可和社区支持是免费的。其次,Hadoop被设计成安装在低成本的商品硬件上。

敏捷。根据定义,数据仓库是一个高度结构化的仓库。改变结构在技术上并不困难,但考虑到与之相关的所有业务流程,这可能非常耗时。另一方面,数据湖缺乏数据仓库的结构 - 这使开发人员和数据科学家能够轻松地配置和重新配置他们的模型,查询和应用程序。

安全。数据仓库技术已经存在了数十年,而大数据技术(数据湖的基础)则相对较新。因此,保护数据仓库中的数据的能力比保护数据湖中的数据要成熟得多。但是,应该指出的是,目前大数据行业正在大力推行安全措施。这不是一个问题,而是什么时候。

用户。很长一段时间,大家一直在呼吁BI和分析!我们建立了数据仓库,并邀请“所有人”来,但他们来了吗?平均而言,有20-25%的人拥有。这个数据湖是否一样的呐喊?我们将建设数据湖,并邀请大家来?不,如果你聪明。相信我,一个数据湖,在这个成熟的阶段,最适合数据科学家。

为什么这很重要

作为营销人员,您可能会听到您的组织正在建立一个数据湖和/或您的营销数据仓库是一个候选人被迁移到这个数据湖。尽管数据仓库和数据库都是存储库,但数据仓库不是数据仓库2.0,也不是数据仓库的替代品,这一点很重要。

所以要回答这个问题 - 数据仓库不仅仅是数据仓库吗?- 我的意思是否定的。数据湖不是数据仓库。它们都针对不同的目的进行了优化,目标是将每个目标用于他们设计的目的。换句话说,使用最好的工具来完成这项工作。

这不是一个新的教训。我们以前学过这个。现在让我们来做。

微信公众号

如果喜欢仙翁的分享,请关注微信公众号【首席架构师智库】

仙翁小号

如果想进一步讨论,请加仙翁小号【intelligenttimes】,注明你希望加入的群:架构,云计算,大数据,数据科学,物联网,人工智能,安全,全栈开发,DevOps,数字化,产品转型。

微信圈子

如果想和志趣相投的同好交流,请关注仙翁的微信圈子【首席架构师圈】。

如果想向大咖提问,近距离接触,或者获得私密分享,请加入知识星球【首席架构师圈】

数据湖与数据仓库:主要差异相关推荐

  1. Dremio 数据湖以及数据仓库

    Dremio 数据湖以及数据仓库 一. 数据湖和数据仓库 什么是数据湖? 数据湖的目的和优势 什么数据仓库? 数据湖和数据仓库之间差异 数据湖引擎 二. Dremio 分离数据和计算 使用基于Apac ...

  2. 惟客数据解读:数据湖、数据仓库、数据中台究竟区别在哪儿?

    数字化转型浪潮卷起各种新老概念满天飞,数据湖.数据仓库.数据中台轮番在朋友圈刷屏,有人说"数据中台算个啥,数据湖才是趋势",有人说"再见了数据湖.数据仓库,数据中台已成气 ...

  3. 论数据湖与数据仓库一体化设计的必要性

    数据湖概念 数据湖最早是由Pentaho的创始人兼CTO,James Dixon,在2010年10月纽约 Hadoop World大会上提出来的.当时Pentaho刚刚发布了Hadoop的第一个版本. ...

  4. 湖仓:数据湖与数据仓库的融合

     数据湖 & 数据仓库 数据,已经成为了企业的生命线与核心资产,数据管理和数据分析成为非常重要的应用领域.出于对数据管理领域的关注,不同行业也逐步提升了对数据存储.数据治理及数据分析能力的要求 ...

  5. 数据湖与数据仓库的根本区别,在于前者是“市场经济”,而后者是“计划经济”...

    这是傅一平的第356篇原创 正文开始 很多同学跟我一样,对于数据湖充满好奇,也许还读了不少数据湖文章,有不觉明历的,也有认为是概念炒作的,但无论别人怎么说,你还是会觉得难以把握数据湖的本质. 有些人会 ...

  6. 数据库、数据湖、数据仓库、湖仓一体、智能湖仓,分别都是什么鬼?

    最近被大数据相关的小词儿,整的有点懵. 索性我们就来个专题,聊透数据库.数据仓库.数据湖以及风头正劲的"Lake house"--湖仓一体化. 数据仓库是个啥?和数据库有什么不同? ...

  7. 数据湖 VS 数据仓库之争?阿里提出大数据架构新概念:湖仓一体

    作者 |关涛.李睿博.孙莉莉.张良模.贾扬清(from 阿里云智能计算平台) 黄波.金玉梅.于茜.刘子正(from 新浪微博机器学习研发部) 编者按 随着近几年数据湖概念的兴起,业界对于数据仓库和数据 ...

  8. 数据湖和数据仓库区别介绍

    数据湖是用来存储什么样的数据呢? 数据湖是以什么样的存储模式存储数据呢?是关系型数据库的模式吗? 数据湖与Delta Lake的关系是? 数据湖可以替代数据仓库吗? 简单对比下数据湖与数据仓库. 数据 ...

  9. 一文读懂:本地数据湖丨数据仓库丨云数据湖的利与弊

    数据湖指的是一个中心位置,大量数据以原始的.非结构化的格式存储,其中包含有关数据和惟一标识符的信息.它们存储的数据可以稍后进行处理,以提取有价值的业务见解并推动业务向前发展. 这种类型的灵活组织允许存 ...

最新文章

  1. python小数输出01_python:格式化输出(上)
  2. (69)FPGA面试题-使用不同的代码实现2:1 MUX ?使用if语句
  3. 卖爆了!华为Mate40天猫20秒售罄、京东11秒抢光
  4. LeetCode 1116. 打印零与奇偶数
  5. 顶点计划 抄作业问题讨论
  6. matlab绘制二元一次函数图像_如何用matlab数据拟合函数?用matlab求解多元线性方程...
  7. 机动车车牌分类及命名规则总结
  8. python中将一个numpy数组转为str,写入文件时会自动换行
  9. 新的计算机的wifi连接无线网络连接,如何设置电脑优先连接无线WIFI网络
  10. react中使用高德地图进行定位
  11. Millet谷仓:区块链重构电商
  12. UNI-APP安卓本地打包详细教程(保姆级)
  13. 蚂蚁金服是不是中国最好的 FinTech(金融科技)公司
  14. 车载系统大战:左边是BAT,右边是华为小米们
  15. elementUI控制表格样式(表格头、表格行、表格列)
  16. springboot界面上传文件和在页面上显示文件
  17. 工作经验分享-vivo链路监控
  18. html中图片放css还是,图片到底是写在html还是写在css呢
  19. vue-trtc多人视频开发(从零开始)-有手就行篇-最详细讲解
  20. 【idea敲代码没有提示解决办法】

热门文章

  1. 移动端项目总结 - DCloud-HBuilder打包
  2. InputStream的read方法
  3. 堆栈指针寄存器 SP详解以及栈的作用
  4. Gradle transitive = true
  5. android studio用mysql_Android Studio使用JDBC远程连接mysql的注意事项(附示例)
  6. PTA 7-2 一帮一
  7. 安卓webview的一些坑
  8. JQuery播放暂停HTML视频
  9. Java移位运算符不外乎就这三种
  10. Synplify 综合Gtech 网表