一分钟看懂数据湖架构

数据湖和数据仓库两者都广泛应用于大数据存储,但两者之间概念不可互换。数据湖是存储原始数据的池,目的仍没有明确。数据仓库存储结构化的、已过滤、处理的数据,用于特定分析目的。

两种数据存储架构经常被混淆,起始两者之间差异大于共性。事实上,唯一共性都为了存储海量数据。

了解两者区别很重要,因为它们服务于不同的目的,需要使用不同的视角进行理解。虽然数据湖适用于一家公司,但数据仓库应该更适合一家公司。

  • 四个方面差异分析

两者有几个方面的差异:数据结构、用户群、处理方法以及数据的应用目的。

数据湖

数据仓库

数据结构

原始数据

处理过的数据

应用目的

仍未确定

当前正使用

用户群

数据科学家

商务人士

数据访问

高可访问性和快速更新

修改更复杂、成本高

  1. 数据结构:原始数据 vs. 已处理数据

原始数据是仍没有为特定目的处理过的数据。两者最大的差异是多样的原始结构和已处理的数据。数据湖主要存储原始的、未处理的数据,而数据仓库存储处理、提炼过的数据。

因此,数据湖较数据仓库一般需要更大的存储能力。另外,原始的、未处理数据适用性更强,可以服务与任何目的应用,尤其是机器学习。但有时数据湖收集所有原始数据的分险是变成数据沼泽,因为没有相应的数据治理和数据质量措施。

数据仓库仅存储处理过的数据。节约存储空间,并不维护可能永不使用的数据。另外,处理过的数据对大多数人来说比较容易理解。

  1. 目的:未确定 vs. 正在使用

数据湖中单个数据块的目的并不确定。原始数据流入数据湖,有时是为未来特定目的,有时仅为了手边有这样数据。这意味着数据湖的数据组织、过滤相较于数据仓库更少。

已处理的数据是针对特定目的来处理原始数据。因为数据仓库仅存储已处理的数据,所有在存储仓库中的数据用于特定目标而组织的。因此存储空间不会浪费。

  1. 用户群:数据科学家 vs. 商务人士

数据湖对不熟悉的人通常很难浏览未处理的数据,原始的、非结构化数据一般需要数据科学家使用特定工具为特定目的进行理解、翻译、分析。同时越来越多的数据湖信息自助访问工具也正在涌现。

  1. 可访问性:灵活性 vs. 安全性

可访问性和易用性是指整个数据存储库的使用,而不是其中的数据。数据湖数据没有结构,比较容易访问、改变。而且,任何对数据的改变能快速完成,因为数据湖几乎没有限制。

数据仓库是被设计的,更加结构化。数据仓库的主要优势为正在处理的结构化数据更容易描述,结构的限制使得数据仓库维护成本更高。

  • 我该如何选择

一般组织两者都需要。数据湖诞生于利用大数据的需要,机器学习从原始、更细粒度结构和非结构化数据中受益,但仍然需要创建数据仓库供业务用户分析使用。

一分钟看懂数据湖架构相关推荐

  1. 5分钟看懂微服务架构下的Consul 特性及搭建

    一.前言 虽然说牛逼的公司都有那么几个牛逼的运维团队,牛逼的运维团队都有着神秘黑科技般敲代码的姿势:本人虽然不是一个运维工程师,但是自己比较爱倒腾这些东西,会那么一点点运维姿势,虽然不算专业,但是还是 ...

  2. 独家 | 关于数据湖架构、战略和分析的8大错误认知(附链接)

    翻译:张玲 校对:丁楠雅 本文约9200字,建议阅读20分钟. 本文打破有关数据湖的8个错误认知,错误认知包括3方面,还提出了5个小技巧,以构建一个灵活的.可交付业务价值的数据湖. 本文的目的是构建数 ...

  3. 三分钟看懂5G NSA和SA

    原标题:三分钟看懂5G NSA和SA 来源:无线深海 作者:蜉蝣采采 物联网智库 转载 导 读 本文将详细讨论什么是5G NSA(非独立组网)和5G SA(独立组网),以及它们有何异同之处. 01 5 ...

  4. 10分钟看懂Docker和K8S,docker k8s 区别(生动形象,清晰易懂)

    本文来源:鲜枣课堂 原创时间:2018年12月25日 查看docker和k8s的资料看到这篇文章,感觉讲的很好容易理解,整理到自己这里,当作记录,方便查阅 2010年,几个搞IT的年轻人,在美国旧金山 ...

  5. 下一个风口-基于数据湖架构下的数据治理

    前言 随着大数据.人工智能.云计算.物联网等数字化技术的普及和广泛应用,传统的数据仓库模式,在快速发展的企业面前已然显的力不从心.数据湖,是可以容纳大量的原始数据的存储库和处理系统,已经成为企业应用大 ...

  6. 独家 : 关于数据湖架构、战略和分析的8大错误认知(附链接)

    翻译:张玲 校对:丁楠雅 本文约9200字,建议阅读20分钟. 本文打破有关数据湖的8个错误认知,错误认知包括3方面,还提出了5个小技巧,以构建一个灵活的.可交付业务价值的数据湖. 本文的目的是构建数 ...

  7. 量子计算机 漫画,漫画 | 10分钟看懂量子比特、量子计算和量子算法

    原标题:漫画 | 10分钟看懂量子比特.量子计算和量子算法 请做好准备,即将进入烧脑模式! 宏观世界的生活经验很多都是表象.比如,你可能认为世界的运行是确定的.可预测的:一个物体不可能同时处于两个相互 ...

  8. java和python的web自动化有什么区别-三分钟看懂Python和Java的区别

    随着人工智能的火爆,Python和Java一直在各种流行编程语言中名列前茅.其实Java和Python有些相似,因为很多编程语言之间是互通的.Java现在还是第一,不知道Python未来会不会超越Ja ...

  9. python和java一样吗-三分钟看懂Python和Java的区别

    随着人工智能的火爆,Python和Java一直在各种流行编程语言中名列前茅.其实Java和Python有些相似,因为很多编程语言之间是互通的.Java现在还是第一,不知道Python未来会不会超越Ja ...

最新文章

  1. 区块链用AI和大数据改变行业现状
  2. 根据Android架构分层推荐开发书籍
  3. 深入理解分布式技术 - 如何确保高可用
  4. 转载《全国研究生考试专业课资料大全(部分资料)》
  5. vue2.0 新手教程(一)
  6. Nginx-基础使用
  7. 读取mysql数据到select_MySQL数据库8(十三)高级数据操作之select指令
  8. C++设计模式-工厂模式
  9. python程序设计实践教程答案-Python程序设计实践教程
  10. Transitions Among the Processor’s Operating Modes
  11. linux版本和特点,Linux与其他系统对比,具有哪些特点?
  12. python实时监控文件目录_c#教程之c#使用filesystemwatcher实时监控文件目录的
  13. 架构运维篇(五):Centos7/Linux中安装RocketMQ
  14. Java获取打印机打印图片
  15. dataframe动态命名(读取不同文件并规律命名)
  16. 解谜游戏 | 感受算法的魅力
  17. android subscriber 自定义,自定义Subscriber
  18. matlab模拟嫦娥奔月,2017年6月英语六级翻译模拟练习题:嫦娥奔月
  19. 【MATLAB】求Taylor展开式
  20. 非此即彼的逻辑错误_英语逻辑错误一览

热门文章

  1. Git,哆啦A梦的时光机(二)
  2. linux i2c 多字节读写,基于51单片机i2c多字节的读写
  3. 20210221 拨码开关
  4. VMware16 安装windows_10
  5. 黑马Matplotlib学习笔记
  6. 【吴刚】网页元素设计WUI初级入门视频教程-吴刚-专题视频课程
  7. 转转验机源代码+后台管理
  8. 中国移动\电信\联通准备2020年启动5G网络商用:网速10GB/s
  9. 国际观察013 | 什么?快速路变身景观大道竟不影响交通?--听巴黎规划专家给你讲...
  10. 02 sqlite数据库应用(3)——智力问答测试