简介

数据湖这个概念和数据仓库这两个概念一直搞不清楚,之前感觉区别就是数据湖是数据仓库的父集。数据湖是个伪命题,平时生活中也用不到,然后今天听了我的一个师哥的讲解,然后简单总结下。

常见的问题

1 数据湖和数据仓库的区别?

相似点:都可以处理海量数据,都是为了得到有价值的数据。
不同点:架构上,数仓基本要求符合DDL定义的结构,数据湖则 湖纳百川。 数据上,数仓为结构化数据设计,数据湖,湖纳百川。 模块上,数仓一般使用一个软件来开发,比如说 hive数仓,hadoop数仓,数据湖则湖纳百川。性能与money上,数仓在存储上没有湖好,因为湖的数据格式都是各式各样的,用复合数据格式的存储效率显然更好,性能上数仓相对好一点吧,毕竟不用格式转换啥的。

2 数据湖是不是伪命题?

不要对数据湖带有偏见,因为数据是各种各样的格式都有,随着信息的增长,数据湖未来在某些程度上是未来的必然选择,尤其是在机器学习上,比如视觉方面,就有可能要海量的图片来结合音频来训练。

3 数据湖的目标?

感觉和数仓的目标差不多吧? 节省money,提供更多业务所需有价值的数据。

4 为什么要使用数据湖?

1 数仓不能使用存储非结构化数据。
2 数据湖在分析数据时,使用的东西不单一化更多一点。

数据湖介绍

湖的意思是 能够汇集各种的数据。数据湖的目标:如何取到业务需要的有价值的数据(差不多和数仓目标一样吧?) 然后数据湖可以认为是一种技术系统 ,大批量的分析结构化和非结构化数据资产。

通用架构

第一层 :数据层(结构化,半结构化,非结构化数据)
BY 批处理 | 流处理
第二层 :(原始数据,精品数据)
第三层:BI 啥的。

组件

存储层 :存储杂七杂八各种类型数据。(数仓一般只能存储DDL定义的架构数据)
格式化层: 把存储层的数据给格式化
计算层 : 计算层比较丰富(mr,flink,presto,spark)
元数据层 : 对于元数据的管理(比如说视频,这些视频不点开看,就不知道内容是啥,所以这个元数据层一定得好好弄,最好直接写出来,视频的基本信息)

数据湖的改良

改良一 知道数据的身份证?
1 元数据要注明干什么的,尤其是视频啥的,视频的基础信息,和内容是啥的最好写清楚。
2 整合图谱
各种各样程序存数据过来,要知道这个数据的亲朋好友,前世今生
3 语境
描述清楚 在哪个context中,别造句造错,出现 ‘我必鼎力相助你‘(鼎力相助只能用于第三人称)这种病句。
改良二 数据划分
(1) 数据要分下类(模拟信号数据(日志数据),应用程序数据,结构化数据,非结构数据)
(2) 另一种角度,尽量别让数据重复
改良三
文档沉淀,尽可能把数据描述清楚,让业务或者师弟一看就知道去找哪个数据。

数据湖的缺点

1 性能低,原始加工。
2 一段时间后,数据沼泽(数据错误或失效)的情况出现
3 应用范围,小公司连数仓都没,更别提数据湖了

数据湖和数据仓库的区别?相关推荐

  1. 数据湖与数据仓库的根本区别,在于前者是“市场经济”,而后者是“计划经济”...

    这是傅一平的第356篇原创 正文开始 很多同学跟我一样,对于数据湖充满好奇,也许还读了不少数据湖文章,有不觉明历的,也有认为是概念炒作的,但无论别人怎么说,你还是会觉得难以把握数据湖的本质. 有些人会 ...

  2. 论数据湖与数据仓库一体化设计的必要性

    数据湖概念 数据湖最早是由Pentaho的创始人兼CTO,James Dixon,在2010年10月纽约 Hadoop World大会上提出来的.当时Pentaho刚刚发布了Hadoop的第一个版本. ...

  3. 数据湖和数据仓库区别介绍

    数据湖是用来存储什么样的数据呢? 数据湖是以什么样的存储模式存储数据呢?是关系型数据库的模式吗? 数据湖与Delta Lake的关系是? 数据湖可以替代数据仓库吗? 简单对比下数据湖与数据仓库. 数据 ...

  4. 惟客数据解读:数据湖、数据仓库、数据中台究竟区别在哪儿?

    数字化转型浪潮卷起各种新老概念满天飞,数据湖.数据仓库.数据中台轮番在朋友圈刷屏,有人说"数据中台算个啥,数据湖才是趋势",有人说"再见了数据湖.数据仓库,数据中台已成气 ...

  5. 数据湖 VS 数据仓库之争?阿里提出大数据架构新概念:湖仓一体

    作者 |关涛.李睿博.孙莉莉.张良模.贾扬清(from 阿里云智能计算平台) 黄波.金玉梅.于茜.刘子正(from 新浪微博机器学习研发部) 编者按 随着近几年数据湖概念的兴起,业界对于数据仓库和数据 ...

  6. 一文读懂:本地数据湖丨数据仓库丨云数据湖的利与弊

    数据湖指的是一个中心位置,大量数据以原始的.非结构化的格式存储,其中包含有关数据和惟一标识符的信息.它们存储的数据可以稍后进行处理,以提取有价值的业务见解并推动业务向前发展. 这种类型的灵活组织允许存 ...

  7. 湖仓一体:数据湖vs数据仓库之争?

    本文介绍数据仓库和数据湖的区别是什么,作者对其来龙去脉进行深入剖析,来阐述两者融合演进的新方向--湖仓一体. 导读:随着近几年数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断.有人说 ...

  8. 数据湖与数据仓库的新未来:阿里提出湖仓一体架构

    点击上方 "zhisheng"关注, 星标或置顶一起成长 Flink 从入门到精通 系列文章 作者: 关涛.李睿博.孙莉莉.张良模.贾扬清 (from 阿里云智能计算平台) 黄波. ...

  9. 数据库、数据湖、数据仓库、湖仓一体、智能湖仓,分别都是什么鬼?

    最近被大数据相关的小词儿,整的有点懵. 索性我们就来个专题,聊透数据库.数据仓库.数据湖以及风头正劲的"Lake house"--湖仓一体化. 数据仓库是个啥?和数据库有什么不同? ...

最新文章

  1. linux进程间通信:POSIX 消息队列
  2. 设计模式七大原则(C++描述)
  3. 李飞飞下半年或将从 Google离职?李飞飞回应
  4. [转]OData and Authentication – Part 6 – Custom Basic Authentication
  5. python中常用的推导(字典推导和列表推导)
  6. 量化金融模型的基本Roadmap
  7. 【转载】12306铁道部订票网站性能分析
  8. 带参的信号、lamda表达式及坐标系统
  9. 如何解决NLP分类任务的11个关键问题:类别不平衡低耗时计算小样本鲁棒性测试检验长文本分类 JayLou娄杰
  10. 【Luogu1111】修复公路(MST模板)
  11. 搜索引擎:获取并处理mdx英汉词典文件为数据库
  12. Linux消息队列及函数详解(含示例)
  13. AfxBeginThread第二个参数LPVOID pParam的使用
  14. yarn lib cli.js SyntaxError: Unexpected token
  15. 密度计算机公式,相对密度计算公式
  16. 用mysql建销售订单主表_mysql订单表如何设计?
  17. mysql 加序号以及成绩单排名的几种实现方式
  18. 关于 uintptr_t和intptr_t 类型
  19. windows远程桌面,停留在“请稍后”页面
  20. C语言-getchar/putchar详解

热门文章

  1. js实现上滑下滑翻页
  2. [附源码]计算机毕业设计高校体育场馆管理系统Springboot程序
  3. linux tcpdump抓包命令使用详解
  4. ORECAL分析函数
  5. 深度!2019年国家自然基金在线填报答疑帖
  6. 这几款抠图工具效果很好,朋友们不要错过
  7. 中南大学计算机工程制图考试题库,中南大学-工程制图试题及答案和习题集答案 cad...
  8. jdk8-时间API
  9. 锂离子电池热失控预警资料整理(一)
  10. 针对某软件系统的测试论文,关于软件测试的论文