数据湖和数据仓库的区别?
简介
数据湖这个概念和数据仓库这两个概念一直搞不清楚,之前感觉区别就是数据湖是数据仓库的父集。数据湖是个伪命题,平时生活中也用不到,然后今天听了我的一个师哥的讲解,然后简单总结下。
常见的问题
1 数据湖和数据仓库的区别?
相似点:都可以处理海量数据,都是为了得到有价值的数据。
不同点:架构上,数仓基本要求符合DDL定义的结构,数据湖则 湖纳百川。 数据上,数仓为结构化数据设计,数据湖,湖纳百川。 模块上,数仓一般使用一个软件来开发,比如说 hive数仓,hadoop数仓,数据湖则湖纳百川。性能与money上,数仓在存储上没有湖好,因为湖的数据格式都是各式各样的,用复合数据格式的存储效率显然更好,性能上数仓相对好一点吧,毕竟不用格式转换啥的。
2 数据湖是不是伪命题?
不要对数据湖带有偏见,因为数据是各种各样的格式都有,随着信息的增长,数据湖未来在某些程度上是未来的必然选择,尤其是在机器学习上,比如视觉方面,就有可能要海量的图片来结合音频来训练。
3 数据湖的目标?
感觉和数仓的目标差不多吧? 节省money,提供更多业务所需有价值的数据。
4 为什么要使用数据湖?
1 数仓不能使用存储非结构化数据。
2 数据湖在分析数据时,使用的东西不单一化更多一点。
数据湖介绍
湖的意思是 能够汇集各种的数据。数据湖的目标:如何取到业务需要的有价值的数据(差不多和数仓目标一样吧?) 然后数据湖可以认为是一种技术系统 ,大批量的分析结构化和非结构化数据资产。
通用架构
第一层 :数据层(结构化,半结构化,非结构化数据)
BY 批处理 | 流处理
第二层 :(原始数据,精品数据)
第三层:BI 啥的。
组件
存储层 :存储杂七杂八各种类型数据。(数仓一般只能存储DDL定义的架构数据)
格式化层: 把存储层的数据给格式化
计算层 : 计算层比较丰富(mr,flink,presto,spark)
元数据层 : 对于元数据的管理(比如说视频,这些视频不点开看,就不知道内容是啥,所以这个元数据层一定得好好弄,最好直接写出来,视频的基本信息)
数据湖的改良
改良一 知道数据的身份证?
1 元数据要注明干什么的,尤其是视频啥的,视频的基础信息,和内容是啥的最好写清楚。
2 整合图谱
各种各样程序存数据过来,要知道这个数据的亲朋好友,前世今生
3 语境
描述清楚 在哪个context中,别造句造错,出现 ‘我必鼎力相助你‘(鼎力相助只能用于第三人称)这种病句。
改良二 数据划分
(1) 数据要分下类(模拟信号数据(日志数据),应用程序数据,结构化数据,非结构数据)
(2) 另一种角度,尽量别让数据重复
改良三
文档沉淀,尽可能把数据描述清楚,让业务或者师弟一看就知道去找哪个数据。
数据湖的缺点
1 性能低,原始加工。
2 一段时间后,数据沼泽(数据错误或失效)的情况出现
3 应用范围,小公司连数仓都没,更别提数据湖了
数据湖和数据仓库的区别?相关推荐
- 数据湖与数据仓库的根本区别,在于前者是“市场经济”,而后者是“计划经济”...
这是傅一平的第356篇原创 正文开始 很多同学跟我一样,对于数据湖充满好奇,也许还读了不少数据湖文章,有不觉明历的,也有认为是概念炒作的,但无论别人怎么说,你还是会觉得难以把握数据湖的本质. 有些人会 ...
- 论数据湖与数据仓库一体化设计的必要性
数据湖概念 数据湖最早是由Pentaho的创始人兼CTO,James Dixon,在2010年10月纽约 Hadoop World大会上提出来的.当时Pentaho刚刚发布了Hadoop的第一个版本. ...
- 数据湖和数据仓库区别介绍
数据湖是用来存储什么样的数据呢? 数据湖是以什么样的存储模式存储数据呢?是关系型数据库的模式吗? 数据湖与Delta Lake的关系是? 数据湖可以替代数据仓库吗? 简单对比下数据湖与数据仓库. 数据 ...
- 惟客数据解读:数据湖、数据仓库、数据中台究竟区别在哪儿?
数字化转型浪潮卷起各种新老概念满天飞,数据湖.数据仓库.数据中台轮番在朋友圈刷屏,有人说"数据中台算个啥,数据湖才是趋势",有人说"再见了数据湖.数据仓库,数据中台已成气 ...
- 数据湖 VS 数据仓库之争?阿里提出大数据架构新概念:湖仓一体
作者 |关涛.李睿博.孙莉莉.张良模.贾扬清(from 阿里云智能计算平台) 黄波.金玉梅.于茜.刘子正(from 新浪微博机器学习研发部) 编者按 随着近几年数据湖概念的兴起,业界对于数据仓库和数据 ...
- 一文读懂:本地数据湖丨数据仓库丨云数据湖的利与弊
数据湖指的是一个中心位置,大量数据以原始的.非结构化的格式存储,其中包含有关数据和惟一标识符的信息.它们存储的数据可以稍后进行处理,以提取有价值的业务见解并推动业务向前发展. 这种类型的灵活组织允许存 ...
- 湖仓一体:数据湖vs数据仓库之争?
本文介绍数据仓库和数据湖的区别是什么,作者对其来龙去脉进行深入剖析,来阐述两者融合演进的新方向--湖仓一体. 导读:随着近几年数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断.有人说 ...
- 数据湖与数据仓库的新未来:阿里提出湖仓一体架构
点击上方 "zhisheng"关注, 星标或置顶一起成长 Flink 从入门到精通 系列文章 作者: 关涛.李睿博.孙莉莉.张良模.贾扬清 (from 阿里云智能计算平台) 黄波. ...
- 数据库、数据湖、数据仓库、湖仓一体、智能湖仓,分别都是什么鬼?
最近被大数据相关的小词儿,整的有点懵. 索性我们就来个专题,聊透数据库.数据仓库.数据湖以及风头正劲的"Lake house"--湖仓一体化. 数据仓库是个啥?和数据库有什么不同? ...
最新文章
- linux进程间通信:POSIX 消息队列
- 设计模式七大原则(C++描述)
- 李飞飞下半年或将从 Google离职?李飞飞回应
- [转]OData and Authentication – Part 6 – Custom Basic Authentication
- python中常用的推导(字典推导和列表推导)
- 量化金融模型的基本Roadmap
- 【转载】12306铁道部订票网站性能分析
- 带参的信号、lamda表达式及坐标系统
- 如何解决NLP分类任务的11个关键问题:类别不平衡低耗时计算小样本鲁棒性测试检验长文本分类 JayLou娄杰
- 【Luogu1111】修复公路(MST模板)
- 搜索引擎:获取并处理mdx英汉词典文件为数据库
- Linux消息队列及函数详解(含示例)
- AfxBeginThread第二个参数LPVOID pParam的使用
- yarn lib cli.js SyntaxError: Unexpected token
- 密度计算机公式,相对密度计算公式
- 用mysql建销售订单主表_mysql订单表如何设计?
- mysql 加序号以及成绩单排名的几种实现方式
- 关于 uintptr_t和intptr_t 类型
- windows远程桌面,停留在“请稍后”页面
- C语言-getchar/putchar详解