数据库、数据仓库与数据湖
1 数据库
数据库包含关系型数据库存和非关系型数据库。我们通常所说的数据库指的是关系型数据库。关系数据库是指采用了关系模型来组织数据的数据库,其以行和列的形式存储数据。关系型数据库的主要用于联机事务处理OLTP(On-Line Transaction Processing)主要进行基本的、日常的事务处理,例如银行交易等场景。
主要特点:
- 结构化程度高
- 独立性强
- 冗余度低
2 数据仓库
数据仓库 ,由数据仓库之父比尔·恩门(Bill Inmon)于1990年提出,主要功能仍是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,做有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。
主要特点:
- 面向主题:按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关
- 不可更新:数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询
- 非规范化:数据可以是而且经常是冗余的
- 大容量:时间序列数据集合通常都非常大
- 效率高:通过表结构优化、存储优化等手段,提升查询效率
3 数据湖
数据湖是一个集中存储各类结构化和非结构化数据的大型数据仓库,它可以存储来自多个数据源、多种数据类型的原始数据,数据无需经过结构化处理,就可以进行存取、处理、分析和传输。数据湖能帮助企业快速完成异构数据源的联邦分析、挖掘和探索数据价值。数据湖的本质,是由“数据存储架构+数据处理工具”组成的解决方案。
主要特点:
- 容量大
- 格式多
- 速度快
4 三者比较
数据库 | 数据仓库 | 数据湖 | |
场景 |
OLTP 主要进行基本的、 日常的事务处理 |
OLAP 通过历史的结构化数据进行数据分析 |
OLAP 可以探索性分析所有类型的数据,包括机器学习、数据发现、特征分析、预测等 |
数据源 | 单数据源 | 多数据源 | 多数据源 |
标准化 | 高度标准化的表态schema | 非标准化schema | 非标准化schema |
敏捷性 | 数据库的本质是高度结构化的,用于存储特定的数据格式并回答特定的问题,因此,在敏捷性方面不如数据湖。 | 数据仓库的本质是高度结构化的,用于存储特定的数据格式并回答特定的问题,因此,在敏捷性方面不如数据湖。 | 数据湖的标准,数据湖不需要等待很长的开发周期就能满足数据洞察的需求。 |
数据类型 | 结构化数据 | 在转换过程中结构化的数据 | 未经处理或转换的原始数据包括结构化、非结构化或半结构化数据 |
处理方式 | 写之前格式化 | 进入数仓需要经过ETL,转换成固定模式的数据,即写模式。 | 先装载至数据湖,当访问时才会去解析成所需要的格式,即读模式。 |
容量 | 容易小,通常是G级别 | 一般是TB到PB级别 | 通常是PB级别 |
读写 | 写优化 | 读优化 | 读优化 |
成本 | 起步成本高,后期成本高 | 起步成本高,后期成本较低 | 起步成本低,后期成本较高 |
质量 | 数据质量最高 | 经过ETL之后,都是格式化的高质量的数据,可作为事实依据 | 由于缺少模式, 所有数据都允许输入,因此,数据湖包含较低级别的数据质量 |
对象 | 线上业务 | 业务分析师为主 | 数据科学家、数据开发人员为主 |
数据库、数据仓库与数据湖相关推荐
- 4万字全面掌握数据库, 数据仓库, 数据集市,数据湖,数据中台
↑↑↑关注后"星标"简说Python 人人都可以简单入门Python.爬虫.数据分析 简说Python推荐来源:数据社 作者修鹏李One old watch, like brief ...
- 政府信息化与电子政务、企业信息化与电子商务、数据库和数据仓库的区别、商业智能系统处理过程、数据仓库结构图、数据挖掘、数据仓库和数据湖的对比
政府信息化与电子政务.企业信息化与电子商务.数据库和数据仓库的区别.商业智能系统处理过程.数据仓库结构图.数据挖掘.数据仓库和数据湖的对比 政府信息化与电子政务 企业信息化与电子商务 1.企业资源计划 ...
- 数据库,数据仓库,数据湖
数据仓库四层分层 ODS--原始数据层:存放原始数据 ODS层即操作数据存储,是最接近数据源中数据的一层,数据源中的数据,经过抽取.洗净.传输,也就说传说中的ETL之后,装入本层:一般来说ODS层的数 ...
- 数据仓库、数据湖、流批一体,终于有大神讲清楚了!
摘要 数据仓库,数据湖,包括Flink社区提的流批一体,它们到底能解决什么问题?今天将由阿里云研究员从解决业务问题出发,将问题抽丝剥茧,从技术维度娓娓道来:为什么你需要数据湖或者数据仓库解决方案?它的 ...
- 数据仓库、数据湖、流批一体
作者: 蒋晓伟(量仔) 阿里云研究员 金晓军(仙隐) 阿里云高级技术专家 摘要:数据仓库,数据湖,包括Flink社区提的流批一体,它们到底能解决什么问题?今天将由阿里云研究员从解决业务问题出发,将问题 ...
- [转]关于数据中台、数据平台、数据仓库、数据湖等数据概念的对比解析
前言 2010年左右,还是在上学的时候,学过一门课程叫<数据仓库与数据挖掘>,那还是属于传统数据的时代,我们会讨论什么是数据仓库?什么是数据集市?数据仓库和数据库有什么区别?等等,当我还在 ...
- 如何基于MaxCompute快速打通数据仓库和数据湖的湖仓一体实践
简介: MaxCompute 是面向分析的企业级 SaaS 模式云数据仓库,以 Serverless 架构提供快速.全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户 ...
- 数据仓库、数据湖、数据集市、和数据中台的故事
数据仓库.数据湖.数据集市.和数据中台的故事 如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天大约有超过2.5亿亿字节的各种各样数据产生.这些数据需要被存储起来并 ...
- 关于数据中台、数据平台、数据仓库、数据湖等数据概念的对比解析
前言 2010年左右,还是在上学的时候,学过一门课程叫<数据仓库与数据挖掘>,那还是属于传统数据的时代,我们会讨论什么是数据仓库?什么是数据集市?数据仓库和数据库有什么区别?等等,当我还在 ...
- 一文读懂数据仓库、数据湖、湖仓一体
目录 1.数据仓库 数据仓库的特征 2.数据湖 数据湖的特征 数据仓库和数据湖的对比 3.湖仓一体 湖仓一体的特征 湖仓一体的优势 智能湖仓 数据仓库.数据湖.湖仓一体对比 1.数据仓库 数据仓库,英 ...
最新文章
- oracle数据库学习相关笔记-转换函数
- Objective-C中的Category
- python 遍历目录_Python遍历目录的4种方法实例介绍
- php 不刷新提交,提交表单而不刷新页面ajax,php,javascript?
- 云管理成功的关键:应用工作流
- SAP Spartacus产品数据HTTP GET请求前的OPTIONS请求
- day28 socket网络编程
- 最长上升子序列_动态规划 最长上升子序列LIS
- 12017.linux设置串口支持非标准波特率614400
- Tricks(三十一)—— 访问一个数组相邻的奇数位偶数位
- OD教程(去除NAG窗口--PE文件结构)
- EovaJFinal在阿里云K8S实现多环境自动化部署
- 使用 C# 编程对 RTF 文档进行操作 [转载]
- 直流稳压稳流电源基本功能,电源使用注意事项
- 按照拼音对数组中的中文字符串排序的算法
- 第二课 SS7信令系统网络简介
- stm32之备份寄存器(BKP)应用(侵入检测中断)
- Allow Arbitrary Loads in Web Content与Allow Arbitrary Loads配置
- 中小学AI离线智能语音识别模块语音 图形化编程
- mybatis-plus分页插件配置与使用(springboot)