1 数据库

数据库包含关系型数据库存和非关系型数据库。我们通常所说的数据库指的是关系型数据库。关系数据库是指采用了关系模型来组织数据的数据库,其以行和列的形式存储数据。关系型数据库的主要用于联机事务处理OLTP(On-Line Transaction Processing)主要进行基本的、日常的事务处理,例如银行交易等场景。

主要特点:

  • 结构化程度高
  • 独立性强
  • 冗余度低

2 数据仓库

数据仓库 ,由数据仓库之父比尔·恩门(Bill Inmon)于1990年提出,主要功能仍是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,做有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。

主要特点:

  • 面向主题:按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关
  • 不可更新:数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询
  • 非规范化:数据可以是而且经常是冗余的
  • 大容量:时间序列数据集合通常都非常大
  • 效率高:通过表结构优化、存储优化等手段,提升查询效率

3 数据湖

数据湖是一个集中存储各类结构化和非结构化数据的大型数据仓库,它可以存储来自多个数据源、多种数据类型的原始数据,数据无需经过结构化处理,就可以进行存取、处理、分析和传输。数据湖能帮助企业快速完成异构数据源的联邦分析、挖掘和探索数据价值。数据湖的本质,是由“数据存储架构+数据处理工具”组成的解决方案。

主要特点:

  • 容量大
  • 格式多
  • 速度快

4 三者比较

数据库 数据仓库 数据湖
场景

OLTP

主要进行基本的、

日常的事务处理

OLAP

通过历史的结构化数据进行数据分析

OLAP

可以探索性分析所有类型的数据,包括机器学习、数据发现、特征分析、预测等

数据源 单数据源 多数据源 多数据源
标准化 高度标准化的表态schema 非标准化schema 非标准化schema
敏捷性 数据库的本质是高度结构化的,用于存储特定的数据格式并回答特定的问题,因此,在敏捷性方面不如数据湖。 数据仓库的本质是高度结构化的,用于存储特定的数据格式并回答特定的问题,因此,在敏捷性方面不如数据湖。 数据湖的标准,数据湖不需要等待很长的开发周期就能满足数据洞察的需求。
数据类型 结构化数据 在转换过程中结构化的数据 未经处理或转换的原始数据包括结构化、非结构化或半结构化数据
处理方式 写之前格式化 进入数仓需要经过ETL,转换成固定模式的数据,即写模式。 先装载至数据湖,当访问时才会去解析成所需要的格式,即读模式。
容量 容易小,通常是G级别 一般是TB到PB级别 通常是PB级别
读写 写优化 读优化 读优化
成本 起步成本高,后期成本高 起步成本高,后期成本较低 起步成本低,后期成本较高
质量 数据质量最高 经过ETL之后,都是格式化的高质量的数据,可作为事实依据 由于缺少模式, 所有数据都允许输入,因此,数据湖包含较低级别的数据质量
对象 线上业务 业务分析师为主 数据科学家、数据开发人员为主

数据库、数据仓库与数据湖相关推荐

  1. 4万字全面掌握数据库, 数据仓库, 数据集市,数据湖,数据中台

    ↑↑↑关注后"星标"简说Python 人人都可以简单入门Python.爬虫.数据分析 简说Python推荐来源:数据社 作者修鹏李One old watch, like brief ...

  2. 政府信息化与电子政务、企业信息化与电子商务、数据库和数据仓库的区别、商业智能系统处理过程、数据仓库结构图、数据挖掘、数据仓库和数据湖的对比

    政府信息化与电子政务.企业信息化与电子商务.数据库和数据仓库的区别.商业智能系统处理过程.数据仓库结构图.数据挖掘.数据仓库和数据湖的对比 政府信息化与电子政务 企业信息化与电子商务 1.企业资源计划 ...

  3. 数据库,数据仓库,数据湖

    数据仓库四层分层 ODS--原始数据层:存放原始数据 ODS层即操作数据存储,是最接近数据源中数据的一层,数据源中的数据,经过抽取.洗净.传输,也就说传说中的ETL之后,装入本层:一般来说ODS层的数 ...

  4. 数据仓库、数据湖、流批一体,终于有大神讲清楚了!

    摘要 数据仓库,数据湖,包括Flink社区提的流批一体,它们到底能解决什么问题?今天将由阿里云研究员从解决业务问题出发,将问题抽丝剥茧,从技术维度娓娓道来:为什么你需要数据湖或者数据仓库解决方案?它的 ...

  5. 数据仓库、数据湖、流批一体

    作者: 蒋晓伟(量仔) 阿里云研究员 金晓军(仙隐) 阿里云高级技术专家 摘要:数据仓库,数据湖,包括Flink社区提的流批一体,它们到底能解决什么问题?今天将由阿里云研究员从解决业务问题出发,将问题 ...

  6. [转]关于数据中台、数据平台、数据仓库、数据湖等数据概念的对比解析

    前言 2010年左右,还是在上学的时候,学过一门课程叫<数据仓库与数据挖掘>,那还是属于传统数据的时代,我们会讨论什么是数据仓库?什么是数据集市?数据仓库和数据库有什么区别?等等,当我还在 ...

  7. 如何基于MaxCompute快速打通数据仓库和数据湖的湖仓一体实践

    简介: MaxCompute 是面向分析的企业级 SaaS 模式云数据仓库,以 Serverless 架构提供快速.全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户 ...

  8. 数据仓库、数据湖、数据集市、和数据中台的故事

    数据仓库.数据湖.数据集市.和数据中台的故事 如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天大约有超过2.5亿亿字节的各种各样数据产生.这些数据需要被存储起来并 ...

  9. 关于数据中台、数据平台、数据仓库、数据湖等数据概念的对比解析

    前言 2010年左右,还是在上学的时候,学过一门课程叫<数据仓库与数据挖掘>,那还是属于传统数据的时代,我们会讨论什么是数据仓库?什么是数据集市?数据仓库和数据库有什么区别?等等,当我还在 ...

  10. 一文读懂数据仓库、数据湖、湖仓一体

    目录 1.数据仓库 数据仓库的特征 2.数据湖 数据湖的特征 数据仓库和数据湖的对比 3.湖仓一体 湖仓一体的特征 湖仓一体的优势 智能湖仓 数据仓库.数据湖.湖仓一体对比 1.数据仓库 数据仓库,英 ...

最新文章

  1. oracle数据库学习相关笔记-转换函数
  2. Objective-C中的Category
  3. python 遍历目录_Python遍历目录的4种方法实例介绍
  4. php 不刷新提交,提交表单而不刷新页面ajax,php,javascript?
  5. 云管理成功的关键:应用工作流
  6. SAP Spartacus产品数据HTTP GET请求前的OPTIONS请求
  7. day28 socket网络编程
  8. 最长上升子序列_动态规划 最长上升子序列LIS
  9. 12017.linux设置串口支持非标准波特率614400
  10. Tricks(三十一)—— 访问一个数组相邻的奇数位偶数位
  11. OD教程(去除NAG窗口--PE文件结构)
  12. EovaJFinal在阿里云K8S实现多环境自动化部署
  13. 使用 C# 编程对 RTF 文档进行操作 [转载]
  14. 直流稳压稳流电源基本功能,电源使用注意事项
  15. 按照拼音对数组中的中文字符串排序的算法
  16. 第二课 SS7信令系统网络简介
  17. stm32之备份寄存器(BKP)应用(侵入检测中断)
  18. Allow Arbitrary Loads in Web Content与Allow Arbitrary Loads配置
  19. 中小学AI离线智能语音识别模块语音 图形化编程
  20. mybatis-plus分页插件配置与使用(springboot)

热门文章

  1. linux timeval,linux 中 timeval结构体
  2. Python pylint的安装和使用
  3. vConsole打印信息
  4. 天天向上的力量引申思考2
  5. 网狐大联盟本地游戏服务器部署
  6. 森田正马格言录:为所当为
  7. 刷墙机器人将导致40万美国人失业
  8. MAC iOS推送生产pem证书
  9. google map for ios聚合
  10. 2021-10-16python笔记(Linux内核简介与Linux基础命令)