数据湖 & 数据仓库

数据,已经成为了企业的生命线与核心资产,数据管理和数据分析成为非常重要的应用领域。出于对数据管理领域的关注,不同行业也逐步提升了对数据存储、数据治理及数据分析能力的要求,这一趋势带来了新理念:数据湖和数据仓库。

数据湖

AWS对数据湖的定义如下:数据湖存储着来自业务线应用程序的关系型数据,以及来自移动应用程序、IoT 设备和社交媒体的非关系型数据。捕获数据时,无须定义数据结构或 Schema,用户可以对数据使用不同的方式(如 SQL 查询、大数据分析、全文搜索、实时分析和机器学习)来获得对数据的深入了解。因此,数据湖的意义在于,当我们不清楚某些数据存在的价值时,将数据以原生格式天然沉积在数据湖。数据来源不尽相同,能够同时存储结构化和非结构化数据。同时,可以使用不同的过程将数据注入到数据湖中。最终,都是为了帮助用户,根据自己的需要更好地处理数据。

数据仓库

数据仓库是一个经过优化的数据库,用于分析来自事务系统和业务线应用程序的关系型数据。用户需要事先定义数据结构和Schema,并优化SQL 查询,结果通常用于操作报告和分析。数据经过了清理、丰富和转换,因此可以充当用户可信任的“单一信息源”。可以说,数据仓库中找到的任何数据都将与数据仓库中的所有其他数据密切相关。数据仓库对数据提供高效地存储,便于用户通过报表、看板和分析工具来获取查询结果,从而从数据中获得洞察力、决策指导。

 传统的数据湖、数据仓库面临的挑战

可以看出,传统意义上的数据湖、数据仓库,存在着显著的差异:

(下表来自于AWS, https://aws.amazon.com/cn/data-warehouse/)

在数据湖中,海量数据以原生格式(或者经过粗加工后)进行积累和沉淀,格式丰富多样,有结构化、半结构化、非结构化类型,强调数据的原始性、灵活性和可用性;

而对于数据仓库,其数据主要来源于业务系统,存储格式以结构化为主,并且历经加工清洗,数据形态显得更加范式化、模型化,因此数据的灵活度较低。

目前,很多企业采用传统的“湖仓分离”模式,独立建设了数据湖和数据仓库,虽然一定程度上实现了功能的互相补充,但企业在数据运营、价值挖掘、运维等方面,也遇到了显著的挑战:

  • 数据湖中的数据模型未经治理,数据混乱,无法进行有效的元数据管理、血缘关系管理,一定程度上形成了“数据沼泽”,数据价值得不到更充分的挖掘。

  • 数据仓库和数据湖之间,不能实现高时效的数据共享,一般需要借助ETL数据传输来打通。同时,数据的冗余存储,带来了资源的浪费。数据湖如果不能充分地进行数据共享,终将成为一组组断开连接的数据池或信息孤岛的集合。

  • 传统的数据湖,对业务的承载能力很有限,无法对外提供海量数据的高性能查询服务。

  • 不同格式的数据在转换处理时,引入大量的开源模块,这使得技术栈更加复杂化,尤其是当数据容量达到一定量级时,管理和维护成本大幅增加。

 湖仓一体

近年来,业界开始提出湖仓一体(Data Lakehouse)的概念,旨在为企业提供一个统一的、可共享的数据底座,避免传统的数据湖、数据仓库之间的数据移动,将原始数据、加工清洗数据、模型化数据,共同存储于一体化的“湖仓”中,既能面向业务实现高并发、精准化、高性能的历史数据、实时数据的查询服务,又能承载分析报表、批处理、数据挖掘等分析型业务。

湖仓一体方案的出现,帮助企业构建起全新的、融合的数据平台,打破了数据湖与数据仓库割裂的体系,在架构上将数据湖的灵活性、数据多样性以及丰富的生态,与数据仓库的企业级数据分析能力进行融合。

通过对机器学习和AI算法的支持,实现数据湖+数据仓库的闭环,极大地提升业务的效率。数据湖和数据仓库的能力充分结合,形成互补,同时对接上层多样化的计算生态。毫无疑问,湖仓一体将会更好地服务于企业,帮助企业实现大数据能力的提升,如降低成本、提升运营效率、业务模式探索等。

 SequoiaDB在湖仓一体的技术布局

基于100%自研的分布式数据库内核,巨杉数据库即将提供「SequoiaDB-DP」湖仓一体数据平台。面向联机数据中台、历史数据服务平台、IoT物联网等海量数据需求场景,为企业级客户打造数据平台的最佳底座,助力客户实现提升数据管理水平、降低成本、提升运营效率、提升用户体验等目标。

引擎级多模特性

提供结构化、半结构化、非结构化数据的存储能力,实现了SQL、NoSQL、Object并存,避免了传统数据湖、数据仓库独立建设带来的ETL延迟及数据冗余存储,降低了技术栈的复杂性。

多计算实例兼容

兼容MySQL、MariaDB、PostgreSQL、SparkSQL、S3对象存储、PosixFS文件系统等主流引擎接口,数据一次写入多引擎可见。经过深度优化的Apache SparkSQL引擎,提供高性能的实时分析能力。多引擎特性,能够帮助客户降低开发人员学习成本,提升开发效率。

高容量、高扩展性

支持4096台物理服务器的扩容能力,能够提供万亿级、百PB级的海量数据高并发处理能力。

强大的分布式事务能力

支持事务ACID,提供多种事务隔离级别,实现跨引擎事务。

HTAP混合负载能力

基于多副本隔离机制,实现计算、I/O资源互不干扰的OLTP/OLAP混合负载管理,充分释放资源,进一步提升系统稳定性。

生态兼容

提供丰富的生态对接,支持包括Tableau、Power BI、帆软、SmartBI等国内外分析工具,提供数据分析报表、商业智能决策等。

(具体实践案例,可参考:巨杉分享 | 巨杉数据库在数据湖中的应用实践)

湖仓:数据湖与数据仓库的融合相关推荐

  1. 数据平台发展史-从数据仓库数据湖到数据湖仓

    数据平台发展史-从数据仓库数据湖到数据湖仓 做数据的同学经常听到一些数据相关的术语,常见的包括数据仓库,逻辑数据仓库,数据湖,数据湖仓/湖仓一体,数据网格 data mesh,数据编织 data fa ...

  2. FFA 2022 专场解读 - 实时风控 实时湖仓 数据集成

    Flink Forward Asia 2022 将于 11 月 26-27 日在线上举办,议程内容正式上线! FFA 2022 官网:https://flink-forward.org.cn/ 实时风 ...

  3. 数据湖基本概念--什么是数据湖,数据湖又能干什么?为什么是Hudi

    一.什么是数据湖 对于经常跟数据打交道的同学,初步听到数据湖这个概念的时候,肯定有点懵,但是相信大家对于数据仓库 这个概念并不陌生. 到了20世纪80年代以后,基于关系型数据库的事务处理成为了企业IT ...

  4. 如何基于MaxCompute快速打通数据仓库和数据湖的湖仓一体实践

    简介: MaxCompute 是面向分析的企业级 SaaS 模式云数据仓库,以 Serverless 架构提供快速.全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户 ...

  5. 一文读懂数据仓库、数据湖、湖仓一体

    目录 1.数据仓库 数据仓库的特征 2.数据湖 数据湖的特征 数据仓库和数据湖的对比 3.湖仓一体 湖仓一体的特征 湖仓一体的优势 智能湖仓 数据仓库.数据湖.湖仓一体对比 1.数据仓库 数据仓库,英 ...

  6. 数据仓库、数据湖、湖仓一体概念

    1.数据仓库 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented).集成的(Integrated).相对稳定的(Non-Volatile).反映历史变化的(Ti ...

  7. 企业数据存储方式发展趋势:数据仓库-大数据平台-数据湖-湖仓一体

    早期系统采用关系型数据库来存放管理数据,随着大数据技术兴起,人们对数据分析的需求愈加强烈,于是可以面向分析.集成大量数据的数据仓库(DW)诞生,虽然可以提供保存大量数据,但存储.计算成本相对较高,不好 ...

  8. 专访丨HashData创始人简丽荣:云原生与大数据时代,湖仓一体代表了未来

    12月23-24日,2021数据技术嘉年华(DTC)将在北京丽都皇冠假日酒店盛大开启.围绕"智能·创新·新生态--数据智领未来 生态共创价值"这一主题,来自数据领域的领军人物.学术 ...

  9. 数据湖(Data Lake)-剑指下一代数据仓库

    数据湖是数据仓库的补充,是为了解决数据仓库漫长的开发周期,高昂的开发.维护成本,细节数据丢失等问题出现的. 数据湖大多是相对于传统基于RDBMS的数据仓库,而从2011年前后,也就是数据湖概念出现的时 ...

  10. 震惊!这篇文章解读数据仓库、数据湖、数据中台等概念,竟然写了4万字!

    点击上方 "zhisheng"关注, 星标或置顶一起成长 Flink 从入门到精通 系列文章 如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天 ...

最新文章

  1. LeetCode 1021:Remove Outermost Parentheses
  2. 浅谈Javascript事件模拟
  3. 常见机器学习算法背后的数学
  4. P1903 [国家集训队]数颜色 / 维护队列
  5. 第26月第13天 hibernate导包
  6. 用户增长 - BG/NBD概率模型预测用户生命周期LTV(二)
  7. 基于MeanShift的Camshift算法原理详解(opencv实现,有源码)
  8. 华为手机计算机不能用,华为手机无法连接电脑(手机助手)怎么办,连接不上...
  9. 计算机云班课王清答案,基于蓝墨云班课的移动学习实践
  10. Python与爬虫有什么关系?
  11. php stripslashes和addslashes的区别
  12. 【轻博客观察之二】十问Tumblr
  13. 第十七届全国大学生智能汽车竞赛讯飞-家庭服务机器人挑战赛全国选拔赛规则
  14. OneDrive 正在登录
  15. 碱基序列的最长公共子串(Finding a Shared Motif)
  16. 《剑指Offer》刷题之最小的K个数
  17. 找不到合适好用的redis客户端工具?试试官方的客户端工具RedisInsight
  18. catia V5R21 32位打开大型装配体非常卡,亲测可用解决方案
  19. 物联网LoRa系列-30:LoRaWAN A类/C类终端的载波信道资源与时间资源上下行调度算法
  20. DELMIA软件:机器人仿真运行延时功能介绍与使用方法

热门文章

  1. 数据库的索引及其原理
  2. 音响喇叭尺寸越大,音质就越好吗?请大神指教?
  3. BP神经网络的梯度公式推导(三层结构)
  4. JAVA中一维数组的简单使用!
  5. 企业如何保护终端数据安全?
  6. 打破IBGP的水平分割2种方法
  7. 男子不执行法院判决被强行腾房(组图)
  8. java多线程程序性能调优 优化过程
  9. 疫情加速百度人脸识别变革:戴口罩也能准确识别,迅速上线
  10. jQuery修改CSS伪元素属性