Dremio 数据湖以及数据仓库

  • 一. 数据湖和数据仓库
    • 什么是数据湖?
      • 数据湖的目的和优势
    • 什么数据仓库?
    • 数据湖和数据仓库之间差异
    • 数据湖引擎
  • 二. Dremio
    • 分离数据和计算
    • 使用基于Apache Arrow的查询引擎加速—并节省90%
    • DREMIO - 数据湖引擎
      • 使用预测性流水线和列云缓存加速读取
      • 为云构建的现代执行引擎
      • 数据反射——极速的 ON 开关
      • Arrow Flight 移动数据的速度提高了 1,000 倍
      • 自助语义层
      • 用户生成的语义层

一. 数据湖和数据仓库

什么是数据湖?

数据湖就是一个集中存储数据库,用于存储所有结构化和非结构化数据。将不同存储类型、不同种类的数据汇聚在一起。数据湖可用其原生格式存储任何类型的数据,这是没有大小限制。例如在一个存储集群中分别有MySQL、Mongodb、s3等等数仓数据,这个存储集群统一对外就是一个数据湖了。

数据湖的目的和优势

数据湖的开发主要是为了处理大数据量,擅长处理非结构化数据。通常将所有数据移到数据湖中不进行转换。数据湖中的每一个数据元素都分配一个唯一的标识符。

什么数据仓库?

数据仓库是位于多个数据库上的大容量存储库。作用是存储大量的结构化数据并能进行频繁和可重复的分析。数据仓库用于汇集各种结构化源的数据以进行分析。数据仓库也可处理非结构化数据。

数据湖和数据仓库之间差异

  • 在存储方面,数据湖中的数据是非结构化的,所有数据都保持原始形式。存储所有数据,并且仅在分析时再进行转换。数据仓库的数据重事务系统中提取。在数据加载到数据仓库之前,会对数据进行清理和转换。
  • 在数据抓取中,数据湖就是捕获半结构化和非结构化数据。数据仓库捕获结构化数据并按模式组织。
  • 目的不同。数据湖非常适合深入分析非结构化数据,被用于预测建模和统计分析的高级分析工具。而数据仓库适用于月度报告等操作用途,高度结构化
  • 架构方面,数据湖通常存储数据之后定义架构。在数据仓库是使用数据前定义架构。

数据湖引擎

数据湖引擎是一种开源软件解决方案或云服务,通过一组统一的API和数据模型为分析工作负载的各种数据源提供关键功能 。
解决的问题:解决了快速访问、快速分析处理、保护和屏蔽数据、管理数据集以及提供跨所有数据源的统一数据目录等方面需求。
任务:将结构化、非结构化数据转移到关系环境中,创建多维数据集,并为不同的分析工具生成专用视图。
如何使用:数据湖疫情介于管理数据系统、分析可视化和数据处理工具之间,部署在现有的数据源和数据使用者的工具上。使用标准SQL通过DDBC、JDBC或REST进行访问,数据湖引擎尽可能高效地访问和保护数据。
优势:数据湖引擎不是将数据移动到单个存储库中,而是在数据原本存储的地方访问数据,并动态地执行任何必要的数据转换和汇总

二. Dremio

Dremio是新一代的数据湖引擎,通过直接在云数据湖存储中进行实时的、交互的查询来释放数据价值。
使用数据湖引擎 Dremio 最大限度地发挥数据的作用。Dremio 使用高性能和高效率的查询引擎来操作您的数据湖存储并加速您的分析过程,同时还通过受管控的自助服务层使数据科学家和分析师的数据访问民主化。结果是以最低的每次查询成本为 IT 和数据湖所有者提供快速、轻松的数据分析。

分离数据和计算

利用 Dremio 直接针对您自己的数据湖存储中的 PB 级数据运行实时交互式查询,完全避免数据复制、移动和锁定。Dremio 超越了存储和计算的分离,通过开放的、同类最佳的架构来分离数据和计算,在该架构中任何计算引擎都可以处理您的数据。

使用基于Apache Arrow的查询引擎加速—并节省90%

利用多阶段加速驱动闪电般的查询直接在您的数据湖存储。当您将这种效率与弹性引擎的额外节省相结合时,与传统的SQL引擎方法相比,您将减少90%的AWS计算成本。如下图:

DREMIO - 数据湖引擎

Dremio 的数据湖引擎提供闪电般的查询速度和直接针对您的数据湖存储运行的自助语义层。

  • 闪电般的查询
  • 自定义语义层
  • 灵活开源的技术
  • 强大的JOIN能力

闪电般的查询:这些查询直接对数据湖存储进行操作;连接到 S3、ADLS、Hadoop 或您的数据所在的任何地方。像数据反射(Data Reflections), 列式云缓存(Columnar Cloud Cache (C3))和预测性流水线(Predictive Pipelining)这样的Dremio技术与Apache Arrow一起工作,可以非常快地对你的数据湖存储进行查询。

使用预测性流水线和列云缓存加速读取

Dremio的预测性流水线技术刚好在执行引擎需要数据之前获取数据,极大地减少了引擎等待数据的时间。我们的列式云缓存(C3)在访问本地NVMe时自动缓存数据,使您的数据湖存储具有NVMe级别的性能。

为云构建的现代执行引擎

Dremio 的执行引擎基于 Apache Arrow(列式内存分析标准)构建,并利用 Gandiva 将查询编译为针对现代 CPU 优化的矢量化代码。单个 Dremio 集群可以弹性扩展以满足任何数据量或工作负载,您甚至可以拥有多个具有自动查询路由的集群。

数据反射——极速的 ON 开关

只需点击几下,Dremio 就可以让您创建数据反射,这是一种物理优化的数据结构,可以加速各种查询模式。创建任意数量或任意数量;Dremio 以无形且自动的方式将反射合并到查询计划中,并使其数据保持最新。

Arrow Flight 移动数据的速度提高了 1,000 倍

ODBC 和 JDBC 是在 1990 年代为小数据设计的,需要对所有记录进行序列化和反序列化。Arrow Flight 用高速分布式协议取代它们,旨在处理大数据,使客户端应用程序和 Dremio 之间的吞吐量增加 1,000 倍。您现在可以在几秒钟内用数百万条记录填充客户端 Python 或 R 数据框。

自助语义层

抽象层使 IT 能够应用安全性和业务意义,同时使分析师和数据科学家能够探索数据并导出新的虚拟数据集。

数据反射、列式云缓存 (C3) 和预测管道等 Dremio 技术与 Apache Arrow 一起工作,可以非常非常快地对数据湖存储进行查询。

用户生成的语义层

Dremio 的语义层是一个集成的、可搜索的目录,可为您的所有元数据编制索引,因此业务用户可以轻松理解您的数据。虚拟数据集和空间构成了语义层,并且都被索引和搜索。

参考以下:
链接: 一文了解数据湖引擎.
Dremio 杀死所有数据仓库.
Dremio 文档 .
Dremio简述.

Dremio 数据湖以及数据仓库相关推荐

  1. 数据湖 VS 数据仓库之争?阿里提出大数据架构新概念:湖仓一体

    作者 |关涛.李睿博.孙莉莉.张良模.贾扬清(from 阿里云智能计算平台) 黄波.金玉梅.于茜.刘子正(from 新浪微博机器学习研发部) 编者按 随着近几年数据湖概念的兴起,业界对于数据仓库和数据 ...

  2. 数据湖和数据仓库区别介绍

    数据湖是用来存储什么样的数据呢? 数据湖是以什么样的存储模式存储数据呢?是关系型数据库的模式吗? 数据湖与Delta Lake的关系是? 数据湖可以替代数据仓库吗? 简单对比下数据湖与数据仓库. 数据 ...

  3. 数据湖与数据仓库:主要差异

    问题4:数据库不仅仅是数据仓库的重访吗? 我们中的一些人更多地了解了数据湖,特别是在过去的六个月里.有些人告诉我们,数据湖只不过是数据仓库的转世,本着"去过那里"的精神,其他人则专 ...

  4. 一文读懂:本地数据湖丨数据仓库丨云数据湖的利与弊

    数据湖指的是一个中心位置,大量数据以原始的.非结构化的格式存储,其中包含有关数据和惟一标识符的信息.它们存储的数据可以稍后进行处理,以提取有价值的业务见解并推动业务向前发展. 这种类型的灵活组织允许存 ...

  5. 湖仓一体:数据湖vs数据仓库之争?

    本文介绍数据仓库和数据湖的区别是什么,作者对其来龙去脉进行深入剖析,来阐述两者融合演进的新方向--湖仓一体. 导读:随着近几年数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断.有人说 ...

  6. 数据湖与数据仓库的新未来:阿里提出湖仓一体架构

    点击上方 "zhisheng"关注, 星标或置顶一起成长 Flink 从入门到精通 系列文章 作者: 关涛.李睿博.孙莉莉.张良模.贾扬清 (from 阿里云智能计算平台) 黄波. ...

  7. 数据湖和数据仓库的区别?

    简介 数据湖这个概念和数据仓库这两个概念一直搞不清楚,之前感觉区别就是数据湖是数据仓库的父集.数据湖是个伪命题,平时生活中也用不到,然后今天听了我的一个师哥的讲解,然后简单总结下. 常见的问题 1 数 ...

  8. 惟客数据解读:数据湖、数据仓库、数据中台究竟区别在哪儿?

    数字化转型浪潮卷起各种新老概念满天飞,数据湖.数据仓库.数据中台轮番在朋友圈刷屏,有人说"数据中台算个啥,数据湖才是趋势",有人说"再见了数据湖.数据仓库,数据中台已成气 ...

  9. 论数据湖与数据仓库一体化设计的必要性

    数据湖概念 数据湖最早是由Pentaho的创始人兼CTO,James Dixon,在2010年10月纽约 Hadoop World大会上提出来的.当时Pentaho刚刚发布了Hadoop的第一个版本. ...

最新文章

  1. Codeforces 900D Unusual Sequences:记忆化搜索
  2. 关于debug.keystore文件用法以及错误处理
  3. MongoDB Modifiers(原子操作)
  4. java非阻塞锁_Java并发问题的非阻塞解决方案
  5. 470p 更换固态硬盘_联想G510换固态硬盘遇到的问题
  6. 人机猜拳代码python_python实现人机猜拳小游戏
  7. 转:PHP中文乱码问题
  8. hibernate FetchType理解
  9. Git分支管理Git branch相关参数命令,git branch -v git branch --merged git branch --no-merged git commit -a -m
  10. CVPR2019/图像翻译:TransGaGa: Geometry-Aware Unsupervised Image-to-Image Translation几何感知的无监督图像到图像的翻译
  11. linux zip分卷压缩解压命令
  12. moviepy音视频开发:audio_fadein、fadeout实现声音淡入淡出
  13. oracle的系统字符集,Oracle操作系统和支持-字符集
  14. matlab自带的优化工具箱,MATLAB 自带优化工具箱(optimization Tool)之遗传算法简述...
  15. 向图档插入外部DWG图片 auto CAD .NET二次开发
  16. raid5阵列两块硬盘掉线如何恢复阵列中的数据库
  17. 网易邮箱服务器怎么注册,按照这个步骤操作,轻松注册自己的邮箱,赶紧收藏吧...
  18. 嵌入式系统驱动高级【5】——input子系统
  19. TS 36.211 V12.0.0-上行(3)-PUCCH
  20. 洛谷B2066 救援(ceil上取整)

热门文章

  1. caffe函数入口caffe.cpp详解
  2. caffe中loss函数代码分析--caffe学习(16)
  3. 如何使用 Fiddler Everywhere 抓包手机模拟器上的网络请求
  4. 卿盾安全中心【模仿火绒安全中心】
  5. 微信公众号怎么为用户提供文件下载功能
  6. 教你成为抖音玩家高手
  7. Java Swing五子棋项目
  8. PYNQ系列学习(三)|pynq与zynq对比(二)
  9. js随机数,随机从数组里面去一个或多个元素
  10. 折叠屏领衔 1亿累计用户的vivo X系列战高端