摘要:基于华为开源openLooKeng引擎的交互式分析功能,将重磅发布便于用户构建轻量级流、批、交互式全场景数据湖。

在这个“信息爆炸”的时代,大数据已经成为这个时代的关键词之一!随着云计算、物联网、移动计算、智慧城市、人工智能等领域日新月异的发展,人类社会已经步入了“信息高速路”的行驶轨道,数据量增长迅速,各类应用对大数据处理的需求也发生着变化。

与此同时,“久经沙场”的数据仓库不再一统江湖,而以实时分析、离线分析、交互式分析等为代表的计算引擎势头迅猛。

华为云3年前发布的Serverless大数据分析服务 - 数据湖探索DLI,经过这几年的迭代升级,已经包含用于实时分析的Flink引擎,用于离线分析的Spark引擎。今年基于华为开源openLooKeng引擎的交互式分析功能,也将于Q4重磅发布,便于用户构建轻量级流、批、交互式全场景数据湖。

openLooKeng使用了业界著名的开源SQL引擎Presto来提供交互式查询分析基础能力,并继续在融合场景查询、跨数据中心/云、数据源扩展、性能、可靠性、安全性等方面发展,让数据治理、使用更简单。

关键特性

1. 毫秒级查询性能

DLI使用的openLooKeng引擎在内存计算框架的基础上,还利用许多查询优化技术来满足高性能毫秒级的交互式分析的需要。

1.1 索引

openLooKeng提供基于Bitmap Index、Bloom Filter以及Min-max Index等索引。通过在现有数据上创建索引,并且把索引结果存储在数据源外部,在查询计划编排时便利用索引信息过滤掉不匹配的文件,减少需要读取的数据规模,从而加速查询过程。

1.2 Cache

openLooKeng提供丰富多样的Cache,包括元数据cache、执行计划cache、ORC行数据cache等。通过这些多样的cache,可加速用户多次对同一SQL或者同一类型SQL的查询时延响应。

1.3 动态过滤

所谓的动态过滤是指是在运行时(run time)将join一侧表的过滤信息的结果应用到另一侧表的过滤器的优化方法,openLooKeng不仅提供了多种数据源的动态过滤优化特性,还将这一优化特性应用到了DataCenter Connector,从而加速不同场景关联查询的性能。

1.4 算子下推

openLooKeng通过Connector框架连接到RDBMS等数据源时,由于RDBMS具有较强的计算能力,一般情况下将算子下推到数据源进行计算可以获取到更好的性能。openLooKeng目前支持多种数据源的算子下推,包括Oracle、HANA等,特别地,针对DC Connector也实现了算子下推,从而实现了更快的查询时延响应。

2. 高可用

2.1 HA AA双活

openLooKeng引入了高可用的AA特性,支持coordinator AA双活机制,能够保持多个coordinator之间的负载均衡,同时也保证了openLooKeng在高并发下的可用性。

2.2 Auto-scaling

openLooKeng的弹性伸缩特性支持将正在执行任务的服务节点平稳退服,同时也能将处于不活跃状态的节点拉起并接受新的任务。openLooKeng通过提供“已隔离”与“隔离中”等状态接口供外部资源管理者(如Yarn、Kubernetes等)调用,从而实现对coordinator和worker节点的弹性扩缩容。

3. 融合场景

实时分析、离线分析、交互式分析这三种场景中在很多实际业务中都是同时存在的,DLI引入openLooKeng引擎之初就考虑了如何跟已有的Spark引擎进行元数据层面的互通,从而实现离线分析结果,免数据搬迁直接就可以用openLooKeng引擎进行交互式分析。Spark和openLooKeng都支持Hive的建表方式,通过这种方式,实现了元数据层面的互通。

4. 统一目录,跨域跨DC查询

DLI老用户使用比较多的功能是跨多种数据源的联合查询,用于更全面地对数据进行关联分析,释放数据价值。这次引入openLooKeng引擎将跨源查询的能力进一步延伸,开发了跨域跨DC查询的DataCenter Connector。通过这个新Connector可以连接到远端另外的openLooKeng集群,从而提供在不同数据中心间协同计算的能力。 其中的关键技术如下:

4.1 并行数据访问

worker可以并发访问数据源以提高访问效率, 客户端也可以并发从服务端获取数据以加快数据获取速度。

4.2 数据压缩

在数据传输期间进行序列化之前,先使用GZIP压缩算法对数据进行压缩,以减少通过网络传输的数据量。

4.3 跨DC动态过滤

过滤数据以减少从远端提取的数据量,从而确保网络稳定性并提高查询效率。

总结展望

这次加入交互式查询能力,弥补了数据湖探索DLI在毫秒级场景下的短板,构建起从实时分析、到离线分析再到交互式分析整个链路完整的技术栈。

未来,DLI还将探索如何根据业务场景自动识别计算引擎,用户只需要下发SQL,无需关心最终的计算引擎,让大数据真正变成“像使用数据库一样”,“会SQL就会大数据分析”。

点击关注,第一时间了解华为云新鲜技术~

数据湖探索DLI新功能:基于openLooKeng的交互式分析相关推荐

  1. 有了数据湖探索服务,企业决策“新”中有数

    摘要:全托管Serverless服务DLI就像是我们日常使用的滴滴共享打车,我们不再需要为购买和保养私家车而支出固定成本. 1. 趋势和挑战 1.1. 趋势 随着云化技术越来越成熟,企业开始逐步上云, ...

  2. 华为云服务权限在哪_华为云数据湖探索服务DLI,精细化保障企业大数据安全

    原标题:华为云数据湖探索服务DLI,精细化保障企业大数据安全 随着企业业务的不断发展,企业大数据资产在企业辅助决策.用户画像.推荐系统等诸多业务流程中扮演着越来越重要的作用,如何保证企业大数据在满足各 ...

  3. Oracle-12c新功能基于时间点recover table

    前言: Oracle12c退出了新功能基于时间点的recover table,可以从备份里面基于时间快速恢复表或者表分区,并且支持通过remap将恢复的表更换为其他表名或者将恢复的表通过expdp导出 ...

  4. 数据库安全之数据掩码:SQL新功能之动态数据掩码(SQL2016AZURE SQL)

     我们在开发上都有这样的需求:对部分敏感数据进行屏蔽,如身份证信息,名字的一部分等 显示如: 在开发上,一般来是取出相应的文字后进行替换,如可以用下面的方法. function plusXing ...

  5. 网易数据湖探索与实践-范欣欣

    分享嘉宾:范欣欣 网易 大数据技术专家 编辑整理:刘闰丰 出品平台:DataFunTalk 导读:今天主要和大家交流的是网易在数据湖Iceberg的一些思考与实践.从网易在数据仓库建设中遇到的痛点出发 ...

  6. 数据湖正在成为新的数据仓库

    像公有云数据湖和 Delta Lake 这样的平台指出了一个中央数据枢纽的趋势,用来支持决策和AI驱动的自动化决策. 数据仓库是否再次加入这股浪潮呢,或者会逐渐消亡? 如果你不清楚这个问题的答案也很正 ...

  7. 在报表开发工具Stimulsoft Report数据透视表的新功能介绍

    在本文中,我们将向您介绍自 Stimulsoft Ultimate 2022.3 版本以来可用的数据透视表元素功能. Stimulsoft Ultimate官方正版下载 使用此仪表板元素,您可以通过匹 ...

  8. 米6的android8新功能,基于Android 8.0!小米6将升级全新MIUI9

    原标题:基于Android 8.0!小米6将升级全新MIUI9 Android 8.0已经正式发布多时,目前不少厂商已经启动了旗下进行的Android 8.0适配计划.但令人纳闷的是,一向对系统升级比 ...

  9. 应用案例分析1:华为数据湖治理中心(DGC) 软件产品介绍

    企业数据湖应用案例分析 案例综述 介绍一共分为五部分:华为数据湖治理中心.阿里数据湖构建 Data Lake.阿里数据资源平台.阿里数据管理 DMS.数据湖产品比较分析.该介绍可以理解为数据湖产品的核 ...

最新文章

  1. 吉林大学数据结构(C++版)
  2. 日志采集框架Flume、Flume介绍、概述、运行机制、Flume采集系统结构图(1、简单结构、复杂结构)...
  3. java创建子类对象的步骤_一通Spring骚操作:我敢说没人比我更懂Java对象创建
  4. (150)System Verilog仿真结束机制
  5. 多线程跑调度_java多线程中的调度策略
  6. oracle执行plus时跳出,oracle – 从shell脚本运行sqlplus时管理错误处理
  7. 【17】Python100例基础练习(3)
  8. (三)映射对象标识符(OID)
  9. 使用SimHash进行海量文本去重
  10. 计算机科学期刊重复率要求,计算机科学与应用期刊
  11. Overload 和 Override
  12. Mac OS X 下安装Tableau Desktop Pro for Mac 10.2.0
  13. 【22年新版】软件工程专业的各阶段的学习方法
  14. 影视之观大秦帝国之裂变总结
  15. Python绘图实例35:漫天雪花绘制
  16. 批处理 b站视频批量合并
  17. 电视盒子最新android,安卓盒子已倒下!4款Win10电视盒子推荐
  18. Unity3D FPS帧数修改实现详解
  19. vue+element-ui文件导出模板及导入xlsx文件
  20. 巧用搜索引擎---如何在指定网站中搜索

热门文章

  1. [转]google protobuf安装与使用
  2. python原理及代码_lightgbm原理以及Python代码
  3. net 架构师-数据库-sql server-001-SQL Server中的对象
  4. 二:前端css,即选择器
  5. vscode + angular
  6. 微信H5支付(基于Java实现微信H5支付)
  7. neo4jcypher基本语句
  8. BZOJ1061 NOI2008 志愿者招募 线性规划、费用流
  9. Spring事件发布
  10. python第九十一天----第十六周作业