本文分享自华为云社区《华为云FusionInsight MRS跨湖跨仓场景下如何实现海量数据分钟级分析》,原文作者:沙漏。

华为开发者大会2021(Cloud)于2021年4月24日-26日在深圳成功举行。本届大会以#每一个开发者都了不起#为主题,为众多开发者带来一场ICT方面的技术盛宴。

大会期间,由华为技术专家天团打造的《名师大讲堂》系列专题演讲,围绕云原生、大数据、人工智能等话题,探讨技术创新带来的价值,分享创新实践。其中,华为云FusionInsight MRS云原生数据湖HetuEngine架构师武文博,分享了“跨湖跨仓场景下如何实现海量数据分钟级分析”主题。

华为云FusionInsight MRS云原生数据湖HetuEngine架构师武文博演讲

传统大数据平台融合分析存在数据墙、数据难打通、数据协同慢三大问题

随着大数据技术的应用和发展,数据种类越来越多,分布越来越广,查询场景也越来越复杂,尤其在新兴业务中,需要在一个平台上使用离线分析、实时分析、图分析、文本分析、交互式查询等多种引擎,多元异构的数据融合才能盘活数据,通过数据挖掘开发数据价值,发挥数据作为生产要素的作用。而传统大数据平台在应对数据融合分析时逐渐显露疲态,存在如下问题:

多数据源间存在数据墙:Hive、HBase、MPPDB、Oracle….数据组件众多,组件间形成“数据墙”;为了应对不同场景的需求,数据重复存储到多个数据组件:Hive(历史数据),HBase(原始数据),MPPDB(专题数据),管理复杂,耗费存储空间;

多中心数据难以打通:各类分析应用只能基于本地数据;用外中心数据做碰撞分析需要先搬迁到本地,操作复杂,效率低;异地数据加工需要在当地部署和维护加工平台,架构复杂;

多数据中心难以形成合力:数据集中在主中心,造成主中心负载畸高,分中心却空闲严重;紧急任务需要迅速处理,却因为分中心数据还未同步,无法分析;多数据中心和多集群的计算和扩展能力远远强于单个中心,但由于跨数据中心访问技术基本处于空白状态,业务只能依靠单中心支撑。

简化用数,HetuEngine统一接口,跨湖跨仓跨云协同分析从数天降至分钟级

为了让数据使用更简单,跨湖协同更容易,解决上述三大问题,华为推出了、“HetuEngine”,于2019年11月发布,2020年6月正式开源(开源名称openLooKeng)。HetuEngine是统一高效的数据虚拟化引擎,与大数据生态无缝融合,实现海量数据秒级查询;业界首创多源异构协同,实现一站式SQL融合分析。

HetuEngine具备如下特性:

• 高性能交互式查询:传统大数据通过Hive引擎构建即席查询任务,查询时间长, HetuEngine通过启发式索引和执行计划Cache,实现秒级查询响应;

• 跨湖跨仓跨云融合:传统数据分析需先统一数据格式,HetuEngine可实现不同数据格式间的join,减少数据搬迁,较传统方案提效30%;传统DC分析要建手工摆渡数据,HetuEngine可通过DC Connector进行连接,数据全局可视,协同耗时从数天缩短至分钟级;

• 多引擎融合:传统大数据在进行多引擎组件开发时,需涉及多组件定制开发,HetuEngine可统一SQL接口访问大数据,降低用数门槛,开发提效2-10倍。

目前,华为云FusionInsight MRS云原生数据湖为政企提供湖仓一体的解决方案,一个架构可构建三种数据湖:离线数据湖、实时数据湖、逻辑数据湖。其中逻辑数据湖通过HetuEngine提供跨湖、跨仓、跨云统一访问,减少数据搬迁,数据高效流动,全域数据分钟级协同分析,业务上线效率提升10倍,由周级缩短至天级。

HetuEngine已在各行各业大规模使用,下面一起来看HetuEngine在金融领域的典型场景实践。

工商银行基于HetuEngine实现即时BI,加速金融数据湖的灵活数据探索

工行金融数据湖承载总行及分行全量原始数据,供全行数据分析师进行数据探索分析。目前日查询量5000条,查询数据平均10亿行,最大可达百亿行,伴随数字化转型进入深水区,多样性业务诉求对数据融合分析提出了更高的要求。

在某些场景中,金融业务需要在数据湖内先使用批处理技术对原始数据加工成专题数据,然后跨集群搬移数据集市,再从数据集市上做BI分析。传统大数据平台中,SAS等工具通过Hive SQL访问数据湖数据性能差,平均响应时间5分钟~2小时,并发能力不足10,且湖仓数据割裂,将数据加工后加载到OLAP集市,数据链路长,分析效率和开发效率都很低。

该行通过华为云FusionInsight MRS云原生数据湖提供的HetuEngine,解决了数据湖与数仓间的数据协同分析问题,避免了不必要的ETL。

  • 通过HetuEngine数据虚拟化实现湖仓互联互通协同分析;
  • 避免不必要的ETL流程,减少数据搬迁。

通过引入HetuEngine数据虚拟化引擎,在数据湖查询分析方面该行提升了并发能力,仅1/5的资源即可支持45并发,峰值并发最大达200QPS,平均时延优化到8秒;在湖仓协同分析方面,通过HetuEngine打通数据湖与数仓间的数据壁垒,湖仓协同分析性能从分钟级提升至秒级,同时减少80%的系统间数据搬迁同步,大大提升数据治理效率。

结语

HetuEngine作为统一高效的数据虚拟化引擎,打通了多数据源间的数据墙,实现高性能跨湖跨仓跨云数据融合分析,同时,HetuEngine提供统一访问入口,屏蔽了传统复杂的访问接口,并统一使用 SQL 接口,降低大数据使用门槛,简化用数!

华为云FusionInsight MRS云原生数据湖还将持续创新,做大数字世界黑土地,携手800+ISV为客户提供持续演进的湖仓一体解决方案,可以在一个架构上实现离线数据湖、实时数据湖、逻辑数据湖,在千行百业构筑“一企一湖,一城一湖”。

点击关注,第一时间了解华为云新鲜技术~

跨湖跨仓场景下如何实现海量数据分钟级分析相关推荐

  1. 阿里巴巴机器翻译在跨境电商场景下的应用和实践

    摘要: 本文将与大家分享机器翻译相关背景知识,再深入介绍机器翻译在阿里生态中的具体应用实践,介绍基于机器翻译技术搭建的一套完善的电商多语言解决方案,最后将会从技术角度介绍阿里机器翻译在解决实际业务问题 ...

  2. 营销获客场景下的个人类业务要件分析

    此部分以信贷行业为依据,进行分析和规划,但其模式不仅仅限于信贷行业,其他行业也具有参考意义 在信贷行业中,不管是银行.持牌金融机构,都专注于个人和企业,其中以银行为例,我们今天讨论的是从业务角度考虑, ...

  3. Greenplum在HTAP场景下的优化和应用

    近日,由DataFun主办的DataFun Summit--大数据存储架构峰会如约而至.作为全球超融合时序数据库的开创者,yMatrix(四维纵横)受邀出席了此次峰会并发表了主题演讲.小M助手已经帮大 ...

  4. 千亿级金融场景下,基于Pulsar的云原生消息队列有怎样的表现?

    导语 | 云原生场景,多语言.多种协议兼容,任意多的消息 Topic.任意多的消费者,性能的按需快速扩展成为消息队列基本的要求.本文是对腾讯TEG技术委员会专家工程师刘德志老师在云+社区沙龙 onli ...

  5. Tapdata Connector 实用指南:数据入仓场景之数据实时同步到 BigQuery

    [前言]作为中国的 "Fivetran/Airbyte", Tapdata 是一个以低延迟数据移动为核心优势构建的现代数据平台,内置 60+ 数据连接器,拥有稳定的实时采集和传输能 ...

  6. 指数级暴增、复杂场景下,揭秘百度云原生湖仓架构等系列数据产品

    9月28日,百度智能云2021"云智技术论坛"智能大数据专场在上海举办.本次会议以"云智一体,让大数据发挥大价值"为主题,百度副总裁谢广军携百度多位资深技术专家 ...

  7. 数据湖在大数据场景下应用和实施方案调研笔记(增强版)

    点击上方蓝色字体,选择"设为星标" 回复"面试"获取更多惊喜 在读本文前你应该看过这些: <我看好数据湖的未来,但不看好数据湖的现在> <数据 ...

  8. 跨境电商背景下,DolphinScheduler 在 SHEIN 的二开实践

    分享嘉宾:董文彬 编辑整理:低代码无代码平台Treelab 张德通 SHEIN是一家中国跨境电商巨头公司,也是一家估值千亿的美金独角兽企业.本次分享由SHEIN架构部资深后端开发工程师董文彬介绍海豚调 ...

  9. 多库多表场景下使用 Amazon EMR CDC 实时入湖最佳实践

    一.前言CDC(Change Data Capture) 从广义上讲所有能够捕获变更数据的技术都可以称为 CDC,但本篇文章中对 CDC 的定义限定为以非侵入的方式实时捕获数据库的变更数据.例如:通过 ...

最新文章

  1. ASP.NET Web API 基本操作(CRUD)
  2. Robot framework 引入 Selenium2Library 类库:
  3. 三、致敬“张正友标定”
  4. Android之上下文context
  5. 使用Pitcher简化卫语句
  6. 机器视觉技术及应用_工业机器人视觉技术的应用前景
  7. 使用流进行通讯的一种可能犯的错误 (InputStream + OutputStream)
  8. arm-arago-linux-gnueabi 下载,arm-arago-linux-gnueabi问题
  9. 老李推荐:第14章8节《MonkeyRunner源码剖析》 HierarchyViewer实现原理-获取控件列表并建立控件树 1...
  10. Linux下部署Spring Boot项目
  11. 你不知道的那些console
  12. 关于Android工程师转成vue的三两事儿(4)--webpack
  13. TiDB VS MariaDB10.1.19 Enterprise性能压测
  14. [转]如何有效地记忆与学习
  15. 2008年国外最佳Web设计/开发技巧、脚本及资源总结
  16. 深度学习和拓扑数据分析的六大惊人之举
  17. h5的fetch方法_关于h5中的fetch方法解读
  18. 电子产品EMC不合格,如何整改?
  19. 企业运用通兑吧数字会员卡进行营销的优势
  20. 洛谷 P1427 小鱼的数字游戏

热门文章

  1. Restful 表述性状态传递
  2. vrep中设置joint的位置、速度需要根据关节的模式来设置。
  3. vrep中thread scirpt以及simRemoteApi.start()的一点点微小的认识
  4. 深度学习笔记(38) 非极大值抑制
  5. linux 设置java内存大小_Linux 下修改Tomcat使用的JVM内存大小
  6. matplotlib 显示批量图片_matplotlib入门
  7. PX4 编译分析之Airframe文档生成
  8. WebSocket转载
  9. labelImg 工具
  10. 使用Redis的理由