本文分享自华为云社区《统一元数据,华为云MRS 数据湖Catalog重磅推出!》,原文作者:ryanlunar。

1 背景

随着5G、IoT等技术的发展,企业积累了越来越多的数据,需要激发更多的数据价值变现。传统大数据平台从建设到落地的长周期,不利于业务的高速发展;平台建成后,维护、升级、扩容均以集群为单位,管理离散,操作繁重。

众多用户采用了华为云大数据存算分离方案,存算分离解决方案指的是业务数据分离,共享的是数据,元数据不共享,每类引擎单独映射构建。也正因为元数据不共享,导致现阶段大数据存算分离方案存在如下几点痛点:

  1. 缺少统一管理视图:元数据分散,难于统一管理;
  2. 缺少统一的细粒度权限管理:缺少统一的对数据库、表、列的权限控制,缺少有效的逻辑及权限隔离;
  3. 计算资源无法快速扩缩容:计算集群需要考虑元数据的备份和恢复,增加资源成本和运维成本;

2 数据湖Catalog简介

为了解决现阶段大数据存算分离痛点问题,华为云大数据推出重量级数据湖Catalog服务。

数据湖Catalog是面向多元计算引擎提供统一元数据服务。支持多元计算统一并共享元数据,实现引擎级元数据分离,全湖一张视图,支持业务灵活访问,助力存算分离架构升级变迁。数据湖Catalog主要有如下五点关键特性:

  1. 存算分离更专业、简化;
  2. 支持多引擎、多集群,灵活易用,性能更高;
  3. 多维度可靠性保驾护航;
  4. 细粒度权限管控,访问共享更安全;
  5. 支持元数据多版本以及DAG跟踪和分析;

经过数据湖Catalog加持后,在原有业务数据分离的基础上,实现引擎级元数据分离,主要有如下三大优势:

  1. 统一元数据管理,全湖统一数据资产视图,多引擎统一可视;
  2. 元数据多引擎共享,数据无需单独映射,软件多版本自由选择;
  3. 可靠性:计算与数据完全解耦,集群故障,数据可靠,元数据可靠;

3 数据湖Catalog关键特性

下面主要介绍数据湖Catalog五大关键特性。

3.1 存算分离更专业、简化

传统存算分离解决方案一般指的是业务数据分离,共享的是数据,元数据不共享,每类引擎单独映射构建。而数据湖Catalog通过统一多集群、多类型计算的元数据管理,实现全湖统一数据资产视图,多引擎统一可视,数据无需单独映射,多引擎多版本自由选择。

  1. 数据湖Catalog独立部署,MRS集群释放不会清理元数据,元数据无需备份和迁移,节约运维管理成本,随用随释放;
  2. MRS集群可以做不同的业务,所有集群都可以很方便的实现数据共享和数据访问;
  3. MRS集群可以真正聚焦业务,根据业务需要进行集群的创建和释放,真正的可以做到按需创建、用完即释放,节约资源和运维成本。

3.2 支持多引擎、多集群,灵活易用,性能更高

传统大数据大多以MetaStore进行元数据管理,以thrift api方式对外提供元数据管理能力,且仅针对Hive生态相关元数据。而数据湖Catalog提供兼容Hive MetaStore API和RESTfull API,支持结构化、非结构化数据源以结构化的模型进行元数据管理助力高层次的协作。

  1. 兼容Hive MetaStore API,支持Hive生态诸如Hive/Spark/Presto/Impala/Flink等引擎,可以通过简单的配置即可快速实现数据湖Catalog对接集成;
  2. 支持华为云其他云服务以开放RESTfull API的方式进行对接集成;
  3. 基于MetaStore内核自底向上逐层优化,性能更高,某客户场景下性能较开源提升3-5倍;

3.3 多维度可靠性保驾护航

随着业务快速增长,数据湖Catalog提供了多维度可靠性增强能力,快速满足客户业务增长的诉求,为客户保驾护航。

  1. 支持跨AZ容灾部署、节点故障容错、特性级故障发现和自愈,为用户提供了高可用部署架构,极大提升业务的可靠性;
  2. 支持动态流控、静态流控、服务降级、接口级熔断,保障业务平滑应对业务激增;
  3. 支持公共服务依赖故障放通,当周边服务异常时,最大程度保证业务连续性;
  4. 支持丰富的集群监控和告警能力,实时发现系统异常,保障业务稳定运行;

3.4 细粒度权限管控,访问共享更安全

数据湖Catalog基于华为云IAM实现细粒度权限管控,将元数据作为资源进行统一权限管理。各云服务必须相应的权限才可以访问数据湖Catalog,例如表或分区。

  1. 支持基于角色的访问策略,数据湖Catalog对所有元数据的操作均支持基于角色的IAM策略。通过讲策略附加到账户中的用户或组,可向其授予数据湖Catalog中创建、访问或修改数据湖Catalog资源(例如表、分区)的权限。通过将策略附加到IAM角色,用户可以向其他华为云账户中的IAM角色授予跨账户访问权限;
  2. 支持使用资源策略控制对数据湖Catalog资源的访问,这些资源包括数据库、表、分区和用户定义的函数,以及与这些资源交互的APIs;
  3. 支持基于角色或资源的访问策略跨账户授予访问权限,实现多账号间元数据的共享和访问控制。

3.5 支持元数据多版本以及DAG跟踪和分析

在经典机器学习场景和深度学习场景下,数据类型、数据版本、工程(模型、脚本等)随时间变化,难以复用,难以监管。数据湖Catalog提供元数据多版本能力,让AI数据开发项目如同GIT管理代码一样管理涉及到的数据和工程模型、脚本。与此同时,数据湖Catalog提供DAG跟踪和分析能力,可以帮助AI数据开发按照时间线、流水线查看不同时期、不同阶段的模型指标以及上下游信息。数据湖Catalog可以帮助极大提升AI数据开发的效率。

4 典型应用场景

4.1 基于MRS构建企业级数据湖大数据处理分析平台

用户基于华为云MapReduce服务构建自己的数据湖数据处理分析平台,随着企业快速发展,集群规模和数据也急剧膨胀,用户迫切需要完全解耦计算和数据,让计算资源可以按需使用,集中统一管理不同存储中的元数据。

数据湖Catalog价值

  1. 多MRS集群元数据统一管理,避免数据孤岛;
  2. 自底向上逐层优化,性能更高;
  3. 多维度可靠性保驾护航,更可靠;
  4. 支持细粒度权限管控,更安全;

4.2 基于ModelArts构建数据湖AI开发平台

大数据是AI的基础,AI也是大数据的未来。数据湖可以很好的在经典机器学习场景和深度学习场景下服务用户:经验和数据靠个人、无管理;难以复用,难以监管;数据类型多,不同团队用的工具不同,随时间变化;无数据版本和分支管理;缺乏数据回流机制,需要数据湖具备能够统一“表”、“数据集”等概念,形成高层次的协作,需要数据湖具备能够实现元数据统一并借此进行数据版本和分支管理。

数据湖Catalog价值

  1. 提供多引擎SDK和REST API,方便用户集成;
  2. 支持多版本管理,包括数据版本、分支、事务等;
  3. 支持AI和大数据DAG血缘跟踪和分析;
  4. 统一元数据模型,助力异构数据源统一数据服务;

5 总结

数据湖Catalog极大增强MRS服务存算分离方面的能力,让MRS更聚焦算力,真正能按需创建、用完即释放,为用户节约了资源成本和运维管理成本;同时对ModelArts构建数据湖AI开发平台提供企业级经验和数据复用、异构数据源统一访问、多版本管理和DAG血缘管理提供了坚实的元数据管理基础。对于用户构建企业级数据湖大数据处理分析平台和数据湖AI开发平台,数据湖Catalog将会成为用户统一元数据管理平台首选。

同时作为一款新的重量级统一元数据管理服务,我们在引擎元数据领域还在持续学习和探索过程中,数据湖Catalog后面会持续从性能优化、可靠性、生态建设、数据价值挖掘多个角度进行优化和改进,包括统计分析、CBO以及扩展应用、AI融合高级特性等。

点击关注,第一时间了解华为云新鲜技术~

统一元数据,数据湖Catalog让大数据存算分离不再是问题相关推荐

  1. 企业大数据湖总体规划及大数据湖 一体化运营管理建设方案

    背景:数据快速入湖,分析更加智能,应用更加多样,服务更加开放 更多企业数据将进入数据湖,来自传统系统的数据和传感器等新型数据资源不断融合,数据孤岛将继续被打破. 随着大数据分析能力的不断提高,人工智能 ...

  2. 新联邦业务数据湖为颠覆大数据应用铺路

    文章讲的是新联邦业务数据湖为颠覆大数据应用铺路,EMC公司今天发布联邦业务数据湖.这套完整的工程解决方案包括来自EMC信息基础设施.Pivotal和VMware的领先的存储及大数据分析技术,帮助客户利 ...

  3. 数据仓库、数据集市、数据湖,这些大数据名词你知道多少?

    数据仓库,英文名称为Data Warehouse,可简写为DW或DWH.数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合.它是单个数据存储,出于分析性报告和决策支持目的而创建. ...

  4. 51页大数据湖总体规划及大数据湖一体化运营管理方案

    目录2 背景:数据快速入湖,分析更加智能,应用更加多样,服务更加开放4 数据湖的定义与特性6 从对比中理解数据湖概念 - 优势篇7 从对比中理解数据湖概念 - 劣势篇8 数据湖是大数据概念的延伸9 数 ...

  5. 一统大数据江湖,趣话图说“存算分离”武学心法

    附:2004-2006年间,Google陆续发表了Google File System.MapReduce和BigTable三篇革命性技术的文章,奠定了分布式系统理论基础.随后以这三项技术为核心的开源 ...

  6. 大数据上云存算分离演进思考与实践

    作者:汤祯捷 阿里云智能计算平台团队 存算分离.数据湖.在离线混部,这些名词越来越多的出现在各行各业数字化转型的关键活动中.本文仅从大数据产品商业化从业者的视角来探讨与分析大数据领域的存算分离演进过程 ...

  7. 大数据产品开发流程规范_华为内部资料流出!揭秘华为数据湖:3大特点、6个标准、入湖流程...

    点蓝色字关注"云技术" 导读:数据湖:实现企业数据的"逻辑汇聚". 作者:华为公司数据管理部来源:大数据DT(ID:hzdashuju)01 华为数据湖的3个特 ...

  8. 漫说数据湖——如何建湖?如何做数据ETL?为什么大数据需要数据湖?

    作者 |友创云天 来源|http://t.hk.uy/bt5 数据湖概述 数据湖这一概念,最早是在2011年由CITO Research网站的CTO和作家Dan Woods首次提出.其比喻是:如果我们 ...

  9. 华为数据湖:3大特点、6个标准、入湖流程

    华为数据湖:3大特点.6个标准.入湖流程 作者:华为公司数据管理部 01. 华为数据湖的3个特点 华为数据湖(如图5-2所示)是逻辑上对内外部的结构化.非结构化的原始数据的逻辑汇聚.数据入湖要遵从6项 ...

最新文章

  1. Linux下清空用户登录记录和命令历史的方法
  2. oracle sqlcode 多条,SQL查询以连接Oracle中多个行的列值
  3. java怎么xml文件解析_Java对Xml文件解析
  4. python 代码分块_[代码全屏查看]-python多进程分块读取文件
  5. 仿微信公众号后台管理-自定义菜单
  6. ros_openvino_toolkit环境搭建纪实
  7. 浏览器判断及客户端跳转,绕开微信对某宝限制
  8. 考上985能改变命运吗_南开研究生称读研改变命运被嘲讽,网友:本科垃圾,考上985也没用...
  9. linux 编写 声卡驱动程序,在Linux中注册声卡驱动程序
  10. 刷新计算机dns缓存的命令,如何刷新dns缓存 刷新dns缓存命令(ipconfig /flushdns)
  11. vmware安装了vmware tools还是无法复制文件与文本(ubuntu16.04)
  12. 敏捷管理中的史诗与故事
  13. CSS 实现炫酷的动态背景效果
  14. Android Studio 如何查看Sqlite数据文件
  15. 数据营销“教父”宋星十年倾心之作,让数据真正赋能企业
  16. 22web app实现左右滑动控制菜单
  17. 猫眼电影Top100爬取
  18. rono在oracle的作用_sqlnet.ora的作用
  19. 2018年小米 Mi air i7-7500u黑苹果efi引导文件
  20. scala的futue和promise

热门文章

  1. 学习 | Spring Cloud Config 从入门到精通
  2. async 与 await 的用法详解
  3. 视觉SLAM笔记(57) 回环检测
  4. TensorFlow笔记(11) GoolgeNet
  5. win10睡眠按啥键唤醒_防止Windows10自动唤醒,就用这4招,维修电脑必知
  6. Andorid AlertDialog 点击后自动消失_不看后悔!2011年别克更换完变速箱电脑后,要如何做设定匹配...
  7. conda如何升级pytorch_第一节 PyTorch简介及环境配置
  8. 动画函数,为任意一个元素移动到指定的目标位置
  9. 符号扩展和无符号扩展
  10. 虚拟机安装windows服务出现无法打开内核设备“\\.Global\vmx86”