【华为云技术分享】华为云多元计算+AI 打造企业级智能数据湖
欣顿.郝尔泼于《迫在眉睫的南方危机》中写道“还没有多少人能够正确地认识到数据在自由这项事业中正在扮演的重要角色。它们正在创造奇迹……”当时,欣顿.郝尔泼身处黑人白人不平等的奴隶制社会,他用数据的方式验证南北经济的差异去证明黑人的社会价值,从而加速结束奴隶制的存在。
如今,我们已然深知数据在生活生产中扮演着重要角色,那他的本质是什么,如何利用好数据为我们创造价值?认识数据,了解多元时代数据的丰富多态和其解决之道至关重要。
什么是数据
我们注意到:在做数据分析的时候单用数字去描述是远远不够的,比如过年爆发的疫情现状如何。我单记录“24”、“0”是不够的,我需要完整的记录【2月23日“24”个省确诊病例“0”新增】,如果配上图文、视频等信息可以更全面了解疫情现状。
我们这里讲的数据其实是涵盖数据及信息两者的统称。数据也好,信息也罢都是客观存在的,把这些客观存在的数据、信息介于人们接受数据的方式不同,用不同的技术手段来存储、管理计算等等,从而衍生出多模态数据。
对于多模态数据的计算处理,华为云有一套端到端的解决方案,名为智能数据湖。
智能数据湖
实际上大家可能知道,数据湖这个概念其实已经出来有几年了,传统的数据湖更多指的是数据存储和管理,把所有数据放在一起统一存储。华为云智能数据湖从解决方案层面做了进一步延伸,如材料图中所示,智能数据湖分为三层:统一数据存储层,多元计算层,数据运营层。
三大特点
1、 存算分离
大家如果搭建过大数据集群的话,可能会有比较深刻的体会,使用开源Hadoop系统做存算一体部署,基于服务器构建集群往往会带来存储资源和计算资源利用不均的问题,如存储上PB级数据,分析查询可能只需要十几个CPU;业务扩容时,因为是按照服务器个数为单元扩,实际上计算资源是绑定一起扩容的,这种情况对于规模越大,数据量增长越快,业务种类越多的企业,会更加显著;从我们之前支撑过的大型互联网APP企业的经验来看,计算资源会存在40%~50%的浪费。
而存算分离则很好的解决了这个问题,通过计算和存储解耦,利用云架构弹性的优势,存储和计算单独按需扩缩容,从而使资源利用率达到最大化。
2.1、多元计算
全栈支持鲲鹏,从方案图中可以看到,包括一站式大数据平台MRS服务,批流计算+交互式分析的多模计算DLI服务,以及增强的企业级数据仓库服务。
DLI是一个serverless服务,它对于用户来说就像一个黑盒,用户不用关心服务内部的资源,以及软件怎么部署,只需要使用服务提供的对外接口直接进行业务实现,无须运维,使用起来非常方便。
MRS是一个集群类型的服务,包含Hadoop,spark,hive等常见服务,可以理解为大数据全家桶;MRS服务的形态则和DLI刚好相反,用户感知硬件资源,需要先选择资源类型,然后部署集群。一般情况下客户已有大数据平台,做云上迁移;或者客户有自己的大数据团队,需要登录集群修改配置做调优,可以选用MRS服务;
数据仓库DWS服务,这个服务的内核基于华为自研的GaussDB,同时我们在云服务架构上也做了优化,包括分布式弹性能力,可靠性能力,性能也达到业界领先水平。
2.2、+AI的助力
第一是数据与AI算法/模型协同,用来支持非结构化处理;在技术上我们是在大数据系统中内置了AI的轻量推理引擎,AI算法模型作为算子,在大数据处理过程中直接调度使用,如图像识别模型作为一个UDF,在大数据处理过程中直接使用SQL调用。
另一个方向则是用AI来做数据引擎的自调优;通过收集业务运行时的系统各方面过程数据,采用AI建模预测,推荐更优配置,以及更优的数据组织策略,这就像大数据系统内置了一个小机器人,它不停的在对系统做维修优化,从而让引擎使用起来具备更优越的性能
3、完整的一套数据运营工具平台
这便是图中最上层的DAYU服务,他围绕数据处理过程提供了端到端一站式数据运营能力,包括从数据集成,规范设计,开发,质量管理,到形成数据资产,以及对外开放服务;DAYU给数据管理和分析工作者带来了便利,通过全流程界面化操作,极大的降低了数据管理和分析的门槛,同时也提供API方式供伙伴集成,构建自己的数据系统。
相关推荐
华为云“智能数据湖”解决之道
数据湖&数据库,别再傻傻分不清了
玩转云上数据湖,解析Serverless 技术落地
【华为云技术分享】华为云多元计算+AI 打造企业级智能数据湖相关推荐
- 【华为云技术分享】云原生数据库三驾马车之TaurusDB
[前言]Taurus是华为对标AWS Aurora的一款重磅云原生数据库.其设计思想是Log-as-database以最小化网络IO,采用计算存储分离的架构.Taurus的市场定位是OLTP的企业级市 ...
- 【华为云技术分享】云小课 | “VPC连接”知多少
摘要:华为云提供了丰富的网络服务,可满足多种网络互连场景. 同Region的两个VPC怎么连通?" "跨Region的两个VPC又怎么连通?" "VPC内的EC ...
- 【华为云技术分享】云小课 | 磁盘容量不够用?小课教你来扩容!
摘要:当已有云硬盘容量不足时,可以扩容云硬盘,扩容云硬盘分为在"正在使用"状态扩容和"可用"状态扩容两种,扩容结束后需要扩展分区和文件系统.我们一起来看下具体怎 ...
- 【华为云技术分享】云小课 | 搬迁本地数据至OBS,多种方式任你选
摘要:搬迁本地数据至OBS,包括OBS工具方式.CDM方式.DES磁盘方式.DES Teleport方式和云专线方式,每种方式特点不同,本节课我们就一起看看有什么区别. 已有的业务数据可能保存在本地的 ...
- 【华为云技术分享】云小课 | 迁移第三方云厂商数据至OBS,两种方式任你选
如何将我在第三方云厂商对象存储上的数据迁移至华为云OBS?华为云主要提供对象存储迁移服务(Object Storage Migration Service,OMS)和云数据迁移(Cloud Data ...
- 【华为云技术分享】云小课 | SAP HANA高可用之实战演练
由于华为云"敏捷性高.扩展灵活.便捷运维.高可靠.低成本"等优势,越来越多的企业将SAP系统部署在华为云上.SAP系统是企业的核心系统,对于数据的可靠性的重要性是无可厚非的,因软件 ...
- 【华为云技术分享】40多元成本制作基于Arduin的随动四轴机械臂,机械臂实现步骤记录、复现等功能
[摘要] Arduin随动四轴机械臂,机械臂实现步骤记录.复现等功能:主要原材料元器件有:电位器 * 4.9g舵机 * 4.轻触开关 * 1.Arduin UNO * 1.热熔胶.杜邦线多根(建议用质 ...
- 【华为云技术分享】云小课 | SAP扩容实战
随着SAP业务的发展,当购买的资源无法满足业务需求时,我们可以在华为云上通过扩容相应的资源来解决问题. 在SAP上云的场景下,扩容可以分为两个部分:计算资源扩容和存储资源扩容. 计算资源扩容就是升级弹 ...
- 【华为云技术分享】云容器引擎 CCE权限管理实践
随着容器化的快速发展,大数据原有的分布式任务调度模式,正在被基于Kubernetes的技术架构所取代.CCE云容器引擎是华为云推出的支持Kubernetes社区原生应用和工具,应用级自动弹性伸缩,自动 ...
最新文章
- dabs是什么意思_单词flounder是什么中文意思
- 同一网段还是跨VLAN的取舍
- JUC并发编程九 并发架构--循环打印
- 驱动层和r3程序通讯的列子参考爱写驱动的女装大佬
- HLSL的一些常见渲染特效的实现
- hadoop_namenode如果选择在哪个datanode存储副本
- 【ArcGIS Pro微课1000例】0007:ArcGIS Pro 2.5质量检查:拓扑创建与编辑案例教程
- Leetcode--55. 跳跃游戏
- 数模论文研读--------09年B题:眼科病床
- 早上起床后喝一杯白开水是非常有好处的
- (JAVA版)冒泡排序
- bootstrap多模态框
- nginx集群,带负载均衡(监听多个端口),超详细,轮询分发
- Hadoop MR 核心原理
- outlook2016 打不开超链接
- Multithreaded Rendering Graphics Jobs 多线程渲染与图形Jobs 性能系列8
- 点击超链接弹出QQ对话窗口
- 消费品行业经销商渠道数据同步及管理
- 腾讯云申请免费SSL证书
- 广州百田前端实习生面试经历
热门文章
- mysql 导入dmp_mysql导入导出sql文件
- 校验身份证_Excel每日一技巧:从身份证号可以提取哪些信息呢?
- python sql注入脚本_python辅助sql手工注入猜解数据库案例分析
- mysql 存储过程 输出table_mysql 存储过程 没有结果输出。
- sql case when then else多个条件_SQL-多表查询
- Python 竟能绘制如此酷炫的三维图
- CJOJ 【DP合集】最长上升序列2 — LIS2
- mysql mybatis springMVC
- model类中enum类型与数据库字段的映射
- this关键字实现串联构造函数调用