华为云大数据存储的冗余方式是三副本_华为OceanStor分布式存储,引领智能时代大数据创新...
云+AI的智能时代已经到来,计算存储融合的大数据架构由于存在计算存储不能灵活扩展、不同大数据集群间资源利用率不均且数据无法共享、三副本存储利用率低且无法和AI应用高效联动等问题,已经无法满足云+AI时代的数据分析需求,计算跟存储分离已成为大势所趋。
OceanStor分布式存储存算分离方案
在这种背景下,华为OceanStor分布式存储及大数据存算分离方案应运而生。华为大数据存算分离方案中,以OceanStor分布式存储替换Hadoop中的HDFS存储,计算节点和存储节点分别组成独立的资源池,这样就能够实现计算资源和存储资源的灵活扩展,计算不足扩计算,存储不足扩存储,把计算和存储资源的能力都充分发挥出来,有效避免资源的浪费。存储资源使用统一的资源池,还能够打破之前的烟囱化架构,实现多种大数据应用间的数据高效共享,提升多种应用间的协同分析效率。
除了计算存储分离架构带来的方案性优势,OceanStor分布式存储还有哪些独特优势来适配云+AI时代的大数据存储需求呢,下面我们就来具体看一下:
分布式NameNode,消除系统性能瓶颈
OceanStor分布式存储架构
传统HDFS存储只有主备两个NameNode,所有的数据访问均需要先访问主
NameNode,获取数据的元数据信息后,才能访问对应的DataNode进行数据读写,这就导致主NameNode会成为性能和可靠性的瓶颈;另一方面,单个NameNode受限于服务器内存,最大仅能支持1.5亿左右的文件,这就限制了单个HDFS集群的规模。
OceanStor分布式存储基于全对称分布式架构,每个存储节点都能同时作为NameNode和DataNode使用,能够线性扩展到最大4096个节点,NameNode不再是性能和文件数的瓶颈;基于EC算法,OceanStor分布式存储存储单个故障域最大可容忍4个节点故障而不影响业务运行,很大程度上提升了系统的可靠性。正是基于这种分布式NameNode架构,OceanStor分布式存储才能以高扩展的统一存储资源池支撑多种大数据应用。
多租户能力,助力统一存储资源池构建
多种大数据应用共享统一存储资源池的情况下,如何实现多种应用访问的逻辑隔离和性能保障是一个关键的问题。OceanStor分布式存储支持创建多个namespace来对接多种大数据应用,每个namespace可使用独立的鉴权,从而支持不同应用间的鉴权隔离。OceanStor分布式存储中,多个namespace之间的数据是逻辑隔离的,不同的namespace还可以设定配额和Qos(Quality of Service)策略,从而保障多种应用可使用的空间和性能都是可灵活调配,且不会互相影响的,真正将存储资源池能力发挥出来。
弹性EC,存储利用率大幅提升
仅仅是存储和计算分离,能够带来灵活扩展和数据共享的优势,但要说到降低TCO,还要凭借OceanStor分布式存储的弹性EC能力。
OceanStor分布式存储弹性EC
传统HDFS存储多使用三副本方式进行数据保护,存储利用率仅33%;OceanStor分布式存储采用了EC算法进行数据保护,和三副本可靠性相当的+2冗余下,最大可支持22+2的EC,存储利用率可达91%,相比三副本方式提升了1.75倍。
相比HDFS 3.0推出的HDFS EC, OceanStor分布式存储EC能够完全兼容所有HDFS语义,没有不支持append, truncate, hflush, fsync等诸多接口的限制;OceanStor分布式存储EC的性能和HDFS三副本基本持平,可应用于热、温、冷存储多种场景,无场景限制;OceanStor分布式存储高达91%的存储利用率、节点故障场景的不降级写、2TB/小时以上的高速数据恢复,在使用效率和系统可靠性方面也领先很多。
原生HDFS接口,无需插件,100%兼容主流大数据平台
既然计算和存储分离架构有诸多的好处,为什么市面上有竞争力的存算分离产品并不多呢?最主要的原因就是很难做到HDFS效率和HDFS兼容性兼得。
原生HDFS存储兼容性很好,但三副本的存储效率很低,使用HDFS EC又会导致性能和兼容性存在问题;基于S3A接口的对象存储多支持EC算法,存储效率还可以,但S3A接口不支持append、flush、hflush等接口,还需要在计算侧安装S3A的插件,兼容性和可维护性都较差,经过协议转换后性能也不理想。
OceanStor分布式存储对外可提供原生HDFS接口,100%兼容FusionInsight、Cloudra、HortonWorks等主流大数据平台,无需在计算侧安装任何插件,无需上层应用修改任何代码即可使用。更近一步的,OceanStor分布式存储可以在现网Hadoop计算融合一体方案的基础上直接扩容,让用户无需数据迁移、无需中断业务即可享受计算存储分离方案带来的诸多收益。
多协议互通,提升融合场景大数据分析效率
云+AI的智能时代,大数据分析和AI训练、推理融合的需求越来越多,传统的大数据存储仅能提供HDFS接口用于大数据分析,分析的结果如果要进行AI训练,就需要把数据拷贝到其他存储中处理,导致数据分析的整体效率低下,同时也浪费了存储空间。
OceanStor分布式存储既能提供HDFS接口用于大数据分析,又能提供文件接口用于AI训练和推理,大数据分析结果可直接通过文件接口访问,无需拷贝和等待,很大程度上提升了融合场景的大数据分析效率。
小结:
云+AI的智能时代已经到来,传统的大数据架构已经很难满足云+AI时代的数据分析需求,计算跟存储分离已成为大势所趋,OceanStor分布式存储以弹性EC、原生HDFS接口、多租户、协议互通等专业存储能力,助力客户更好的解决数据爆炸性增长带来的成本、可靠性、分析效率、运维等问题。
华为云大数据存储的冗余方式是三副本_华为OceanStor分布式存储,引领智能时代大数据创新...相关推荐
- 华为云大数据存储的冗余方式是三副本_华为TaurusDB技术解读(转载)
近日,华为云自研关系型数据库 Taurus 公开亮相.作为华为云自研的最新一代云原生分布式数据库,Taurus 完全兼容 MySQL 8.0,采用计算与存储分离.日志即数据的架构设计,支持 1 写 1 ...
- 华为云大数据存储的冗余方式是三副本_揭秘!10+位DBA大神测评华为云DDS增强版实感...
数据库.操作系统.中间件并称为核心基础软件,在 IT 软件堆栈中起到中流砥柱的作用.今天运行的绝大多数企业应用软件都离不开数据库的支持. 随着移动互联网.物联网.云计算.大数据等新技术爆发式发展,图片 ...
- 华为云大数据存储的冗余方式是三副本_大数据显示华为云DDS增强版实感卓越
数据库.操作系统.中间件并称为核心基础软件,在 IT 软件堆栈中起到中流砥柱的作用.今天运行的绝大多数企业应用软件都离不开数据库的支持. 随着移动互联网.物联网.云计算.大数据等新技术爆发式发展,图片 ...
- 华为云大数据存储的冗余方式是三副本_阿里云大数据产品 | 大数据计算
阿里云大数据计算产品包括MaxCompute.E-MapReduce和实时计算(Alibaba Cloud Realtime Compute). 一.MaxCompute 1.MaxCompute概述 ...
- 华为云大数据存储的冗余方式是三副本_大数据入门:HDFS数据副本存放策略
大数据处理当中,数据储存始终是一个重要的环节,从现阶段的市场现状来说,以Hadoop为首的大数据技术框架,仍然占据主流地位,而Hadoop的HDFS,在数据存储方面,仍然得到重用.今天的大数据入门分享 ...
- 智能时代-大数据与智能革命重新定义未来(吴军)-核心书摘
智能时代-大数据与智能革命重新定义未来(吴军)-核心书摘 本文主要摘录于全书正文,部分解释是博主根据自己生活体验增加的理解,欢迎大家共同讨论更正~ 机器学习爱好者交流QQ群:1023 119 142 ...
- 智能时代——大数据与智能革命重新定义未来
"这是最好的时代,也是最坏的时代"英国狄更斯在<双城记>的这句话不仅仅适用于第二次工业革命,也适用于现在,适用于每一个发生重大改变的时代.智能时代的来临不再仅仅局限于于 ...
- 数据让生活更幸福!三分钟带你了解智慧城市,交通大数据应用!
随着城市交通人脑的出现,大数据在交通管理和交通运输领域得到了广泛的应用.大数据已逐渐成为城市交通管理的基础资源,在交通管理中日益显示出其关键作用和地位.许多公司对交通数据的理解存在偏见.他们认为大数据 ...
- 争当 2% 的人——《智能时代 · 大数据与智能革命重新定义未来》读书笔记
假期难得有了闲暇时间,把前几年双十一囤的书挑选看完了四本. 首先选择看的是计算机科学家吴军老师的书<智能时代>(豆瓣评分 8.4分,豆瓣热门互联网图书 TOP 10),这是 2016 年谷 ...
最新文章
- stm32双向可控硅调压程序_单向可控硅和双向可控硅的测量与模块测试
- 【前沿干货】2020人脸识别最新进展
- 深度学习与计算机视觉系列(2)_图像分类与KNN
- 使用TPU的注意事项
- Windows 2000缓冲区溢出技术原理
- 剑指offer 56 - 1.数组中数字出现的次数
- 动手学深度学习(PyTorch实现)(十二)--批量归一化(BatchNormalization)
- 在Ubuntu Linux上安装和使用Git和GitHub:初学者指南
- 如何用分库分表的9种分布式主键ID生成方案?附小技巧
- 网络管理与维护作业9
- mysql 分组之后统计记录条数
- matlab 脚本文件 函数,Matlab 脚本文件script和函数文件function的区别
- DIV+CSS布局 - 弹性盒子布局
- 2020考研数学一大纲之完全解析(一)
- 公司-瑞幸咖啡:瑞幸咖啡
- 冰柱图分析:学习笔记
- RTX3070Ti和RTX2080Ti哪个强 RTX3070Ti和RTX2080Ti参数对比哪个好
- 板岩Slate Digital发布FG-X 2 ML-1 FG-36A
- 安装caffe遇到/usr/bin/ld: /usr/local/lib/libgflags.a(gflags.cc.o):relocation R_X86_64_32S against
- Win11投屏时禁止通知的方法
热门文章
- Angular路由开发的一个实际例子
- http get extension information - another way to get host url and port number of current application
- CL_BSP_WD_VIEW_MANAGER-MANIPULATE_RESPONSE
- Business Partner Relationship Category in CRM and C4C
- SAP UI5 log level
- How is ABAP keyword highlight implemented in Chrome
- what is the location of js when using run as server in Eclipse
- SET UPDATE TASK LOCAL and commit session issue
- 使用apache的HttpClient进行http通讯,隐藏的HTTP请求头部字段是如何自动被添加的
- SAP应用搜索分页的实现原理