华为云大数据存储的冗余方式是三副本_华为OceanStor分布式存储，引领智能时代大数据创新...

云+AI的智能时代已经到来，计算存储融合的大数据架构由于存在计算存储不能灵活扩展、不同大数据集群间资源利用率不均且数据无法共享、三副本存储利用率低且无法和AI应用高效联动等问题，已经无法满足云+AI时代的数据分析需求，计算跟存储分离已成为大势所趋。

OceanStor分布式存储存算分离方案

在这种背景下，华为OceanStor分布式存储及大数据存算分离方案应运而生。华为大数据存算分离方案中，以OceanStor分布式存储替换Hadoop中的HDFS存储，计算节点和存储节点分别组成独立的资源池，这样就能够实现计算资源和存储资源的灵活扩展，计算不足扩计算，存储不足扩存储，把计算和存储资源的能力都充分发挥出来，有效避免资源的浪费。存储资源使用统一的资源池，还能够打破之前的烟囱化架构，实现多种大数据应用间的数据高效共享，提升多种应用间的协同分析效率。

除了计算存储分离架构带来的方案性优势，OceanStor分布式存储还有哪些独特优势来适配云+AI时代的大数据存储需求呢，下面我们就来具体看一下：

分布式NameNode，消除系统性能瓶颈

OceanStor分布式存储架构

传统HDFS存储只有主备两个NameNode，所有的数据访问均需要先访问主

NameNode，获取数据的元数据信息后，才能访问对应的DataNode进行数据读写，这就导致主NameNode会成为性能和可靠性的瓶颈；另一方面，单个NameNode受限于服务器内存，最大仅能支持1.5亿左右的文件，这就限制了单个HDFS集群的规模。

OceanStor分布式存储基于全对称分布式架构，每个存储节点都能同时作为NameNode和DataNode使用，能够线性扩展到最大4096个节点，NameNode不再是性能和文件数的瓶颈；基于EC算法，OceanStor分布式存储存储单个故障域最大可容忍4个节点故障而不影响业务运行，很大程度上提升了系统的可靠性。正是基于这种分布式NameNode架构，OceanStor分布式存储才能以高扩展的统一存储资源池支撑多种大数据应用。

多租户能力，助力统一存储资源池构建

多种大数据应用共享统一存储资源池的情况下，如何实现多种应用访问的逻辑隔离和性能保障是一个关键的问题。OceanStor分布式存储支持创建多个namespace来对接多种大数据应用，每个namespace可使用独立的鉴权，从而支持不同应用间的鉴权隔离。OceanStor分布式存储中，多个namespace之间的数据是逻辑隔离的，不同的namespace还可以设定配额和Qos(Quality of Service)策略，从而保障多种应用可使用的空间和性能都是可灵活调配，且不会互相影响的，真正将存储资源池能力发挥出来。

弹性EC，存储利用率大幅提升

仅仅是存储和计算分离，能够带来灵活扩展和数据共享的优势，但要说到降低TCO，还要凭借OceanStor分布式存储的弹性EC能力。

OceanStor分布式存储弹性EC

传统HDFS存储多使用三副本方式进行数据保护，存储利用率仅33%；OceanStor分布式存储采用了EC算法进行数据保护，和三副本可靠性相当的+2冗余下，最大可支持22+2的EC，存储利用率可达91%，相比三副本方式提升了1.75倍。

相比HDFS 3.0推出的HDFS EC， OceanStor分布式存储EC能够完全兼容所有HDFS语义，没有不支持append, truncate, hflush, fsync等诸多接口的限制；OceanStor分布式存储EC的性能和HDFS三副本基本持平，可应用于热、温、冷存储多种场景，无场景限制；OceanStor分布式存储高达91%的存储利用率、节点故障场景的不降级写、2TB/小时以上的高速数据恢复，在使用效率和系统可靠性方面也领先很多。

原生HDFS接口，无需插件，100%兼容主流大数据平台

既然计算和存储分离架构有诸多的好处，为什么市面上有竞争力的存算分离产品并不多呢？最主要的原因就是很难做到HDFS效率和HDFS兼容性兼得。

原生HDFS存储兼容性很好，但三副本的存储效率很低，使用HDFS EC又会导致性能和兼容性存在问题；基于S3A接口的对象存储多支持EC算法，存储效率还可以，但S3A接口不支持append、flush、hflush等接口，还需要在计算侧安装S3A的插件，兼容性和可维护性都较差，经过协议转换后性能也不理想。

OceanStor分布式存储对外可提供原生HDFS接口，100%兼容FusionInsight、Cloudra、HortonWorks等主流大数据平台，无需在计算侧安装任何插件，无需上层应用修改任何代码即可使用。更近一步的，OceanStor分布式存储可以在现网Hadoop计算融合一体方案的基础上直接扩容，让用户无需数据迁移、无需中断业务即可享受计算存储分离方案带来的诸多收益。

多协议互通，提升融合场景大数据分析效率

云+AI的智能时代，大数据分析和AI训练、推理融合的需求越来越多，传统的大数据存储仅能提供HDFS接口用于大数据分析，分析的结果如果要进行AI训练，就需要把数据拷贝到其他存储中处理，导致数据分析的整体效率低下，同时也浪费了存储空间。

OceanStor分布式存储既能提供HDFS接口用于大数据分析，又能提供文件接口用于AI训练和推理，大数据分析结果可直接通过文件接口访问，无需拷贝和等待，很大程度上提升了融合场景的大数据分析效率。

小结:

云+AI的智能时代已经到来，传统的大数据架构已经很难满足云+AI时代的数据分析需求，计算跟存储分离已成为大势所趋，OceanStor分布式存储以弹性EC、原生HDFS接口、多租户、协议互通等专业存储能力，助力客户更好的解决数据爆炸性增长带来的成本、可靠性、分析效率、运维等问题。

华为云大数据存储的冗余方式是三副本_华为OceanStor分布式存储，引领智能时代大数据创新...相关推荐

华为云大数据存储的冗余方式是三副本_华为TaurusDB技术解读（转载）
近日,华为云自研关系型数据库 Taurus 公开亮相.作为华为云自研的最新一代云原生分布式数据库,Taurus 完全兼容 MySQL 8.0,采用计算与存储分离.日志即数据的架构设计,支持 1 写 1 ...
华为云大数据存储的冗余方式是三副本_揭秘！10+位DBA大神测评华为云DDS增强版实感...
数据库.操作系统.中间件并称为核心基础软件,在 IT 软件堆栈中起到中流砥柱的作用.今天运行的绝大多数企业应用软件都离不开数据库的支持. 随着移动互联网.物联网.云计算.大数据等新技术爆发式发展,图片 ...
华为云大数据存储的冗余方式是三副本_大数据显示华为云DDS增强版实感卓越
数据库.操作系统.中间件并称为核心基础软件,在 IT 软件堆栈中起到中流砥柱的作用.今天运行的绝大多数企业应用软件都离不开数据库的支持. 随着移动互联网.物联网.云计算.大数据等新技术爆发式发展,图片 ...
华为云大数据存储的冗余方式是三副本_阿里云大数据产品 | 大数据计算
阿里云大数据计算产品包括MaxCompute.E-MapReduce和实时计算(Alibaba Cloud Realtime Compute). 一.MaxCompute 1.MaxCompute概述 ...
华为云大数据存储的冗余方式是三副本_大数据入门：HDFS数据副本存放策略
大数据处理当中,数据储存始终是一个重要的环节,从现阶段的市场现状来说,以Hadoop为首的大数据技术框架,仍然占据主流地位,而Hadoop的HDFS,在数据存储方面,仍然得到重用.今天的大数据入门分享 ...
智能时代-大数据与智能革命重新定义未来（吴军）-核心书摘
智能时代-大数据与智能革命重新定义未来(吴军)-核心书摘本文主要摘录于全书正文,部分解释是博主根据自己生活体验增加的理解,欢迎大家共同讨论更正~ 机器学习爱好者交流QQ群:1023 119 142 ...
智能时代——大数据与智能革命重新定义未来
"这是最好的时代,也是最坏的时代"英国狄更斯在<双城记>的这句话不仅仅适用于第二次工业革命,也适用于现在,适用于每一个发生重大改变的时代.智能时代的来临不再仅仅局限于于 ...
数据让生活更幸福！三分钟带你了解智慧城市，交通大数据应用！
随着城市交通人脑的出现,大数据在交通管理和交通运输领域得到了广泛的应用.大数据已逐渐成为城市交通管理的基础资源,在交通管理中日益显示出其关键作用和地位.许多公司对交通数据的理解存在偏见.他们认为大数据 ...
争当 2% 的人——《智能时代 · 大数据与智能革命重新定义未来》读书笔记
假期难得有了闲暇时间,把前几年双十一囤的书挑选看完了四本. 首先选择看的是计算机科学家吴军老师的书<智能时代>(豆瓣评分 8.4分,豆瓣热门互联网图书 TOP 10),这是 2016 年谷 ...

华为云大数据存储的冗余方式是三副本_华为OceanStor分布式存储，引领智能时代大数据创新...

华为云大数据存储的冗余方式是三副本_华为OceanStor分布式存储，引领智能时代大数据创新...相关推荐

最新文章

热门文章