云+AI的智能时代已经到来,计算存储融合的大数据架构由于存在计算存储不能灵活扩展、不同大数据集群间资源利用率不均且数据无法共享、三副本存储利用率低且无法和AI应用高效联动等问题,已经无法满足云+AI时代的数据分析需求,计算跟存储分离已成为大势所趋。

OceanStor分布式存储存算分离方案

在这种背景下,华为OceanStor分布式存储及大数据存算分离方案应运而生。华为大数据存算分离方案中,以OceanStor分布式存储替换Hadoop中的HDFS存储,计算节点和存储节点分别组成独立的资源池,这样就能够实现计算资源和存储资源的灵活扩展,计算不足扩计算,存储不足扩存储,把计算和存储资源的能力都充分发挥出来,有效避免资源的浪费。存储资源使用统一的资源池,还能够打破之前的烟囱化架构,实现多种大数据应用间的数据高效共享,提升多种应用间的协同分析效率。

除了计算存储分离架构带来的方案性优势,OceanStor分布式存储还有哪些独特优势来适配云+AI时代的大数据存储需求呢,下面我们就来具体看一下:

分布式NameNode,消除系统性能瓶颈

OceanStor分布式存储架构

传统HDFS存储只有主备两个NameNode,所有的数据访问均需要先访问主

NameNode,获取数据的元数据信息后,才能访问对应的DataNode进行数据读写,这就导致主NameNode会成为性能和可靠性的瓶颈;另一方面,单个NameNode受限于服务器内存,最大仅能支持1.5亿左右的文件,这就限制了单个HDFS集群的规模。

OceanStor分布式存储基于全对称分布式架构,每个存储节点都能同时作为NameNode和DataNode使用,能够线性扩展到最大4096个节点,NameNode不再是性能和文件数的瓶颈;基于EC算法,OceanStor分布式存储存储单个故障域最大可容忍4个节点故障而不影响业务运行,很大程度上提升了系统的可靠性。正是基于这种分布式NameNode架构,OceanStor分布式存储才能以高扩展的统一存储资源池支撑多种大数据应用。

多租户能力,助力统一存储资源池构建

多种大数据应用共享统一存储资源池的情况下,如何实现多种应用访问的逻辑隔离和性能保障是一个关键的问题。OceanStor分布式存储支持创建多个namespace来对接多种大数据应用,每个namespace可使用独立的鉴权,从而支持不同应用间的鉴权隔离。OceanStor分布式存储中,多个namespace之间的数据是逻辑隔离的,不同的namespace还可以设定配额和Qos(Quality of Service)策略,从而保障多种应用可使用的空间和性能都是可灵活调配,且不会互相影响的,真正将存储资源池能力发挥出来。

弹性EC,存储利用率大幅提升

仅仅是存储和计算分离,能够带来灵活扩展和数据共享的优势,但要说到降低TCO,还要凭借OceanStor分布式存储的弹性EC能力。

OceanStor分布式存储弹性EC

传统HDFS存储多使用三副本方式进行数据保护,存储利用率仅33%;OceanStor分布式存储采用了EC算法进行数据保护,和三副本可靠性相当的+2冗余下,最大可支持22+2的EC,存储利用率可达91%,相比三副本方式提升了1.75倍。

相比HDFS 3.0推出的HDFS EC, OceanStor分布式存储EC能够完全兼容所有HDFS语义,没有不支持append, truncate, hflush, fsync等诸多接口的限制;OceanStor分布式存储EC的性能和HDFS三副本基本持平,可应用于热、温、冷存储多种场景,无场景限制;OceanStor分布式存储高达91%的存储利用率、节点故障场景的不降级写、2TB/小时以上的高速数据恢复,在使用效率和系统可靠性方面也领先很多。

原生HDFS接口,无需插件,100%兼容主流大数据平台

既然计算和存储分离架构有诸多的好处,为什么市面上有竞争力的存算分离产品并不多呢?最主要的原因就是很难做到HDFS效率和HDFS兼容性兼得。

原生HDFS存储兼容性很好,但三副本的存储效率很低,使用HDFS EC又会导致性能和兼容性存在问题;基于S3A接口的对象存储多支持EC算法,存储效率还可以,但S3A接口不支持append、flush、hflush等接口,还需要在计算侧安装S3A的插件,兼容性和可维护性都较差,经过协议转换后性能也不理想。

OceanStor分布式存储对外可提供原生HDFS接口,100%兼容FusionInsight、Cloudra、HortonWorks等主流大数据平台,无需在计算侧安装任何插件,无需上层应用修改任何代码即可使用。更近一步的,OceanStor分布式存储可以在现网Hadoop计算融合一体方案的基础上直接扩容,让用户无需数据迁移、无需中断业务即可享受计算存储分离方案带来的诸多收益。

多协议互通,提升融合场景大数据分析效率

云+AI的智能时代,大数据分析和AI训练、推理融合的需求越来越多,传统的大数据存储仅能提供HDFS接口用于大数据分析,分析的结果如果要进行AI训练,就需要把数据拷贝到其他存储中处理,导致数据分析的整体效率低下,同时也浪费了存储空间。

OceanStor分布式存储既能提供HDFS接口用于大数据分析,又能提供文件接口用于AI训练和推理,大数据分析结果可直接通过文件接口访问,无需拷贝和等待,很大程度上提升了融合场景的大数据分析效率。

小结:

云+AI的智能时代已经到来,传统的大数据架构已经很难满足云+AI时代的数据分析需求,计算跟存储分离已成为大势所趋,OceanStor分布式存储以弹性EC、原生HDFS接口、多租户、协议互通等专业存储能力,助力客户更好的解决数据爆炸性增长带来的成本、可靠性、分析效率、运维等问题。

华为云大数据存储的冗余方式是三副本_华为OceanStor分布式存储,引领智能时代大数据创新...相关推荐

  1. 华为云大数据存储的冗余方式是三副本_华为TaurusDB技术解读(转载)

    近日,华为云自研关系型数据库 Taurus 公开亮相.作为华为云自研的最新一代云原生分布式数据库,Taurus 完全兼容 MySQL 8.0,采用计算与存储分离.日志即数据的架构设计,支持 1 写 1 ...

  2. 华为云大数据存储的冗余方式是三副本_揭秘!10+位DBA大神测评华为云DDS增强版实感...

    数据库.操作系统.中间件并称为核心基础软件,在 IT 软件堆栈中起到中流砥柱的作用.今天运行的绝大多数企业应用软件都离不开数据库的支持. 随着移动互联网.物联网.云计算.大数据等新技术爆发式发展,图片 ...

  3. 华为云大数据存储的冗余方式是三副本_大数据显示华为云DDS增强版实感卓越

    数据库.操作系统.中间件并称为核心基础软件,在 IT 软件堆栈中起到中流砥柱的作用.今天运行的绝大多数企业应用软件都离不开数据库的支持. 随着移动互联网.物联网.云计算.大数据等新技术爆发式发展,图片 ...

  4. 华为云大数据存储的冗余方式是三副本_阿里云大数据产品 | 大数据计算

    阿里云大数据计算产品包括MaxCompute.E-MapReduce和实时计算(Alibaba Cloud Realtime Compute). 一.MaxCompute 1.MaxCompute概述 ...

  5. 华为云大数据存储的冗余方式是三副本_大数据入门:HDFS数据副本存放策略

    大数据处理当中,数据储存始终是一个重要的环节,从现阶段的市场现状来说,以Hadoop为首的大数据技术框架,仍然占据主流地位,而Hadoop的HDFS,在数据存储方面,仍然得到重用.今天的大数据入门分享 ...

  6. 智能时代-大数据与智能革命重新定义未来(吴军)-核心书摘

    智能时代-大数据与智能革命重新定义未来(吴军)-核心书摘 本文主要摘录于全书正文,部分解释是博主根据自己生活体验增加的理解,欢迎大家共同讨论更正~ 机器学习爱好者交流QQ群:1023 119 142 ...

  7. 智能时代——大数据与智能革命重新定义未来

    "这是最好的时代,也是最坏的时代"英国狄更斯在<双城记>的这句话不仅仅适用于第二次工业革命,也适用于现在,适用于每一个发生重大改变的时代.智能时代的来临不再仅仅局限于于 ...

  8. 数据让生活更幸福!三分钟带你了解智慧城市,交通大数据应用!

    随着城市交通人脑的出现,大数据在交通管理和交通运输领域得到了广泛的应用.大数据已逐渐成为城市交通管理的基础资源,在交通管理中日益显示出其关键作用和地位.许多公司对交通数据的理解存在偏见.他们认为大数据 ...

  9. 争当 2% 的人——《智能时代 · 大数据与智能革命重新定义未来》读书笔记

    假期难得有了闲暇时间,把前几年双十一囤的书挑选看完了四本. 首先选择看的是计算机科学家吴军老师的书<智能时代>(豆瓣评分 8.4分,豆瓣热门互联网图书 TOP 10),这是 2016 年谷 ...

最新文章

  1. stm32双向可控硅调压程序_单向可控硅和双向可控硅的测量与模块测试
  2. 【前沿干货】2020人脸识别最新进展
  3. 深度学习与计算机视觉系列(2)_图像分类与KNN
  4. 使用TPU的注意事项
  5. Windows 2000缓冲区溢出技术原理
  6. 剑指offer 56 - 1.数组中数字出现的次数
  7. 动手学深度学习(PyTorch实现)(十二)--批量归一化(BatchNormalization)
  8. 在Ubuntu Linux上安装和使用Git和GitHub:初学者指南
  9. 如何用分库分表的9种分布式主键ID生成方案?附小技巧
  10. 网络管理与维护作业9
  11. mysql 分组之后统计记录条数
  12. matlab 脚本文件 函数,Matlab 脚本文件script和函数文件function的区别
  13. DIV+CSS布局 - 弹性盒子布局
  14. 2020考研数学一大纲之完全解析(一)
  15. 公司-瑞幸咖啡:瑞幸咖啡
  16. 冰柱图分析:学习笔记
  17. RTX3070Ti和RTX2080Ti哪个强 RTX3070Ti和RTX2080Ti参数对比哪个好
  18. 板岩Slate Digital发布FG-X 2 ML-1 FG-36A
  19. 安装caffe遇到/usr/bin/ld: /usr/local/lib/libgflags.a(gflags.cc.o):relocation R_X86_64_32S against
  20. Win11投屏时禁止通知的方法

热门文章

  1. Angular路由开发的一个实际例子
  2. http get extension information - another way to get host url and port number of current application
  3. CL_BSP_WD_VIEW_MANAGER-MANIPULATE_RESPONSE
  4. Business Partner Relationship Category in CRM and C4C
  5. SAP UI5 log level
  6. How is ABAP keyword highlight implemented in Chrome
  7. what is the location of js when using run as server in Eclipse
  8. SET UPDATE TASK LOCAL and commit session issue
  9. 使用apache的HttpClient进行http通讯,隐藏的HTTP请求头部字段是如何自动被添加的
  10. SAP应用搜索分页的实现原理