InfiniBand 技术正在不断创造更高的数据吞吐量记录,目前 200Gbps 网络已经普及,400Gbps 紧随其后。同时,通过 multi-path 技术将多网卡带宽性能聚合。原生支持 RDMA 技术,在保证高带宽输出的基础上,大大降低数据访问延迟,为高性能计算、人工智能、云计算、存储等众多数据密集型应用提供了强大的网络性能支撑。

焱融科技基于高性能分布式并发文件存储系统 YRCloudFile,并结合 NVIDIA Quantum InfiniBand 高速网络平台、NVMe SSD,推出追光 F8000X 全闪分布式文件存储产品,在充分释放性能的同时,实现系统随着业务需求动态增加节点数量,使得存储容量和存储性能都以线性方式增长,并有效平衡数据存储成本和空间扩展能力。

传统存储架构面临性能和低效传输带来的挑战

随着 AI、数据分析和 HPC 等新兴数据密集场景的深入融合,越来越多的企业不仅需要超高性能底层算力 ,更需要保证高带宽、高 IOPS、低延迟和稳定数据访问性能的存储系统,但是传统存储方案普遍存在以下几个问题:

  1. 由于存储介质、网络传输和文件系统本身的限制,存储系统很难同时兼顾高性能、高 IOPS 和低延迟的性能要求;

  2. 存储软件层面只能对于不同的数据存取模式采取相应设计和优化,很难全面兼顾产品性能表现。

因此,当前大规模计算平台对高性能数据存储产生迫切需求,并面临现有传统存储技术低效传输所带来的挑战。

焱融全闪 X NVIDIA InfiniBand:打造 AI 时代 GPU 计算的高性能存储技术

针对传统存储方案面临问题,焱融追光 F8000X 通过 NVIDIA Quantum InfiniBand 在 GPU 计算服务器和存储设备之间构建的高带宽和低延迟数据传输网络,以满足数据密集型应用系统的网络性能要求。对于存储网络,采用双 HDR 200Gbps InfiniBand 网卡,通过 multi-path 实现网卡聚合,理论可提供高达 400Gbps 的带宽性能,并支持 RDMA 技术,保证高带宽输出的同时,大幅度降低了数据访问延迟。

NVIDIA Quantum InfiniBand 作为业内领先、性能卓越的网络平台,为 AI、数据分析和高性能计算(HPC)应用提供高性能、高可靠,以及超低时延的网络连接能力。

目前,焱融追光 F8000X 所采用的分布式架构,可实现系统随着业务需求动态增加节点数量,使得存储容量和存储性能都以线性方式增长。为了能够获得卓越的性能表现,满足 AI 时代 GPU 计算对于存储系统的需求,焱融追光 F8000X 还进行了全方位的系统优化设计:

在分布式并行文件系统层面:首先,针对海量小文件场景,焱融科技提出用横向水平扩展的方式,把单点的 MDS 集群化,采用静态子树+目录 Hash 两者结合的方式,实现了元数据的分布存储,从而通过扩展元数据节点即可支持百亿级别的文件数量,极大提升了元数据的检索性能。

其次,焱融科技优先保证大文件 IO 的吞吐性能,将控制流和数据流(即元数据和存储数据 )分离,有效减少对 MDS 更新频率的同时,大幅提高 IO 性能。同时,为了保证小文件 IO 访问性能,焱融科技采用小文件内联、元数据缓存、文件信息 KV 化等技术手段,满足了企业对小文件有苛刻性能要求的场景需求。

最后关于目录热点的问题,焱融科技通过增加虚拟子目录的方式把热点分摊到集群中所有的元数据节点,不仅解决了元数据热点问题,同时也解决了单目录下文件数量问题。通过增加虚拟子目录使单目录可以支撑 20 亿左右的文件数量,并且可以根据虚拟子目录的数量灵活调整。

在数据传输层面:焱融科技在高性能分布式存储里实现了 RDMA 传输的功能,可以在几乎不消耗 CPU 资源的前提下达到极高的存储带宽、IOPS 和扩展性,支持通过 InfiniBand RDMA,以太网 RoCE 或  TCP 来实现客户端到存储服务端的数据交互,以及存储集群服务器之间的数据传输。

在物理存储层面:焱融追光 F8000X 采用 NVMe SSD 构建物理存储空间,并基于 NVMe 存储架构做出了深度优化,充分释放了 SSD 性能。不仅降低了延迟,提高了 IOPS 和吞吐量,还提升了服务器处理并发请求的能力。

追光 F8000X 高性能存储解决方案架构

在追光 F8000X 高性能存储解决方案架构基础上,焱融科技服务了某家高科技企业,针对客户面临的海量小文件处理性能和存储并行访问等问题,提出了性能与成本兼顾的解决方案——通过追光 F8000X 所具备的海量小文件、高并发访问等特点,以及智能分层功能将冷数据自动下沉到本地对象存储,有效解决平衡数据存储成本和空间扩展的问题。

AI 训练平台存储解决方案架构图

在落地实施追光 F8000X 后,用户有效解决了在数十亿文件场景下,元数据操作性能和小文件访问性能衰减的问题,极大地提升了 AI 业务的计算分析能力,并有效降低了整体 TCO。

高负载、低延迟,追光 F8000X 让性能无懈可击

在实际测试中,焱融追光 F8000X 每节点配置为 AMD EPYC 64 核心处理器,256GB 内存,2 块 200Gbps HDR InfiniBand 网卡,测试数值如下:

 带宽性能

IOPS 性能 

结合 NVIDIA Quantum InfiniBand 强大的网络传输性能,追光 F8000X 优异的性能测试,实现单个存储节点达到 40GB/s 带宽、200 万以上 IOPS。同时, 由于存储采用的是分布式架构,性能可以实现线性提升,在 6 存储节点时,性能可达 1000万 IOPS,210GB/s 带宽, 并在高负载情况下,依然可保持 130μs 以内的延迟。

焱融全闪 X NVIDIA InfiniBand:打造 AI 时代 GPU 计算的高性能存储技术相关推荐

  1. 焱融全闪存储轻松构建百亿私募量化投研平台

    量化业务背景 量化金融指依托金融大数据.金融科技和智能金融的技术进展,通过数量化方式及计算机程序发出交易指令,以获取稳定收益为目的的金融投资方式,在海外的发展已有几十年的历史,其投资业绩稳定,市场规模 ...

  2. 焱融全闪系列科普|固态存储核心技术 SSD

    在近期的文章分享中 我们看到 全闪存储是未来存储的主流趋势 焱融追光 F8000X 全闪文件存储 作为国内全闪分布式文件存储性能旗舰产品 在高性能文件存储赛道上 一直跑在最前面 为帮助大家更清晰的理解 ...

  3. 焱融科技为国家重点实验室打造海量高性能存储

    中国科学院大气物理研究所大气科学和地球流体力学数值模拟国家重点实验室(英文缩写 LASG)是国家级重点实验室.LASG 主要研究方向为地球气候系统模式的研发与应用:天气气候动力学理论.气候系统变化规律 ...

  4. 商汤“变法”:推中小学AI教材,mini自驾车,要打造AI时代的「清明上河图」...

    作者 | 阿司匹林 出品 | AI科技大本营(ID:rgznai100) 2019 年的进度条已经近半,这次商汤带来了一场令人"眼花缭乱"的发布会,一口气推出了覆盖五大行业的 11 ...

  5. 【每日新闻】浪潮发布云计算战略 3.0,打造平台生态型企业 | 复旦开创新存储技术:10纳秒写入速度,可定制有效期

    每一个企业级的人  都置顶了 中国软件网 中国软件网  为你带来最新鲜的行业干货 小编点评 我们希望邀请更多的生态伙伴 共同探讨 共同行动 2018年4月25日 北京站,不见不散! 趋势洞察 生态视角 ...

  6. 焱融为国家电网打造存算一体的融合基础架构 助推能源行业新基建

    "人类发展史就是一部利用能源的历史",从钻木取火到核电站,乃至最近的新闻爆点"可控核聚变",人类掌握能源的能力就是人类文明发展的象征.在经济发展中,电力作为所有 ...

  7. 焱融 YRCloudFile 连获两项重量级认证,展现强劲存储实力

    近年来,加快发展信息技术应用创新,已经成为强化国家战略科技力量.作为文件式存储领头羊,焱融科技长期积极与产业上下游生态伙伴协同合作,旨在引领合作伙伴共创和谐生态,携手推动信息产业化发展.近期,焱融 Y ...

  8. 海量非结构化数据副本难保护,焱融科技携手英方推出联合解决方案

    近日,北京焱融科技有限公司(简称"焱融科技")携手上海英方软件股份有限公司 (简称"英方软件")共同实现海量非结构化数据副本保护方案.这是双方针对海量非结构化数 ...

  9. 云原生与AI时代的存储该是什么样?新华三发布全NVMe智能闪存与智慧中枢数据平台

    编辑 | 宋慧 出品 | CSDN云计算 7月8日,紫光股份旗下新华三集团以"智以致用·速达未来"为主题,召开"2021新华三存储新品发布会",重磅推出云智原生 ...

最新文章

  1. poj2002 poj3432 正方形个数 (hash,二分)
  2. 2014家电盘点:求变与创新
  3. 洛谷 P1019 单词接龙 (DFS)
  4. 2684亿!阿里CTO张建锋:不是任何一朵云都撑得住双11
  5. settime java import_void setTime(long time)
  6. 一起谈.NET技术,Visual Studio与C#编程十个实用技巧
  7. opencv Hog Demo
  8. 这轮AI才刚刚启动,就开始有人谈AI泡沫了?
  9. 简要描述安装配置apache的一个开源Hadoop集群
  10. shift用计算机,shift是什么意思_shift键有什么用? - 学无忧
  11. JAVA(图形界面)
  12. linux ffmpeg Unknown encoder 'h264'
  13. 学习与尝试 --> 事件风暴
  14. Leetcode 977.有序数组的平方
  15. java ee中ssh学后感_学习SSH,SSM框架有感
  16. CSDN是怎么实现用户签到,统计签到次数,连续签到天数等功能微服务的
  17. 快醒醒吧!你连基础的JVM运行时内存布局都忘了?Java面试题及解析
  18. 百度网盘:申诉已受理,预计72小时内完成审核与处理
  19. 2021.2.10记一次极路由3HC5861无ROOT刷机登录ssh的经历
  20. PDF文件如何进行格式转换?

热门文章

  1. ChaiStore:涨姿势!这些空气币诈骗套路,你能识破吗?
  2. php iconv detected,PHP错误:iconv() Detected an illegal character
  3. 陈天奇等人新作引爆AI界
  4. Cityengine精品白膜建筑规则,含建筑细节。
  5. 远控免杀专题文章(2)-msfvenom隐藏的参数
  6. python写超市管理系统_控制台超市系统(Python)
  7. XAudio2音频特效
  8. C语言中逗号表达式的使用
  9. matlab对称正定矩阵,对称阵与正定矩阵 · Issue #18 · cyfile/Matlab-base-toolbox · GitHub...
  10. FPGA求最大值和次大值