InfiniBand(直译为“无限带宽”技术,缩写为IB)是一个用于高性能计算的计算机网络通信标准,是世界领先的超级计算机的互连首选。基于NVIDIA InfiniBand的端到端网络可实现极低的延迟,以及高数据吞吐量和传输速率。

InfiniBand网络主要用于高性能计算(HPC)场景,通过高速的InfiniBand技术,将业务负载由单机运行转化为基于多机协作的高性能计算集群。采用了InfiniBand网络技术,使得高性能集群的性能得以进一步地释放和优化。

作为未来算力的基本单元,高性能的数据中心也越来越多地采用InfiniBand网络方案,尤其是在超算中心中应用最为广泛。

本文中出现的与NVIDIA产品相关的图片或视频(完整或部分)的版权均归NVIDIA Corporation所有。

NVIDIA Quantum-2 InfiniBand平台:400Gb/s NDR InfiniBand网络互连

NVIDIA所提供的InfiniBand系列产品主要包括网卡、DPU、交换机以及LinkX线缆和光模块,速率从100Gb/s EDR到200Gb/s HDR再到最新的400Gb/s NDR。NVIDIA最新发布的Quantum-2 InfiniBand平台继续创造高性能网络的更高纪录,包括NVIDIA Quantum-2交换机、ConnectX-7网卡、BlueField-3 DPU、LinkX线缆和光模块,一同构成了面向新一代高性能计算、人工智能、机器学习、大数据、云计算、Web 3.0和存储平台的完整400Gb/s NDR InfiniBand网络互连基础设施。

NDR InfiniBand凭借其最高的数据吞吐量、极低的延迟和智能的网络计算加速引擎,可为要求最苛刻的计算和数据应用提供世界领先的性能和可扩展性。

NVIDIA Quantum-2 InfiniBand平台不但能够实现GPU Direct RDMA对AI业务至关重要的技术。其中BlueField-3 DPU增加了DPA 引擎(Data-Path Accelerator)来对特定流量进行编程和加速。ConnectX-7 VPI系列IB网卡对各种通信模型基于网络的计算进行了专门优化,提高了All reduce 和 All-to-All等通信时的通信效率。凭借单端口每秒400Gbps的高吞吐量,NVIDIA Quantum-2 InfiniBand将端口速率提高一倍,网络物理端口数量增加1.5倍。Quantum-2平台的系统容量提升至上代产品的5倍,支持的数据中心的规模提升了6.5倍,而数据中心网络的能耗则降低了36%。

NVIDIA Quantum-2的盒式交换机,芯片采用7nm工艺,包含570亿个晶体管,配有64个400Gbps端口,通过Split线缆以提供多达128个200Gbps端口。交换机的双向总吞吐量为51.2Tb/s,具有超过每秒665亿数据包的标志性包转发能力。同时,Quantum-2平台提供不同端口数的模块化交换机系统,可以支持多达2048个,系统容量超出上一代5倍。基于NVIDIA Quantum-2交换机ASIC的盒式交换机和模块化交换机系统提供了全面的InfiniBand交换互连接解决方案,支持各种InfiniBand网络拓扑,包括Fat Tree、DragonFly+、多维 Torus等。

NVIDIA Quantum-2平台在主机端提供两个网络选项,ConnectX-7网卡和BlueField-3 DPU。ConnectX-7基于7nm工艺,包含80亿个晶体管,其数据传输速率是上一代的两倍,通过RDMA、GPU Direct Storage、GPU Direct RDMA和网络计算加速应用,充分发挥网络的能力。BlueField-3采用7nm工艺,包含220亿个晶体管,提供16个64位ARM CPU,基于数据IO的业务部署,提供加速、卸载和隔离的能力,优化了数据中心基础设施的架构。

为了打造完整的端到端400Gb/s InfiniBand 基础架构,NVIDIA Quantum-2还提供了LinkX解决方案,为用户提供一系列不同类型的400Gb/s DAC线缆(高速铜缆)、AOC线缆(有源光缆)以及光模块产品,以构建复杂的基础设施,可以为选择的拓扑结构提供最大的灵活性,针对不同的连接场景,提供全套的线缆模块方案。

NVIDIA LinkX拥有完善的产品体系,可提供不同的方案组合(光模块、DAC/AOC直连以及分支高速线缆),速率包括EDR(100G)、HDR(200G)和NDR(400G),外形尺寸涵盖QSFP28、QSFP56以及OSFP。

LinkX产品在NVIDIA“端到端”网络系统中发挥了最佳的效果和独特的功能,除了满足InfiniBand贸易协会 (IBTA) 标准外,LinkX产品在出厂之前完成了100% 真实业务测试,确保线缆模块的品质,从底层支持InfiniBand网络实现高性能。NVIDIA LinkX产品的低误码率、低延时、低功耗和高可靠性等特点可以与NVIDIA交换机和网卡产品完美适配,在具有严格要求的超级计算机和超大规模系统中提供了最优的传输效率。

构建InfiniBand网络出现的常见问题

目前市面上有部分客户在构建InfiniBand网络时使用了第三方的光模块、高速线缆等连接件产品,然而却在实际应用中出现了大量的问题,主要表现为:

1、网络链路不稳定:出现链路震荡现象
2、传输延时高:在推理、训练等业务负载下,大大延长训练周期
3、功耗高:产品发热异常,严重时甚至可能损坏设备
4、产品质量良莠不齐:经常出现大批量无法使用的情况

纳多德NADDOD——作为NVIDIA网络产品Elite Partner (精英级别合作伙伴),致力于为客户提供高品质高性能光网络解决方案,在为客户搭建高性能网络方案的过程中,收到不少因使用第三方InfiniBand连接件而出现售后问题的反馈,导致用户网络延迟甚至中断,额外增加了客户处理售后问题所花费的时间成本。

结合大量真实案例中出现的情况,纳多德NADDOD建议在InfiniBand网络中使用的连接件(DAC/AOC线缆、光模块),一定要选用NVIDIA LinkX原厂线缆,以最大程度地保证连接件与设备之间的适配性,以及保障网络的稳定传输与高可靠性。

NVIDIA LinkX 助力InfiniBand网络高速稳定与可靠传输相关推荐

  1. 网络协议:TCP可靠传输

    我们都知道TCP协议是一个传输可靠的协议,那么它是怎么实现传输可靠的呢? 它是由改进的停止等待协议和滑动窗口来保证传输可靠的. 一 停止等待协议 #1 发送端发送一个消息到接收端,就必须等待接收端确认 ...

  2. 云下IDC和云上VPC如何高速稳定互联?——云专线接入方案

    企业上云以后,云上云下如何高速稳定互通?那当然是云专线了.华为云提供云专线接入方案,将云下IDC和云上VPC之间高速互联.本文详细介绍一下专线接入方案,剖析静态接入方式和BGP接入方式的原理,解读单专 ...

  3. InfiniBand网络

    InfiniBand网络 优点:吞吐量高,速度快.延时低缺点:价格昂贵,软件支持比较少适用场景:在高速网络环境中适用

  4. 5G工业路由器高速稳定传输

    5g全网通工业路由器,原工业路由器基础上采用5g网络,大数据高速度无线传输,高达20Gbps速率,端到端延时低于5毫秒.计讯物联5g全网通工业路由器,移动.电信.联通网络全覆盖,组网更灵活.   5G ...

  5. 检测网络是否稳定的计算机命令,如何查看自己的网络是否稳定

    每当我们的网络慢的时候,我们总想知道自己的网速是否稳定,那么怎么查看自己的网络稳定不稳定呢?下面小编就给大家讲解一下操作步骤! 查看自己的网络是否稳定的方法 首先我们点击电脑左下角的开始图标,然后在弹 ...

  6. oppo锁频段_OPPO手机这样设置,让你的网络更加稳定!

    原标题:OPPO手机这样设置,让你的网络更加稳定! 经常你会听到各路朋友疯狂吐槽: 1.我这个手机无线网真的不稳定,看个短视频都不行,刷朋友圈卡死啦都! 2.不知道为什么,在家里wifi还很稳定,出门 ...

  7. InfiniBand 网络

    当前光纤通道和以太网已经能够支持 10Gbps和更高的速率.因此,在计算机中的主机 I/O总线必须能够以同样的速率发送数据.然而,与所有的并行总线一样,PCI总线限制了网络速度的进一步提高.  事实上 ...

  8. InfiniBand网络简介

    IP网络协议如TCP/IP,具有转发丢失数据包的特性,网络不良时要不断地确认与重发,基于这些协议的通信也会因此变慢,极大地影响了性能.与之相比,IB使用基于信任的.流控制的机制来确保连接的完整性,数据 ...

  9. NTP时钟服务器(NTP时间服务器)助力校园网络建设

    NTP时钟服务器(NTP时间服务器)助力校园网络建设 NTP时钟服务器(NTP时间服务器)助力校园网络建设 [摘要]时钟系统是一个大型标准计时系统,随着网络的普及,许多校园都建了自己的校园专网,使用的 ...

最新文章

  1. 如何配置LCD背光和LED,调试方法
  2. 专接本汇编开发工具【Masm for Winodws 集成实验环境】安装细则
  3. 导入第三方组件_大型 web 应用公共组件架构是如何来的?
  4. 十三、PyQt5的QFileDialog文件打开、文件保存、文件夹选择对话框
  5. 《剑指offer》第三十五题(复杂链表的复制)
  6. Power BI Embedded 开发国内版-21V-版本实测
  7. SSM实现的在线挂号预约管理系统源码
  8. matlab实现图像的左右翻转
  9. 滤波电路对服务器的影响,滤波电路到底有什么作用?
  10. Ionic3.x/Ionic4.x项目实战视频教程
  11. [ManjaroLinux]-虚拟机安装
  12. 详细安装Adobe Dreamweaver教程和制作第一个网页
  13. GIT乱码解决方案汇总
  14. 日志-坑-keng-rz-rizhi-log
  15. linux 卸载yum源,CentOS下rpm包与yum安装与卸载更新系统源
  16. 计算机专业考计量经济学,计量经济学期末考试题库(完整版)及答案()(47页)-原创力文档...
  17. 服务器系统和操作系统的区别
  18. NetLogo基础代码
  19. AutoDesk CAD激活后闪退解决方法
  20. leetcode和牛客网刷题

热门文章

  1. 「常見程式題目」第三版
  2. 面向开放词汇的目标检测ECCV2022
  3. QPST download crash内存
  4. 第一章:计算机硬件知识
  5. 牛掰!SSH端口嗅探方法及其防御技术
  6. Spring基础篇:高级注解编程
  7. 校招 | 网易21届互联网校招补录来啦!
  8. java 图片缩略图_java 缩略图实现
  9. JNI:本地代码调用Java代码
  10. c语言压力变送器程序设计,智能温度变送器信号处理软件算法与软件设计