yxr注:

1)在研究openpower时,看到mellanox公司是铂金会员,其infiniband产品占据了超算(HPC)互联的40%份额。

继而研究infiniband技术和fiber channel,以太网,PCIE等等的关系,搜索罗列如下网页

RDMA现状以及TOE的网站

2) Infiniband不同于以太网,后者以网络为中心,操作系统处理各种网络层协议,而infiniband以应用程序为中心,绕过操作系统和CPU不用负责网络通信,直接offload了CPU的负荷!

3)没有深入研究,不知道infiniband的HCA和内存控制器如何相连,以前是Hub link,现在吧呢?猜测还是PCIE吧

没有研究infiniband和PCIE的竞争,价格优劣以及性能优劣,好像低端的超算的使用PCIE。

没有评估infiniband和omini-path,cray的技术,市场,价格的。

=================

http://www.chinastor.com/a/hpc/111S5M32016.html

在最新发布的全球超级计算机Top500榜单中,InfiniBand再次延续了其在互连方案上的绝对领先地位。2016年基于InfiniBand解决方案的终端用户数量较Omni-Path高出近四倍,是Cray Aries的五倍,充分证明InfiniBand持续增长的使用率和市场份额。

InfiniBand互联方案如今加速了65%的超算系统,并在TOP500榜单中的全部千万亿次系统中占据了近半壁江山(46%)。Mellanox持续为全球最快的超算系统提供互连,满足了其对高性能、高可扩展及高效网络的需求。此外,Mellanox以太网解决方案还连接了榜单中首个100Gb以太网系统和所有的40Gb以太网系统。

* 在2016 年TOP500 HPC项目中,65个终端用户选择了InfiniBand,用户数量比 Omni-Path 高出近4倍,与 Cray Aries 相比高出5倍

(yxr注:只有65个终端?)

===============================

http://www.ssdfans.com/?p=767

互联芯片对超算的巨大作用   我们来看看美国田纳西大学计算机学教授杰克·唐加拉对中国超算的评价:虽然”天河一号”的处理器仍主要采用美国产品,但其互联芯片已全部替换为中国研究人员自主研制的产品。他说:”互联芯片主要涉及处理器之间的信息流动,对于超级计算机的整体性能起到关键作用。’天河一号’的互联芯片由中国研制,具有世界最先进的水平。”(《中国超级计算机运算速度夺冠 互联芯片自制》,http://info.ec.hc360.com/2010/11/171024365014.shtml)中国做出全球排名第一的天河一号超级计算机,自主研发的互联芯片立了大功。

Intel代号为Knights Landing的第二代Xeon Phi处理器配备了Omni Path高速互联接口。Intel在高速互联领域很在就开始布局,早在2012年就收购了QLogic Infiniband技术和Cray的互联技术。它的最终目标是开发Infiniband和True Scale的替代技术,能够更快,更好,更便宜。所以,Intel推出Omni-Path真是煞费苦心,不是简单的一个接口,而是完整的生态链。

=======

https://www.ibm.com/developerworks/cn/aix/library/1105_luoming_infiniband/index.html

Infiniband 的基本概念

网络是常常被认为是路由器、交换机和插在服务器和存储设备上的电缆的集合。在大部分人的印象里,网络用来连接服务器到其他服务器、存储和其他网络。其实,这是一种普遍存在的对网络的片面看法,它将过多的注意力集中在处于网络底层结构的电缆和交换机上。这是典型的“以网络为中心的”观点:认为网络的构成架构应该决定应用程序的通讯模式。

Infiniband 网络则基于“以应用程序为中心”的新观点。它的提出来源于一个简单的问题:如何让应用程序访问其他应用程序以及存储尽可能的简单、高效和直接?如果以“应用程序为中心”的观点来思考 I/O 问题,就能得到一种与传统完全不同的网络架构。

Infiniband 基于一种非常简单的原则:提供一种易于使用的消息服务。这个服务可以被用来与其他应用程序、进程或者存储进行通信。应用程序不再向操作系统提交访问其他资源的申请,而是直接使用 Infiniband 消息服务。Infiniband 消息服务是一个非常高效、直接的消息服务,它摒弃了传统网络和应用程序之间消息传递的复杂结构。直接使用 Infiniband 服务意味着应用程序不再依赖操作系统来传递消息,这大大提高了通信效率。如图 1,Infiniband 消息服务可以在两个应用程序之间创建一个管道,来使应用程序之间直接进行通信,从而绕过了操作系统,大大提高了效率。

========

在http://icon.zhiding.cn/zdnet/itpapers/WP_Scalable_Storage_InfiniBand_Final.pdf中

那么,什么是InfiniBand,为什么越来越多的存储系统销售商不管是背板还是网络连接都要用到此连接?InfiniBand是一种在2000年左右出现的,基于标准的网络协
议。InfiniBand整合了NGIO和Future I/O(PCI总线替换技术的竞争技术)这两种技术。

从设计上来说,InfiniBand具有总线技术的特点,但实际上,PCI Express——最终产生的PCI替换技术,从概述上来说是InfiniBand的一个子集。
InfiniBand与其他网络的核心区别有两个方面。

首先,其采用的是一种基于信用的流量控制系统(这个和PCIE一致)。即在接收对象未保证充足的缓冲之前,不会发送数据。这样,就使得InfiniBand成为像无损光纤通道网络架构那样的光纤通道。

其次,InfiniBand支持远程直接内存访问(RDMA),具备在完全卸载CPU和操作系统的方式下,在两个远程系统的存储区域移动数据的能力。作为原始总线设计遗留下来的的理念,如要对分布式系统进行扩展,RDMA是关键。有RDMA的InfiniBand具备多种关键优势。

InfiniBand的物理信号技术一直超前于其他网络技术,使得它都具备比其他任何网络协议都大的带宽。目前以56Gb/s运行的InfiniBand,其发展路线预计达到EDR(100Gb/s)的
时间是一年半左右。InfiniBand这一名称本身即说明了其无限的带宽发展前景。InfiniBand路线图设计的目的就是要保证单个链路的带宽能够保持在大于PCIExpress(PCIe)总线数据速率的水平。这样,系统就能够以其可产生的最快速度,在网络间移动数据,并且不会因出现因网络限制而导致的备份。这样,就可让 InfiniBand具备无限带宽。

=========================

http://blog.163.com/s_u/blog/static/13308367201231253232968/

yxr注:比较老,但是能看到历史

而InfiniBand弥补了PCI总线的上述缺陷,以一种全新的方式把网络中常见的交换和路由概念引入了I/O子系统当中。在InfiniBand架构中,最主要的硬件部分就是HCA、TCA和IB Link。HCA是Host Channel Adapter的缩写,它是连接内存控制器和TCA的桥梁;TCA是Target Channel Adapter的缩写,它将I/O设备(例如网卡、SCSI控制器)的数字信号打包发送给HCA;IB Link包含了连接HCA和TCA的光纤以及光纤交换机、路由器等整套设备。在现阶段一根光纤的传输速率是2.5Git/s,支持全双工模式,并且可以把多条光纤捆绑到一起工作,目前的模式有x4、x12两种。
一言以蔽之,InfiniBand架构的核心就是把I/O子系统从服务器主机中剥离出去,通过光纤介质,采用基于交换的端到端的传输模式连接它们

下面我们看一下在InfiniBand架构中,数据是如何传输的。如图1所示,InfiniBand架构相比PCI总线的方式更前进了一步,在内存控制器与HCA之间是通过Hub Link方式相连的,目前的标准是Hub Interface2.0。Hub Link是一种串行总线,它的工作频率可以提到很高,而它最大的优势就是良好的可扩展性,主板设计师可以根据需要的总线带宽在内存控制器和HCA之间选择多条Hub Link总线。

从图1中可以看出,数据从网卡或硬盘首先通过各自的I/O控制器送给TCA,再由TCA通过InfiniBand Link经过交换机甚至路由器送到HCA,再通过Hub Link总线送到内存控制器

InfiniBand对数据在传送中的处理几乎照搬了以太网协议的全部思想。和TCP/IP协议集极其相似,InfiniBand就是示分了 6个协议层,从Transport层向下各层数据的封装都是由TCA和HCA自己完成的,不需要占用系统CPU的资源,交换机和路由器工作在 Network层。如果超越了Transport层,HCA会把任务交给系统处理,这一部分的工作需要操作系统的支持,但是对于TCA来说,它是不需要考虑这些的,只要把物理层的信号打包生成网络层可以识别的packet,它的工作就算完成了。

=========================

http://dylan602.blog.163.com/blog/static/167974276201181934727159/

InfiniBand规范定义了3个基本组件:


一个主机信道适配器(HCA) 
一个目标信道适配器(TCA) 
一个网络交换机

InfiniBand技术通过连接HCAs、TCAs、交换机和路由器而发挥作用(见 图3 )。位于页节点的InfiniBand设备是产生和使用信息包的信道适配器。

HCA 和TCA可以提供一个无需CPU干预的高可靠端-至-端连接。HCA驻留在处理器节点并提供从系统内存到InfiniBand网络的通路。它也有一个可编程的直接内存访问(DMA)引擎。该引擎具有特殊保护和地址翻译特性,从而使DMA操作可以本地进行或者通过另一个HCA或TCA远程进行。

TCA驻留在I/O单元,并提供I/O设备(如一个磁盘驱动器)或I/O网络(如以太网或光纤通道)与InfiniBand网络的连接。它实现了InfiniBand协议的物理层、链接层和传输层。

交换机放置在信道适配器之间。它们使几个甚至几千个InfiniBand页节点可以在任意位置互连进一个单一网络,该网络同时支持多个连接。交换机既不产生,也不使用信息包。它们只是根据信息包中路由器报头的目的地地址,将其传送过去。交换机对于节点而言是透明的,同时信息包完整无损地经过交换机网。

=====================、

yxr注:2008的文章,10年前的文章,似乎很看好IB

从价格的角度,今天的Infiniband是万兆以太网的几分之一。Inifiniabnd有比FibreChannel高5倍的性能,在价格上则已与Fibre Channel在同一个数量级上。
存储是内存的延伸,具有RDMA功能的Infiniband应该成为存储的主流协议。比较一下Infiniband和Fibre Channel我们可以看到Infiniband的性能是Fibre Channel的5倍,Infiniband交换机的延迟是Fibre Channel交换机的1/10。另外在构筑连接所有服务器和存储器的高速网络时使用Infiniband Fabric可以省去Fiber Channel Fabric,从而给客户带来巨大的成本节省。

 今天在使用Infiniband作为存储协议方面已经有了很大的进展。作为iSCSI RDMA的存储协议iSER已被IETF标准化。

  不同于Fibre Channel,Infiniband在存储领域中可以直接支持SAN和NAS。存储系统已不能满足于传统的Fibre Channel SAN所提供的服务器与裸存储的网络连接架构。Fibre Channel SAN加千兆以太网加NFS的架构已经严重限制了系统的性能。在这种情况下应运而生的则是由在Infiniband fabric连接起来的服务器和iSER Infiniband存储的基础架构之上的并行文件系统(诸如HP的SFS、IBM的GPFS等等)。在未来的服务器、存储器网络的典型结构将会是由Infiniband将服务器和Infiniband存储器直接连接起来,所有的IP数据网络将会通过万兆以太网到Infiniband的路由器直接进入Infiniband Fabric。

===========================================

http://weibo.com/p/1001603936363903889917?mod=zwenzhang

两种以太网 RDMA 协议: iWARP 和 RoCE

本文是讲演 How Ethernet RDMA Protocols iWARP and RoCE Support NVMe over Fabrics【1】的摘要。
如果 NVMe 存储系统与主机是分离的,显然需要某种 fabric 把它们连接,这样主机才能使用存储系统。目前,支持远程连接的 fabric 包括:
  • RDMA 协议:底层可以是以太网( RoCE 或者 iWARP )或者 Infiniband
  • Fibre Channel 协议:底层可以是 FC 网络或者以太网(FCoE)
一、为什么需要 RDMA ?

RDMA (Remote Direct Memory Access) 是一种绕过主机 (host-offload/host-bypass) 技术:一个应用(包括存储)<--发送/接收数据-->另外一个(远程)应用的内存空间。
  • Source Application <-- (发送/接收、完成)队列 --> 带 RDMA 功能的网卡 <-- 可靠的网络连接 --> 带RDMA 功能的网卡 <-- (发送/接收、完成)队列 --> Target Application
 由上图可知,应用程序可以从一台(物理的或者虚拟的)机器直接传送数据到另外一台机器,这既提高了带宽又降低了延迟、抖动和 CPU 消耗。

各种操作系统支持 RDMA :
  • Windows Server: 从 Windows HPC Server 2008 开始支持 Network Direct userspace API ;从 Windows Server 2012 开始支持 Network Direct kernel API
  • Linux: 从2004年开始,由 OpenFabrics Alliance 提供 userspace/kernel API , RHEL 和 SLES 已经自带, Ubuntu 要自己安装?
  • FreeBSD 9.0+ 支持 OpenFabrics Alliance userspace/kernel API
具体来说, RDMA 技术特性带来的好处如下图所示:
  NVMe 设备延迟很低,这就要求网络延迟也必须很低, RDMA 正好满足这一点。
二、用 RDMA 发送 NVMe 写命令
 以一个 NVMe 写操作为例。 NVMe 主机驱动把写命令及数据(从 NVMe 提交队列取出一项)封装一个与底层传输无关的命令胶囊(capsule);胶囊被放到主机 RDMA 网卡的发送队列中,由 RDMA_SEND 发送出去;目标主机的 RDMA 网卡在接收队列中收到这个胶囊,解除封装,把 NVMe 命令及数据放到目标主机的内存中;目标主机处理 NVMe 命令及数据;完成后,目标主机封装一个 NVMe 命令完成项,由 RDMA 传输到源主机。
三、两种基于以太网的 RDMA 协议
第一种:以太网->IP->UDP->RoCE (RDMA over Converged Ethernet) v2
第二种:以太网->IP->TCP(去掉 TCP/IP 流量控制和管理)->iWARP
不同协议的网卡之间并不兼容,也就说支持 RoCE 协议的网卡不能与支持 iWARP 协议的网卡交换数据。
两种协议的供应商上台系统不一样,
 对底层网络基础设施的要求也不一样:
 了解更多细节,
【1】How Ethernet RDMA Protocols iWARP and RoCE Support NVMe over Fabrics https://www.brighttalk.com/webcast/663/185909

====================

http://www.tomsitpro.com/articles/nvme-over-fabrics-qlogic-brocade,1-3064.html

2015的文章,似乎为了证明Fiber Channel仍然有市场。。。。

Fibre Channel Vs Ethernet Battle Continues As Brocade, QLogic Demo FC NVMe Over Fabrics

QLogic and Brocade are showing the first NVMe over Fabrics (NVMeF) demonstration utilizing Fibre Channel as the fabric (FC-NVMe) at the Gartner Data Center, Infrastructure and Operations Management Conference.
NVMeF is shaping up to be the leading protocol employed in future low-latency flash-based storage arrays. The NVMe consortium designed the original protocol to increase performance and scalability while simultaneously reducing latency and CPU overhead for in-chassis nonvolatile memories. It was not long before architects, enamored with the lightweight protocol, envisioned the possibilities of employing NVMe as an end-to-end fabric.

However, FC-NVMe may lead to a Fibre Channel resurgence if it can offer tangible benefits over competing RDMA over RoCE and InfiniBand implementations. There is no doubt that NVMeF is coming to the datacenter on an accelerated time frame - the only question is which interconnect will prove to be the most popular.

=========================

转载于:https://www.cnblogs.com/e-shannon/p/7122659.html

infiniband, fiber channel,RDMA相关推荐

  1. InfiniBand, RDMA, iWARP, RoCE , CNA, FCoE, TOE, RDMA, iWARP, iSCSI等概念

    核心基础概念 FCoE:以太网光纤通道 (Fibre Channel Over Ethernet) 它是一个存储网络协议,允许在以太网上发送光纤通道帧, 且IP通信和光纤通道通信使用相同的以太网端口. ...

  2. Infiniband基本知识

    InfiniBand架构是一种支持多并发链接的"转换线缆"技术,在这种技术中,每种链接都可以达到2.5 Gbps的运行速度.这种架构在一个链接的时候速度是500 MB/秒,四个链接 ...

  3. NVMe over Fabric诞生记——RDMA篇

    公元2016年6月8日,伴随着众多粉丝的期待,这部耗资1.6亿美元,改编自<魔兽争霸:人类与兽人>游戏,拥有众多英雄人物史诗般的IMAX 3D电影在中国大陆上映.<魔兽>电影展 ...

  4. 深入浅出全面解析RDMA

    RDMA(RemoteDirect Memory Access)技术全称远程直接内存访问,就是为了解决网络传输中客户端与服务器端数据处理的延迟而产生的.它将数据直接从一台计算机的内存传输到另一台计算机 ...

  5. RDMA技术--华为精华

    面对高性能计算.大数据分析和浪涌型IO高并发.低时延应用,现有TCP/IP软硬件架构和应用高CPU消耗的技术特征根本不能满足应用的需求.这要有体现在处理延时过大,数十微秒:多次内存拷贝.中断处理,上下 ...

  6. CNA, FCoE, TOE, RDMA, iWARP, iSCSI等概念及 Chelsio T5 产品介绍

    鉴于研究所的需求,最近开始研究Chelsio T5(终结者5),本篇博文对相关技术的基础概念做了罗列,并给了一些扩展学习链接.后续自己将针对RDMA技术做进一步学习和研究! 核心基础概念 FCoE:以 ...

  7. InfiniBand 网络

    当前光纤通道和以太网已经能够支持 10Gbps和更高的速率.因此,在计算机中的主机 I/O总线必须能够以同样的速率发送数据.然而,与所有的并行总线一样,PCI总线限制了网络速度的进一步提高.  事实上 ...

  8. 两种以太网 RDMA 协议: iWARP 和 RoCE

    本文是讲演 How Ethernet RDMA Protocols iWARP and RoCE Support NVMe over Fabrics[1]的摘要. 如果 NVMe 存储系统与主机是分离 ...

  9. RDMA 架构与实践(技术详解(一):RDMA概述)

    RDMA 架构与实践 | https://houmin.cc/posts/454a90d3/ RDMA,即 Remote Direct Memory Access,是一种绕过远程主机 OS kerne ...

  10. 【RDMA】16. RDMA之DDP(Direct Data Placement)

    [RDMA]RDMA 学习资料总目录_bandaoyu的笔记-CSDN博客SavirRDMA 分享1. RDMA概述https://blog.csdn.net/bandaoyu/article/det ...

最新文章

  1. puppet之service管理
  2. 复旦大学把衣服变成了显示器,能聊天能导航,水洗弯折都不怕 | Nature
  3. 各种版本的ST-LINK仿真器
  4. 兔子生崽问题编程_贵阳在哪里可以学到好的少儿编程
  5. 如何在Hybris Backoffice里给用户维护电话号码
  6. 【暴力】MSWORLD
  7. 为什么总是喜欢看我桌面呢?
  8. 前端学习(2963):跨域问题
  9. NLP领域中更有效的迁移学习方法
  10. 二台S3928P堆叠的配置文档,大家可以参考
  11. cad四级计算机考试,国家CAD等级考试介绍
  12. 超星学习通 吉林大学 程序设计基础 实验07 递归程序设计(2022级)
  13. lldp协议代码阅读_microsoft,lldp协议
  14. 计算机硬盘改回基本磁盘,将动态磁盘更改回基本磁盘
  15. 使用npm和命令行强制删除文件
  16. java中成员方法_java中的成员变量和方法
  17. internet协议dns服务器地址,DNS服务器配置使用 及全国DNS地址大全
  18. android应用获取手机存储空间方法
  19. 中国目前的人工智能在全球处于什么水平?
  20. 如何在WPS 2019中将图片背景设置为透明

热门文章

  1. Atitit 项目文档规范化与必备文档与推荐文档列表
  2. Atitit.播放系统规划新版本 and 最近版本回顾 v3  pbf.doc
  3. paip.mysql 性能测试by mysqlslap
  4. paip.session的调试in php
  5. paip.提升安全性----.net C#源码防止反编译以及源码加密
  6. 从 CTA 趋势策略的表现看量化投资面临的挑战
  7. Rust : 加密中数论基础知识、RSA加密算法及证明(待续)
  8. Rust : ref下的match
  9. 技术人 | 为什么我们的系统会如此复杂?
  10. linux 内核块设备驱动,linux之块设备驱动