近日,由京东IT资源服务部组织的未来数据中心核心技术研讨会活动,在京东成功举办。活动邀请了京东人工智能,大数据,云计算团队的多位研发总监,技术骨干人员一同参与。

在研讨会上,大家针对目前很火的RDMA,高性能网络相关话题,展开深入讨论。特别是随着深度学习,云计算的兴起,网络对应用性能的影响引起了大家的关注。

1、RDMA 技术对高性能数据中心的影响

RDMA(Remote Direct Memory Access)技术是一种直接在内存和内存之间进行资料互传的技术,在数据传输的过程中,不需要和操作系统Kernel做沟通,完全实现了Kernel Bypass。

对比RDMA传输和传统的TCP传输,TCP传输在多处需要CPU的参与。

比如从应用层生成TCP的packet,对packet添加crc,由CPU来运行TCP协议传输数据到接收端,如果是可靠连接网络,需要由CPU来进行流量的控制,在接收端需要由CPU来查询内存地址,检验crc,还原TCP packet到应用。
这会消耗大量的CPU资源,而且容易受到CPU的noise的影响,从而影响网络传输的性能。

如果使用RDMA传输,所有上述操作都可以由网卡硬件来做,CPU不必做任何操作,这就是为什么RDMA能带来低延时、高带宽和低CPU利用率的原因。

2、京东在数据中心应用RDMA技术

在数据中心中使用RDMA技术可以有几种方式。

◾直接使用RDMA接口(verbs API)。

RDMA和TCP类似,有自定义的API可直接提供给应用层。用户可以直接使用RDMA API对应用进行编程,这种模式可以最好的利用RDMA的性能。

现在流行的deep learning 的framework TensofFlow,也可以支持直接通过RDMA 来做数据传输; 面向大数据的Spark framework,也可以使用Spark over RDMA。

京东人工智能研发团队在分布式的模型训练场景中,也使用了RDMA技术,针对模型文件的高性能传输,满足了分布式训练的需求。

目前业界主流的database系统也都可以直接使用RDMA 接口,享用RDMA 带来的高性能。

包括在并行存储文件系统的应用中,RDMA 也被广泛使用。比如IBM 的GPFS 文件系统,open source 的Lustre 文件系统和GLustre 系统,它们都有直接的RDMA 的支持。

◾使用一些中间件将RDMA 封装起来,这种应用主要在一些计算和存储中常见。

在面向高性能计算的MPI 应用中,所有的MPI 都可以支持RDMA传输,诸如OpenMPI, Intel MPI, OSU MVAPICH 等。在全世界前500 台最快的超级计算机中,MPI over RDMA 被广泛使用。

在主流的存储应用中,面向block 存储的iscsi 协议有iscsi over RDMA(iser)的支持,面向object 存储的CePH 有CePH over RDMA 的支持,新的NVMe over Fabric 协议定义了在数据传输的时候必须使用RDMA。

还有在一些特别的应用中也用到了这种方式,比如在一些金融、证券和多媒体等需要低延迟的应用中,VMA 可以在不改变应用接口(socket 接口)的情况下来享受到RDMA 的低延迟。

京东IT资源服务部负责人吕科在技术研讨活动中谈到:“目前京东、微软、Facebook的数据中心都在加强RDMA的使用。希望降低数据中心成本,提升应用性能,解决TCP协议带来的扩展性等问题。”

京东IT资源服务部的硬件系统部在测试RDMA时也看到,在VM的服务中,在同样物理服务器的情况下,利用RDMA 来做数据传输,可以将几乎100%的CPU 资源都提供给计算。降低了CPU 在通讯中的占用率,用户就可以利用这些CPU 资源来做更多计算或提供其他的服务,这也相当于增加了VM的数量。

未来数据中心核心技术:RDMA在京东的应用相关推荐

  1. 京东自建数据中心核心技术解密——运营管理篇

    随着电子商务.云计算.大数据.人工智能.互联网金融等应用的快速发展,数据中心单体规模越来越大.系统越来越复杂,应对的挑战也越来越多. 一个好的数据中心需要通过科学的运维管理,充分利用技术和设备资源,将 ...

  2. 阿里巴巴建成全球超大规模数据中心内“RDMA高速网”,以支撑人工智能科学计算

    最新消息,尽管大多数云计算厂商已经在其数据中心内部部署RDMA(Remote Direct Memory Access)网络,但阿里巴巴已经抢先一步:其数据中心集群内的RDMA网络规模居于全球领先地位 ...

  3. 未来数据中心的选择:宽带多模光纤

    多模光纤自上世纪80年代进入市场以来,经历了从OM1.OM2.OM3到OM4的演进.其中,OM3是针对垂直腔面发射激光(VCSEL)光源优化的多模光纤,有效模式带宽(EMB)达到2000MHZ.Km, ...

  4. 架构师成长计划”牵手百度,聚焦未来数据中心基础架构|Science x Intel

    点击上方蓝色字,关注我们 在全球疫情爆发.经济低迷的特殊背景下,新基建成为提振中国经济的全新战略,聚焦了全球的目光.大数据中心成为新基建的七大领域之一. 随着5G网络.人工智能.工业互联网等产业的成熟 ...

  5. 未来数据中心的选择:宽带多模光纤(WBMMF)

    多模光纤自上世纪80年代进入市场以来,经历了从OM1.OM2.OM3到OM4的演进.其中,OM3是针对垂直腔面发射激光(VCSEL)光源优化的多模光纤,有效模式带宽(EMB)达到2000MHZ.Km, ...

  6. 未来数据中心最需要的5种技能

    现代数据中心正在不断发展以适应各种类型的新工作负载.随着业务的增长,在新的IT环境中,以规模和速度运行复杂工作负载的需求至关重要.这可能需要彻底改造数据中心体系结构,或者需要在现有体系结构之上构建更多 ...

  7. 每日新闻丨未来数据中心的发展趋势;第三季中国可穿戴设备市场出货量2715万台...

    ▼ 趋势洞察 联想刘淼:未来数据中心的发展趋势 在近日举办的第十四届中国IDC产业年度大典主论坛上,联想企业科技集团智能云服务总经理刘淼谈到未来数据中心的发展趋势时候表示,其一,数据中心模块化高速演进 ...

  8. 京东自建数据中心核心技术解密——基础设施篇

    京东第一个自建数据中心是位于宿迁的京东云华东数据中心,整体由4个模块和1栋综合大楼组成,总占地面积将近6万平方米,总投资30亿元. 可以提供20万台的服务器安装和运营能力,存储能力不小于32EB,计算 ...

  9. 未来数据中心的五大“走心”创新

    新技术和新趋势在改变我们对数据中心的认识和看法.下面是今年需要格外关注的五大方向. 为Facebook专门定制的服务器机架 如果说人好比是企业组织的心脏,那么数据中心可以被认为是企业组织的大脑,或者甚 ...

最新文章

  1. 判断file空_File类的基本用法
  2. mysql扩展中如何处理结果集_我们如何处理MySQL存储过程中的结果集?
  3. java自动生成数据库代码
  4. 心脏与阴影,求阴影部分
  5. A 服务器上运行B 服务器上可以正常运行的程序出现问题
  6. “音”你而来,“视”而可见 腾讯云+社区音视频技术开发实战沙龙圆满结束...
  7. sql server cross/outer apply 用法
  8. java统计文本中英文单词个数split_Java实现单词统计
  9. MyBatis中Mapper接口是怎么和XML文件关联起来的
  10. UBNT rocket M5 无线设置的有关笔记
  11. Git 合并单个文件
  12. Linux的DNS域名解析服务
  13. HCIA~广域网技术
  14. 产品可靠性测试 - 学习笔记(1)
  15. Kubernetes核心组件运行机制
  16. java 如何理解new_JAVA中new的 理解
  17. C语言中的 @ 符号
  18. python如何截长图_用python实现对元素的长截图
  19. esp-http-client 发送 chunked 数据
  20. pandas 读CSV时间转换问题的终极解决

热门文章

  1. 万能钥匙ctf--4-ReeHY-main调试记录--unlink
  2. java:去除字符串中空格 、 oracle (+) 、 mysql中数值运算符和函数
  3. 数据可视化 -- Python
  4. php函数、php定义数组和数组遍历
  5. 关于如何控制一个页面的Ajax读数据只读一次的简单解决办法!
  6. 解决PowerDesigner中Name与Code同步的问题
  7. 死锁Demo、线程通信Demo
  8. 记录一次svn报错:[Previous operation has not finished; run 'cleanup' if it was interrupted] 的排错过程
  9. WebService之初体验
  10. React-JSX详细语法及渲染使用