2009年国内高性能计算排行榜Top100上,来自南京大学的高性能计算系统以34万亿次的Linpack成绩排名第七(国际Top500排名203)。中秋节前夕,记者来到南京大学高性能计算中心采访了负责此项目的周庆林老师,并参观了该高性能计算中心机房。

据了解,这套HPC系统采用基于至强5500的IBM HS22刀片服务器打造,于去年第二季度开始建设,今年7月份完成全部调试工作正式投入对南京大学各科学院系的高性能计算服务。

建设背景

据周庆林老师介绍,南京大学从事高性能计算方面的建设始于1980年天文系的应用需求。随着科学技术以及教育需求的提升,各个院系也相继开始购买服务器解决自己的计算需求。但是各个院系由于成本、人力等原因自己建设科研教学用高性能计算节点过于浪费,且不符合资源利用***化的需求。因此,在985工程二期的项目中,南京大学拨出了专门款项购置和更新全校所需的共享大型计算设备,力求为全校理科院系提供更强大的计算能力。

南京大学高性能计算中心也因此孕育而生。在论证中南京大学的专家组一致认为,作为一个高性能计算中心,需要为科研计算提供两类设备:一类为共享内存型SMP或CCNUMA架构小型机;另一类为x86架构机架或刀片服务器,提供通用计算。

但是到了2005年左右,x86架构高性能计算集群开始升温,大大动摇了传统共享内存模式的小型机地位。因此,南京大学打算做小规模的小型机,另一部分做x86集群——但是有两个问题:***是机房选址问题,第二是到底选择什么样的x86服务器。

周庆林老师表示,当时再机房选址时主要考虑了两个方面的问题:1、机房的承重问题,由于每个机架塞满服务器之后有数吨重,建设在高楼层需要对楼层进行加固,因此最终选择了建设在一楼。2、机房的制冷和走线问题,南京大学当时选择了物理系1层做数据中心机房,但是问题在于电力配给不够,考虑到增容需要对楼宇进行改造,因此***选择在天文系的楼宇建设机房。

机房选址的问题解决之后,究竟选择机架服务器还是刀片服务器做高性能计算中心的计算节点呢?周庆林老师表示,当时专家组也经过了一些讨论,并结合学校有些院系的使用经验,最终选择了刀片服务器。据周老师介绍,刀片服务器至今已经经过了几代的发展,日趋成熟。而机架服务器相对来说存在布线、管理较复杂的问题。

南京大学高性能计算中心从选用基于至强平台的刀片服务器至今,没有出现过任何计算节点的问题,稳定性方面不弱于原来的小型机机架(甚至更好)。散热方面,目前高端刀片机箱由于计算密度高,计算资源集中,因此只要做好冷热通道就能很好的解决散热效率,满足系统需求(第三节有机房的具体介绍,会着重介绍散热)。

中心架构揭秘

确定了选择刀片服务器之后,通过招标南京大学选择了IBM BladeCenter HS22刀片服务器作为高性能计算系统的计算节点。整个系统由10个登陆节点,4个管理节点,54TB高速并行存储、128TB SAN架构存储以及4x Infiniband全线速网络、千兆作业调度管理网络等构成。

▲南京大学高性能计算中心系统架构图

据周老师介绍,全套系统由402片HS22刀片服务器构成,每节点12GB内存,2颗英特尔至强5500系列处理器(主频2.66GHz,8MB Cache),20Gb Infiniband HCA卡。其中有10片HS22刀片服务器用作登陆节点,每节点24GB内存,4Gb光纤卡,20Gb Infiniband以及千兆网卡。另有30台刀片机箱与上述计算节点配套,拥有16口Infiniband交换模块、六口千兆交换机和两个百兆管理网口。

网络交换方面,周老师介绍说他们采用了两台288口20Gb 4x Infiniband交换机(当时还没有成熟的40Gb Infiniband交换设别),组成全线速无阻塞并行计算网络。此外还有四台4口万兆上行48口BNT的交换机用作作业调度和管理。

对于刀片服务器的散热和供电是重中之重,南大高性能计算中心采用了4台90千瓦制冷量的艾默生Libert Pex机房精密空调,120千瓦UPS拥有96节汤式100AH电池,可在断电的情况下维持数据中心1小时时间,足够工作负载暂停和系统正常关闭。此外,南京大学高性能中心还配备了三个配电柜,提供500KVA机房电力增容,一套七氟丙烷气体消防灭火系统为机房提供消防保障。

之所以选择至强平台的考虑有三点:1、至强5500通过QPI快速互联通道、内存控制器集成等技术在高性能计算中已经具有强大的性能优势;2、从性价比和高性能计算的整合率来看,至强5500拥有更好的性能,更低的功耗;3、南京大学高性能计算中心计划将至强5500平滑升级迁移到至强5600处理器,平台不变仅刷新bois就可以将系统性能提升约50%。

图解南京大学高性能计算中心

▲走进高性能计算中心的机房,首先可以看到外侧监控人员的坐席

▲通过监控软件,外面的管理员可以轻松的了解目前设备的工作情况,包括温度、供电、机房视频监控等

▲周庆林老师向我们展示了管理平台的功能之一:每天向手机发短信汇报目前机房的状况,一旦遇到问题也会立刻发短信通知到指定的手机。

▲机房内是摆放整齐的机柜,可以看到上面用玻璃从机柜正中封死了机房后部和前部,这样做的好处是隔绝了冷热通道——空调的冷风从下面(架高60cm\)送到前部,被机柜风扇吸入排出到后面直接送给空调。封死之后冷热通道彻底隔绝,大大提升了散热效率。

内部刀片服务器图解

▲打开机架,可以看到IBM HS22刀片服务器,这个机柜比较特殊,可以看到上面的那个刀片机箱只插了10个刀片——这既是我们前文提到的管理登陆节点,而下面和旁边的其他刀片则插满了14个计算刀片

▲IBM x3650服务器用作并行存储,为实时计算的数据调用提供了一个缓冲(前端是刀片,后端是SAN)

▲IBM DS3000 SAN负责后端存储

▲两台288口20Gb 4x Infiniband交换机

▲如此多的Infiniband连接线,码放的非常整齐

▲机房的消防设施

▲七氟丙烷灭火系统的储气罐——有毒,可窒息

▲96组UPS电池柜一角

【编辑推荐】

【责任编辑:景琦 TEL:(010)68476606】

南开大学计算机机房,南京大学高性能计算中心揭秘(多图)相关推荐

  1. 中南大学计算机学院的机房,-中南大学高性能计算中心.pdf

    -中南大学高性能计算中心 中南大学-曙光技术交流 中南大学-曙光技术交流 2010.11 2010.11 1 高性能计算机的管理与维护 高性能计算机的管理与维护 2 网络内容监管 网络内容监管 3 I ...

  2. 计算机机房的日常维护工作,浅谈计算机机房的日常维护及管理.doc

    浅谈计算机机房的日常维护及管理.doc 浅谈计算机机房的日常维护及管理 摘 要:学校计算机机房管理是一项系统工作,是保证学校计算机教学活动的基础工作.科学有效地管理好机房不仅可以使现有的设备发挥最大功 ...

  3. 杨元庆捐资1亿人民币,要为母校上海交大建“最好的”高性能计算中心

    鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 个人出资1亿元人民币. 并且,直接投入科研--捐建一座绿色水冷高性能计算中心. 这是上海交通大学校友.联想CEO杨元庆,在母校125周岁生日 ...

  4. 计算机机房管理系统范文,计算机机房管理系统探讨论文

    在信息化教育不断普及和发展的今天,计算机已渗透到了人类社会的各个领域.计算机课程已经成为高等院校和各类各级学校的学科重点,学生的普及课程.上机实训在教学中扮演着越来越重要的角色.如何有效的利用现有的计 ...

  5. 浙江计算机机房监控,机房监控集中管理平台

    原标题:机房监控集中管理平台 机房监控集中管理平台是对机房进行集中控制的一个平台,机房监控集中管理平台这个平台上呢集成了安防监控.市电监控.蓄电池监控.消防监控.网络监控.it资产监控等一系列换件及安 ...

  6. 计算机考试屏蔽范围,哪些屏蔽设备可用于计算机机房的电磁屏蔽?

    原标题:哪些屏蔽设备可用于计算机机房的电磁屏蔽? 电磁屏蔽工程具体有哪些? 对于计算机机房的电磁屏蔽来说,主要效果是将机房内的电磁波限定在一个特定的空间范围或防止外部电磁波进入特定的空间范围,能达到这 ...

  7. 南开大学计算机学院宿舍,数说CS | 南开大学计算机学院推免生源大起底!

    摘要:南开大学计算机学院是一种什么样的存在? 学院实力如何? 推免生源究竟有多强? 今天,岛主就来带大家一起,从 学院介绍.培养特色.推免生源分析 等角度揭秘南开大学近三年推免情况! 南开大学计算机学 ...

  8. 计算机机房管理系统的设计与实现,高校机房管理系统的设计与实现

    高校机房管理系统的设计与实现 随着高校机房计算机数量的不断增长,现有的人工管理方式为机房管理带来诸多不便.为更加科 (本文共4页) 阅读全文>> 在我国高等教育改革之后,高校不断扩招,同时 ...

  9. 计算机机房规范管理,计算机中心机房建设及管理规范.doc

    计算机中心机房建设及管理规范 人民银行**地市中心支行 计算机中心机房建设及管理规范 中国人民银行****中心支行制 目 录 1.总则1 1.1.目的1 1.2.依据1 1.3.适用范围1 1.4.术 ...

最新文章

  1. 【2017-07-03】JS连续删除table中的选中的多行数据
  2. OpenTSDB 开发指南之 查询数据
  3. php和ajax的同步和异步请求,ajax 同步请求和异步请求的差异分析_javascript技巧
  4. nginx 负载均衡tomcat
  5. uart ttl通讯测试可以短接吗_精讲!UART、RS232、RS422、RS485,绝了
  6. c++头文件包含问题
  7. oracle undo seg,正确切换undo
  8. 黑马程序员--java基础知识注意点收录
  9. Pandas——merge(合并)
  10. camunda 流程执行追踪_流程引擎为什么选 Camunda
  11. asp.net 安装element ui_vue入门003~vue项目引入element并创建一个登录页面
  12. python opencv 中文路径_解决python cv2.imread 读取中文路径的图片返回为None的问题
  13. MySQL-JDBC
  14. 富文本Ueditor
  15. JS跨域请求解决方案
  16. JAVA--获取当前日期两个月之前的日期
  17. 秋季吃哪些食物可以改善心情?
  18. #华为云#听从你心,无问西东
  19. 在Ubuntu中安装并配置Pycharm教程
  20. matlab--生成相机校正黑白格网

热门文章

  1. Visual C# 3.0 新特性概览
  2. SICP学习笔记(P27-P28)
  3. 动态矩阵控制 MATLAB代码
  4. 浅谈ssh(struts,spring,hibernate三大框架)整合的意义及其精髓
  5. 图解C/C++中函数参数的值传递、指针传递与引用传递
  6. 读javascript高级程序设计06-面向对象之继承
  7. hdu4506小明系列故事——师兄帮帮忙 (用二进制,大数高速取余)
  8. 代码片段--批量生产库以及可执行文件的依赖关系
  9. typedef BOOL(WINAPI *MYFUNC) (HWND,COLORREF,BYTE,DWORD);语句的理解
  10. IT行业热点商业模式随笔第七章——商业模式创新规律