挑战:

• 实时洞察服务器内存健康状况
• 发现潜在的灾难性服务器内存故障
• 对部分可修复的内存故障进行自愈处理

解决方案:

• 英特尔内存故障管理技术
• 英特尔®至强®可扩展处理器的RAS特性
• DDR5 On-die ECC,ECS,带外管理能力,PPR技术
• 整机生产时的内存smart压力测试

要点综述:

新华三作为中国本土具备服务器自研能力的设备供应商,长期致力于为客户提供各种贴近客户需求的服务器。其中高可靠性是服务器在大多数应用场景下的必选项。新华三公司拥有深厚的技术积累、完备的工程师团队、全面的可靠性测试设施、完善的流程体系,这些条件是进行服务器可靠性设计的前提保障。

英特尔作为半导体行业和计算创新领域的全球领先厂商,致力于不断推进半导体设计与制造,其提供的英特尔至强系列可扩展处理器,推动着x86服务器市场的发展。英特尔与新华三保持着长期紧密的合作,双方携手充分地利用数字技术的力量,助力客户业务创新及发展。

内存是服务器设备的核心部件,DDR5作为内存模块的最新标准,具有低电压,容量大,密度高等特性。内存工艺的特性决定:在内存条整体面积不变的情况下,容量越来越大,存储单元之间的间距越来越小,相邻存储单元之间的干扰风险也越来越大;在内存速率提高、电压降低的情况下,对于采样的精度也要求越来越高的背景下。对内存单元采用必要的可靠性设计势在必行。

服务器上集成内存的数量越多,因内存故障导致整体宕机的风险也越高。大多数服务器设计采用12/24/32条内存槽位结构,平均每台服务器设备板载11条内存。同时,根据现网宕机根因分析情况,内存故障是导致服务器宕机的最根本原因。

新华三服务器在研发、生产过程中,在内存可靠性方面与英特尔、内存供应商有着长期紧密的合作,为客户提供高效、安全的解决方案。

关键技术点:

英特尔内存故障管理技术

英特尔®内存故障预测技术根据内存故障在空间和时间上的分布情况,进行内存故障预测及分析,可提前对潜在故障点进行预防性处理,进而提升内存可靠性,保证系统的稳定性,也可支持在灾难性内存故障发生前触发预防措施(例如工作负载迁移等)。英特尔与国内多家大型互联网机构均有合作,在其数据中心的部署过程中采用英特尔®内存故障管理技术,根据数据表明,英特尔®内存故障管理技术可以有效降低40%以上由内存硬件故障导致的宕机。

1) 持续优化的分析预测模型

服务器对DIMM、Rank、Bank、列、行、DQ等单元的实时数据进行采样,并输入到内存故障分析模型中,以此生成内存健康状况评估,并将其应用于预测潜在故障。

2) 提供实时内存健康状况可视化功能

提供完善的内存潜在故障输出机制以及内存故障修复记录清单,以便辅助用户进行内存潜在故障诊断。

3) 支持内存可靠性感知工作负载迁移

内存故障分析结果可通过SEL、Redfish Event、控制台页面、SNMP等多种通道输出,更上层的运维管理系统可以根据策略需要决定是否进行工作负载迁移。

4) 优化操作系统页面离线功能

内存故障分析结果同时可与操作系统联动,进行内存潜在故障页面的隔离操作。当特定内存区域的错误突然爆发时,该内存区域很可能会发生不可纠正错误,进而引发系统宕机。通过提前分析确定内存故障点,并可根据配置来触发操作系统对缺陷页进行隔离操作,完成数据迁移,防止内存潜在故障页被再次使用,进而减少内存不可纠正错误发生的风险。

5) 减少不必要的DIMM更换

通过分析内存错误和预测潜在的内存故障,在日志与控制台页面准确标识潜在故障内存的位置信息并自动隔离该区域,减少DIMM的更换数量和频率,让运维更加简捷、高效。

全面集成英特尔内存相关的RAS特性

英特尔RAS特性,可根据应用场景的需求,配置使能ADDDC、Memory Mirror、Patrol Scrub、PPR等技术。通过使用空间来换取,来进一步提高内存的可靠性和可用性。
1) ADDDC(Adaptive Double Device Data Correction,自适应的双设备数据纠错技术),能够降低服务器停机时间,降低服务器宕机率;其核心是基于动态的虚拟锁步技术,当内存出现故障时,动态的最小化的组建虚拟锁步区域以纠正错误,在对内存性能的影响最小化情况下,达到最高纠正两个设备数据的能力,大大提升服务器的可用性。
2) Memory Mirror(内存镜像技术),在同一个内存控制器的不同内存通道间存储两份相同的内存数据,能够防止由于内存不可纠正错误导致的系统宕机;当内存不可纠正错误出现在内存镜像区域时,处理器会自动从冗余备份区域获取正确数据,使系统能够持续的正常运行。内存镜像技术支持全镜像和部分镜像,最高支持50%的内存用作备份数据,为内存提供全方位的保护功能。
3) Patrol Scrub(内存巡检技术),周期性的利用空闲时机对所有内存进行检查,提前发现并纠正可纠正错误,防止可纠正的单比特错误升级为不可纠正的多比特错误,并对检测到的可纠正和不可纠正错误进行故障上报,Kernel可提前对故障Page进行Offline,防止故障扩散。
4) PPR(Post Package Repair,内存封装后修复技术),可以在出现故障后,使用冗余的ROW直接替换故障的ROW,完成内存的故障修复,而不影响性能。每一个内存Bank Group包含一个Spare ROW用于故障修复。
5)Rank Sparing(Rank热备技术),使用同一内存通道中的未使用的备用Rank替换掉故障Rank,故障Rank基于内存可纠正错误阈值和错误漏水技术进行预测判定;使用内存热备技术可防止潜在的单比特错误升级导致的内存不可纠正错误出现,保障系统持久稳定运行。

全面集成DDR5自身的监控能力

DDR5集成可靠性保障措施,客户可根据业务场景选择是否在新华三服务器上启用该功能。例如默认开启On-die ECC功能,以便在现场及时纠正内存的ECC错误(大多来自宇宙射线、外部高速粒子的影响)。带外持续基于I3C总线对内存上PMIC、TS等单元进行实时监控,实时掌控内存的工作环境;对ECS进行采样分析,确认ECS结果是否有突变,以此预测内存是否存在故障。

严格的测试与安全保障措施

高品质的服务器,离不开严格的测试过程。新华三服务器从设计、研发到制造都经过严格的把控。硬件测试充分验证服务器可在震动、高低温等多环境下保障正常工作;部件层面,反复论证内存相关参数的使用方式,确保出厂参数的合理性,并在BIOS/BMC中集成大量的监控点,对内存故障进行持续监控、异常事件采样。集成多处配置点,可以满足不同应用场景的使用需求。对于开启阶段发现的内存错误进行有效拦截处理,可发现内存相关的大多数故障事件,并可根据预定目标进行针对性的预防性处理。
高品质的服务器,也离不开严格的工厂制造流程。新华三服务器制造过程中,对内存采用严格的参数条件进行检测,经历长时间压力测试,一旦发现内存相关告警就进行拦截处理,通过严格的生产控制环境来保障内存的良品率,且有充足的参数裕量。

持续降低的宕机率

新华三拥有专业的服务器宕机故障事件分析与完善团队,多年来持续对在网服务器设备的内存相关故障进行持续监控,分析每起故障原因,持续推动研发、生产的各个环节进行针对性完善修改,因内存故障导致的宕机量降低50%。

结论:

新华三服务器采用英特尔®内存故障管理技术、英特尔RAS、DDR5 RAS、MRT等技术,并在设计研发、生产制造等环节中集成与优化,可大幅度提高内存的可靠性。通过集成英特尔MRT技术使服务器在发生故障前采取恰当的措施,服务器宕机率大幅降低。

新华三联合英特尔共同增强服务器内存的可靠性相关推荐

  1. 一台服务器的可靠性能是,如何增强服务器内存的可靠性和可用性?

    [51CTO独家译文]由于大家的注意力大多集中在服务器的处理能力.网络带宽和存储IOPS(每秒输入输出操作)上,所以很容易忽视服务器内存的可用性和可靠性.虽然处理器是任何服务器的核心部件,但是工作负载 ...

  2. 性能远超小型机?新华三推出最新HPE Superdome Flex 280服务器

    今年6月,新华三宣布推出专门针对企业数字化转型的关键业务服务器HPE Superdome Flex 280,用于承载SAP HANA或Oracle数据库等核心应用,同时兼顾大规模物联网和人工智能数据集 ...

  3. e系列是服务器CPU吗,教你识别英特尔E系列服务器CPU

    最近英特尔全面推出E系列服务器处理器,以往人们习惯的以Xeon 5500/5600系列区分档次的经验有些不灵了,这也给广大服务器DIY用户造成了一些不便.在这里,我们随着宝通技术经理简单地看一下英特尔 ...

  4. 英特尔11代 16G内存笔记本,为你免费包邮到家

    为了回馈长期以来各位老铁对本号的关注支持,更好的去看paper,提高技术水平,直接给你送一个英特尔11代 16G内存 高颜值笔记本!两种颜色可供选择,无论是自己用,还是当礼物送人,都比较不错的. 赠送 ...

  5. tpc-c 服务器性能,IBM创英特尔8处理器服务器TPC-C性能记录

    (2007年4月)日前,IBM System x3950服务器在TPC-C基准测试中创造了基于8颗英特尔处理器的服务器性能新记录.(备注1) 通过在基于英特尔处理器的服务器市场中提供领先的性能,IBM ...

  6. 英特尔®傲腾™持久内存+MemVerge软硬结合发挥极致性能

    IDC曾发出预测,预计到2025年,全球数据量将达到175ZB,当数据量加速增长,当企业对数据价值挖掘的需求越来越高,人们对于存储和计算效率也提出了更高要求,当有越来越多的数据无法被利用,越来越多的技 ...

  7. ARM和英特尔的386系列内存管理MMU硬件机制不同,ARM是基于协处理CP15(核心是C2 TTRB0,1)分页式,386是以段寄存器和CR3寄存器分段分页式内存管理

    ARM和英特尔的386系列内存管理MMU硬件机制不同,ARM是基于协处理CP15(核心是C2 TTRB0,1)分页式,386是以段寄存器和CR3寄存器分段分页式内存管理

  8. 新华三联合中科院与紫光云数打造中国科技云

    近日,中国科学院计算机网络信息中心.新华三集团.紫光云数科技有限公司在京联合签署战略合作协议,宣布共同成立"中国科技云技术发展研究院".三方将在云计算.智能网络.大数据.人工智能. ...

  9. 英特尔推出增强商用电脑安全的新技术

    据美国<华尔街日报>1月20日消息,英特尔公司宣布了一项新技术,在销售新一代微处理器芯片时以安全和计算性能为卖点. 这家总部位于硅谷的公司称,新版本的针对商用电脑的酷睿系列芯片采用一项名为 ...

最新文章

  1. java自定义字段_自定义字段的设计与实现(Java实用版)
  2. 10天学安卓-第九天
  3. MySQL为什么有时候会选错索引?
  4. Fragment之一:基本原理
  5. 高性能服务器机柜,TS系列网络服务器机柜
  6. 求连续区间和为目标值的一种解题思路
  7. visual studio可以开发app吗_做好APP定制开发的计划,可以让你的应用开发事半功倍...
  8. HTML、CSS、JavaScript网页制作从入门到精通 (刘西杰) pdf扫描版彩色版​
  9. c# mysql清理_C# 中清空sql数据库中的数据
  10. 2021/12/5 XSS跨站原理及攻击手法
  11. 路由器玩机---老毛子设置AP与主路由设置
  12. 中芯国际公布最新人事调整(5张数据表揭开公司真实情况)
  13. godaddy 服务器位置,Godaddy DNS服务器列表
  14. ActiveMQ 停止 关闭 报错 ERROR: No or outdated process id in
  15. OpenLayers教程:图形绘制之绘制几何图形
  16. 19-Python基础知识学习-----迭代器与生成器
  17. 无法找到合适的显示设备.正在关闭程序
  18. L2tp/Ipsec的搭建与使用
  19. CTF之做题总结(一)
  20. 著作权法_信息网络传播权保护条例_最高人民法院关于审理侵害信息网络传播权民事纠纷案件适用法律若干问题的规定

热门文章

  1. mysql-5.7.16安装教程_mysql installer community 5.7.16安装详细教程
  2. 官方大大的的邮寄快递到啦
  3. 塑胶模具设计中的几个小问题,学会不吃亏
  4. 分享图片+文字到微信朋友圈
  5. bsfl ecx,ecx
  6. 罗切斯特大学排名计算机排名,2020年罗切斯特大学QS世界排名
  7. 视频编辑工具:添加水印、特效、音乐、导出视频、视频转gif
  8. iOS App 转移 图文详解
  9. 史上最猛“员工”,疯狂吐槽亿万富翁老板小扎:那么有钱,还总穿着同样的衣服!
  10. 【附源码】Python计算机毕业设计软件缺陷管理系统