随着虚拟化,Redis,BDB内存数据库等应用的普及,现在越来越多的服务器配置了大容量内存,拿DELL的R620来说在配置双路CPU下,其24个内存插槽,支持的内存高达960GB。对于ECC,REG这些带有纠错功能的内存故障检测是一件很头疼的事情,出现故障,还是可以连续运行几个月甚至几年,但如果运气不好,随时都会挂掉,好在linux中提供了一个edac-utils 内存纠错诊断工具,可以用来检查服务器内存潜在的故障。

下面以CentOS为例,介绍下edac-utils 工具的使用.

在使用edac-utils 工具之前,需要先了解服务器的硬件架构,以DELL R620为例,(其它如HP DL360P G8,IBM X3650 M4 机型都使用了 E5-2600 系列CPU,C600 系列芯片组.大致相同) 其CPU内存控制器对应通道,内存槽关系,如下所示。

处理器0 (对应一个内存控制器)

通道0:内存插槽A1、A5 和A9

通道1:内存插槽A2、A6 和A10

通道2:内存插槽A3、A7 和A11

通道3:内存插槽A4、A8 和A12

处理器1 (对应一个内存控制器)

通道0:内存插槽B1、B5 和B9

通道1:内存插槽B2、B6 和B10

通道2:内存插槽B3、B7 和B11

通道3:内存插槽B4、B8 和B12

1.安装 edac-utils 工具

yum install -y libsysfs edac-utils

2.执行检测命令,可查看纠错提示如下

edac-util -v

mc0: csrow0: CPU_SrcID#0_Ha#0_Chan#0_DIMM#0: A1

mc0: csrow0: CPU_SrcID#0_Ha#0_Chan#1_DIMM#0: A2

mc0: csrow0: CPU_SrcID#0_Ha#0_Chan#2_DIMM#0: A3

mc0: csrow0: CPU_SrcID#0_Ha#0_Chan#3_DIMM#0: A4

mc0: csrow1: CPU_SrcID#0_Ha#0_Chan#0_DIMM#1: A5

mc0: csrow1: CPU_SrcID#0_Ha#0_Chan#1_DIMM#1: A6

mc0: csrow1: CPU_SrcID#0_Ha#0_Chan#2_DIMM#1: A7

mc0: csrow1: CPU_SrcID#0_Ha#0_Chan#3_DIMM#1: A8

mc0: csrow2: CPU_SrcID#0_Ha#0_Chan#0_DIMM#2: A9

mc0: csrow2: CPU_SrcID#0_Ha#0_Chan#1_DIMM#2: A10

mc0: csrow2: CPU_SrcID#0_Ha#0_Chan#2_DIMM#2: A11

mc0: csrow2: CPU_SrcID#0_Ha#0_Chan#3_DIMM#2: A12

mc1: csrow0: CPU_SrcID#1_Ha#0_Chan#0_DIMM#0: B1

mc1: csrow0: CPU_SrcID#1_Ha#0_Chan#1_DIMM#0: B2

mc1: csrow0: CPU_SrcID#1_Ha#0_Chan#2_DIMM#0: B3

mc1: csrow0: CPU_SrcID#1_Ha#0_Chan#3_DIMM#0: B4

mc1: csrow1: CPU_SrcID#1_Ha#0_Chan#0_DIMM#1: B5

mc1: csrow1: CPU_SrcID#1_Ha#0_Chan#1_DIMM#1: B6

mc1: csrow1: CPU_SrcID#1_Ha#0_Chan#2_DIMM#1: B7

mc1: csrow1: CPU_SrcID#1_Ha#0_Chan#3_DIMM#1: B8

mc1: csrow2: CPU_SrcID#1_Ha#0_Chan#0_DIMM#1: B9

mc1: csrow2: CPU_SrcID#1_Ha#0_Chan#1_DIMM#1: B10

mc1: csrow2: CPU_SrcID#1_Ha#0_Chan#2_DIMM#1: B11

mc1: csrow2: CPU_SrcID#1_Ha#0_Chan#3_DIMM#1: B12

其中 mc0 表示 表示内存控制器0, CPU_Src_ID#0表示源CPU0 , Channel#0 表示通道0

DIMM#0 标示内存槽0,Corrected Errors 代表已经纠错的次数,根据前面列出的CPU通

道和内存槽对应关系即可给edac-utils 返回的信息进行编号。

即可得出 A1槽 6312 次纠错,B1槽 6459次纠错,B3槽 535次纠错. 3条内存出现潜在故障,接下来联系供应商进行更换即可。

12条内存的对应关系

mc0: csrow0: CPU#0Channel#0_DIMM#0: A1

mc0: csrow0: CPU#0Channel#1_DIMM#0: A2

mc0: csrow0: CPU#0Channel#2_DIMM#0: A3

mc0: csrow1: CPU#0Channel#0_DIMM#1: A4

mc0: csrow1: CPU#0Channel#1_DIMM#1: A5

mc0: csrow1: CPU#0Channel#2_DIMM#1: A6

mc1: csrow0: CPU#1Channel#0_DIMM#0: B1

mc1: csrow0: CPU#1Channel#1_DIMM#0: B2

mc1: csrow0: CPU#1Channel#2_DIMM#0: B3

mc1: csrow1: CPU#1Channel#0_DIMM#1: B4

mc1: csrow1: CPU#1Channel#1_DIMM#1: B5

mc1: csrow1: CPU#1Channel#2_DIMM#1: B6

20条内存的对应关系

mc0: 0 Uncorrected Errors with no DIMM info

mc0: 0 Corrected Errors with no DIMM info

mc0: csrow0: 0 Uncorrected Errors

mc0: csrow0: CPU_SrcID#0_Ha#0_Chan#0_DIMM#0: 0 Corrected Errors A1

mc0: csrow0: CPU_SrcID#0_Ha#0_Chan#1_DIMM#0: 0 Corrected Errors B1

mc0: csrow0: CPU_SrcID#0_Ha#0_Chan#2_DIMM#0: 0 Corrected Errors C1

mc0: csrow0: CPU_SrcID#0_Ha#0_Chan#3_DIMM#0: 0 Corrected Errors D1

mc0: csrow1: 0 Uncorrected Errors

mc0: csrow1: CPU_SrcID#0_Ha#0_Chan#0_DIMM#1: 0 Corrected Errors A2

mc0: csrow1: CPU_SrcID#0_Ha#0_Chan#1_DIMM#1: 0 Corrected Errors B2

mc0: csrow1: CPU_SrcID#0_Ha#0_Chan#2_DIMM#1: 0 Corrected Errors C2

mc0: csrow1: CPU_SrcID#0_Ha#0_Chan#3_DIMM#1: 0 Corrected Errors D2

mc0: csrow2: 0 Uncorrected Errors

mc0: csrow2: CPU_SrcID#0_Ha#0_Chan#0_DIMM#2: 0 Corrected Errors A3

mc0: csrow2: CPU_SrcID#0_Ha#0_Chan#1_DIMM#2: 11 Corrected Errors B3

mc0: csrow2: CPU_SrcID#0_Ha#0_Chan#2_DIMM#2: 0 Corrected Errors C3

mc0: csrow2: CPU_SrcID#0_Ha#0_Chan#3_DIMM#2: 0 Corrected Errors D3

mc1: 0 Uncorrected Errors with no DIMM info

mc1: 0 Corrected Errors with no DIMM info

mc1: csrow0: 0 Uncorrected Errors

mc1: csrow0: CPU_SrcID#1_Ha#0_Chan#0_DIMM#0: 0 Corrected Errors

mc1: csrow0: CPU_SrcID#1_Ha#0_Chan#1_DIMM#0: 0 Corrected Errors

mc1: csrow0: CPU_SrcID#1_Ha#0_Chan#2_DIMM#0: 0 Corrected Errors

mc1: csrow0: CPU_SrcID#1_Ha#0_Chan#3_DIMM#0: 0 Corrected Errors

mc1: csrow1: 0 Uncorrected Errors

mc1: csrow1: CPU_SrcID#1_Ha#0_Chan#0_DIMM#1: 0 Corrected Errors

mc1: csrow1: CPU_SrcID#1_Ha#0_Chan#1_DIMM#1: 0 Corrected Errors

mc1: csrow1: CPU_SrcID#1_Ha#0_Chan#2_DIMM#1: 0 Corrected Errors

mc1: csrow1: CPU_SrcID#1_Ha#0_Chan#3_DIMM#1: 0 Corrected Errors

4x16关系

mc0: csrow0: CPU#0Channel#0_DIMM#0: 0 Corrected Errors 8a

mc0: csrow0: CPU#0Channel#1_DIMM#0: 0 Corrected Errors 5b

mc0: csrow0: CPU#0Channel#2_DIMM#0: 0 Corrected Errors 2c

mc0: csrow1: 0 Uncorrected Errors

mc0: csrow1: CPU#0Channel#0_DIMM#1: 1 Corrected Errors 7d

mc0: csrow1: CPU#0Channel#1_DIMM#1: 0 Corrected Errors 4e

mc0: csrow1: CPU#0Channel#2_DIMM#1: 0 Corrected Errors 1f

mc0: csrow2: 0 Uncorrected Errors

mc0: csrow2: CPU#0Channel#0_DIMM#2: 0 Corrected Errors 6G

mc0: csrow2: CPU#0Channel#1_DIMM#2: 0 Corrected Errors 3h

来源:https://www.cnblogs.com/luckyall/p/11225772.html

服务器内存检测维修工具,使用edac工具来检测服务器内存故障.相关推荐

  1. 【Android 内存优化】Android Profiler 工具常用功能 ( 监测内存 | 内存快照 )

    文章目录 一. 内存泄漏排查 ( Android Profiler 工具 ) 二. Android Profiler 内存监测相关功能 三.内存快照分析 内存泄漏原理 : 长生命周期对象 , 持有短生 ...

  2. 占内存少的java开发工具_Java所占内存中神奇的64MB

    一 前言 在生产环境,Java应用程序设置了最大JVM内存后,经常发现实际使用的内存,可能超过设置的JVM最大内存数jmap -heap pid 通过这个命令可以方便查看java的内存分配情况.一般情 ...

  3. linux edac服务,使用edac工具来检测服务器内存故障.

    随着虚拟化,Redis,BDB内存数据库等应用的普及,现在越来越多的服务器配置了大容量内存,拿DELL的R620来说在配置双路CPU下,其24个内存插槽,支持的内存高达960GB.对于ECC,REG这 ...

  4. MQTT服务器搭建与试用,桌面工具连接MQTT服务器

    简介 MQTT(Message Queuing Telemetry Transport,消息队列遥测传输)是IBM开发的一个即时通讯协议,它比较适合于在低带宽.不可靠的网络的进行远程传感器和控制设备通 ...

  5. 服务器内存检测维修工具,服务器内存检测工具

    服务器内存检测工具 内容精选 换一换 Ascend-DMI工具主要为Atlas产品的标卡.板卡及模组类产品提供带宽测试.算力测试.功耗测试等功能.工具的功能介绍如表1所示.本系统通过调用底层DCMI( ...

  6. linux ipmitool检测内存,一种基于ipmitool工具循环侦测内存的方法与流程

    本发明涉及服务器技术领域,具体的说是一种基于ipmitool工具循环侦测内存的方法. 背景技术: 随着计算机技术的发展,计算机已经广泛应用于生活.工作中各个领域,对计算机计算处理能力和存储能力也提出了 ...

  7. 10个有效的Linux VPS/服务器性能检测与稳定性测评工具/命令

    作为我们用户.站长,在选择主机.VPS.服务器的时候,很多时候会去看价格.配置等一些参数,但是有些时候的稳定性是无法控制的,有些是商家的问题,有些是我们用户的问题.但是选择一个好的商家,一款好的主机产 ...

  8. ios代码中的内存泄露,内存检测工具leaks 检测不出来

    iphone开发过程中,代码中的内存泄露我们很容易用内存检测工具leaks 检测出来,并一一改之,但有些是因为ios 的缺陷和用法上的错误,leaks 检测工具并不能检测出来,你只会看到大量的内存被使 ...

  9. 内存泄漏检测C版小工具

    一 内存泄漏简介 内存泄漏(Memory Leak)是指程序中己动态分配的堆内存由于某种原因程序未释放或无法释放,造成系统内存的浪费,导致程序运行速度减慢甚至系统崩溃等严重后果. 内存泄漏分类: 1. ...

  10. linux 系统硬件信息检测工具,美国Linux服务器查看硬件信息工具

    在美国Linux服务器上有许多查看工具可用于查找系统硬件规格,其中有一些是美国Linux系统已经默认预装的,用户可以直接进行使用.下面小编就来介绍一些美国Linux服务器上预装的查看硬件信息的工具. ...

最新文章

  1. 前后端分离的跨域解决方案
  2. Android Studio下载及安装3.0版本
  3. Angular应用ng serve命令行的学习笔记
  4. 命中率_数据说话!詹姆斯的“皇家射手团”命中率为近十年最低
  5. Zookeeper学习笔记之 Zab协议(Zookeeper Atomic Broadcast)
  6. 力扣645.错误的集合
  7. 1.nodejs介绍
  8. 20191107每日一句
  9. c++ pipe 同步 互斥_LiteOS内核教程04 | 信号量(任务同步)
  10. Java语言实现文本转语音
  11. git官网下载速度太慢解决方法
  12. Instant类[java]
  13. cad断点快捷键_CAD中打断于点的快捷键
  14. 原生javascript手风琴图片切换案例
  15. 阿里云域名证书免费认证教程
  16. hadoop集群搭建完整教程,java电商项目面试技巧
  17. 什么是SAP的统驭科目
  18. 论文学习笔记:CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly Congested Scenes
  19. Ubuntu Kylin V10安装python3.10.4
  20. 【华为云技术分享】物联网SIM卡和SIM卡,真的不是一回事

热门文章

  1. 校园卡管理系统-版本二
  2. iOS视频直播初窥:高仿喵播APP
  3. STM32学习(1)-资料查找,STM32简介,STM32选型以及芯片内部结构图
  4. 自动控制原理:一阶系统的时域分析
  5. 自动控制理论 第一章 思维导图
  6. 2016年计算机一级excel试题及答案,2016年计算机一级试题加答案
  7. ROS中的物体识别——ORK功能包的使用
  8. Linux中几个简单实用的文本处理工具
  9. Java基础2讲义四千字总结---黑马刘意
  10. Linux系统批量压缩图片工具