随着虚拟化,Redis,BDB内存数据库等应用的普及,现在越来越多的服务器配置了大容量内存,拿DELL的R620来说在配置双路CPU下,其24个内存插槽,支持的内存高达960GB。对于ECC,REG这些带有纠错功能的内存故障检测是一件很头疼的事情,出现故障,还是可以连续运行几个月甚至几年,但如果运气不好,随时都会挂掉,好在linux中提供了一个edac-utils 内存纠错诊断工具,可以用来检查服务器内存潜在的故障。

下面以CentOS为例,介绍下edac-utils 工具的使用.

在使用edac-utils 工具之前,需要先了解服务器的硬件架构,以DELL R620为例,(其它如HP DL360P G8,IBM X3650 M4 机型都使用了 E5-2600 系列CPU,C600 系列芯片组.大致相同) 其CPU内存控制器对应通道,内存槽关系,如下所示。

处理器0 (对应一个内存控制器)

通道0:内存插槽A1、A5 和A9

通道1:内存插槽A2、A6 和A10

通道2:内存插槽A3、A7 和A11

通道3:内存插槽A4、A8 和A12

处理器1 (对应一个内存控制器)

通道0:内存插槽B1、B5 和B9

通道1:内存插槽B2、B6 和B10

通道2:内存插槽B3、B7 和B11

通道3:内存插槽B4、B8 和B12

1.安装 edac-utils 工具

yum install -y libsysfs edac-utils

2.执行检测命令,可查看纠错提示如下

edac-util -v

mc0: csrow0: CPU_SrcID#0_Ha#0_Chan#0_DIMM#0: A1

mc0: csrow0: CPU_SrcID#0_Ha#0_Chan#1_DIMM#0: A2

mc0: csrow0: CPU_SrcID#0_Ha#0_Chan#2_DIMM#0: A3

mc0: csrow0: CPU_SrcID#0_Ha#0_Chan#3_DIMM#0: A4

mc0: csrow1: CPU_SrcID#0_Ha#0_Chan#0_DIMM#1: A5

mc0: csrow1: CPU_SrcID#0_Ha#0_Chan#1_DIMM#1: A6

mc0: csrow1: CPU_SrcID#0_Ha#0_Chan#2_DIMM#1: A7

mc0: csrow1: CPU_SrcID#0_Ha#0_Chan#3_DIMM#1: A8

mc0: csrow2: CPU_SrcID#0_Ha#0_Chan#0_DIMM#2: A9

mc0: csrow2: CPU_SrcID#0_Ha#0_Chan#1_DIMM#2: A10

mc0: csrow2: CPU_SrcID#0_Ha#0_Chan#2_DIMM#2: A11

mc0: csrow2: CPU_SrcID#0_Ha#0_Chan#3_DIMM#2: A12

mc1: csrow0: CPU_SrcID#1_Ha#0_Chan#0_DIMM#0: B1

mc1: csrow0: CPU_SrcID#1_Ha#0_Chan#1_DIMM#0: B2

mc1: csrow0: CPU_SrcID#1_Ha#0_Chan#2_DIMM#0: B3

mc1: csrow0: CPU_SrcID#1_Ha#0_Chan#3_DIMM#0: B4

mc1: csrow1: CPU_SrcID#1_Ha#0_Chan#0_DIMM#1: B5

mc1: csrow1: CPU_SrcID#1_Ha#0_Chan#1_DIMM#1: B6

mc1: csrow1: CPU_SrcID#1_Ha#0_Chan#2_DIMM#1: B7

mc1: csrow1: CPU_SrcID#1_Ha#0_Chan#3_DIMM#1: B8

mc1: csrow2: CPU_SrcID#1_Ha#0_Chan#0_DIMM#1: B9

mc1: csrow2: CPU_SrcID#1_Ha#0_Chan#1_DIMM#1: B10

mc1: csrow2: CPU_SrcID#1_Ha#0_Chan#2_DIMM#1: B11

mc1: csrow2: CPU_SrcID#1_Ha#0_Chan#3_DIMM#1: B12

其中 mc0 表示 表示内存控制器0, CPU_Src_ID#0表示源CPU0 , Channel#0 表示通道0

DIMM#0 标示内存槽0,Corrected Errors 代表已经纠错的次数,根据前面列出的CPU通

道和内存槽对应关系即可给edac-utils 返回的信息进行编号。

即可得出 A1槽 6312 次纠错,B1槽 6459次纠错,B3槽 535次纠错. 3条内存出现潜在故障,接下来联系供应商进行更换即可。

12条内存的对应关系

mc0: csrow0: CPU#0Channel#0_DIMM#0: A1

mc0: csrow0: CPU#0Channel#1_DIMM#0: A2

mc0: csrow0: CPU#0Channel#2_DIMM#0: A3

mc0: csrow1: CPU#0Channel#0_DIMM#1: A4

mc0: csrow1: CPU#0Channel#1_DIMM#1: A5

mc0: csrow1: CPU#0Channel#2_DIMM#1: A6

mc1: csrow0: CPU#1Channel#0_DIMM#0: B1

mc1: csrow0: CPU#1Channel#1_DIMM#0: B2

mc1: csrow0: CPU#1Channel#2_DIMM#0: B3

mc1: csrow1: CPU#1Channel#0_DIMM#1: B4

mc1: csrow1: CPU#1Channel#1_DIMM#1: B5

mc1: csrow1: CPU#1Channel#2_DIMM#1: B6

20条内存的对应关系

mc0: 0 Uncorrected Errors with no DIMM info

mc0: 0 Corrected Errors with no DIMM info

mc0: csrow0: 0 Uncorrected Errors

mc0: csrow0: CPU_SrcID#0_Ha#0_Chan#0_DIMM#0: 0 Corrected Errors A1

mc0: csrow0: CPU_SrcID#0_Ha#0_Chan#1_DIMM#0: 0 Corrected Errors B1

mc0: csrow0: CPU_SrcID#0_Ha#0_Chan#2_DIMM#0: 0 Corrected Errors C1

mc0: csrow0: CPU_SrcID#0_Ha#0_Chan#3_DIMM#0: 0 Corrected Errors D1

mc0: csrow1: 0 Uncorrected Errors

mc0: csrow1: CPU_SrcID#0_Ha#0_Chan#0_DIMM#1: 0 Corrected Errors A2

mc0: csrow1: CPU_SrcID#0_Ha#0_Chan#1_DIMM#1: 0 Corrected Errors B2

mc0: csrow1: CPU_SrcID#0_Ha#0_Chan#2_DIMM#1: 0 Corrected Errors C2

mc0: csrow1: CPU_SrcID#0_Ha#0_Chan#3_DIMM#1: 0 Corrected Errors D2

mc0: csrow2: 0 Uncorrected Errors

mc0: csrow2: CPU_SrcID#0_Ha#0_Chan#0_DIMM#2: 0 Corrected Errors A3

mc0: csrow2: CPU_SrcID#0_Ha#0_Chan#1_DIMM#2: 11 Corrected Errors B3

mc0: csrow2: CPU_SrcID#0_Ha#0_Chan#2_DIMM#2: 0 Corrected Errors C3

mc0: csrow2: CPU_SrcID#0_Ha#0_Chan#3_DIMM#2: 0 Corrected Errors D3

mc1: 0 Uncorrected Errors with no DIMM info

mc1: 0 Corrected Errors with no DIMM info

mc1: csrow0: 0 Uncorrected Errors

mc1: csrow0: CPU_SrcID#1_Ha#0_Chan#0_DIMM#0: 0 Corrected Errors

mc1: csrow0: CPU_SrcID#1_Ha#0_Chan#1_DIMM#0: 0 Corrected Errors

mc1: csrow0: CPU_SrcID#1_Ha#0_Chan#2_DIMM#0: 0 Corrected Errors

mc1: csrow0: CPU_SrcID#1_Ha#0_Chan#3_DIMM#0: 0 Corrected Errors

mc1: csrow1: 0 Uncorrected Errors

mc1: csrow1: CPU_SrcID#1_Ha#0_Chan#0_DIMM#1: 0 Corrected Errors

mc1: csrow1: CPU_SrcID#1_Ha#0_Chan#1_DIMM#1: 0 Corrected Errors

mc1: csrow1: CPU_SrcID#1_Ha#0_Chan#2_DIMM#1: 0 Corrected Errors

mc1: csrow1: CPU_SrcID#1_Ha#0_Chan#3_DIMM#1: 0 Corrected Errors

4×16关系

mc0: csrow0: CPU#0Channel#0_DIMM#0: 0 Corrected Errors 8a

mc0: csrow0: CPU#0Channel#1_DIMM#0: 0 Corrected Errors 5b

mc0: csrow0: CPU#0Channel#2_DIMM#0: 0 Corrected Errors 2c

mc0: csrow1: 0 Uncorrected Errors

mc0: csrow1: CPU#0Channel#0_DIMM#1: 1 Corrected Errors 7d

mc0: csrow1: CPU#0Channel#1_DIMM#1: 0 Corrected Errors 4e

mc0: csrow1: CPU#0Channel#2_DIMM#1: 0 Corrected Errors 1f

mc0: csrow2: 0 Uncorrected Errors

mc0: csrow2: CPU#0Channel#0_DIMM#2: 0 Corrected Errors 6G

mc0: csrow2: CPU#0Channel#1_DIMM#2: 0 Corrected Errors 3h

linux edac服务,使用edac工具来检测服务器内存故障.相关推荐

  1. Linux网络服务与shell脚本——Postfix邮件服务器搭建

    Postfix邮件系统 1.电子邮件系统基础 (1)邮件系统角色.邮件协议 ①邮件系统的角色 1)MTA(Mail Transfer Agent,邮件传输代理):邮件服务器软件 2)MUA(Mail ...

  2. Linux下利用nc命令来监控检测服务器的端口使用情况

    检测端口还在用telnet?太落伍把 有没有批量检测的方法?有的.我们用nc就可以快速检测端口的开放性. nc检测端口的用法 nc -z  -w 10  %IP%    %PORT% -z表示检测或者 ...

  3. linux sssd服务启动失败,active-directory – SSSD Kerberos AD Centos故障排除

    我按照RedHat AD集成中的配置3( https://access.redhat.com/sites/default/files/attachments/rhel-ad-integration-d ...

  4. Linux网络实时流量监测工具iftop的安装使用

    概述:网络管理是基础运维中一个很重要的工作,在看似平静的网络运行中,其实暗流汹涌,要保证业务系统稳定运行,网络运维者必须要了解网络的流量状态.各个网段的使用情形,带宽的利用率.网络是否存在瓶颈等,同时 ...

  5. 服务器内存检测维修工具,服务器内存检测工具

    服务器内存检测工具 内容精选 换一换 Ascend-DMI工具主要为Atlas产品的标卡.板卡及模组类产品提供带宽测试.算力测试.功耗测试等功能.工具的功能介绍如表1所示.本系统通过调用底层DCMI( ...

  6. 学计算机U盘内存,用U盘启动盘快速检测电脑内存的详细教程

    内存作为电脑中重要的设备,影响着系统的运行,同时人们在自己选购机器中也可能遇到不良商家以次充好,那么我们有什么办法来检测电脑内存呢?今天小编为大家介绍借助U盘启动中的工具来完成内存检测. 1.备一个制 ...

  7. linux内存测试工具memtest,用Memtest86检测电脑内存

    一起学习 很少会有因为系统内存的问题使电脑产生异常的故障.但是内存在硬件评测时的作用非常重要.操作系统会自动耗费一定的内存,除此之外的内存会被储存起来备用.我最近发现了一个非常好的内存检测工具软件-M ...

  8. linux下检测硬盘,【转载】linux下硬盘监控诊断工具SmartTools

    对于windwos下raid卡具备告警功能,当硬盘故障.raid卡告警时,可以发邮件给管理员.IBM.HP.Dell都支持.但在linux下,就没有找到相关的好工具了,今天到陈沙克的博客上到一篇关于l ...

  9. WebDAV服务漏洞利用工具DAVTest

    WebDAV服务漏洞利用工具DAVTest WebDAV是基于Web服务的扩展服务.它允许用户像操作本地文件一样,操作服务器上的文件.借助该功能,用户很方便的在网络上存储自己的文件.为了方便用户使用, ...

最新文章

  1. 2021-2027年中国手机壳行业现状研究及发展趋势分析报告
  2. Android Studio编译后报错 java.exe'' finished with non-z
  3. 紫书 习题7-14 UVa 307(暴搜+剪枝)
  4. inet_ntop php,inet_ntop()
  5. “金星生命论”乌龙事件新进展:那只是二氧化硫而已
  6. 汇编中的字符串操作指令
  7. 未曾秋高气爽,亦然爬山去也
  8. LeetCode198——house robber(不懂dp)
  9. undefined reference to `std::ios_base::Init::Init() 解决
  10. 7-1 输出从1加到N的和 (9 分)
  11. 找回被删并清空了回收站的文件
  12. WEB建站规划之建站目的
  13. python网络蜘蛛
  14. 如何养成良好的生活习惯 — 饮食、睡眠、运动
  15. APP手机设备模拟器在线测试工具Responsinator
  16. opencv中 画六边形
  17. linux 网络编程相关知识
  18. hbuilderx gitee操作教程
  19. make时 No rule to make target错误解决办法
  20. [java实现]辗转相除法

热门文章

  1. 网站收录 - 学英语
  2. “注孤生”的程序员是怎么撩到女朋友的?
  3. 尚致胜讲座免费在线学习 免费下载
  4. 详解numpy中argsort函数
  5. 专业的人工智能人才培养!
  6. 3.25-垒色子-动态规划
  7. Bootstrap系列之布局 containers
  8. [转]Ikariam 生存法则
  9. python搞笑语句_云计算开发学习笔记:Python3 import语句
  10. 2014 百度之星 资格赛 第一题 Energy Conversion 解题思路