mt 内存监控:mcecheck.py

raid监控: check-raid

mcelog 是 x86 的 Linux 系统上用来检查硬件错误,特别是内存和CPU错误的工具。
安装方式
yum install mcelog

运行
mcelog

查看日志方式
/var/log/mcelog
MCE 0
HARDWARE ERROR. This is NOT a software problem!
Please contact your hardware vendor
CPU 1 BANK 8 TSC 1193fd60c6699 [at 2000 Mhz 1 days 18:56:49 uptime (unreliable)]
MISC 8f44960800095840 ADDR 4a9f3b1c0 
MCG status:
MCi status:
Error overflow
MCi_MISC register valid
MCi_ADDR register valid
MCA: MEMORY CONTROLLER RD_CHANNELunspecified_ERR
Transaction: Memory read error
Memory read ECC error
Memory corrected error count (CORE_ERR_CNT): 18
Memory transaction Tracker ID (RTId): 40
Memory DIMM ID of error: 1
Memory channel ID of error: 0
Memory ECC syndrome: f449608
STATUS cc0004800001009f MCGSTATUS 0

作为一个企业服务器管理员,面对服务器莫名宕机或者主动重启,历经折磨后判断为内存问题引起,可当看到内存多达几十条时,难道要单条测试?要真这样,估计领导也要废了你吧。有没方便有效的方法去速度定位那个DIMM槽内存或者在日常监测内存正常与否呢?下面介绍下linux系统下的监控方法--MCElog。

What are Machine Check Exceptions (or MCE)?

A machine check exception is an error dedected by your system's processor. There are 2 major types of MCE errors, a notice or warning error, and a fatal execption. The warning will be logged by a "Machine Check Event logged" notice in your system logs, and can be later viewed via some Linux utilities. A fatal MCE will cause the machine to stop responding and the details of the MCE will be printed out to the system's console.

What causes MCE errors?

There most common reason for MCE events to occur are:

1.Memory errors or Error Correction Code (ECC) problems

2.Inadequate cooling / processor over-heating

3.System bus errors

4.Cache errors in the processor or hardware

##一般来说当有错误提示时,需要优先注意内存问题,但由于现在内存控制器是集成在cpu里,所以有个别情况是由CPU问题引起的##

Install mcelog-1.0_pre3_p20120918.tar.gz

Download from http://download.chinaunix.net/download/0007000/6605.shtml

Mcelog安装

#tar -zxvf mcelog-1.0_pre3_p20120918.tar.gz    解压出来

#cd  andikleen-mcelog-0f5d023                  进入解压出来的文件夹

#make

#make install                                  编译和安装

Mcelog相关文件

/dev/mcelog 设备文件

/var/log/mcelog    messages日志文件

/etc/mcelog/mcelog.conf配置文件

/var/run/mcelog.pid

默认故障日志只记录在/var/log/mcelog,并不记录到系统日志中。

如果需要在系统日志中也体现,需修改/etc/mcelog/mcelog.conf文件,将前面#去掉,并保存。

Mcelog相关设置

1.mcelog的随系统启动,查看boot下的config文件,可以看到mce模块随机启动

2.配置mcelog后台运行

#mcelog --daemon

3.查看mcelog日志文件

由于各厂家服务器内存槽位设计可能不同,这边关于错误中的cpu0 bank5内存槽位定位不做讨论。


本文转自 Tenderrain 51CTO博客,原文链接:http://blog.51cto.com/tenderrain/1909329

服务器硬件检测(采用mcelog)相关推荐

  1. linux mcelog 运行,服务器硬件检测(采用mcelog)

    mt 内存监控:mcecheck.py raid监控: check-raid mcelog 是 x86 的 Linux 系统上用来检查硬件错误,特别是内存和CPU错误的工具. 安装方式 yum ins ...

  2. 硬件服务器processor是什么,服务器硬件检测(采用mcelog)

    mt 内存监控:mcecheck.py raid监控: check-raid mcelog 是 x86 的 Linux 系统上用来检查硬件错误,特别是内存和CPU错误的工具. 安装方式 yum ins ...

  3. dell服务器硬件检测cable,DELL服务器硬件报错解决方法——错误代码寄解决和处理办法...

    DELL服务器硬件报错解决方法--错误代码寄解决和处理办法 代码 文本 原因 纠正措施 E1000 Failsafe voltage error. Contact support.(故障保护电压错误. ...

  4. Dell服务器硬件检测工具.利器简单易上手

    Linux系统类型 以下两个是DSET3.2,支持的机型是从第9代的产品开始的,也就是支持9代,10代,11代,以及最新的12代的产品 PowerEdge:R720, R720xd, R620, R2 ...

  5. 微信域名检测采用官方接口

    做微信QQ网络推广,听到最多的技术名称就是域名防封了,没被封过域名的推广肯定不是一个足够经验的推广,域名被封是正常的. 微信里推广,常在河边走,总会湿鞋的,我们的所说的防封就是用技术让域名生存的足够久 ...

  6. dell服务器硬件检测cable,dell服务器HWC2005 system board riser cable or interconnect failure

    服务器型号:dell R320服务器 系统:windowsserver2008R2 故障: dell R320服务器坏了,后来更换主板后顺利进入系统,但是前面的液晶面板提示HWC2005 system ...

  7. [硬件项目] 2、汽车倒车雷达设计——基于专用倒车雷达芯片GM3101的设计方案与采用CX20106A红外线检测芯片方案对比...

    前言 尽管每辆汽车都有后视镜,但不可避免地都存在一个后视镜的盲区,倒车雷达则可一定程度帮助驾驶员扫除视野死角和视线模糊的缺陷,提高驾驶安全性.上一节已经分析清倒车雷达的语音模块(上一节),本节将深入分 ...

  8. 目标检测中的Tricks

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 来自 | 知乎    作者 | roger 链接 | https: ...

  9. 激光雷达:最新趋势之基于RangeView的3D物体检测算法

    作者丨巫婆塔里的工程师@知乎 来源丨https://zhuanlan.zhihu.com/p/406674156 编辑丨3D视觉工坊 之前在LiDAR点云物体检测算法的综述中提到了四个发展阶段.在最开 ...

最新文章

  1. excel数据输入模型前的转换
  2. MySQL高级 - 常用工具 - mysqladmin
  3. Task.Factory.StartNewTResult 和 Task.RunTResult 到底有什么区别?
  4. macbook不能进系统 备份数据_不基于备份和表,生产系统数据误删就能完全恢复?!...
  5. oracle数据库定时同步工具,[每天自动同步一个数据库表的数据]sql server定时同步oracle数据表...
  6. 收藏 | 使用 Mask-RCNN 在实例分割应用中克服过拟合
  7. Sunny Day ijk英语
  8. MySQLwin7安装过程
  9. compizconfignbsp;nbsp;中的方框…
  10. C# List的克隆
  11. HBase的安装和配置
  12. 算法分析与设计实验报告——实现分治法求解棋盘覆盖问题
  13. matlab的omega0是什么,ABO设定中,A具体是怎么标记O的?
  14. Vim跳转首行与尾行
  15. 每日一滴——更新pycharm_nltk包中模块的安装
  16. 每日一题 笨拙的手指
  17. 解决0x00000001电脑蓝屏问题
  18. 架构师培训:aop是什么
  19. USB Type-C简介
  20. linux系统du指令,linux的du命令

热门文章

  1. 创建二叉树的代码_解二叉树的右视图的两种方式
  2. python推荐系统设置_用Python构建你自己的推荐系统
  3. 军用计算机品牌,军用电脑笔记本有何特点 军用电脑笔记本品牌推荐
  4. mysql jdbc实例_jdbc操作mysql数据库实例
  5. 只有ajax会跨域吗_为什么跨域Ajax是安全问题?
  6. bootstrap 生日选择_bootstrap的datetimepicker只选择月份
  7. SQLAlchemy Connection
  8. javascript async await
  9. reStructuredText
  10. Pandas Series