mt 内存监控:mcecheck.py

raid监控: check-raid

mcelog 是 x86 的 Linux 系统上用来检查硬件错误,特别是内存和CPU错误的工具。

安装方式

yum install mcelog

运行

mcelog

查看日志方式

/var/log/mcelog

MCE 0

HARDWARE ERROR. This is NOT a software problem!

Please contact your hardware vendor

CPU 1 BANK 8 TSC 1193fd60c6699 [at 2000 Mhz 1 days 18:56:49 uptime (unreliable)]

MISC 8f44960800095840 ADDR 4a9f3b1c0

MCG status:

MCi status:

Error overflow

MCi_MISC register valid

MCi_ADDR register valid

MCA: MEMORY CONTROLLER RD_CHANNELunspecified_ERR

Transaction: Memory read error

Memory read ECC error

Memory corrected error count (CORE_ERR_CNT): 18

Memory transaction Tracker ID (RTId): 40

Memory DIMM ID of error: 1

Memory channel ID of error: 0

Memory ECC syndrome: f449608

STATUS cc0004800001009f MCGSTATUS 0

作为一个企业服务器管理员,面对服务器莫名宕机或者主动重启,历经折磨后判断为内存问题引起,可当看到内存多达几十条时,难道要单条测试?要真这样,估计领导也要废了你吧。有没方便有效的方法去速度定位那个DIMM槽内存或者在日常监测内存正常与否呢?下面介绍下linux系统下的监控方法--MCElog。

What are Machine Check Exceptions (or MCE)?

A machine check exception is an error dedected by your system's processor. There are 2 major types of MCE errors, a notice or warning error, and a fatal execption. The warning will be logged by a "Machine Check Event logged" notice in your system logs, and can be later viewed via some Linux utilities. A fatal MCE will cause the machine to stop responding and the details of the MCE will be printed out to the system's console.

What causes MCE errors?

There most common reason for MCE events to occur are:

1.Memory errors or Error Correction Code (ECC) problems

2.Inadequate cooling / processor over-heating

3.System bus errors

4.Cache errors in the processor or hardware

##一般来说当有错误提示时,需要优先注意内存问题,但由于现在内存控制器是集成在cpu里,所以有个别情况是由CPU问题引起的##

Installmcelog-1.0_pre3_p20120918.tar.gz

Mcelog安装

#tar -zxvf mcelog-1.0_pre3_p20120918.tar.gz    解压出来

#cd  andikleen-mcelog-0f5d023                  进入解压出来的文件夹

#make

#make install                                  编译和安装

Mcelog相关文件

/dev/mcelog 设备文件

/var/log/mcelog    messages日志文件

/etc/mcelog/mcelog.conf配置文件

/var/run/mcelog.pid

默认故障日志只记录在/var/log/mcelog,并不记录到系统日志中。

如果需要在系统日志中也体现,需修改/etc/mcelog/mcelog.conf文件,将前面#去掉,并保存。

Mcelog相关设置

1.mcelog的随系统启动,查看boot下的config文件,可以看到mce模块随机启动

2.配置mcelog后台运行

#mcelog --daemon

3.查看mcelog日志文件

由于各厂家服务器内存槽位设计可能不同,这边关于错误中的cpu0 bank5内存槽位定位不做讨论。

linux mcelog 运行,服务器硬件检测(采用mcelog)相关推荐

  1. 硬件服务器processor是什么,服务器硬件检测(采用mcelog)

    mt 内存监控:mcecheck.py raid监控: check-raid mcelog 是 x86 的 Linux 系统上用来检查硬件错误,特别是内存和CPU错误的工具. 安装方式 yum ins ...

  2. 服务器硬件检测(采用mcelog)

    mt 内存监控:mcecheck.py raid监控: check-raid mcelog 是 x86 的 Linux 系统上用来检查硬件错误,特别是内存和CPU错误的工具. 安装方式 yum ins ...

  3. 似物性检测——linux下运行objectness-v2.2并分析源码(pami2012论文)

    需要做一个似物性检测,首先去找了前段时间很火的程老师的论文BING看,大概了解objectness的含义,也跑了程老师的代码,因为自己不严谨,所以发短信问程老师还被说了,没好好看论文,不过后面自己还是 ...

  4. Linux Kernel运行时安全检测之LKRG-原理篇

    ​更多内核安全.eBPF分析和实践文章,请关注博客和公众号: CSDN博客:内核功守道 公众号: 内核功守道 背景介绍 虽然经常更新内核版本通常被认为是一种安全最佳实践,但由于各种原因,尤其是生产环境 ...

  5. 推荐两款支持在linux下运行ASP.NET网站的国产免费WEB服务器软件

    推荐两款支持在linux下运行ASP.NET网站的国产免费WEB服务器软件 1.kangle kangle web server是一款跨平台(windows/linux/bsd).功能强大.安全稳定. ...

  6. linux aide使用方法,Linux AIDE(文件完整性检测)

    一.AIDE的概念 AIDE:Advanced Intrusion Detection Environment,是一款入侵检测工具,主要用途是检查文档的完整性.AIDE在本地构造了一个基准的数据库,一 ...

  7. Linux终端:speedtest_cli检测你的实时带宽速度

    Linux终端:speedtest_cli检测你的实时带宽速度 你在家(或者办公室)的上传和下载速度如何?你能保证,你支付费用给ISP的同时得到了等价的回报? 要想测试我们因特网连接的速度,当下存在着 ...

  8. linux如何运行windows游戏,可运行在Linux下最好Windows软件和游戏

    下面这篇文章是为了告知我们的读者,在Wine软件的帮助下,流行的Windows原生软件和游戏,也可以安装并运行在基于Linux的操作系统上. 我们最近发现,许多人不知道,游戏如流行的魔兽世界,使命召唤 ...

  9. Kali Linux下运行Sniffjoke出错的解决

    Kali Linux下运行Sniffjoke出错的解决 由于Kali Linux版本的更新和Sniffjoke发布时间久远等问题,Sniffjoke在新版本的Kali Linux中运行存在各种问题.下 ...

最新文章

  1. 几个不错的开源的.net界面控件
  2. R语言使用fs包的file_copy函数、dir_copy函数、link_copy函数将文件、目录、超链接从一个位置拷贝(copy)到另一个位置
  3. 批量获取成员机管理员组用户信息
  4. facl:文件访问控制列表
  5. SpringBoot配置文件绑定到Java Bean
  6. Exchange Server 2003 部署手册
  7. 机器学习的一些常识(联合概率分布、模型种类、生成方法与判别方法)
  8. dp算法之平安果路径问题c++
  9. 内存带宽性能测试工具
  10. pstl连接数据库时出现ORA-12154:TNS:could not resolve service name错误。
  11. 数字化是新物流的基础
  12. 解密:LL与LR解析 1(译)
  13. 任意列+左右两列等高布局,并要求有最小高度
  14. TpLink路由访问控制
  15. Unity之Failed to import package with error: Couldn‘t decompress package
  16. kermit使用注意事项
  17. DELL R720服务器4块sas硬盘组成raid5扩容导致的数据丢失如何恢复
  18. Mybatis配置驼峰影射作用
  19. c# MVC利用AuthorizeAttribute验证用户是否登录
  20. OpenCV实现二维码发现与定位

热门文章

  1. 如何将自定义数据源集成到Apache Spark中
  2. 确定活动的热点垃圾收集器
  3. Maven常见问题和陷阱
  4. 检查Red Hat JBoss BRMS部署架构的规则和事件(第二部分)
  5. 休眠自动冲洗的黑暗面
  6. Spring 3.2矩阵变量是什么? –第2部分:代码
  7. 截止到2013年,核心Java帖子
  8. 懒惰的JSF Primefaces数据表分页–第1部分
  9. Java 8的烹调方式–拼图项目
  10. vue进行判断使用class_vue判断dom的class