mt 内存监控:mcecheck.py

raid监控: check-raid

mcelog 是 x86 的 Linux 系统上用来检查硬件错误,特别是内存和CPU错误的工具。

安装方式

yum install mcelog

运行

mcelog

查看日志方式

/var/log/mcelog

MCE 0

HARDWARE ERROR. This is NOT a software problem!

Please contact your hardware vendor

CPU 1 BANK 8 TSC 1193fd60c6699 [at 2000 Mhz 1 days 18:56:49 uptime (unreliable)]

MISC 8f44960800095840 ADDR 4a9f3b1c0

MCG status:

MCi status:

Error overflow

MCi_MISC register valid

MCi_ADDR register valid

MCA: MEMORY CONTROLLER RD_CHANNELunspecified_ERR

Transaction: Memory read error

Memory read ECC error

Memory corrected error count (CORE_ERR_CNT): 18

Memory transaction Tracker ID (RTId): 40

Memory DIMM ID of error: 1

Memory channel ID of error: 0

Memory ECC syndrome: f449608

STATUS cc0004800001009f MCGSTATUS 0

作为一个企业服务器管理员,面对服务器莫名宕机或者主动重启,历经折磨后判断为内存问题引起,可当看到内存多达几十条时,难道要单条测试?要真这样,估计领导也要废了你吧。有没方便有效的方法去速度定位那个DIMM槽内存或者在日常监测内存正常与否呢?下面介绍下linux系统下的监控方法--MCElog。

What are Machine Check Exceptions (or MCE)?

A machine check exception is an error dedected by your system's processor. There are 2 major types of MCE errors, a notice or warning error, and a fatal execption. The warning will be logged by a "Machine Check Event logged" notice in your system logs, and can be later viewed via some Linux utilities. A fatal MCE will cause the machine to stop responding and the details of the MCE will be printed out to the system's console.

What causes MCE errors?

There most common reason for MCE events to occur are:

1.Memory errors or Error Correction Code (ECC) problems

2.Inadequate cooling / processor over-heating

3.System bus errors

4.Cache errors in the processor or hardware

##一般来说当有错误提示时,需要优先注意内存问题,但由于现在内存控制器是集成在cpu里,所以有个别情况是由CPU问题引起的##

Installmcelog-1.0_pre3_p20120918.tar.gz

Mcelog安装

#tar -zxvf mcelog-1.0_pre3_p20120918.tar.gz    解压出来

#cd  andikleen-mcelog-0f5d023                  进入解压出来的文件夹

#make

#make install                                  编译和安装

Mcelog相关文件

/dev/mcelog 设备文件

/var/log/mcelog    messages日志文件

/etc/mcelog/mcelog.conf配置文件

/var/run/mcelog.pid

默认故障日志只记录在/var/log/mcelog,并不记录到系统日志中。

如果需要在系统日志中也体现,需修改/etc/mcelog/mcelog.conf文件,将前面#去掉,并保存。

Mcelog相关设置

1.mcelog的随系统启动,查看boot下的config文件,可以看到mce模块随机启动

2.配置mcelog后台运行

#mcelog --daemon

3.查看mcelog日志文件

由于各厂家服务器内存槽位设计可能不同,这边关于错误中的cpu0 bank5内存槽位定位不做讨论。

硬件服务器processor是什么,服务器硬件检测(采用mcelog)相关推荐

  1. 硬件服务器运维报告,服务器硬件运维年x月巡检报告-XXX-模板.doc

    服务器硬件运维年x月巡检报告-XXX-模板 XXXXXXXXXXX PAGE \* MERGEFORMAT6 XX服务器硬件运维服务 年 月巡检报告 XXXX工程师:XXXX 物理环境检查 检查内容 ...

  2. 硬件服务器搭建系统步骤,服务器硬件部署方案

    服务器硬件部署方案 内容精选 换一换 TaiShan 200服务器基于华为鲲鹏处理器,提供了强大的计算和并发能力.在高并发的Web业务场合可以充分发挥鲲鹏处理器多核.内存带宽高的优势,提升用户的Web ...

  3. 硬件服务器processor是什么,服务器 CPU 8 Intel Core Processor (Haswell, no TSX) 指标说明...

    英特尔第四代CPU架构(Haswell): Haswell的最高端核芯显卡GT3系列在移动版Core i7使用,而中端的GT2则分配给桌面版的Core i系列处理器,而最低端的奔腾.赛扬搭载GT1.此 ...

  4. 4.1 选择IDC机房 4.2 硬件服务器选型 4.3 上架服务器 4.4/4.5 装系统

    2019独角兽企业重金招聘Python工程师标准>>> 选择IDC机房 硬件服务器选型 上架服务器 装系统 选择IDC机房 选服务器有两种方式,云服务器或者传统的IDC 传统IDC的 ...

  5. 网站服务器如何防护攻击?网站服务器被挂马如何检测

    网站服务器是指安装在互联网上的服务器,主要用于提供网站服务.由于网站服务器的重要性,它也是攻击者的活动焦点,因此如何防护攻击就显得尤为重要.本文将分析网站服务器是如何被攻击的以及如何防护攻击. 网站服 ...

  6. 电脑显示服务器负载信息失败,线上服务mcelog负载异常分析处理流程

    一.难题简述: Nginx网络服务器,HP,有沉余,在其中一台网络服务器mcelog负荷较为高,日志秒等级,早已危害了此网络服务器业务流程. tail -f /var/log/mcelog #留意看此 ...

  7. linux服务器检查硬件配置,linux怎么查看服务器硬件配置

    你们知道怎么查看服务器的硬件配置信息吗?下面是学习啦小编带来的关于linux怎么查看服务器硬件配置的内容,欢迎阅读! linux怎么查看服务器硬件配置? 1.查看机器所有硬件信息: dmidecode ...

  8. linux mcelog 运行,服务器硬件检测(采用mcelog)

    mt 内存监控:mcecheck.py raid监控: check-raid mcelog 是 x86 的 Linux 系统上用来检查硬件错误,特别是内存和CPU错误的工具. 安装方式 yum ins ...

  9. 服务器硬件检测(采用mcelog)

    mt 内存监控:mcecheck.py raid监控: check-raid mcelog 是 x86 的 Linux 系统上用来检查硬件错误,特别是内存和CPU错误的工具. 安装方式 yum ins ...

最新文章

  1. C语言经典例84-一个偶数总能表示为两个素数之和
  2. 【Netty】NIO 缓冲区 ( Buffer ) ( 缓冲区读写类型 | 只读缓冲区 | 映射字节缓冲区 )
  3. oracle 优化之批量处理bulk correct 和 forall
  4. 如何将文件地址转为url_Node.js 源码解析 util.promisify 如何将 Callback 转为 Promise
  5. P2278 [HNOI2003]操作系统
  6. 新年就是要你红!华为Mate 20 Pro馥蕾红璨星蓝来袭
  7. Url ReWriting
  8. mysql升更新命令_MySQL升级的3种方法
  9. 科沃斯扫地机器人橡胶配件_扫地机器人主要配件,扫地机器人配件详解
  10. 浅析HEVC/H.265编码器中的熵编码
  11. SAS数据集随机抽样方法
  12. C. Dominant Character
  13. 【Xcelsius】在PPT中嵌入水晶易表Xcelsius2008仪表盘
  14. awk 分隔符 多个空格_awk多分隔符
  15. 腾讯地图踩坑记之选点组件
  16. adb命令获取设备IMEI
  17. checbox加datagrid实现批量删除
  18. m32f1 68脚 sch
  19. ppt学习总结--一般人需要掌握的内容
  20. CEGUI的下载、安装与运行

热门文章

  1. C# 用IrisSkin4.dll美化你的WinForm
  2. .Net开发人员通过WCF使用Node.js
  3. 使用ASP.NET Core和Entity Framework Core实现Angular 7 SPA CRUD
  4. list 泛型_带你深挖Java泛型类型擦除以及类型擦除带来的问题
  5. linux hadoop namenode_HADOOP_HDFS伪分布式安装步骤
  6. 框架 go_GoFrame v1.13.1 发布,Go 应用开发框架
  7. 使用echarts(四)定时刷新图表
  8. php判断访问的当前设备是手机还是电脑
  9. 查找数组键名是否存在
  10. python ssl socket_Python使用Socket(Https)Post登录百度的实现代码