X86服务器Linux系统对于MCE的Log解析

Linux Log信息主要包括两部份内容:

  1. APEI的GHES(Generic Hardware Error Soure,通用硬件错误源)解析部分,对应message中包含[Hardware Error]的输出信息
  2. mcelog解析部分,对应message中包含mcelog[2402]:的输出信息

Apr 19 06:08:04 S08 kernel: core: [Hardware Error]: Machine check events logged

Apr 19 06:08:04 S08 kernel: {1}[Hardware Error]: Hardware error fcrom APEI Generic Hardware Error Soure: 0

Apr 19 06:08:04 S08 kernel: {1}[Hardware Error]: It has been corrected by h/w and requires no further action

Apr 19 06:08:04 S08 kernel: {1}[Hardware Error]: event severity: corrected

Apr 19 06:08:04 S08 kernel: {1}[Hardware Error]: Error 0, type: corrected

Apr 19 06:08:04 S08 kernel: {1}[Hardware Error]: section_type: memory error

Apr 19 06:08:04 S08 kernel: {1}[Hardware Error]: error_status: 0x0000000000000400

Apr 19 06:08:04 S08 kernel: {1}[Hardware Error]: physical_address: 0x00000033196956c0

Apr 19 06:08:04 S08 kernel: {1}[Hardware Error]: physical_address_mask: 0x00003fffffffffc0

Apr 19 06:08:04 S08 kernel: {1}[Hardware Error]: node: 0 card: 1 module: 0 rank: 3 bank: 8 device: 2 row: 51429 column: 304

Apr 19 06:08:04 S08 kernel: {1}[Hardware Error]: error_type: 2, single-bit ECC

Apr 19 06:08:04 S08 kernel: {1}[Hardware Error]: DIMM location: not present. DMI handle: 0x0000

Apr 19 06:08:04 S08 kernel: core: [Hardware Error]: Machine check events logged

Apr 19 06:08:04 S08 mcelog[2402]: mcelog: Family 6 Model 143 CPU: only decoding architectural errors

Apr 19 06:08:04 S08 mcelog[2402]: Hardware event. This is not a software error.

Apr 19 06:08:04 S08 mcelog[2402]: MCE 0

Apr 19 06:08:04 S08 mcelog[2402]: CPU 0 BANK 14 TSC 3474b9ffda1b

Apr 19 06:08:04 S08 mcelog[2402]: MISC b00104647289886 ADDR 33196956c0

Apr 19 06:08:04 S08 mcelog[2402]: TIME 1650319684 Tue Apr 19 06:08:04 2022

Apr 19 06:08:04 S08 mcelog[2402]: MCG status:

Apr 19 06:08:04 S08 mcelog[2402]: MCi status:

Apr 19 06:08:04 S08 mcelog[2402]: Corrected error

Apr 19 06:08:04 S08 mcelog[2402]: MCi_MISC register valid

Apr 19 06:08:04 S08 mcelog[2402]: MCi_ADDR register valid

Apr 19 06:08:04 S08 mcelog[2402]: MCA: MEMORY CONTROLLER RD_CHANNEL1_ERR

Apr 19 06:08:04 S08 mcelog[2402]: Transaction: Memory read error

Apr 19 06:08:04 S08 mcelog[2402]: STATUS 8c00004200800091 MCGSTATUS 0

Apr 19 06:08:04 S08 mcelog[2402]: MCGCAP f000c15 APICID 0 SOCKETID 0

Apr 19 06:08:04 S08 mcelog[2402]: MICROCODE 8d0004a0

Apr 19 06:08:04 S08 mcelog[2402]: CPUID Vendor Intel Family 6 Model 143 Step 3

GHES解析部分

GHES(Generic Hardware Error Soure)为ACPI框架中APEI(ACPI Platform Error Interfaces)的一部分。平台固件可以使用GHES向OSPM(Operating System-directed configuration and Power Management,操作系统直接能源管理)提供硬件错误信息(Hardware Error)。

当硬件错误发生时,OSPM可以通过error handler读取GHES结构中的Error Status Block来获取硬件错误信息。并由Linux kernel中的相关代码对获取到的信息进行解析后输出到message中。

Linux内核中代码的struct结构定义与ACPI/UEFI Spec中的定义,对应关系如下图:

Mcelog解析部分

参见网站http://www.mcelog.org/

mcelog会对machine check类型的错误,如内存、IO、CPU等进行记录和解析。

本次内存CE错误输出的信息中:

  • Apr 19 06:08:04 S08 mcelog[2402]: CPU 0 BANK 14 TSC 3474b9ffda1b
    BANK 14 可由对应CPU的EDS手册查到对应的IMC和Channel

  • Apr 19 06:08:04 S08 mcelog[2402]: MISC b00104647289886 ADDR 33196956c0

    对应MCA BANK中的MISR与ADDR寄存器

  • Apr 19 06:08:04 S08 mcelog[2402]: STATUS 8c00004200800091 MCGSTATUS 0

    对应MCA BANK中的STATUS寄存器

参考资料

  1. Intel® 64 and IA-32 ArchitecturesSoftware developers Manual - Volume3B Chapter15
  2. http://www.mcelog.org/
  3. Advanced Configuration and Power Interface (ACPI) Specification
  4. Unified Extensible Firmware Interface (UEFI)Specification

[Machine Check机制]X86服务器Linux系统对于MCE的Log解析相关推荐

  1. mysql独立服务器_独立服务器linux系统mysql设置方法

    独立服务器linux系统mysql设置方法: 一,如果您要用root身份使用您的mysql数据库,那么您可以直接将您的mysql数据库文件上传到:/usr/local/mysql/data目录下面,修 ...

  2. 七日杀开服架设教程开服配置服务器搭建需要什么配置的服务器Linux系统

    七日杀开服架设教程开服配置服务器搭建需要什么配置的服务器Linux系统 新开放世界僵尸游戏 <七日杀>是由The Fun Pimps Entertainment研发的集合第一人称射击.恐怖 ...

  3. Linux下nvidia压力测试,一种服务器linux系统下GPU压力测试的监控方法与流程

    本发明属于服务器测试技术领域,具体涉及一种服务器linux系统下GPU压力测试的监控方法. 背景技术: 随着社会的快速发展,人们对高网络性能.快速存储.大量内存.超高计算能力的GPU的需求越来越大,产 ...

  4. 腾讯云服务器linux远程登录,腾讯云服务器Linux系统使用SSH工具登录远程教程

    对于大部分网友而言,如果我们选择腾讯云服务器的时候系统用Windows,那大部分网友都会登录的,直接在我们平时使用的WIN电脑远程连接即可操作,而且对于这个可视化操作系统对于经常玩服务器的用户来说也不 ...

  5. 阿里云国际版云服务器Linux系统数据恢复操作步骤

    在处理磁盘相关问题时,您可能会碰到操作系统中数据盘分区丢失的情况.本文介绍了Linux系统下常见的数据盘分区丢失的问题以及对应的处理方法,同时提供了使用云盘的常见误区以及最佳实践,避免可能的数据丢失风 ...

  6. Linux基础知识(3)---查看linux系统重启之前的log -- last_kmsg

    查看linux系统重启之前的log -- last_kmsg 当 Linux Kernel 出现 BUG 的时候,后走入 panic flow,这个时候由于 Kernel 出现了严重的问题,adbd ...

  7. linux的dns怎么配置正向区域文件,linux系统下部署DNS正向解析

    DNS服务概述: DNS(Domain Name System)域名系统,能够提供域名与IP地址的解析服务. 正向解析 正向解析是指域名到IP 地址的解析过程. 部署DNS正向解析 DNS服务的三个配 ...

  8. 我的内核学习笔记13:x86平台linux系统重启流程跟踪

    一直以来,笔者只知道重启Linux系统性使用reboot,但对其过程却无所知,涉及到哪些知识点也无概念.本文就跟踪一下重启的流程,平台为Intel x86,Linux内核版本为3.17.行文中&quo ...

  9. 服务器linux系统支持php好,关于Linux服务器系统的七大优势,你知道几个?

    Linux是开源的操作系统,主要支持PHP,在目前市场上Linux系统在互联网企业中使用率也是非常广泛的,具有不可或缺的作用,那么Linux服务器有哪些优势?总结了七点,你都知道吗? 1.开源:Lin ...

最新文章

  1. 【青少年编程】【二级】寻找宝石
  2. linux下进制是如何转换?
  3. 云通讯平台:为更多游戏玩家解放双手
  4. 做嵌入式的必须学Android吗
  5. C语言 十进制和十六进制相互转换 - C语言零基础入门教程
  6. 【Unity】关于屏幕自适应的思路
  7. Zookeeper Watcher(事件监听器)?
  8. FFMpeg,SDL编译 No avaiable video device
  9. JDRefresh 轻简下拉刷新框架
  10. Spring的事务注解@Transactional 出现的6种失效场景
  11. js打开新窗口的方法
  12. 厉害了!小学生用大数据研究苏轼,结论出人意料
  13. 在Office的Excel中打开WPS很慢
  14. sklearn模块之朴素贝叶斯:(二)伯努利模型的实现
  15. 企业电子文档管理系统哪个好?怎么选?
  16. nodejs控制台打印图案
  17. MySQL安装版本Navicat连接报错2509解决方案
  18. CVPR2020-对偶回归与SISR | Closed-loop Matters:Dual Regression Networks for Single Image Super-Resolution
  19. 【图像处理】CloudCompare 设置背景、点云颜色
  20. 无碳小车 matlab,无碳小车matlab轨迹仿真及路径图

热门文章

  1. 如何做一个基于微信电子书阅读小程序系统毕业设计毕设作品
  2. 神奇宝贝光是无限远服务器,Pokémon Online
  3. 【Adobe国际认证中文官网】Adobe中国摄影计划,免费安装 正版激活
  4. 程序 = 数据结构 + 算法?真的是这样的吗?
  5. Python内置函数、匿名函数
  6. 如何全面的理解APS自动排产系统?
  7. 【RAM IP】RAM IP核简介及实验
  8. sigmoid函数和阶跃函数的Python代码比较 ← 斋藤康毅
  9. linux 内存清理 释放命令,linux 内存清理/释放命令总结
  10. HTTP/1.1(消息格式、连接管理、条件请求、范围请求、缓存、身份验证)