MCE现象

Intel在Pentium 4、Xenon和P6系列处理器中实现了机器检查(Machinecheck)架构,提供能够检测和报告硬件(机器)的错误机制,如系统总线错误、ECC错误、奇偶校验错误、缓存错误、TLB错误等。它包括一直MSR(Model-Specific Registers)寄存器,用来设置机器检查和额外的bank MSR记录错误。

当机器检查到不可纠正的machine-check错误时,就触发一个machine-check异常。machine-check架构不允许在出现MCE后处理器重启,但MCE处理程序可以从MSR寄存器收集相关信息。

CPU 7: Machine Check Exception: 5 Bank 0: b200004010000400

RIP !INEXACT! 10:<ffffffff8010f16e> {mwait_idle+0x5e/0x90}

TSC 1952dbeebcc8

Kernel panic: Machine check

Reconfiguring memory bank information….

This may take a while….

done waiting: 3 cpus not responding

Warning: Non-empty request queue

I/O requests in flight at dump time

CPU 7: Machine Check Exception: 4 Bank 0: f200004040000400

RIP !INEXACT! 10:<ffffffff8011ef69>

MCE错误判断原则

凡是内核死机打印“Machine Check Exception“或内核栈信息中打印有do_machine_check()函数,均为MCE问题。

MCE错误来源

  • PCI-E设备信号质量/时钟
  • CPU芯片损坏/设计BUG

    CPU Cache损坏或其它故障

  • CPU可能的缺陷

    如CPU生产制造过程中带来的缺陷

  • 内存坏/接触不良
  • BIOS配置不当
  • OS/MCE中断程序Bug
  • 环境因素,如温度/湿度

MCE错误码解析

以上面MCE错误为例,Machine Check Exception和Bank 0(5)的值分别对应IA32_MCG_STATUS MSR、IA32_MCi_STATUS寄存器。

则对应的寄存器值为:

IA32_MCG_STATUS MSR寄存器的值为0000000000000004

IA32_MC0_STATUS MSR的值为f200000410000800

IA32_MC5_STATUS MSR的值为f200001044100e0f

根据MSR的值,对照Intel编程手册和Intel其他资料,就可以比较容易找出MCE原因。

dmesg显示

1
2
3
4
5
6 7 8 
...

sbridge: HANDLING MCE MEMORY ERROR
CPU 0: Machine Check Exception: 0 Bank 5: 8c00004000010093
TSC 0 ADDR 67081b300 MISC 2140040486 PROCESSOR 0:206d7 TIME 1441181676 SOCKET 0 APIC 0 EDAC MC0: CE row 2, channel 0, label "CPU_SrcID#0_Channel#3_DIMM#0": 1 Unknown error(s): memory read on FATAL area : cpu=0 Err=0001:0093 (ch=3), addr= 0x67081b300 => socket=0, Channel=3(mask=8), rank=0  ...

保存4行log为mlog

1
2
3
4
5
6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 
# mcelog --ascii < /tmp/mlog
WARNING: with --dmi mcelog --ascii must run on the same machine with the
     same BIOS/memory configuration as where the machine check occurred.
sbridge: HANDLING MCE MEMORY ERROR
CPU 0: Machine Check Exception: 0 Bank 5: 8c00004000010093 HARDWARE ERROR. This is *NOT* a software problem! Please contact your hardware vendor Wed Sep 2 16:14:36 2015 CPU 0 BANK 5 MISC 2140040486 ADDR 67081b300 STATUS 8c00004000010093 MCGSTATUS 0 CPUID Vendor Intel Family 6 Model 45 WARNING: SMBIOS data is often unreliable. Take with a grain of salt! <24> DIMM 1333 Mhz Res13 Width 72 Data Width 64 Size 16 GB Device Locator: Node0_Channel2_Dimm0 Bank Locator: Node0_Bank0 Manufacturer: Hynix Semiconducto Serial Number: 40743B5A Asset Tag: Dimm2_AssetTag Part Number: HMT42GR7BFR4A-PB TSC 0 ADDR 67081b300 MISC 2140040486 PROCESSOR 0:206d7 TIME 1441181676 SOCKET 0 APIC 0 EDAC MC0: CE row 2, channel 0, label "CPU_SrcID#0_Channel#3_DIMM#0": 1 Unknown error(s): memory read on FATAL area : cpu=0 Err=0001:0093 (ch=3), addr = 0x67081b300 => socket=0, Channel=3(mask=8), rank=0

根据
Part Number: HMT42GR7BFR4A-PB
Serial Number: 40743B5A

在lshw中找相应硬件

1
2
3
4
5
6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 
...

     *-memory:0
          description: System Memory
 physical id: 2d  slot: System board or motherboard  *-bank:0  description: DIMM 1333 MHz (0.8 ns)  product: HMT42GR7BFR4A-PB  vendor: Hynix Semiconducto  physical id: 0  serial: 905D21AE  slot: Node0_Channel1_Dimm0  size: 16GiB  width: 64 bits  clock: 1333MHz (0.8ns)  *-bank:1  description: DIMM Synchronous [empty]  product: A1_Dimm1_PartNumber  vendor: Dimm1_Manufacturer  physical id: 1  serial: Dimm1_SerNum  slot: Node0_Channel1_Dimm1  width: 64 bits  *-bank:2  description: DIMM 1333 MHz (0.8 ns)  product: HMT42GR7BFR4A-PB  vendor: Hynix Semiconducto  physical id: 2  serial: 40743B5A  slot: Node0_Channel2_Dimm0  size: 16GiB  width: 64 bits  clock: 1333MHz (0.8ns)   ...

转载于:https://www.cnblogs.com/DataArt/p/10374028.html

x86服务器MCE(Machine Check Exception)问题相关推荐

  1. 解读MCE(Machine Check Exception)和Intel CSR寄存器(configuration Registers)的代码含义工具

    近期一直处理客户服务器宕机问题,对于系统出现的MCE代码,或者客服收集的CPU底层寄存器的都要人工排查那些寄存器需要分析,然后找到分析寄存器进行16进制高低位转换,再转为二进制代码,然后对应intel ...

  2. [Machine Check机制]X86服务器Linux系统对于MCE的Log解析

    X86服务器Linux系统对于MCE的Log解析 Linux Log信息主要包括两部份内容: APEI的GHES(Generic Hardware Error Soure,通用硬件错误源)解析部分,对 ...

  3. 大型机、小型机、x86服务器的区别

    首先来讲x86服务器,与平常人们所接触的台式机笔记本类似,采用CISC架构处理器.随着英特尔至强处理器的性能不断提升,业内有种说法是x86服务器有抢占小型机市场的趋势. x86服务器 Intel推出至 ...

  4. 小型机 PC服务器 性能,大型机、小型机、x86服务器的区别

    大型机.小型机.x86服务器的区别 首先来讲x86服务器,与平常人们所接触的台式机笔记本类似,采用CISC架构处理器.随着英特尔至强处理器的性能不断提升,业内有种说法是x86服务器有抢占小型机市场的趋 ...

  5. ubuntu启动报错 hardware error cpu 0 machine check 0 Bank 6、ACPI BIOS Error (bug)Could not resolve symbol

    @[TOC](ubuntu启动报错 hardware error cpu 0 machine check 0 Bank 6.ACPI BIOS Error (bug)Could not resolve ...

  6. X86服务器虚拟化的资源划分和性能优化

    概述:虚拟化是一个广义术语,通常是指计算元件在虚拟的基础上而不是真实的基础上运行,是一个为了简化管理,优化资源的解决方案.服务器虚拟化则是一项用以整合基于x86服务器,来提高资源利用效率和性能的技术. ...

  7. ibm服务器虚拟化报价,IBM x86 服务器虚拟化服务.pdf

    IBM x86 服务器虚拟化服务.pdf 运维管理:如何使成本最小化.效率最大化 ? -- IBM x86服务器虚拟化服务 Agenda • Data Center Challenges • Data ...

  8. 中国移动基于ARM/x86服务器的Ceph性能对比

    2018年11月17日,Ceph中国行首次走进杭州,万众期待的杭州站沙龙如期而至,虽然杭州已经开始降温,阵雨不断,但活动现场依然热度爆表,杭州各大IT公司的从业人员和Ceph爱好者纷纷而来. 中国移动 ...

  9. x86服务器当虚拟化的存储,X86服务器虚拟化实施方案.doc

    X86服务器虚拟化实施方案 XX银行PC服务器虚拟化 实施方案 XX银行信息技术部 2012年5月 目 录 1VMware实施计划4 1.1实施计划4 1.2实施系统拓扑图5 2实施规划6 2.1集群 ...

最新文章

  1. oracle使用内存配置,OraclePGA内存的配置和使用
  2. PHP(TP5)获取微信小程序unionId
  3. LINK:fatal error LNK1123: 转换到 COFF 期间失败: 文件无效或损坏
  4. 《直播疑难杂症排查系列》之一 :播放失败
  5. org.postgresql.util.PSQLException: 栏位索引超过许可范围:1,栏位数:0
  6. 看完性能简报,想不优化好都难!
  7. XNA 3.1 转换到 XNA4.0 的备忘录
  8. mysql修改7tf8mb4_更改MySQL数据库的编码为utf8mb4
  9. 多角度SAR图像匹配
  10. c语言中输出以e为底的指数,c语言中以e为底的指数怎么表示 c++中怎样表示以e为底的...
  11. Android多媒体相关框架
  12. 广州市二手房源数据采集和可视化分析(链家二手房)Python
  13. 非均匀三次B样条曲线插值实现及MATLAB代码
  14. 计算机专业为什么不用amd,为什么网吧电脑很少用AMD处理器?
  15. 少儿编程scratch与机器人
  16. 关于mac os更新到monterey, MATLAB出现Warning: the font “Times“ is not available, so “Lucida Bright“ has
  17. Authentication vs. Authorization 验证与授权
  18. Java 12 来了,我们应该采用嘛?
  19. HDU-5115-Dire Wolf
  20. 证券从业考试科目如何备考?出题方式是什么?

热门文章

  1. 超星移动图书馆opds_移动图书馆工厂实验室为农村地区带来了新技能
  2. 生成真正的随机数(非伪随机数)
  3. 计算机软件资产代码,IT资产命名规则-2015
  4. 怎么把path里oracle地址删掉,path路径删除了怎么办
  5. 心はちょっと疲れた、誰も片隅に休んで……作者の宝物は
  6. java 写出到文件
  7. 蓝桥杯嵌入式定时器输出PWM(可调占空比)
  8. 救生艇(双指针)-C语言
  9. Linux命令之测试网络连通状态ping
  10. Go语言操作excel