x86服务器MCE(Machine Check Exception)问题
MCE现象
Intel在Pentium 4、Xenon和P6系列处理器中实现了机器检查(Machinecheck)架构,提供能够检测和报告硬件(机器)的错误机制,如系统总线错误、ECC错误、奇偶校验错误、缓存错误、TLB错误等。它包括一直MSR(Model-Specific Registers)寄存器,用来设置机器检查和额外的bank MSR记录错误。
当机器检查到不可纠正的machine-check错误时,就触发一个machine-check异常。machine-check架构不允许在出现MCE后处理器重启,但MCE处理程序可以从MSR寄存器收集相关信息。
CPU 7: Machine Check Exception: 5 Bank 0: b200004010000400
RIP !INEXACT! 10:<ffffffff8010f16e> {mwait_idle+0x5e/0x90}
TSC 1952dbeebcc8
Kernel panic: Machine check
Reconfiguring memory bank information….
This may take a while….
done waiting: 3 cpus not responding
Warning: Non-empty request queue
I/O requests in flight at dump time
CPU 7: Machine Check Exception: 4 Bank 0: f200004040000400
RIP !INEXACT! 10:<ffffffff8011ef69>
MCE错误判断原则
凡是内核死机打印“Machine Check Exception“或内核栈信息中打印有do_machine_check()函数,均为MCE问题。
MCE错误来源
- PCI-E设备信号质量/时钟
- CPU芯片损坏/设计BUG
CPU Cache损坏或其它故障
- CPU可能的缺陷
如CPU生产制造过程中带来的缺陷
- 内存坏/接触不良
- BIOS配置不当
- OS/MCE中断程序Bug
- 环境因素,如温度/湿度
MCE错误码解析
以上面MCE错误为例,Machine Check Exception和Bank 0(5)的值分别对应IA32_MCG_STATUS MSR、IA32_MCi_STATUS寄存器。
则对应的寄存器值为:
IA32_MCG_STATUS MSR寄存器的值为0000000000000004
IA32_MC0_STATUS MSR的值为f200000410000800
IA32_MC5_STATUS MSR的值为f200001044100e0f
根据MSR的值,对照Intel编程手册和Intel其他资料,就可以比较容易找出MCE原因。
dmesg显示
1 2 3 4 5 6 7 8 |
|
保存4行log为mlog
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 |
|
根据
Part Number: HMT42GR7BFR4A-PB
Serial Number: 40743B5A
在lshw中找相应硬件
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 |
|
转载于:https://www.cnblogs.com/DataArt/p/10374028.html
x86服务器MCE(Machine Check Exception)问题相关推荐
- 解读MCE(Machine Check Exception)和Intel CSR寄存器(configuration Registers)的代码含义工具
近期一直处理客户服务器宕机问题,对于系统出现的MCE代码,或者客服收集的CPU底层寄存器的都要人工排查那些寄存器需要分析,然后找到分析寄存器进行16进制高低位转换,再转为二进制代码,然后对应intel ...
- [Machine Check机制]X86服务器Linux系统对于MCE的Log解析
X86服务器Linux系统对于MCE的Log解析 Linux Log信息主要包括两部份内容: APEI的GHES(Generic Hardware Error Soure,通用硬件错误源)解析部分,对 ...
- 大型机、小型机、x86服务器的区别
首先来讲x86服务器,与平常人们所接触的台式机笔记本类似,采用CISC架构处理器.随着英特尔至强处理器的性能不断提升,业内有种说法是x86服务器有抢占小型机市场的趋势. x86服务器 Intel推出至 ...
- 小型机 PC服务器 性能,大型机、小型机、x86服务器的区别
大型机.小型机.x86服务器的区别 首先来讲x86服务器,与平常人们所接触的台式机笔记本类似,采用CISC架构处理器.随着英特尔至强处理器的性能不断提升,业内有种说法是x86服务器有抢占小型机市场的趋 ...
- ubuntu启动报错 hardware error cpu 0 machine check 0 Bank 6、ACPI BIOS Error (bug)Could not resolve symbol
@[TOC](ubuntu启动报错 hardware error cpu 0 machine check 0 Bank 6.ACPI BIOS Error (bug)Could not resolve ...
- X86服务器虚拟化的资源划分和性能优化
概述:虚拟化是一个广义术语,通常是指计算元件在虚拟的基础上而不是真实的基础上运行,是一个为了简化管理,优化资源的解决方案.服务器虚拟化则是一项用以整合基于x86服务器,来提高资源利用效率和性能的技术. ...
- ibm服务器虚拟化报价,IBM x86 服务器虚拟化服务.pdf
IBM x86 服务器虚拟化服务.pdf 运维管理:如何使成本最小化.效率最大化 ? -- IBM x86服务器虚拟化服务 Agenda • Data Center Challenges • Data ...
- 中国移动基于ARM/x86服务器的Ceph性能对比
2018年11月17日,Ceph中国行首次走进杭州,万众期待的杭州站沙龙如期而至,虽然杭州已经开始降温,阵雨不断,但活动现场依然热度爆表,杭州各大IT公司的从业人员和Ceph爱好者纷纷而来. 中国移动 ...
- x86服务器当虚拟化的存储,X86服务器虚拟化实施方案.doc
X86服务器虚拟化实施方案 XX银行PC服务器虚拟化 实施方案 XX银行信息技术部 2012年5月 目 录 1VMware实施计划4 1.1实施计划4 1.2实施系统拓扑图5 2实施规划6 2.1集群 ...
最新文章
- oracle使用内存配置,OraclePGA内存的配置和使用
- PHP(TP5)获取微信小程序unionId
- LINK:fatal error LNK1123: 转换到 COFF 期间失败: 文件无效或损坏
- 《直播疑难杂症排查系列》之一 :播放失败
- org.postgresql.util.PSQLException: 栏位索引超过许可范围:1,栏位数:0
- 看完性能简报,想不优化好都难!
- XNA 3.1 转换到 XNA4.0 的备忘录
- mysql修改7tf8mb4_更改MySQL数据库的编码为utf8mb4
- 多角度SAR图像匹配
- c语言中输出以e为底的指数,c语言中以e为底的指数怎么表示 c++中怎样表示以e为底的...
- Android多媒体相关框架
- 广州市二手房源数据采集和可视化分析(链家二手房)Python
- 非均匀三次B样条曲线插值实现及MATLAB代码
- 计算机专业为什么不用amd,为什么网吧电脑很少用AMD处理器?
- 少儿编程scratch与机器人
- 关于mac os更新到monterey, MATLAB出现Warning: the font “Times“ is not available, so “Lucida Bright“ has
- Authentication vs. Authorization 验证与授权
- Java 12 来了,我们应该采用嘛?
- HDU-5115-Dire Wolf
- 证券从业考试科目如何备考?出题方式是什么?