Oracle RAC一节点宕机导致另一节点HANG的问题分析
正所谓“福无双至,祸不单行”,生产上有套2节点Oracle 11.2.0.4数据库,其中2节点因硬件故障宕机,1节点去HANG住了。我们一起来分析这起故障。
凌晨4点半,值班同时电话说一套生产库节点2宕机了,机房的同事看机器正在启动,估计是硬件原因导致的。心想节点2宕了还有一个节点1在跑,应该问题不大,于是继续睡觉,离公司近的另一位DBA同事赶往现场支持。可是没有过多长时间,到现场的DBA反馈信息:活着的另一节点也出问题了。在宕掉的那个节点2上部署了ogg,由于宕机,自动切换到了节点1,但ogg的复制进程延迟一直的增长,感觉像是一直没有应用。
尝试用sqlplus进入库结果却报了ORA-00020超过最大进程数,无法登录数据库,无法分析数据库当前的状况。
于是分析哪个应用服务器连接这套数据库,是不是由于应用问题造成的。
找到连接数最多的那个ip上的应用,与相关业务人员确认,可以封堵其连接数据库的端口,减少数据库的外部连接。可是把这个ip禁掉之后,别的ip连接数又涨上来了。开始想到,是不是由于数据库的问题导致应用处理慢,进而导致连接数过多呢。现在无法登录数据库也无法进行验证。
与业务部门沟通是否可以尝试kill部分会话,让DBA可以连接到数据库后台,进行一些管理操作,和性能分析。得到业务部分同事的肯定答复之后,kill了部分LOCAL=NO的会话。以sysdba登录数据库后台,执行性能分析语句,刚查完session的等待事件,查第二个sql的时候,sql执行卡住了。从新的窗口登录数据库依然报ORA-00020。这里进一步确定了是由于数据库的性能问题导致了ogg及应用的问题。
数据库都HANG住了,如何分析呢?
想到了以前看别人分享的一个hanganalyze在数据库HANG住时可以用于分析HANG的原因,于是找到命令ORADEBUG hanganalyze 3。分析trace文件,看到hang chain如下图
再往下看,SMON进程在等待parallel recovery coord wait for reply,等待时间已经有289min,正是故障出现到hanganalyze的时间,而且他阻塞了1465个session。
从trace中看到等待事件为parallel recover coord wait for reply 、gc domain validation。没见过这个等待事件,于是查询MOS,关于这两个等待事件的文档不是很多,找到一篇
不知是否触发了ORACLE的BUG。
由于时间紧迫,只能选择把节点1的数据库实例进行重启,重启后数据库恢复正常。
事后找大神帮忙分析原因,看SMON进程的trace信息
发现正在做并行恢复,查看OSW中的SMON进程监控,没有发现性能问题。
查看到有大量的p00xx的进程,说明是在并行进行恢复,也没有看出有什么问题。
大神建议使用TFA查看日志进行详细,结果没有时间分析就给搁置了。
总结故障就是:节点2宕机,节点1要接管节点2的数据,结果节点1也因为接管HANG住了。
转载于:https://blog.51cto.com/hbxztc/2315536
Oracle RAC一节点宕机导致另一节点HANG的问题分析相关推荐
- oracle双机切换 无法挂载,Linux下Oracle RAC一个节点宕机导致共享存储无法挂载的故障排除...
环境:两台HP ML570 Linux AS4.5 Oracle 10g两台Server做了Oracle的RAC,通过SAN Switch连接到HP MSA1000故障现象:因为其中一个Ora 环境: ...
- zookeeper模拟监控服务节点宕机
2019独角兽企业重金招聘Python工程师标准>>> zookeeper模拟监控服务节点宕机 /*** 模拟监控服务节点宕机* 思路:* 节点上线的时候,往/watch下创建一个节 ...
- clickhouse高可用-节点宕机数据一致性方案-热扩容
clickhouse高可用-节点宕机数据一致性方案-热扩容 1. 集群节点及服务分配 说明: 1.1. 在每个节点上启动两个clickhouse服务(后面会详细介绍如何操作这一步),一个数据分片,一个 ...
- oracle重启root,案例:Oracle报错ORA-15025 ORA-27041 root用户操作rac导致节点宕机
天萃荷净 运维DBA反映Oracle RAC环境中节点宕机,alert发现报错ORA-15025 ORA-27041,分析原因为使用root用户操作rac导致节点宕机 接到同事请求,说客户的linux ...
- oracle rodm包,由重启引起的Oracle RAC节点宕机分析及追根溯源
作者介绍 裴征峰,现就职于北京海天起点,二线专家成员,南京办事处负责人,OCP 10g.OCP 11g.OCM11g.超八年Oracle服务经验,擅长数据库故障诊断和性能调优.目前主要从事客户的现场维 ...
- oracle 监听 宕机,由重启引起的Oracle RAC节点宕机分析及追根溯源
作者介绍 裴征峰,现就职于北京海天起点,二线专家成员,南京办事处负责人,OCP 10g.OCP 11g.OCM11g.超八年Oracle服务经验,擅长数据库故障诊断和性能调优.目前主要从事客户的现场维 ...
- oracle19c集群重启,由重启引起的Oracle RAC节点宕机分析及追根溯源
原标题:由重启引起的Oracle RAC节点宕机分析及追根溯源 作者介绍 裴征峰,现就职于北京海天起点,二线专家成员,南京办事处负责人,OCP 10g.OCP 11g.OCM11g.超八年Oracle ...
- oracle rac节点重启的原因,由重启引起的Oracle RAC节点宕机分析及追根溯源
作者介绍 裴征峰,现就职于北京海天起点,二线专家成员,南京办事处负责人,OCP 10g.OCP 11g.OCM11g.超八年Oracle服务经验,擅长数据库故障诊断和性能调优.目前主要从事客户的现场维 ...
- 下载丨云和恩墨技术通讯:OCR无法正常读取导致节点宕机
墨墨导读:为了及时共享行业案例,通知共性问题,达成共享和提前预防,我们整理和编辑了<云和恩墨技术通讯>,通过对过去一段时间的知识回顾,故障归纳,以期提供有价值的信息供大家参考.同时,我们也 ...
最新文章
- LeetCode题目:两数之和2
- 静态局部变量和全局变量的区别!
- 会做饭的机器人曰记_颜真卿《麻姑仙坛记》:苍劲古朴,体态沉雄,气象宏大...
- 计算机应用基础第二章,计算机应用基础第二章上机操作题
- 计算机应用与技术大赛,关于举办2017年燕山大学第一届计算机应用技术与程序设计大赛的通知...
- Java按包编译jar_java用命令行编译运行时带有包和使用外部jar包的情况
- 4-[函数]- 独立功能的代码块
- Window10上使用Git与Github远程仓库互连
- 苹果Mac从睡眠模式唤醒后 Wi-Fi 无法连接如何解决?
- MFC中手工创建控件
- Mac与Windows快捷键盘点
- 【网络科普】宽带电缆 vs DSL vs 光纤
- 清华梦的粉碎—写给清华大学的退学申请 /王垠
- 书摘---创业36条军规3:创业人七大须知
- Google Dapper,大规模分布式系统的跟踪系统
- 中医文化之熏蒸的历史
- 2017北邮计算机考研经验总结,北邮计算机专考研经验总结.docx
- 让虚拟机接入办公网络
- vue将链接转为二维码的方法即插件
- 媒体查询支持ie浏览器各版本的方法
热门文章
- 我为什么辞去了热爱的 AI 工作?
- SAP MM 同一个序列号可以被多次用在交货单发货过账?
- AI人脸识别 生物识别 活体检测 的发展历程
- SAP MM ME1M报表结果不科学?
- 干货回顾丨TensorFlow四种Cross Entropy算法的实现和应用
- 盘点丨机器学习2017年重大进展汇总
- NLP≠NLU,机器学习无法理解人类语言
- “新一代城市大脑建设与发展“专家研讨会
- 一文读懂虚拟现实产业最新发展趋势
- 毕马威发布《人工智能无处不在》研究报告:人工智能在五大行业的成就与挑战...