正所谓“福无双至,祸不单行”,生产上有套2节点Oracle 11.2.0.4数据库,其中2节点因硬件故障宕机,1节点去HANG住了。我们一起来分析这起故障。

凌晨4点半,值班同时电话说一套生产库节点2宕机了,机房的同事看机器正在启动,估计是硬件原因导致的。心想节点2宕了还有一个节点1在跑,应该问题不大,于是继续睡觉,离公司近的另一位DBA同事赶往现场支持。可是没有过多长时间,到现场的DBA反馈信息:活着的另一节点也出问题了。在宕掉的那个节点2上部署了ogg,由于宕机,自动切换到了节点1,但ogg的复制进程延迟一直的增长,感觉像是一直没有应用。

尝试用sqlplus进入库结果却报了ORA-00020超过最大进程数,无法登录数据库,无法分析数据库当前的状况。

于是分析哪个应用服务器连接这套数据库,是不是由于应用问题造成的。

找到连接数最多的那个ip上的应用,与相关业务人员确认,可以封堵其连接数据库的端口,减少数据库的外部连接。可是把这个ip禁掉之后,别的ip连接数又涨上来了。开始想到,是不是由于数据库的问题导致应用处理慢,进而导致连接数过多呢。现在无法登录数据库也无法进行验证。

与业务部门沟通是否可以尝试kill部分会话,让DBA可以连接到数据库后台,进行一些管理操作,和性能分析。得到业务部分同事的肯定答复之后,kill了部分LOCAL=NO的会话。以sysdba登录数据库后台,执行性能分析语句,刚查完session的等待事件,查第二个sql的时候,sql执行卡住了。从新的窗口登录数据库依然报ORA-00020。这里进一步确定了是由于数据库的性能问题导致了ogg及应用的问题。

数据库都HANG住了,如何分析呢?

想到了以前看别人分享的一个hanganalyze在数据库HANG住时可以用于分析HANG的原因,于是找到命令ORADEBUG hanganalyze 3。分析trace文件,看到hang chain如下图

再往下看,SMON进程在等待parallel recovery coord wait for reply,等待时间已经有289min,正是故障出现到hanganalyze的时间,而且他阻塞了1465个session。

从trace中看到等待事件为parallel recover coord wait for reply 、gc domain validation。没见过这个等待事件,于是查询MOS,关于这两个等待事件的文档不是很多,找到一篇

不知是否触发了ORACLE的BUG。

由于时间紧迫,只能选择把节点1的数据库实例进行重启,重启后数据库恢复正常。

事后找大神帮忙分析原因,看SMON进程的trace信息

发现正在做并行恢复,查看OSW中的SMON进程监控,没有发现性能问题。

查看到有大量的p00xx的进程,说明是在并行进行恢复,也没有看出有什么问题。

大神建议使用TFA查看日志进行详细,结果没有时间分析就给搁置了。

总结故障就是:节点2宕机,节点1要接管节点2的数据,结果节点1也因为接管HANG住了。

转载于:https://blog.51cto.com/hbxztc/2315536

Oracle RAC一节点宕机导致另一节点HANG的问题分析相关推荐

  1. oracle双机切换 无法挂载,Linux下Oracle RAC一个节点宕机导致共享存储无法挂载的故障排除...

    环境:两台HP ML570 Linux AS4.5 Oracle 10g两台Server做了Oracle的RAC,通过SAN Switch连接到HP MSA1000故障现象:因为其中一个Ora 环境: ...

  2. zookeeper模拟监控服务节点宕机

    2019独角兽企业重金招聘Python工程师标准>>> zookeeper模拟监控服务节点宕机 /*** 模拟监控服务节点宕机* 思路:* 节点上线的时候,往/watch下创建一个节 ...

  3. clickhouse高可用-节点宕机数据一致性方案-热扩容

    clickhouse高可用-节点宕机数据一致性方案-热扩容 1. 集群节点及服务分配 说明: 1.1. 在每个节点上启动两个clickhouse服务(后面会详细介绍如何操作这一步),一个数据分片,一个 ...

  4. oracle重启root,案例:Oracle报错ORA-15025 ORA-27041 root用户操作rac导致节点宕机

    天萃荷净 运维DBA反映Oracle RAC环境中节点宕机,alert发现报错ORA-15025 ORA-27041,分析原因为使用root用户操作rac导致节点宕机 接到同事请求,说客户的linux ...

  5. oracle rodm包,由重启引起的Oracle RAC节点宕机分析及追根溯源

    作者介绍 裴征峰,现就职于北京海天起点,二线专家成员,南京办事处负责人,OCP 10g.OCP 11g.OCM11g.超八年Oracle服务经验,擅长数据库故障诊断和性能调优.目前主要从事客户的现场维 ...

  6. oracle 监听 宕机,由重启引起的Oracle RAC节点宕机分析及追根溯源

    作者介绍 裴征峰,现就职于北京海天起点,二线专家成员,南京办事处负责人,OCP 10g.OCP 11g.OCM11g.超八年Oracle服务经验,擅长数据库故障诊断和性能调优.目前主要从事客户的现场维 ...

  7. oracle19c集群重启,由重启引起的Oracle RAC节点宕机分析及追根溯源

    原标题:由重启引起的Oracle RAC节点宕机分析及追根溯源 作者介绍 裴征峰,现就职于北京海天起点,二线专家成员,南京办事处负责人,OCP 10g.OCP 11g.OCM11g.超八年Oracle ...

  8. oracle rac节点重启的原因,由重启引起的Oracle RAC节点宕机分析及追根溯源

    作者介绍 裴征峰,现就职于北京海天起点,二线专家成员,南京办事处负责人,OCP 10g.OCP 11g.OCM11g.超八年Oracle服务经验,擅长数据库故障诊断和性能调优.目前主要从事客户的现场维 ...

  9. 下载丨云和恩墨技术通讯:OCR无法正常读取导致节点宕机

    墨墨导读:为了及时共享行业案例,通知共性问题,达成共享和提前预防,我们整理和编辑了<云和恩墨技术通讯>,通过对过去一段时间的知识回顾,故障归纳,以期提供有价值的信息供大家参考.同时,我们也 ...

最新文章

  1. LeetCode题目:两数之和2
  2. 静态局部变量和全局变量的区别!
  3. 会做饭的机器人曰记_颜真卿《麻姑仙坛记》:苍劲古朴,体态沉雄,气象宏大...
  4. 计算机应用基础第二章,计算机应用基础第二章上机操作题
  5. 计算机应用与技术大赛,关于举办2017年燕山大学第一届计算机应用技术与程序设计大赛的通知...
  6. Java按包编译jar_java用命令行编译运行时带有包和使用外部jar包的情况
  7. 4-[函数]- 独立功能的代码块
  8. Window10上使用Git与Github远程仓库互连
  9. 苹果Mac从睡眠模式唤醒后 Wi-Fi 无法连接如何解决?
  10. MFC中手工创建控件
  11. Mac与Windows快捷键盘点
  12. 【网络科普】宽带电缆 vs DSL vs 光纤
  13. 清华梦的粉碎—写给清华大学的退学申请 /王垠
  14. 书摘---创业36条军规3:创业人七大须知
  15. Google Dapper,大规模分布式系统的跟踪系统
  16. 中医文化之熏蒸的历史
  17. 2017北邮计算机考研经验总结,北邮计算机专考研经验总结.docx
  18. 让虚拟机接入办公网络
  19. vue将链接转为二维码的方法即插件
  20. 媒体查询支持ie浏览器各版本的方法

热门文章

  1. 我为什么辞去了热爱的 AI 工作?
  2. SAP MM 同一个序列号可以被多次用在交货单发货过账?
  3. AI人脸识别 生物识别 活体检测 的发展历程
  4. SAP MM ME1M报表结果不科学?
  5. 干货回顾丨TensorFlow四种Cross Entropy算法的实现和应用
  6. 盘点丨机器学习2017年重大进展汇总
  7. NLP≠NLU,机器学习无法理解人类语言
  8. “新一代城市大脑建设与发展“专家研讨会
  9. 一文读懂虚拟现实产业最新发展趋势
  10. 毕马威发布《人工智能无处不在》研究报告:人工智能在五大行业的成就与挑战...