项目场景:

采用云资源上部署的oracle RAC 11.2.0.4数据库两节点不定期重启


问题描述

现场反馈,数据库两节点不断重启,检查crs,无重大报错。检查asm日志,发现如下报错。

Fri Sep 09 10:32:50 2022
WARNING: Waited 15 secs for write IO to PST disk 0 in group 1.
WARNING: Waited 15 secs for write IO to PST disk 0 in group 1.
WARNING: Waited 15 secs for write IO to PST disk 0 in group 2.
WARNING: Waited 15 secs for write IO to PST disk 0 in group 2.
Fri Sep 09 10:33:13 2022
NOTE: client exited [2319]
Fri Sep 09 10:33:13 2022
NOTE: ASMB process exiting, either shutdown is in progress
NOTE: or foreground connected to ASMB was killed.
Fri Sep 09 10:33:13 2022
PMON (ospid: 2262): terminating the instance due to error 481
Fri Sep 09 10:33:14 2022
ORA-1092 : opitsk aborting process
Fri Sep 09 10:33:14 2022
License high water mark = 19
Instance terminated by PMON, pid = 2262
USER (ospid: 8682): terminating the instance
Instance terminated by USER, pid = 8682

原因分析:

经过查询oracle官方有关于此问题说明
ASM diskgroup dismount with “Waited 15 secs for write IO to PST” (文档 ID 1581684.1)
Generally this kind messages comes in ASM alertlog file on below situations,
Delayed ASM PST heart beats on ASM disks in normal or high redundancy diskgroup,causes the affected disks to go offline.By default, it is 15 seconds.
Diskgroup will get dismounted if ASM cannot issue the PST heart beat to majority of the PST copies in a diskgroup with respect to redundancy.
i.e. Normal redundancy diskgroup will get dismounted if it failed to update two of the copies.
By the way the heart beat delays are sort of ignored for external redundancy diskgroup.
ASM instance stop issuing more PST heart beat until it succeeds PST revalidation,but the heart beat delays do not dismount external redundancy diskgroup directly.
The ASM disk could go into unresponsiveness, normally in the following scenarios:

  • Some of the paths of the physical paths of the multipath device are offline or lost
  • During path ‘failover’ in a multipath set up
  • Server load, or any sort of storage/multipath/OS maintenance
    The Doc ID 10109915.8 briefs about Bug 10109915(this fix introduce this underscore parameter). And the issue is with no OS/Storage tunable timeout mechanism in a case of a Hung NFS Server/Filer. And then _asm_hbeatiowait helps in setting the time out.

上面描述,可以理解为下面几点:

  1. ASM实例会定期检查每一个磁盘组的磁盘状态,是否通信正常;
  2. 这个检查,只是针对normal和high冗余模式,对于external冗余,不会遇到这个错误;
  3. 默认情况是15s超时,也就是说15s磁盘组还是没有对ASM实例响应的话,就会dismount磁盘组。
  4. 此次部署使用云资源共享磁盘,仅一个磁盘,会导致数据库ASM磁盘组宕机。

解决方案:

根据oracle建议,将_asm_hbeatiowait时间调整为120S。

#查看当前_asm_hbeatiowait时间
SQL> select ksppinm as "hidden parameter", ksppstvl as "value" from x$ksppi join x$ksppcv using (indx) where ksppinm like '\_%' escape '\' and ksppinm like '%undo%' order by ksppinm;
hidden parameter value;
_asm_hbeatiowait 15
_asm_hbeatwaitquantum 2#修改_asm_hbeatiowait时间为120S
SQL> alter system set "_asm_hbeatiowait"=120 scope=spfile;#重启CRS和数据库

更改后,观察运行状况,无报错。
建议:
不推荐在虚拟化环境安装oracle rac。

【ORACLE】RAC 磁盘超时,导致数据库重启 WARNING: Waited 15 secs for write IO to PST disk 0 in group 1.相关推荐

  1. WARNING: Waited 15 secs for write IO to PST disk 4 in group 3 in alert_asm.log

    昨天同事遇到一个 2节点,基于AIX 7.1的的ASM ocr访问超时的问题,Node2无法正常访问,检查Node2的alert_asm.log日志如下: Reference :ASM diskgro ...

  2. Oracle显示表裂开,【案例】Oracle RAC脑裂导致节点重启原因分析

    天萃荷净 Oracle研究中心案例分析:运维DBA反映Oracle RAC重启,分析原因为脑裂导致,结合日志分析产生原因. 本站文章除注明转载外,均为本站原创: 转载自love wife & ...

  3. 下载丨7月数据库技术通讯:LINUX OS配置问题导致数据库重启

    为了及时共享行业案例,通知共性问题,达成共享和提前预防,我们整理和编辑了<云和恩墨技术通讯>,通过对过去一段时间的知识回顾,故障归纳,以期提供有价值的信息供大家参考.同时,我们也希望能够将 ...

  4. mysql sys库 oom_MySQL 5.6因为OOM导致数据库重启

    MySQL 5.6因为OOM导致数据库重启 发布时间:2020-08-09 08:29:53 来源:ITPUB博客 阅读:89 作者:feelpurple 线上的一套MySQL 5.6的从库,因为OO ...

  5. oracle 单机改rac,把oracle rac 转化作单机数据库

    把oracle rac 转化为单机数据库 1. Stop database and CRS on both node $ srvctl stop database -d mydb # crsctl s ...

  6. Oracle RAC CSS 超时计算 及 参数 misscount, Disktimeout 说明

    一. 概述 在之前的文章: RAC 的一些概念性和原理性的知识 http://blog.csdn.net/tianlesoftware/article/details/5331067 提到OCSSD  ...

  7. oracle rac 磁盘重建,Oracle RAC环境下重建ASM磁盘组 Re-create ASM diskgroup with Oracle RAC...

    oracle@node01:/$dbca 查看创建结果: 16)最后,引用原文如下: Steps to Re-Create ASM Diskgroups [ID 268481.1] 修改时间 17-M ...

  8. 【北亚数据恢复】Hp DL380服务器raid磁盘故障导致数据库数据丢失的数据恢复案例

    环境: HP DL380服务器: 三块300GSAS硬盘: 数据库在D分区: 备份放在E分区. 故障: 一块硬盘出现故障,状态灯红色,RAID瘫痪,存储故障,D分区不能识别,E分区可识别,拷贝备份文件 ...

  9. 数据太大导致oracle数据库连接关闭,ORACLE异常关闭后导致数据库报错无法连接问题解决办法-Oracle...

    1.首先kill掉所有oracle相关的进程 [oracle@oracle11g db_1]$ps -ef|grep $ORACLE_SID [oracle@oracle11g db_1]$kill ...

最新文章

  1. 【C++】【三】单向链表
  2. pygame 笔记-8 背景音乐子弹音效
  3. 【Groovy】Groovy 脚本调用 ( Groovy 脚本中调用另外一个 Groovy 脚本 | 调用 evaluate 方法执行 Groovy 脚本 | 参数传递 )
  4. 前端必读:浏览器内部工作原理
  5. C#线程使用(二)全面总结
  6. 在线建立或重做mysql主从复制架构方法(传统模式和GTID模式)【转】
  7. 如何在Java 8中创建线程安全的ConcurrentHashSet?
  8. pidgin-qq可以使用QQ2012协议了
  9. 【剑指offer】调整数组顺序使奇数位于偶数前面
  10. (node:62099) ExperimentalWarning: The fs.promises API is experimental
  11. oracle 分区表详解
  12. Matlab 2016a 安装及破解方法
  13. 新型养老机构的“智安”神器 | ​钛颐康智慧养老物联网平台
  14. C语言经典编程282例08
  15. STM32中 利用PWM控制步进电机,ARR与PSC值的设定
  16. 小象学院python数据分析课程怎么样_数据分析和数据挖掘-2016小象学院
  17. 2.Vue3.0 性能提升主要是通过哪几方面体现的?
  18. gsoap 的好网站 http://www.cs.fsu.edu/~engelen/soapexamples.html
  19. linux 环境下安装dubbo管理控制台 dubbo admin
  20. 震坤行:以成就客户为导向,用专业打造数字化供应链采购流程

热门文章

  1. 看在钱的份上,请你不要忽视算法
  2. OpenREALM :基于视觉SLAM和三维重建的无人机实时空中测绘
  3. chrome 常用插件下载安装
  4. 神经网络建模的基本思想,建模方法神经网络设计
  5. MySQL报错:Incorrect string value: '\xE6\x9D\x82\xE8\xB4\xA7...' for column
  6. phpwind database.php,phpwind中的数据库操作类
  7. 记中国著名佛学书法家——释心仁
  8. PHP实现手机号或身份证号中间几位变*
  9. 生信分析学习笔记:(2)GO KEGG分析
  10. 【高并发】如何解决可见性和有序性问题?这次彻底懂了!