墨墨导读:为了及时共享行业案例,通知共性问题,达成共享和提前预防,我们整理和编辑了《云和恩墨技术通讯》,通过对过去一段时间的知识回顾,故障归纳,以期提供有价值的信息供大家参考。同时,我们也希望能够将热点事件、新的产品特性及其他有价值的信息聚集起来,为您提供具有前瞻性的支持信息,保持对于当前最新的数据库新闻和事件的了解,其中包括重要数据库产品发布、警报、更新、新版本、补丁等。

墨天轮文档:《云和恩墨技术通讯(11月刊)》:https://www.modb.pro/doc/6950(复制到浏览器中打开或者点击文末左下角“阅读原文”立即下载)

这里推荐一个常见的问题,希望对大家有借鉴作用。

故障:OCR无法正常读取导致节点宕机-陆发圣

“OCR存储了所有与集群,RAC数据库相关的配置信息。并且这种配置信息都是多个节点进行共享。所以OCR会存放在共享磁盘上。OCR包含了节点成员信息,数据库实例,节点,以及其他映射关系,资源配置信息等。本文主要介绍的是OCR磁盘异常,导致节点宕机。

1. 问题概述

数据库系统节点1集群资源突然故障,在通过重启集群资源也未能恢复(无法找到表决磁盘)。

2. 过程分析

2.1 故障根源

通过与主机工程师的交流和日志分析,由于hba光纤口断掉,而且由于主机上只配了一块HBA卡,没有冗余,从而导致主机无法与存储磁盘正常通信。因此节点1无法读取OCR表决盘,导致节点1集群资源宕机,从而引发数据库意外宕机。

Nov  16 10:04:33 gzfpdb1 kernel: rport-1:0-2: blocked FC remote port time out:  removing target and saving binding

Nov 16 10:04:33 gzfpdb1 kernel: lpfc 0000:0e:00.0: 0:(0):0203 Devloss  timeout on WWPN 50:00:00:e0:d4:6f:2d:80 NPort x010500 Data: x0 x8 x0

3. 日志分析

3.1 数据库日志

在16日10点04分33秒数据库无法正常对磁盘组GROUP 1的DISK 0正常进行读操作:

Mon  Nov 16 10:04:33  2020

WARNING: Read Failed. group:1 disk:0 AU:4247  offset:0 size:1048576WARNING: Read Failed. group:1 disk:0 AU:40598 offset:0  size:1048576

随后也出现大量IO报错:

ORA-27061:  waiting for async I/Os failed

Linux-x86_64 Error: 5: Input/output error

Additional information: -1

Additional information: 8192

Errors in file  /u01/app/oracle/diag/rdbms/gzfpdb/gzfpdb1/trace/gzfpdb1_dbw6_22402.trc:

ORA-15080: synchronous I/O operation to a disk failed

ORA-27061: waiting for async I/Os failed

Linux-x86_64 Error: 5: Input/output error

Additional information: -1

Additional information: 8192

Errors in file  /u01/app/oracle/diag/rdbms/gzfpdb/gzfpdb1/trace/gzfpdb1_dbw2_22394.trc:

ORA-15080: synchronous I/O operation to a disk failed

ORA-27061: waiting for async I/Os failed

Linux-x86_64 Error: 5: Input/output error

Additional information: -1

Additional information: 8192

Errors in file  /u01/app/oracle/diag/rdbms/gzfpdb/gzfpdb1/trace/gzfpdb1_dbw0_22390.trc:

ORA-15080: synchronous I/O operation to a disk failed

ORA-27061: waiting for async I/Os failed

Linux-x86_64 Error: 5: Input/output error

Additional information: -1

Additional information: 8192

于16日10点04分34秒基于自我保护机制,集群自行杀掉了DBWR进程,因此数据库宕机:

Mon  Nov 16 10:04:34 2020

ORA-1092 : opitsk aborting process

Instance  terminated by DBW7, pid = 22404

3.2 系统日志

同样是10点04分33秒,磁盘:sdc、sdd、sde存在大量I/O错误:

3.3 集群告警日志

无法找到表决磁盘,导致集群无法正常启动:

3.4 故障处置

确认了数据库已经异常宕机的前提下,于10点57分左右进行了主机重启,主机启动完毕之后11点00分集群随主机启动,之后数据库于11点00分37秒恢复正常:

Mon  Nov 16 11:00:37 2020

QMNC started with pid=51, OS id=7015

Completed: ALTER DATABASE OPEN /* db agent *//* {1:41562:2} */

4. 根本解决方案

故障根本原因为:节点1表决磁盘无法正常读写导致节点1集群异常宕机;

临时解决方法:重启1节点主机,集群、数据库恢复正常;

建议:重要系统应配置双HBA卡、双网卡、双电源等冗余配置,避免这些组件成为单点故障来源。

墨天轮文档:《云和恩墨技术通讯(11月刊)》:https://www.modb.pro/doc/6950(复制到浏览器中打开或者点击文末左下角“阅读原文”立即下载)

推荐阅读:144页!分享珍藏已久的数据库技术年刊

推荐下载:2020数据技术嘉年华PPT下载

视频号,新的分享时代,关注我们,看看有什么新发现?

数据和云

ID:OraNews

如有收获,请划至底部,点击“在看”,谢谢!

点击下图查看更多 ↓

云和恩墨大讲堂 | 一个分享交流的地方

长按,识别二维码,加入万人交流社群

请备注:云和恩墨大讲堂

  点个“在看”

你的喜欢会被看到❤

下载丨云和恩墨技术通讯:OCR无法正常读取导致节点宕机相关推荐

  1. shell 获取ora报错信息_频发:故障排除之又见 ORA-4031丨云和恩墨技术通讯

    亲爱的读者朋友: 为了及时共享行业案例,通知共性问题,达成共享和提前预防,我们整理和编辑了<云和恩墨技术通讯>,通过对过去一段时间的知识回顾,故障归纳,以期提供有价值的信息供大家参考.同时 ...

  2. 频发:故障排除之又见 ORA-4031丨云和恩墨技术通讯

    亲爱的读者朋友: 为了及时共享行业案例,通知共性问题,达成共享和提前预防,我们整理和编辑了<云和恩墨技术通讯>,通过对过去一段时间的知识回顾,故障归纳,以期提供有价值的信息供大家参考.同时 ...

  3. 数据库比特币勒索病毒攻击警示,云和恩墨技术通讯六月刊精选

    各位亲爱的用户/读者朋友们: 为了及时共享行业案例,通告共性问题,达成知识共享和提前预防,我们整理和编辑了<云和恩墨技术通讯>(6月刊),通过对过去一段时间的知识回顾和故障归纳,以期提供有 ...

  4. 下载丨67页PDF,云和恩墨技术通讯(2021年1月刊)

    墨墨导读:为了及时共享行业案例,通知共性问题,达成共享和提前预防,我们整理和编辑了<云和恩墨技术通讯>,通过对过去一段时间的知识回顾,故障归纳,以期提供有价值的信息供大家参考.同时,我们也 ...

  5. 下载丨58页PDF,云和恩墨技术通讯(2020年12月刊)

    墨墨导读:为了及时共享行业案例,通知共性问题,达成共享和提前预防,我们整理和编辑了<云和恩墨技术通讯>,通过对过去一段时间的知识回顾,故障归纳,以期提供有价值的信息供大家参考.同时,我们也 ...

  6. 下载丨53页PDF,云和恩墨技术通讯(2021年4月刊)

    墨墨导读:为了及时分享行业案例.通知共性问题.达成共享和提前预防,我们整理和编辑了<云和恩墨技术通讯>,通过对过去一段时间的知识回顾.故障归纳,以期提供有价值的信息供大家参考.同时,我们也 ...

  7. 下载丨66页PDF,云和恩墨技术通讯(2022年7月刊)

    墨墨导读:为了及时分享行业案例.通知共性问题.达成共享和提前预防,我们整理和编辑了<云和恩墨技术通讯>,通过对过去一段时间的知识回顾.故障归纳,以期提供有价值的信息供大家参考.同时,我们也 ...

  8. 经验:Library Cache Lock之异常分析-云和恩墨技术通讯精选

    亲爱的读者朋友: 为了及时共享行业案例,通知共性问题,达成共享和提前预防,我们整理和编辑了<云和恩墨技术通讯>,通过对过去一段时间的知识回顾,故障归纳,以期提供有价值的信息供大家参考.同时 ...

  9. Oracle 12c因bug导致ORA-04031问题处理过程 | 云和恩墨技术通讯精选

    各位亲爱的用户/读者朋友们: 为了及时共享行业案例,通告共性问题,达成知识共享和提前预防,我们整理和编辑了<云和恩墨技术通讯>(8月刊),通过对过去一段时间的知识回顾和故障归纳,以期提供有 ...

最新文章

  1. 两个线程同时访问一个变量_百战程序员:Java多线程对象及变量的并发访问
  2. Microsoft Dynamics CRM 2011中,Lookup字段的赋值
  3. PAT甲级1007 Maximum Subsequence Sum :[C++题解]DP,最大子序列和、求最优的区间方案
  4. Exchange server 2013 安装部署初体验
  5. 修改数据库文件为自动扩展以达到表空间自动扩展的目的
  6. 笔记-Microsoft SQL Server 2008技术内幕:T-SQL语言基础-08 数据修改
  7. P8实战(四):多种分布式锁实现
  8. 软件开发的生命周期描述
  9. 博途软件中多重背景块的建立_如何正确的理解西门子博途中的—单个实例和多重实例的区别...
  10. dvd在线租赁问题 matlab,DVD在线租赁问题.doc
  11. JavaScript初学者系列一:JavaScript基础(上)
  12. GestureDetector类的用法
  13. 中标麒麟系统安装步骤
  14. 诺基亚linux系统手机系统下载,智能手机操作平台大翻盘 诺基亚拥抱Linux
  15. 如何定义用户模型(persona)
  16. 食品经营许可证模板_食品流通许可证与食品经营许可证
  17. 目标检测: 一文读懂 CenterNet (CVPR 2019)
  18. Keyphrase Chunking - bert2chunk_dataloader.py分析
  19. osgEarth的Rex引擎原理分析(二十五)地形瓦片大小尺寸和LOD的关系
  20. 大数据最佳实践-flink

热门文章

  1. 产品壁垒_打破人员,流程和产品之间的壁垒
  2. 额外sql使用什么封装_为什么建立社区值得付出额外的努力
  3. opensource项目_Opensource.com生日快乐:开源7年
  4. linux登陆提示鉴定故障_5个最常见的Linux问题的故障排除提示
  5. 原型磨刀 开源一样的_晚餐也可以像开源一样
  6. Bootstrap 排版引用
  7. VS2019C++代码出现cout不明确
  8. 运算器为计算机提供了计算与逻辑,【单选题】运算器为计算机提供了计算与逻辑功能,因此称它为()....
  9. linux比较10个文件是否一致,Linux中文件管理--cmp--比较两个文件是否有差异
  10. IQ不平衡补偿 Lowdin算法