oracle_最常见的 5 个导致节点重新启动、驱逐或 CRS 意外重启的问题

  Purpose
  Scope
  Details
  问题 1:节点重新启动,但是日志文件未显示任何错误或原因。
  问题 2:节点重新启动,该节点是由于丢失网络心跳而被逐出。
  问题 3:在出现存储问题后节点重新启动。
  问题 4:asm 或数据库实例被挂起或驱逐后节点重新启动。
  问题 5:CRS 自动重启,但是节点没有重新启动
  References

Applies to:

Oracle Database - Enterprise Edition - Version 10.1.0.2 to 11.2.0.3 [Release 10.1 to 11.2]
Information in this document applies to any platform.

Purpose

本文章简要概述了导致节点重新启动或者 CRS 意外重启的几个最常见问题

Scope

有节点重新启动问题的所有用户

Details

问题 1:节点重新启动,但是日志文件未显示任何错误或原因。

原因: 如果节点重新启动是由于某个 Oracle 进程,但是日志文件没有显示任何错误,则故障位置为 oprocd、cssdmonitor 和 cssdagent 进程。当节点挂起一段时间或者一个或多个关键 CRS 进程无法被调度获得 CPU 时,会发生这种情况。因为那些进程都以实时优先级运行,所以问题可能是因为内存耗尽或者可用内存低,而不是因为 CPU 耗尽。也可能是由于内核交换页的工作量繁重或者正忙于扫描内存以标识要释放的页。也可能存在 OS 调度问题。
解决方案:
1) 如果 CRS 版本为 11.1 或者更低,请将 diagwait 设置为 13。
2) 如果平台为 AIX,请参照文章 811293.1(RAC and Oracle Clusterware Best Practices and Starter Kit (AIX))中所建议的方法优化 AIX VM 参数。
3) 如果平台为 Linux,请设置 Hugepage 并将内核参数 vm.min_free_kbytes 设置为保留“512MB”,将 swappiness 设置为 100。
请注意,使用 Hugepage 时无法设置 memory_target。
4) 检查是否有大量内存分配给了操作系统的 IO 缓冲区高速缓存。与 OS 供应商联系,建议一些方法来减少 IO 缓冲区高速缓存量,或者增加从 IO 缓冲区高速缓存回收内存的比率。
5) 增加内存量。

问题 2:节点重新启动,该节点是由于丢失网络心跳而被逐出。

这是因为丢失网络心跳或 发生了脑裂。在双节点环境中,节点 2 的重复重新启动通常意味着节点 2 由于 脑裂而被驱逐。在节点重新启动前,ocssd.log 会显示丢失网络心跳或一条脑裂消息。

原因:节点之间通过私网互连的网络通信失败。故障可能是单向或者双向的。
解决方案:修复网络问题。确保交换机和 NIC 卡等所有网络组件都正常运行。确保 ssh 能通过私网互连工作。请注意,网络通常在节点重新启动后可以恢复正常。
注意: 如果您使用了巨帧(Jumbo Frame),请参考文章341788.1 (Recommendation for the Real Application Cluster Interconnect and Jumbo Frames)。如果交换机的巨帧设置与集群私网NIC卡的MTU(巨帧)设置不同,会出现网络问题,并导致节点驱逐或CRS无法启动。有时,如果您使用的交换机和NIC卡来自不同的厂商,它们对巨帧的支持也可能不同。

问题 3:在出现存储问题后节点重新启动。

ocssd.log 文件显示节点因为无法访问大部分 voting disks 而重新启动。

原因:CRS 必须能够访问大部分 voting disks 。如果 CRS 无法正常访问大部分 voting disks ,则 CRS 无法确保群集的一致性,所以 CRS 重新启动节点。
解决方案:修复 voting disks 的问题。确保用户 oracle 或 grid,或者CRS 或 GI HOME 的拥有者可以使用和访问 voting disks 。如果 voting disks 未在 ASM 中,请使用 "dd if= of=/dev/null bs=1024 count=10240" 测试可访问性。

问题 4:asm 或数据库实例被挂起或驱逐后节点重新启动。

正常运行节点的 ocssd.log 显示一个 member kill 请求升级到了 node kill 请求。

原因:从版本 11.1 开始,如果无法在数据库级别驱逐数据库或 asm 实例,则意味 CRS 将介入来尝试终止问题实例,这被称之为 member kill 请求。如果 CRS 无法终止该问题实例,则 CRS 会重新启动节点,因为 meber kill 请求被升级到了 node kill 请求。
解决方案:查找无法在数据库级别驱逐 asm 或数据库实例(lmon、lmd 和 lms 发起的驱逐)的原因。一个常见原因是实例正处于挂起状态,对远程实例的终止请求无法响应。另一个原因是无法终止多个实例进程中的某个进程。如进程处于不可中断的 IO 闲置状态就属于这样一个例子。

问题 5:CRS 自动重启,但是节点没有重新启动

原因:从版本 11.2.0.2 开始,如果 CRS 由于此处列出的任何原因而需要重新启动节点,CRS 会在重新启动节点之前尝试先对自身进行重启。仅当它无法成功重启自身时,CRS 才重新启动节点来强制对自身进行重启。
解决方案:检查此处列出的哪个节点重新启动原因适用,并按照针对该原因列出的解决方案进行操作。

References

NOTE:341788.1 - Recommendation for the Real Application Cluster Interconnect and Jumbo Frames
NOTE:1050693.1 - Troubleshooting 11.2 Clusterware Node Evictions (Reboots)
NOTE:265769.1 - Troubleshooting 10g and 11.1 Clusterware Reboots
NOTE:452326.1 - Linux Kernel Lowmem Pressure Issues and Kernel Structures
NOTE:811293.1 - RAC and Oracle Clusterware Best Practices and Starter Kit (AIX)

oracle_最常见的 5 个导致节点重新启动、驱逐或 CRS 意外重启的问题相关推荐

  1. 最常见的5个导致节点重新启动、驱逐或 CRS 意外重启的问题

    Applies to: Oracle Database - Enterprise Edition - Version 10.1.0.2 to 11.2.0.3 [Release 10.1 to 11. ...

  2. oracle集群断电重启,Oracle10.2.0.4 RAC 2节点集群节点被驱逐导致系统异常重启

    oracle 10.2.0.4 redhat 5.4  linux OCSS.LOG日志: 1.正常的节点2 [    CSSD]2013-12-03 15:07:52.100 [1258428736 ...

  3. 下载丨云和恩墨技术通讯:OCR无法正常读取导致节点宕机

    墨墨导读:为了及时共享行业案例,通知共性问题,达成共享和提前预防,我们整理和编辑了<云和恩墨技术通讯>,通过对过去一段时间的知识回顾,故障归纳,以期提供有价值的信息供大家参考.同时,我们也 ...

  4. Hadoop多次format格式化会导致节点的clusterID不一致

    1. 使用环境 vmware配置的3个Centos7虚拟机,一个master,2个slave 2. 问题描述 hadoop 多次格式化format namenode 导致节点不能启动 出现这个问题的原 ...

  5. 模拟私网问题导致节点宕机无法启动

    模拟私网问题导致节点宕机无法启动 目的 分析过程 GI alert日志 os日志 ocssd.log 日志 参考文档 目的 本文章通过模拟私网问题,导致集群节点宕机,来进行日志分析. # ifconf ...

  6. 精华阅读第 13 期 |常见的八种导致 APP 内存泄漏的问题 1

    2019独角兽企业重金招聘Python工程师标准>>> 本期是移动开发精英俱乐部的第13期文章,都是以技术为主,所以这里就不过多的进行赘述了,我们直接看干货内容吧!本文系ITOM管理 ...

  7. oracle重启root,案例:Oracle报错ORA-15025 ORA-27041 root用户操作rac导致节点宕机

    天萃荷净 运维DBA反映Oracle RAC环境中节点宕机,alert发现报错ORA-15025 ORA-27041,分析原因为使用root用户操作rac导致节点宕机 接到同事请求,说客户的linux ...

  8. Oracle显示表裂开,【案例】Oracle RAC脑裂导致节点重启原因分析

    天萃荷净 Oracle研究中心案例分析:运维DBA反映Oracle RAC重启,分析原因为脑裂导致,结合日志分析产生原因. 本站文章除注明转载外,均为本站原创: 转载自love wife & ...

  9. k8s驱逐篇(3)-kubelet节点压力驱逐-源码分析篇

    kubelet节点压力驱逐-概述 kubelet监控集群节点的 CPU.内存.磁盘空间和文件系统的inode 等资源,根据kubelet启动参数中的驱逐策略配置,当这些资源中的一个或者多个达到特定的消 ...

最新文章

  1. 刻意练习:Python基础 -- Task06. 字典与集合
  2. 机器学习的基础图表!
  3. UVA 1376 Animal Run 最短路
  4. C++中基类的析构函数为什么要用virtual虚析构函数
  5. WebSocket FlashSocket
  6. hdu4099(斐波那契数+字典树)
  7. Ant Design UI 框架的的安装及使用
  8. iis7.5站点为共享文件的设置
  9. ios睡眠分析 卧床 睡眠_苹果ios14睡眠记录功能 让用户清楚的了解自己的睡眠_娱乐频道_中华网...
  10. Windows10系统提示 为了对电脑进行保护,已经阻止此应用(管理员已阻止你运行此应用。有关详细信息,请与管理员联系。)的解决办法
  11. 方程检验格式图片_解方程并检验(图片) x+3.5=3.5解方程
  12. 【代码质量】嵌入式编程节约内存技巧
  13. Android 获得 usb 权限的两种方式
  14. 惠普微型计算机光驱在哪里,惠普从光驱启动开始怎么做(包括hp笔记本)
  15. iOS底层原理之架构设计
  16. 在vue页面监听中如何修改子元素的样式
  17. VariantsTransport_SAP刘梦_新浪博客
  18. 电脑公司Ghost xp SP3 纯净快速装机版【Xp纯净版系统下载】
  19. Cooperative Vehicular Content Distribution in Edge Computing Assisted 5G-VANET(5G车联网边缘计算数据开发)
  20. 收藏~六大网站访客类型及应对方式

热门文章

  1. Android、Java泛型扫盲
  2. SpringBoot配置logback日志 (六)
  3. Feign Hystrix微服务调用Session传播
  4. 计算机信息管理试卷答案,计算机信息管理专业《计算机组成原理》试卷B和参考答案4...
  5. android 平板怎么截图,平板电脑怎么截图 平板电脑截图方法【详解】
  6. 注释不能自动设置时间_微波炉维修|微波炉能加热食品,但是到了设定时间,不能自动断电。...
  7. OpenShift / RHEL / DevSecOps 汇总目录
  8. OpenShift 4 之Istio-Tutorial (3) 监控微服务运行
  9. 微软在 Build 2020 上“展示”新版 Edge for Linux
  10. 如何为团队选择有用的增量进度衡量标准