oracle RAC一个节点频繁重启解决

类别:Oracle数据库   作者:码皇   来源:hijk139的专栏     点击:

oracle RAC一个节点频繁重启解决故障现象:2011年的一次问题,oracle 11gr2 rac + redhat linux ,2节点rac中的其中一个节点频繁重启;原因分析:主机日志VIP发生了漂移,重启后又归位node1Nov 23 18:2

oracle RAC一个节点频繁重启解决 故障现象:  2011年的一次问题,oracle 11gr2 rac + redhat linux ,2节点rac中的其中一个节点频繁重启; 原因分析: 主机日志 VIP发生了漂移,重启后又归位 node1 Nov 23 18:22:27 dtydb2 avahi-daemon[13096]: Withdrawing address record for 10.4.124.242 on bond2. Nov 23 18:22:31 dtydb2 avahi-daemon[13096]: Withdrawing address record for 169.254.188.250 on bond1. Nov 23 18:23:10 dtydb2 avahi-daemon[13096]: Registering new address record for 169.254.188.250 on bond1. Nov 23 18:23:35 dtydb2 avahi-daemon[13096]: Registering new address record for 10.4.124.242 on bond2. Nov 23 18:23:35 dtydb2 avahi-daemon[13096]: Withdrawing address record for 10.4.124.242 on bond2. Nov 23 18:23:35 dtydb2 avahi-daemon[13096]: Registering new address record for 10.4.124.242 on bond2. Nov 23 18:23:35 dtydb2 avahi-daemon[13096]: Withdrawing address record for 10.4.124.242 on bond2. Nov 23 18:23:35 dtydb2 avahi-daemon[13096]: Registering new address record for 10.4.124.242 on bond2. node2 Nov 23 18:22:31 dtydb1 avahi-daemon[13132]: Registering new address record for 10.4.124.242 on bond2. Nov 23 18:22:31 dtydb1 avahi-daemon[13132]: Withdrawing address record for 10.4.124.242 on bond2. Nov 23 18:22:31 dtydb1 avahi-daemon[13132]: Registering new address record for 10.4.124.242 on bond2. Nov 23 18:22:31 dtydb1 avahi-daemon[13132]: Withdrawing address record for 10.4.124.242 on bond2. Nov 23 18:22:31 dtydb1 avahi-daemon[13132]: Registering new address record for 10.4.124.242 on bond2. Nov 23 18:23:34 dtydb1 avahi-daemon[13132]: Withdrawing address record for 10.4.124.242 on bond2. 数据库日志 不能连接ASM,所有重启 ORA-15064: communication failure with ASMinstance ORA-03113: end-of-file on communicationchannel   ASM日志 and the ASM instance has the alert info Wed Nov 23 18:22:29 2011 NOTE: client exited [13858] Wed Nov 23 18:22:29 2011 NOTE: ASMB process exiting, either shutdown is in progress NOTE: or foreground connected to ASMB was killed. Wed Nov 23 18:22:29 2011 PMON (ospid: 13797): terminating the instance due to error 481 Wed Nov 23 18:22:29 2011 ORA-1092 : opitsk aborting process Wed Nov 23 18:22:30 2011 ORA-1092 : opitsk aborting process Wed Nov 23 18:22:30 2011 ORA-1092 : opitsk aborting process Wed Nov 23 18:22:30 2011 ORA-1092 : opitsk aborting process Wed Nov 23 18:22:30 2011 License high water mark = 16 Instance terminated by PMON, pid = 13797 USER (ospid: 9488): terminating the instance Instance terminated by USER, pid = 948   ocssd.log:has a disk HB, but no network HB, 2011-11-23 18:22:20.512: [    CSSD][1111939392]clssnmPollingThread: node dtydb1 (1) is impending reconfig, flag 394254, misstime 15910 2011-11-23 18:22:20.512: [    CSSD][1111939392]clssnmPollingThread: local diskTimeout set to 27000 ms, remote disk timeout set to 27000, impending reconfig status(1) 2011-11-23 18:22:20.512: [    CSSD][1106696512]clssnmvDHBValidateNCopy: node 1, dtydb1, has a disk HB, but no network HB, DHB has rcfg 216519746, wrtcnt, 1004978, LATS 1030715744, lastSeqNo 946497, uniqueness 1321449141, timestamp 1322043740/933687024 2011-11-23 18:22:21.515: [    CSSD][1106696512]clssnmvDHBValidateNCopy: node 1, dtydb1, has a disk HB, but no network HB, DHB has rcfg 216519746, wrtcnt, 1004980, LATS 1030716744, lastSeqNo 1004978, uniqueness 1321449141, timestamp 1322043741/933688024 2011-11-23 18:22:22.518: [    CSSD][1106696512]clssnmvDHBValidateNCopy: node 1, dtydb1, has a disk HB, but no network HB, DHB has rcfg 216519746, wrtcnt, 1004982, LATS 1030717754, lastSeqNo 1004980, uniqueness 1321449141, timestamp 1322043742/933689044 2011-11-23 18:22:23.520: [    CSSD][1106696512]clssnmvDHBValidateNCopy: node 1, dtydb1, has a disk HB, but no network HB, DHB has rcfg 216519746, wrtcnt, 1004984, LATS 1030718754, lastSeqNo 1004982, uniqueness 1321449141, timestamp 1322043743/933690044 2011-11-23 18:22:24.140: [    CSSD][1113516352]clssnmSendingThread: sending status msg to all nodes 2011-11-23 18:22:24.141: [    CSSD][1113516352]clssnmSendingThread: sent 4 status msgs to all nodes 2011-11-23 18:22:24.523: [    CSSD][1106696512]clssnmvDHBValidateNCopy: node 1, dtydb1, has a disk HB, but no network HB, DHB has rcfg 216519746, wrtcnt, 1004986, LATS 1030719754, lastSeqNo 1004984, uniqueness 1321449141, timestamp 1322043744/933691044 2011-11-23 18:22:25.525: [    CSSD][1106696512]clssnmvDHBValidateNCopy: node 1, dtydb1, has a disk HB, but no network HB, DHB has rcfg 216519746, wrtcnt, 1004988, LATS 1030720754, lastSeqNo 1004986, uniqueness 1321449141, timestamp 1322043745/933692044 2011-11-23 18:22:26.527: [    CSSD][1106696512]clssnmvDHBValidateNCopy: node 1, dtydb1, has a disk HB, but no network HB, DHB has rcfg 216519746, wrtcnt, 1004990, LATS 1030721764, lastSeqNo 1004988, uniqueness 1321449141, timestamp 1322043746/933693044 经过部署监控脚本,ping日志 从18:21:56开始丢包(117-150包丢失) 64 bytes from 192.168.100.1: icmp_seq=114 ttl=64 time=0.342 ms 64 bytes from 192.168.100.1: icmp_seq=115 ttl=64 time=0.444 ms 64 bytes from 192.168.100.1: icmp_seq=116 ttl=64 time=0.153 ms --- 192.168.100.1 ping statistics --- 150 packets transmitted, 116 received, 22% packet loss, time 149054ms rtt min/avg/max/mdev = 0.084/0.246/0.485/0.099 ms Wed Nov 23 18:22:31 CST 2011 继续分析 经过以上分析,原因基本确认为RAC节点私有网络丢包,导致一个节点主机重启;但为什么会丢包呢?在检查主机网络配置没有问题的情况下,只能请网络工程师协助解决了 网络专家通过网络抓包,发现如下现象 观察到几个现象,内容来自回复的邮件: 1.        4:02:09,192.168.100.1在e4cc这块网卡上发出的ping请求,192.168.100.2没有把回应包送到e4cc; 2.        192.168.100.2发出的ping请求数据包,没有送到192.168.100.1的e4cc这块网卡,但192.168.100.1主机肯定是收到了,因为在e4cc这块网卡上,看到了192.168.100.1给192.168.100.2的回应数据包; 3.        4:02:41,192.168.100.2的e474网卡向192.168.100.1回应了Destination unreachable (Port unreachable),此时192.168.100.2可以正常回包,经过一段时间调整后,4:02:53起,网络恢复正常。 具体可以理解如下 1,已主机2的丢包为例,seq9-seq41丢包 64 bytes from 192.168.100.1: icmp_seq=7ttl=64 time=0.170 ms 64 bytes from 192.168.100.1: icmp_seq=8ttl=64 time=0.376 ms 64 bytes from 192.168.100.1: icmp_seq=42ttl=64 time=0.151 ms 64 bytes from 192.168.100.1: icmp_seq=43ttl=64 time=0.340 ms 2,主机2发出了seq9request 04:02:09.284929 00:1b:21:c1:e4:74 >00:1b:21:c1:e4:cc, ethertype IPv4 (0x0800), length 98: (tos 0x0, ttl  64, id 0, offset 0, flags [DF], proto: ICMP(1), length: 84) 192.168.100.2 > 192.168.100.1: ICMP echo request, id 59655,seq 9, length 64 04:02:10.284885 00:1b:21:c1:e4:74 >00:1b:21:c1:e4:cc, ethertype IPv4 (0x0800), length 98: (tos 0x0, ttl  64, id 0, offset 0, flags [DF], proto: ICMP(1), length: 84) 192.168.100.2 > 192.168.100.1: ICMP echo request, id 59655,seq 10, length 64 3,NE401抓到了主机1回复的seq9的reply包,但没有抓到请求包(从另一个NE40转发的??) 4,这条seq9的数据库包没有送达主机2,或者送达到主机2,主机2没能正常接收(由于没有部署主机2端的reply包,此条无法确认) 继续抓包,主机的备用网卡不停的在发ARP更新请求,这种数据包,影响了二层网络的MAC地址学习,导致地址学习频繁切换,极端情况下会导致丢包。建议确认其用途,在不影响业务的情况下,建议关闭这种通信。 解决方法: down掉交换机上的和主机相连的一个端口,使主机、交换机、防火墙口字型连接,这样就不会有arp请求发出,问题解决再也没有出现节点重启的问题。

相关热词搜索:

oracle 一个 节点

oracle rac节点重启,oracle RAC一个节点频繁重启解决相关推荐

  1. rac一节点时间比另一个节点快_数据库数据那么多为什么可以检索这么快?

    你好,是我琉忆. 经常跟数据打交道的你,有没有去考虑过数据上百万,为什么它可以检索那么快? 一说到数据库的检索速度这么快,我想你一定想到了索引. 没错,今天我们来简单聊聊索引,聊聊索引是什么,怎么使用 ...

  2. LeetCode 1786. 从第一个节点出发到最后一个节点的受限路径数(迪杰斯特拉 + 拓扑排序)

    文章目录 1. 题目 2. 解题 1. 题目 现有一个加权无向连通图. 给你一个正整数 n ,表示图中有 n 个节点,并按从 1 到 n 给节点编号:另给你一个数组 edges ,其中每个 edges ...

  3. 向基于Linux的Oracle RAC 10g集群添加新节点

    在多数业务中,Oracle真正应用集群 (RAC) 配置的主要业务要求是整个系统中数据库层的可伸缩性 - 这样,当用户数增加时,可将额外实例添加到该集群来分发该负载.     在Oracle RAC ...

  4. oracle数据库升级失败,Oracle 11.2.0.1 rac 升级失败后,数据库降级方案(flashback database)...

    升级失败后,数据库降级方案(flashback database) 环境:Oracle 11.2.0.1 rac on redhat 5.8 Flashback database 准备工作 查看是否f ...

  5. oracle lms进程 内存,Oracle RAC 内存融合(Cache Fusion)

    原标题:Oracle RAC 内存融合(Cache Fusion) 内存融合核心进程 LMS(Global Cache Service Process):这个进程负责完成GCS的大部分工作,它会维护G ...

  6. activiti根据当前节点获取下一个节点信息

    在流程中使用监听器判断当前节点是否需要经过,否则跳转到下一个节点,如下图 当提交申请之后,当前提交人为部门负责人,那么部门负责人节点就不需要走了,直接到下一个节点,但是下一个节点是什么并不知道,就可以 ...

  7. C语言二叉树一个节点的所有祖先节点(附完整源码)

    C语言二叉树一个节点的所有祖先节点 一个节点的所有祖先节点 C语言二叉树一个节点的所有祖先节点完整源码(定义,实现,main函数测试) 一个节点的所有祖先节点 Given a binary Tree: ...

  8. 每天一道LeetCode-----为二叉树增加next节点,指向同一层的下一个节点

    Populating Next Right Pointers in Each Node 原题链接Populating Next Right Pointers in Each Node 将完全二叉树每个 ...

  9. 《剑指offer》二叉树的下一个节点

    题目:给定一个二叉树和其中的一个结点,请找出中序遍历顺序的下一个结点并且返回.注意,树中的结点不仅包含左右子结点,同时包含指向父结点的指针. 解析:主要分两大类.一类:该节点有右子树,则找到右子树的最 ...

  10. DOM算法系列002-寻找指定DOM节点的上一个或下一个节点

    DOM操作算法002-寻找指定DOM节点的上一个或下一个节点-- getDomNode 当我们需要寻找指定DOM节点的上一个节点或下一个节点时,我们可能第一时间会想到下面两个API: node.pre ...

最新文章

  1. 开机BIOS语言(转载)
  2. 新手安装ruby on rails(ror)的成功必备手册
  3. 联想笔记本不能无线上网
  4. vs中如和根据项目生成类图_迁移WPF项目到.NET Core
  5. 海南橡胶机器人成本_完成专利授权20余件!海南橡胶中橡科技搭建高标准研发平台...
  6. ngzorro html源码,Angular 中 ngTemplateOutlet 的用法以及ng-zorro源码分析!
  7. ArcGIS API for JS4.7加载FeatureLayer,点击弹出信息并高亮显示
  8. c语言标准版表白代码教程,C语言告白代码,一闪一闪亮晶晶~
  9. python与vb语言_vb.net和python区别是什么
  10. PPT中制作QQ箭头
  11. alios是安卓吗_阿里云OS到底是国产系统还是安卓系统?
  12. 【车道线检测论文阅读笔记——经典论文粗读汇总】
  13. 打开图片或者视频显示“文件系统错误-2147416359”
  14. 直通车点击软件测试自学,【图片】最给力直通车点击软件,防御直通车恶意点击秒杀软件,可测试效果_直通车吧_百度贴吧...
  15. mac笔记本电脑外接显示器没有声音
  16. Git 常用提交操作步骤
  17. SDUT-2178 链表的有序集合
  18. Unity HDRP中解决抗锯齿问题
  19. Win11重启后无法进入系统解决办法
  20. spring的 init-method和 destory-method方法

热门文章

  1. 隐式图层动画 (Implicit Layer Animation)
  2. 视频一键去水印,抖音快手短视频去水印软件,安卓软件,免登录,支持全平台!
  3. bzoj 1737: [Usaco2005 jan]Naptime 午睡时间 (DP)
  4. java输出华氏摄氏温度转换表_C语言入门教程-示例:编写能够打印华氏-摄氏温度转换表的程序...
  5. 【three.js:语法】光源使用详解2-3(聚光灯 SpotLight、平行光 DirectionLight 、环境光 HemisphereLight、镜头光晕 LensFlare)
  6. 【20保研】山东财经大学关于举办2019年优秀大学生夏令营的通知
  7. mysql 查询每个科目分数大于80
  8. python 人像素描_Python3.4图片转换素描详解
  9. 计算机组成原理学习之路(一)——数据表示
  10. 《div图层被鼠标划过时其背景色变色的五种方式》