oracle_Grid Infrastructure 启动的五大问题
oracle_Grid Infrastructure 启动的五大问题
Purpose |
Scope |
Details |
问题 1:CRS-4639:无法连接 Oracle 高可用性服务,ohasd.bin 未运行或 ohasd.bin 虽在运行但无 init.ohasd 或其他进程 |
问题 2:CRS-4530:联系集群同步服务守护进程时出现通信故障,ocssd.bin 未运行 |
问题 3:CRS-4535:无法与集群就绪服务通信,crsd.bin 未运行 |
问题 4:Agent 或者 mdnsd.bin, gpnpd.bin, gipcd.bin 未运行 |
问题 5:ASM 实例未启动,ora.asm 不在线 |
References |
Applies to:
Oracle Database - Enterprise Edition - Version 11.2.0.1 and later
Information in this document applies to any platform.
Purpose
本文档的目的是总结可能阻止 Grid Infrastructure (GI) 成功启动的 5 大问题。
Scope
本文档仅适用于 11gR2 Grid Infrastructure。
要确定 GI 的状态,请运行以下命令:
2. $GRID_HOME/bin/crsctl stat res -t -init
3. $GRID_HOME/bin/crsctl stat res -t
4. ps -ef | egrep 'init|d.bin'
Details
问题 1:CRS-4639:无法连接 Oracle 高可用性服务,ohasd.bin 未运行或 ohasd.bin 虽在运行但无 init.ohasd 或其他进程
症状:
1. 命令“$GRID_HOME/bin/crsctl check crs”返回错误:
CRS-4639: Could not contact Oracle High Availability Services
2. 命令“ps -ef | grep init”不显示类似于如下所示的行:
root 4878 1 0 Sep12 ? 00:00:02 /bin/sh /etc/init.d/init.ohasd run
3. 命令“ps -ef | grep d.bin”不显示类似于如下所示的行:
root 21350 1 6 22:24 ? 00:00:01 /u01/app/11.2.0/grid/bin/ohasd.bin reboot
或者它只显示 "ohasd.bin reboot" 进程而没有其他进程
可能的原因:
h1:35:respawn:/etc/init.d/init.ohasd run >/dev/null 2>&1 2. 未达到运行级别 3,一些 rc3 脚本挂起
3. Init 进程 (pid 1) 并未衍生 /etc/inittab (h1) 中定义的进程,或 init.ohasd 之前的不当输入,如 xx:wait: 阻碍了 init.ohasd 的启动
4. CRS 自动启动已禁用
5. Oracle 本地注册表 ($GRID_HOME/cdata/.olr) 丢失或损坏
解决方案:
h1:35:respawn:/etc/init.d/init.ohasd run >/dev/null 2>&1 并以 root 用户身份运行“init q”。
2. 运行命令“ps -ef | grep rc”,并kill看起来受阻的所有 rc3 脚本。
3. 删除 init.ohasd 前的不当输入。如果“init q”未衍生“init.ohasd run”进程,请咨询 OS 供应商
4. 启用 CRS 自动启动:
# crsctl enable crs
# crsctl start crs
5. 以 root 用户身份从备份中恢复 OLR(Oracle 本地注册表):
# touch $GRID_HOME/cdata/.olr
# chown root:oinstall $GRID_HOME/cdata/.olr
# ocrconfig -local -restore$GRID_HOME/cdata//backup__.olr
# crsctl start crs
如果出于某种原因,OLR 备份不存在,要重建 OLR 就需要以 root 用户身份执行 deconfig 并重新运行 root.sh:
# $GRID_HOME/crs/install/rootcrs.pl -deconfig -force
# $GRID_HOME/root.sh
问题 2:CRS-4530:联系集群同步服务守护进程时出现通信故障,ocssd.bin 未运行
症状:
1. 命令“$GRID_HOME/bin/crsctl check crs”返回错误:
CRS-4638: Oracle High Availability Services is online
CRS-4535: Cannot communicate with Cluster Ready Services
CRS-4530: Communications failure contacting Cluster Synchronization Services daemon
CRS-4534: Cannot communicate with Event Manager
2. 命令“ps -ef | grep d.bin”不显示类似于如下所示的行:
oragrid 21543 1 1 22:24 ? 00:00:01 /u01/app/11.2.0/grid/bin/ocssd.bin
3. ocssd.bin 正在运行,但在 ocssd.log 中显示消息“CLSGPNP_CALL_AGAIN”后又中止运行
4. ocssd.log 显示如下内容:
2012-01-27 13:42:58.796: [ CSSD][19]clssnmvDHBValidateNCopy: node 1, racnode1, has a disk HB, but no network HB, DHB has rcfg 223132864, wrtcnt, 1112, LATS 783238209,
lastSeqNo 1111, uniqueness 1327692232, timestamp 1327693378/787089065
5. 对于 3 个或更多节点的情况,2 个节点形成的集群一切正常,但是,当第 3 个节点加入时就出现故障,ocssd.log 显示如下内容:
2012-02-09 11:33:53.048: [ CSSD][1120926016](:CSSNM00008:)clssnmCheckDskInfo: Aborting local node to avoid splitbrain. Cohort of 2 nodes with leader 2, racnode2, is smaller than
cohort of 2 nodes led by node 1, racnode1, based on map type 2
2012-02-09 11:33:53.048: [ CSSD][1120926016]###################################
2012-02-09 11:33:53.048: [ CSSD][1120926016]clssscExit: CSSD aborting from thread clssnmRcfgMgrThread
6. 10 分钟后 ocssd.bin 启动超时
2012-04-08 12:04:33.153: [ CSSD][1]clssscmain: Starting CSS daemon, version 11.2.0.3.0, in (clustered) mode with uniqueness value 1333911873
......
2012-04-08 12:14:31.994: [ CSSD][5]clssgmShutDown: Received abortive shutdown request from client.
2012-04-08 12:14:31.994: [ CSSD][5]###################################
2012-04-08 12:14:31.994: [ CSSD][5]clssscExit: CSSD aborting from thread GMClientListener
2012-04-08 12:14:31.994: [ CSSD][5]###################################
2012-04-08 12:14:31.994: [ CSSD][5](:CSSSC00012:)clssscExit: A fatal error occurred and the CSS daemon is terminating abnormally
可能的原因:
2. 多播未正常工作(对于 11.2.0.2 及以上版本)
3. 私网未工作,ping 或 traceroute 显示无法访问目标。或虽然 ping/traceroute 正常工作,但是在私网中启用了防火墙
4. 使用正常 ping 命令可对私网进行 ping 操作,但启用巨帧时(MTU:9000+),不能使用巨帧尺寸(如:ping -s 8900 )进行 ping 操作。或部分集群节点设置了巨帧(MTU:9000),但问题节点未设置巨帧(MTU:1500)
5. gpnpd 未出现,卡在 dispatch 线程中,Bug 10105195
6. 通过 asm_diskstring 发现的磁盘太多,或由于 Bug 13454354 导致扫描太慢(仅在 Solaris 11.2.0.3 上出现)
解决方案:
如果 OCR ASM 磁盘组中的 voting disk已经丢失,以独占模式启动 CRS,并重建表决磁盘:
# crsctl start crs -excl
# crsctl replace votedisk <+OCRVOTE diskgroup>
2. 请参考Document 1212703.1,了解多播功能的测试及修正
3. 咨询网络管理员,恢复私网访问或禁用私网防火墙(对于 Linux,请检查服务 iptables 状态和服务 ip6tables 状态)
4. 如果巨帧在网卡中启用,则联系网络管理员在交换机层也启用。
5. 终止正常运行节点上的 gpnpd.bin 进程,请参考Document 10105195.8
一旦以上问题得以解决,请重新启动 Grid Infrastructure。
如果 ping/traceroute 对私网均可用,但是问题发生在从 11.2.0.1 至 11.2.0.2 升级过程中,请检查
Bug 13416559获取解决方法。
6. 通过提供更加具体的 asm_diskstring,限制 ASM 扫描磁盘的数量,请参考bug 13583387
对于 Solaris 11.2.0.3,请应用补丁 13250497,请参阅Document 1451367.1.
问题 3:CRS-4535:无法与集群就绪服务通信,crsd.bin 未运行
症状:
1. 命令“$GRID_HOME/bin/crsctl check crs”返回错误:
CRS-4638: Oracle High Availability Services is online
CRS-4535: Cannot communicate with Cluster Ready Services
CRS-4529: Cluster Synchronization Services is online
CRS-4534: Cannot communicate with Event Manager
2. 命令“ps -ef | grep d.bin”不显示类似于如下所示的行:
root 23017 1 1 22:34 ? 00:00:00 /u01/app/11.2.0/grid/bin/crsd.bin reboot
3. 即使存在 crsd.bin 进程,命令“crsctl stat res -t –init”仍然显示:
ora.crsd
1 ONLINE INTERMEDIATE
可能的原因:
2. +ASM 实例无法启动
3. OCR 无法访问
4. 网络配置已改变,导致 gpnp profile.xml 不匹配
5. Crsd 的 $GRID_HOME/crs/init/.pid 文件已被手动删除或重命名,crsd.log 显示:“Error3 -2 writing PID to the file”
6. ocr.loc 内容与其他集群节点不匹配。crsd.log 显示:“Shutdown CacheLocal. my hash ids don't match”
解决方案:
2. 对于 11.2.0.2 以上版本,确保资源 ora.cluster_interconnect.haip 在线,请参考Document 1383737.1了解和HAIP相关的,ASM无法启动的问题。
3. 确保 OCR 磁盘可用且可以访问。如果由于某种原因丢失 OCR,请参考Document 1062983.1了解如何恢复OCR。
4. 恢复网络配置,与 $GRID_HOME/gpnp//profiles/peer/profile.xml 中定义的接口相同,请参考
Document 283684.1了解如何修改私网配置。
5. 请使用 touch 命令,在 $GRID_HOME/crs/init 目录下创建名为 .pid 的文件。
对于 11.2.0.1,该文件归 用户所有。
对于 11.2.0.2,该文件归 root 用户所有。
6. 使用 ocrconfig 命令修正 ocr.loc 内容:
例如,作为 root 用户:
# ocrconfig -repair -add +OCR2 (添加条目)
# ocrconfig -repair -delete +OCR2 (删除条目)
以上命令需要 ohasd.bin 启动并运行 。
一旦以上问题得以解决,请通过以下命令重新启动 GI 或启动 crsd.bin:
# crsctl start res ora.crsd -init
问题 4:Agent 或者 mdnsd.bin, gpnpd.bin, gipcd.bin 未运行
症状:
1. orarootagent 未运行. ohasd.log 显示:
2012-12-21 02:14:05.071: [ AGFW][24] {0:0:2} Created alert : (:CRSAGF00123:) : Failed to start the agent process: /grid/11.2.0/grid_2/bin/orarootagent Category: -1 Operation: fail Loc: canexec2 OS error: 0 Other : no exe permission, file [/grid/11.2.0/grid_2/bin/orarootagent]
2. mdnsd.bin, gpnpd.bin 或者 gipcd.bin 未运行, 以下是 mdnsd log中显示的一个例子:
2012-12-31 21:37:27.601: [ clsdmt][1088776512]Creating PID [4526] file for home /u01/app/11.2.0/grid host lc1n1 bin mdns to /u01/app/11.2.0/grid/mdns/init/
2012-12-31 21:37:27.602: [ clsdmt][1088776512]Error3 -2 writing PID [4526] to the file []
2012-12-31 21:37:27.602: [ clsdmt][1088776512]Failed to record pid for MDNSD
或者
2012-12-31 21:39:52.656: [ clsdmt][1099217216]Creating PID [4645] file for home /u01/app/11.2.0/grid host lc1n1 bin mdns to /u01/app/11.2.0/grid/mdns/init/
2012-12-31 21:39:52.656: [ clsdmt][1099217216]Writing PID [4645] to the file [/u01/app/11.2.0/grid/mdns/init/lc1n1.pid]
2012-12-31 21:39:52.656: [ clsdmt][1099217216]Failed to record pid for MDNSD
3. oraagent 或 appagent 未运行, 日志crsd.log显示:
2012-12-01 00:06:24.462: [ AGFW][1164069184] {0:2:27} Created alert : (:CRSAGF00130:) : Failed to start the agent /u01/app/grid/11.2.0/bin/appagent_oracle
可能的原因:
2. 缺少进程相关的 .pid 文件或者这个文件的所有者/权限不对
3. GRID_HOME 所有者/权限不对
解决方案:
# cd /crs/install
# ./rootcrs.pl -unlock
# ./rootcrs.pl -patch
这将停止集群软件,对需要的文件的所有者/权限设置为root用户,并且重启集群软件。
2. 如果对应的 .pid 不存在, 就用touch命令创建一个具有相应所有者/权限的文件, 否则就按要求改正文件.pid的所有者/权限, 然后重启集群软件.
这里是下,所有者属于root:root 权限 644的.pid 文件列表:
./ologgerd/init/.pid
./osysmond/init/.pid
./ctss/init/.pid
./ohasd/init/.pid
./crs/init/.pid
所有者属于:oinstall,权限644
./mdns/init/.pid
./evm/init/.pid
./gipc/init/.pid
./gpnp/init/.pid
3. 对第3种原因,请参考解决方案1
问题 5:ASM 实例未启动,ora.asm 不在线
症状:
1. 命令“ps -ef | grep asm”不显示 ASM 进程
2. 命令“crsctl stat res -t –init”显示:
ora.asm
1 ONLINE OFFLINE
可能的原因:
2. ASM discovery string不正确,因此无法发现 voting disk/OCR
3. ASMlib 配置问题
4. ASM实例使用不同的cluster_interconnect, 第一个节点 HAIP OFFLINE 导致第二个节点ASM实例无法启动
解决方案:
2. 请参考Document 1077094.1以更正 ASM discovery string。
3. 请参考Document 1050164.1以修正 ASMlib 配置。
4. 请参考Document 1383737.1 作为解决方案。请参考Document 1210883.1了解更多HAIP信息
要进一步调试 GI 启动问题,请参考 Document 1050908.1 Troubleshoot Grid Infrastructure Startup Issues.
oracle_Grid Infrastructure 启动的五大问题相关推荐
- 重庆大悦城招商全面启动,五大主力品牌正式签约
12月2日,以"大观渝州,悦映两江"为主题的大悦城控股西南商业战略发布暨重庆大悦城招商启动大会,在重庆悦来国际会议中心盛大举行.作为大悦城西南五周年系列活动的重要组成部分,本次活动 ...
- 【MOS】中文文档列表 - Oracle Database (文档 ID 1533057.1)
中文文档列表 - Oracle Database (文档 ID 1533057.1) 类型: 状态: 上次主更新: 上次更新: ANNOUNCEMENT PUBLISHED 2017-2-23 201 ...
- Oracle 19c 问题解决
Oracle19c 作为长期支持的大版本,是很多公司和个人选择的主流数据库版本,很多公司新上线的系统也都是以 19C 为主,也有很多企业渐渐地迁移数据库到19C,11204 版本已经逐渐退出了舞台.下 ...
- 阿里资深技术专家的10年感悟
阿里妹导读:阿里有许多土话,比如"方法总比困难多"."不淘汰自己就会被别人淘汰"."你感觉不舒服的时候,就是成长的时候".每一句都在激励我们 ...
- 海量数据下的舆情分析,该如何搭建?
阿里妹导读:互联网的飞速发展促进了很多新媒体的发展,不论是知名的大V,明星还是围观群众都可以通过手机在微博.朋友圈或者点评网站上发表动态,分享自己的所见所想,使得"人人都有了麦克风" ...
- Java中高级程序员全程学习路线图
Java中高级程序员全程学习路线图 第一阶段:基础部分 Java基础 基本语法 变量 运算符 流程控制语句 面向对象特性 属性.方法 构造器 封装 继承 多态 抽象类.接口 高级应用 异常处理 IO流 ...
- 尚硅谷redis笔记
文章目录 1.redis简介 Redis是什么? NoSQL Redis能干嘛? Redis技术 redis的原子性 2.启动 前台启动(不推荐) 后台启动 3.五大数据类型 Redis键(Key) ...
- 移动周刊第 190 期:移动开发性能优化全面解析
本周热点 国内 昨日 iOS 版微信更新了 6.5.8 版本,新版本中至少蕴含了5个大招: 搜一搜,在之前的微信搜索基础上,单独给了一个入口.现在微信搜索结果中不止有微信公众号的内容,也有其他的互联网 ...
- 中国五大移动应用商店携手启动 64 位安卓生态迁移 | 开发者说·DTalk
本文原作者: ARM,原文发布于: https://mp.weixin.qq.com/s/ee9tCThrN9E7FKvFXiHfuQ (2021 年 4 月 19 日) 为协助中国安卓开发者无缝对接 ...
最新文章
- suse linux 软件包安装,SUSE Linux 11系统rpm包离线安装GCC
- 【深度学习入门到精通系列】阿里云人工智能平台的使用方法
- TCP/IP报文格式
- 2020:编程语言大盘点
- 2018蓝桥杯省赛---java---B---4(测试次数)
- 机房收费系统合作版(三):利用备忘录模式实现取消修改基本数据
- python 基础复习
- MSP430G2553电子时钟实验
- 分类与聚类的本质区别
- Mac新手操作指南(三)
- 微信小程序的基本操作
- C语言中的%p是什么意思?
- java 利用openOffice实现word ppt 等资源转化为pdf文件
- 人工智能领域数据标注行业的核心需求痛点
- 激活函数(sigmoid和ReLU)
- 改变的不仅仅是货币——区块链技术的深层意义
- 计算机教师中级职称个人总结,教师评职称个人总结
- 如何用matlab将彩色图片转为单通道绿色图片
- python制作我的世界_python的pygame制作的2D我的世界
- 软考高级信息系统项目管理师系列论文之三:论项目开发模式的选择与应用
热门文章
- c语言程序设计实验指导实验报告,C语言程序设计实验指导及报告.doc
- 二年级计算机认识键盘教案,认识计算机键盘教案.doc
- Unity2020.1新功能探路:Profiler相关更新
- OpenShift 4 - Fedora CoreOS (3) - 定制 CoreOS ISO
- OpenShift 4之评估节点自消耗的系统资源
- 蚂蚁金服数据可视化引擎 G2 4.0 正式版发布!
- kdump需要开启吗_iPhone全新黑科技!用嘴玩手机!你会玩吗?
- sc7cb27180 士兰微_供应 SILAN/士兰微 SC7A30E SC7A30 LGA10-3A 加速度计/三轴磁传感器
- java读取word文档内容_合并多个Word文档内容,还在复制粘贴就out了,同事五秒轻松搞定...
- linux物理硬盘和sd的对应关系_Linux物理存储结构以及磁盘划分