新拿到一个c’lu’ster,尝试安装GI(grid infrastructure),root.sh在第一个node上失败了。调试过程

第一步:首先查看log

在root.sh的log里

看到如下的错误信息

$GI_BASE/crsdata/scaz08adm08/crsconfig/rootcrs_scaz08adm08_2020-09-27_10-25-09PM.log
2020-09-27 22:28:23: ASM configuration failed with error 1, check asmca logs at /u01/app/gibase/cfgtoollogs/asmca for details.
2020-09-27 22:28:23:
2020-09-27 22:28:23: Creation of ASM spfile in disk group failed.
2020-09-27 22:28:23: ORA-29783: GPnP attribute SET failed with error [CLSGPNP_RD_ERR]

发现这个错误和gpnp有关,去看gpnp的log
在gpnp的log里面发现如下的错误

 $GI_BASE/diag/crs/scaz08adm08/crs/trace/gpnpd.trc2020-09-27 22:35:46.823 :    GPNP:139918390253312: rd_cxRegister: Error message in RD context: RDE-00051: provider "Oracle Apple DNS-SD Provider" error.RDE-02001: failed to connect to the mDNS responder.CLSDNSSD-00026: service not running
2020-09-27 22:35:46.823 :    GPNP:139918390253312: clsgpnpd_reg_int: [at clsgpnpdrd.c:1656] Result: (53) CLSGPNP_RD_ERR. (:GPNPD00518:)RD registration failed for GPnPD url: "mdns:gpnp3b8574565._tcp://scaz08adm08:24115/agent=gpnpd,cname=scaz08-c,guid=6639f6b395447f7dbfd253d3b8574565,host=scaz08adm08,pid=162085/gpnpd h:scaz08adm08 c:scaz08-c u:6639f6b395447f7dbfd253d3b85745" lcl=0  rd_cxRegister ret=RDRET_PROVIDER_NOT_FOUND (23)

看到和mdns有关,去查看mdns的log

看到好多这个错误

$GI_BASE/diag/crs/scaz08adm08/crs/trace/mdnsd.trc
2020-09-27 22:27:33.650 :    MDNS:139691948380544: mDNSResponder-mdnsd interface ib5 (0x19 AF=10 f=0x1043 mcast=89) FE80:0000:0000:0000:0210:E000:0143:1632 mask FFFF:FFFF:FFFF:FFFF:0000:0000:0000:0000
2020-09-27 22:27:33.651 :    MDNS:139691948380544: mDNSResponder-ERROR: bind(listenfd, (struct sockaddr *) &laddr, sizeof(laddr)); failed: 98 (Address already in use)
2020-09-27 22:27:33.651 :    MDNS:139691948380544: mDNSResponder-ERROR: udsserver_init: 98 (Address already in use)

请假同事,认为可能是ip或者端口有冲突,查找文档发现mdnsd使用端口5353,使用netstat -anp查看端口使用情况,不要使用netstat -an查看,那样查看不全。也没有发现端口已经占用的情况。

一头雾水

解决问题的思路,第一步是尝试去不用这些网卡,在response file里去除这些网卡,发现不管用。然后用 ifconfig down ib5去down这些网卡,发现还是解决不了问题。

然后怀疑是不是sysctl.conf里面的一些参数有关
在 修改/etc/sysctl.conf里面的参数时,发现还有/etc/sysctl.d下面也有参数文件,不是很清楚这些参数文件的生效顺序,也一并做了修改,最后发现还是不管用

net.ipv4.conf.ib6.arp_announce = 2
net.ipv4.conf.ib7.arp_announce = 2net.ipv4.conf.ib6.rp_filter = 2
net.ipv4.conf.ib7.rp_filter = 2

还曾尝试去修改diskgroup的redundancy去解决问题。

整个解决过程因为没有思路,所以很是混乱。

最后想起来这个cluster以前别人安装的时候是用另外一个用户安装的,随尝试用另外一个用户来安装,并且response file也用原来那个用户用的,发现能够安装成功。
我的怀疑方向放到了我现在的response file上了。

又用原来的用户,用现在的response file安装,发现也能成功。这时候开始怀疑是现在的user存在问题了

用现在的user,用原来的response file安装也会失败,那应该就是现在的user有问题了。查看了安装失败的user和安装成功的user的uid gid等信息,也没有发现啥异常。

只能再次请教同事了。告诉同事用一个用户能安装成功,用另外一个用户无法安装成功。
同事提醒是不是socket没有清理干净。
socket存在于/var/tmp/.oracle目录下,这个目录是一个软连接

[Tue Sep 29 22:17:36][228317][root@scaz08adm08:/var/tmp/.oracle][0]# ls -ald /var/tmp/.oracle
lrwxrwxrwx 1 root root 16 Sep 29 02:48 /var/tmp/.oracle -> /var/lib/oracle/这个目录下有很多socket文件[Tue Sep 29 22:25:06][228317][root@scaz08adm08:/var/tmp/.oracle][0]# ls -al *gipc*
srwxrwx--- 1 oracle oinstall 0 Sep 29 02:48 ora_gipc_agent_ag_CSSDAG_z
-rwxrwx--- 1 oracle oinstall 0 Sep 29 02:48 ora_gipc_agent_ag_CSSDAG_z_lock
srwxrwx--- 1 oracle oinstall 0 Sep 29 02:49 ora_gipc_agwatcher_wd1_z
-rwxrwx--- 1 oracle oinstall 0 Sep 29 02:49 ora_gipc_agwatcher_wd1_z_lock
srwxrwx--- 1 oracle oinstall 0 Sep 29 02:48 ora_gipc_css_ctrllcl_CSSD_BCCM
-rwxrwx--- 1 oracle oinstall 0 Sep 29 02:48 ora_gipc_css_ctrllcl_CSSD_BCCM_lock
... ...这些socket文件是有原来的user创建的,所以现在用不同的user安装,就会报地址已经in use的原因

在清理脚本里加上清理这个目录后,安装就顺利通过了

记一次GI安装失败(root.sh在第一个node上失败)的调试经历相关推荐

  1. 如何诊断crs 安装时 root.sh 脚本执行错误

    troubleshooting root.sh problem ------*for 10g and 11.1 1.查证公网,私网的节点名是可以互相ping通的 2.---查证OCR/Voting 文 ...

  2. oracle 12.2R2 安装GI跑root.sh遇到CLSRSC-400

    oracle 12.2R2 安装GI跑root.sh遇到CLSRSC-400 ------------------------------------------------------------- ...

  3. oracle 12.2R2 安装GI执行root.sh遇到CLSRSC-400

    概述 环境: OS:redhat 7.6 Oracle:12.2.0.1 R2 在安装GI,跑root.sh脚本的时候遇到"CLSRSC-400: A system reboot is re ...

  4. Oracle RAC 第二节点 root.sh 报错 Timed out waiting for the CRS stack to start

    在VBox 上安装11.2.0.1的RAC. 这里打算安装11.2.0.1是因为从11.2.0.2以后的版本对public 和private 网卡网段区分很严格,这个网卡必须配置在不同的网段. 而在1 ...

  5. oracle 11gR2 RAC root.sh 错误 ORA-15072 ORA-15018

    Oracle  11gR2 RAC 安装Clusterware 结束, 在第二个节点执行root.sh脚本的是报如下错误: DiskGroup DATA1 creation failed with t ...

  6. Oracle 11g ora 15018,oracle 11gR2 RAC root.sh 错误 ORA-15072 ORA-15018

    Oracle 11gR2 RAC安装Clusterware结束, 在第二个节点执行root.sh脚本的是报如下错误: DiskGroup DATA1 creation failed with the ...

  7. geant4安装以及Root配置

    geant4安装以及Root配置 先贴一个豆瓣链接:https://www.douban.com/note/431788626/ ROOT 按照cern root 安装:https://leeyeel ...

  8. 安装oracle 19c rac报错:2节点执行root.sh asm实例启动失败

    安装oracle 19c rac报错:2节点执行root.sh asm实例启动失败 背景 解决过程 查看lmon trc 查看mos 真的是网络的问题 haip 禁用haip 安装好的环境禁用haip ...

  9. 苹果双系统运行oracle失败,oracle 11gR2 RAC for linux x86_64 grid运行root.sh 失败问题处理...

    昨天一个朋友问到我,在oracle 11gR2 RAC for linux x86_64安装过程中,grid用户运行root.sh在第一节点可以成功,但在第二节点不成功,报错如下: CRS-2674: ...

最新文章

  1. 自然语言推理:使用注意力机制
  2. 造成机器学习项目失败的7个原因
  3. kindeditor用法
  4. event 和 window.event
  5. 笔记本电脑下载python视频教程-如何使用Python访问/下载OneNote笔记本?
  6. 并发编程-19AQS同步组件之重入锁ReentrantLock、 读写锁ReentrantReadWriteLock、Condition
  7. mysql dba系统学习(6)二进制日志binlog之二
  8. php伪静态教程,DedeCMS实现全站PHP伪静态
  9. jvm调优:jmap -histo的使用
  10. Codeigniter 3 拓展HMVC
  11. 【微型计算机原理与接口技术】寻址方式
  12. Java FileOutputStream
  13. Java8 中的真的 Optional 很强大,你用对了吗?
  14. ASP.NET网站运行常见错误以及解决方法(持续更新)
  15. oracle12c开发连接jar包ojdbc7
  16. PHP yield简介
  17. 微型计算机原理 考试试题,微机原理期末考试试题及答案
  18. 计算机显卡故障,电脑显卡有什么故障 电脑显卡常见故障汇总
  19. 艾永亮:不做读书人生意的书店,如此不正经却年赚超12亿?
  20. 学习太极创客 — MQTT 第二章(一)QoS 服务质量等级

热门文章

  1. 20155333 2016-2017-2 《Java程序设计》第七周学习总结
  2. PLC控制柜的布局与结构设计
  3. Kubernetes API Server 认证机制
  4. 【数据结构与算法】之深入解析“摘樱桃”的求解思路与算法示例
  5. cmsplus实战之仿[我扫网]之十一:安装采集器采集并发布数据
  6. 华为p8刷linux系统,华为手机变身交通卡,公交地铁都能刷
  7. 电信科学技术第五研究所怎么样_刘有成先生百年诞辰纪念会暨兰州大学功能有机分子化学国家重点实验室第七届学术委员会第五次会议在兰州大学召开 - 实验室动态 - 实验室动态...
  8. piapiapia(代码审计、反序列化逃逸、函数绕过)
  9. 吉林大学 超星慕课 高级语言程序设计 实验05 指针及其在程序设计中的应用(2022级)
  10. 软件测试-App测试流程及测试点