天萃荷净

运维DBA反映Oracle RAC环境中节点宕机,alert发现报错ORA-15025 ORA-27041,分析原因为使用root用户操作rac导致节点宕机

接到同事请求,说客户的linux redhat 5.8平台部署的11.2.0.3 RAC 节点2挂掉了,报磁盘IO异常,数据库hang住

Fri Jun 14 12:01:22 2013

Thread 2 advanced to log sequence 369 (LGWR switch)

Current log# 49 seq# 369 mem# 0: +DATA/q9db/onlinelog/group_49.861.817830099

Fri Jun 14 12:01:22 2013

Archived Log entry 89300 added for thread 2 sequence 368 ID 0x35324053 dest 1:

Fri Jun 14 14:26:18 2013

Errors in file /u01/app/oracle/diag/rdbms/q9db/q9db2/trace/q9db2_ora_11788.trc:

ORA-15025: could not open disk "/dev/mapper/q9datalun2"

ORA-27041: unable to open file

Linux-x86_64 Error: 13: Permission denied

Additional information: 3

Errors in file /u01/app/oracle/diag/rdbms/q9db/q9db2/trace/q9db2_ora_11788.trc:

ORA-15025: could not open disk "/dev/mapper/q9datalun2"

ORA-27041: unable to open file

Linux-x86_64 Error: 13: Permission denied

Additional information: 3

WARNING: failed to read mirror side 1 of virtual extent 441 logical extent 0 of file 625

in group [2.3857217523] from disk DATA_0001

allocation unit 377890 reason error; if possible, will try another mirror side

Fri Jun 14 14:31:17 2013

Errors in file /u01/app/oracle/diag/rdbms/q9db/q9db2/trace/q9db2_ora_13767.trc:

ORA-15025: could not open disk "/dev/mapper/q9datalun2"

ORA-27041: unable to open file

Linux-x86_64 Error: 13: Permission denied

Additional information: 3

Errors in file /u01/app/oracle/diag/rdbms/q9db/q9db2/trace/q9db2_ora_13767.trc:

ORA-15025: could not open disk "/dev/mapper/q9datalun2"

ORA-27041: unable to open file

Linux-x86_64 Error: 13: Permission denied

Additional information: 3

WARNING: failed to read mirror side 1 of virtual extent 441 logical extent 0 of file 625

in group [2.3857217523] from disk DATA_0001

allocation unit 377890 reason error; if possible, will try another mirror side

在12点钟数据库运行正常,无任何错误,突然到了14多出现ORA-15025/ORA-27041,并且重启ORACLE 数据库恢复正常。该错误很明显是数据库无权限访问ASM DISK,检查ASM实例日志

Thu Jun 13 19:01:21 2013

ASMB started with pid=25, OS id=25066

Thu Jun 13 19:01:22 2013

NOTE: client +ASM2:+ASM registered, osid 25068, mbr 0x0

WARNING: failed to online diskgroup resource ora.DATA.dg (unable to communicate with CRSD/OHASD)

Thu Jun 13 19:01:24 2013

WARNING: failed to online diskgroup resource ora.OCR_VOTE.dg (unable to communicate with CRSD/OHASD)

Thu Jun 13 19:01:57 2013

NOTE: client q9db2:q9db registered, osid 25732, mbr 0x1

Thu Jun 13 19:02:31 2013

ALTER SYSTEM SET local_listener=' (DESCRIPTION=(ADDRESS_LIST=(ADDRESS=(PROTOCOL=TCP)(HOST=10.8.8.33)

(PORT=1521))))' SCOPE=MEMORY SID='+ASM2';

Fri Jun 14 14:53:09 2013

SQL> ALTER DISKGROUP OCR_VOTE DISMOUNT /* asm agent *//* {2:61929:97} */

Fri Jun 14 14:53:10 2013

SQL> ALTER DISKGROUP ARCH DISMOUNT /* asm agent *//* {2:61929:97} */

Fri Jun 14 14:53:10 2013

SQL> ALTER DISKGROUP DATA DISMOUNT /* asm agent *//* {2:61929:97} */

这里可以明显的看到,ASM实例在该时间点无任何错误,证明一切运行正常,查看系统日志,在该故障点,message中无任何记录,查看asm disk权限

[oracle@q9db02 trace]$ ll /dev/mapper/

total 0

crw------- 1 root root 10, 60 Jun 9 11:08 control

brw-rw---- 1 grid asmdba 253, 15 Jun 14 16:20 q9datalun1

brw-rw---- 1 grid asmdba 253, 16 Jun 14 16:20 q9datalun2

brw-rw---- 1 grid asmdba 253, 17 Jun 14 16:20 q9datalun3

brw-rw---- 1 grid asmdba 253, 18 Jun 14 16:19 q9datalun4

brw-rw---- 1 grid asmdba 253, 19 Jun 14 16:20 q9datalun5

brw-rw---- 1 grid asmdba 253, 20 Jun 14 16:20 q9datalun6

brw-rw---- 1 grid asmdba 253, 21 Jun 14 16:19 q9datalun7

brw-rw---- 1 grid asmdba 253, 4 Jun 14 16:20 q9datalun8

brw-rw---- 1 grid asmdba 253, 5 Jun 14 16:20 q9votelun1

所有文件权限没有任何问题,和当初部署之时完全相同而且运行了一段时间都正常,部署之时权限

[oracle@q9db02 trace]$ more /etc/rc.local

chown grid:asmdba /dev/mapper/q9votelun1

chmod 660 /dev/mapper/q9votelun1

chown grid:asmdba /dev/mapper/q9datalun1

chmod 660 /dev/mapper/q9datalun1

chown grid:asmdba /dev/mapper/q9datalun2

chmod 660 /dev/mapper/q9datalun2

chown grid:asmdba /dev/mapper/q9datalun3

chmod 660 /dev/mapper/q9datalun3

chown grid:asmdba /dev/mapper/q9datalun4

chmod 660 /dev/mapper/q9datalun4

chown grid:asmdba /dev/mapper/q9datalun5

chmod 660 /dev/mapper/q9datalun5

chown grid:asmdba /dev/mapper/q9datalun6

chmod 660 /dev/mapper/q9datalun6

chown grid:asmdba /dev/mapper/q9datalun7

chmod 660 /dev/mapper/q9datalun7

chown grid:asmdba /dev/mapper/q9datalun8

chmod 660 /dev/mapper/q9datalun8

chown grid:asmdba /dev/mapper/q9datalun8

chmod 660 /dev/mapper/q9datalun8

因为这里权限没有任何改变,而且asm disk权限正确,系统日志无任何日志,证明该问题不是因为ASM DISK权限改变导致,那我怀疑是人做了不该做的操作,比喻临时性修改了ASM DISK权限,然后有修改回来了,或者是不正常的用户操作了数据库,而这些操作更加可能是root用户操作,分析root用户操作记录

--history部分记录

803 su oracle

804 exit

805 cd /tmp

806 ls

807 cd sysbench/

808 cd bin/

809 ls

810 ORACLE_SID=q9db2

811 export ORACLE_BASE

812 export ORACLE_HOME

813 ./sysbench --test=oltp --oltp-table-name=sysbench --oltp-table-size=1 --oracle-db=Q9DB

--oracle-user=sysbench --oracle-password=sysbench --db-driver=oracle prepare

814 syssql

815 sqlplus system/sysbench@q9db02

816 sqlplus system/q9db@q9db02

817 echo $ORACLE_HOME

818 cd $ORACLE_HOME/network/

819 vi admin/tnsnames.ora

820 sqlplus system/NEWQ9DB

821 echo $ORACLE_HOME

822 vi ~/.bash_profile

823 echo $ORACLE_SID

824 ps -ef | grep smon

825 sqlplus system/NEWQ9DB

826 exit

这里很明显的看到,由于SA想使用sysbench做系统基线测试,使用了root用户登录数据库并进行了相关操作,从而出现了该问题,因为ASM DISK 所有者是grid:asmdba,权限是660,root用户无法对ASM DISK进行读写操作,从而出现了上述错误。让同事协助SA重现上述操作,果然出现完全相同的错误,而且退出root session,数据库恢复正常

Fri Jun 14 15:44:24 2013

Archived Log entry 89330 added for thread 2 sequence 389 ID 0x35324053 dest 1:

Fri Jun 14 15:50:42 2013

Errors in file /u01/app/oracle/diag/rdbms/q9db/q9db2/trace/q9db2_ora_29404.trc:

ORA-15025: could not open disk "/dev/mapper/q9datalun2"

ORA-27041: unable to open file

Linux-x86_64 Error: 13: Permission denied

Additional information: 3

Errors in file /u01/app/oracle/diag/rdbms/q9db/q9db2/trace/q9db2_ora_29404.trc:

ORA-15025: could not open disk "/dev/mapper/q9datalun2"

ORA-27041: unable to open file

Linux-x86_64 Error: 13: Permission denied

Additional information: 3

WARNING: failed to read mirror side 1 of virtual extent 473 logical extent 0 of file 625

in group [2.3857045540] from disk DATA_0001

allocation unit 377894 reason error; if possible, will try another mirror side

Errors in file /u01/app/oracle/diag/rdbms/q9db/q9db2/trace/q9db2_ora_29404.trc:

ORA-15025: could not open disk "/dev/mapper/q9datalun4"

ORA-27041: unable to open file

Linux-x86_64 Error: 13: Permission denied

Additional information: 3

ORA-00604: error occurred at recursive SQL level 2

ORA-01115: IO error reading block from file (block # )

ORA-01110: data file 1: '+DATA/q9db/datafile/system.625.817825255'

ORA-15081: failed to submit an I/O operation to a disk

Errors in file /u01/app/oracle/diag/rdbms/q9db/q9db2/trace/q9db2_ora_29404.trc:

ORA-15025: could not open disk "/dev/mapper/q9datalun4"

ORA-27041: unable to open file

Linux-x86_64 Error: 13: Permission denied

Additional information: 3

ORA-00604: error occurred at recursive SQL level 2

ORA-01115: IO error reading block from file (block # )

ORA-01110: data file 1: '+DATA/q9db/datafile/system.625.817825255'

ORA-15081: failed to submit an I/O operation to a disk

WARNING: failed to read mirror side 1 of virtual extent 652 logical extent 0 of file 625

in group [2.3857045540] from disk DATA_0003

allocation unit 377939 reason error; if possible, will try another mirror side

Fri Jun 14 15:55:58 2013

Thread 2 advanced to log sequence 391 (LGWR switch)

Current log# 41 seq# 391 mem# 0: +DATA/q9db/onlinelog/group_41.853.817830085

Fri Jun 14 15:55:58 2013

Archived Log entry 89331 added for thread 2 sequence 390 ID 0x35324053 dest 1:

Thread 2 advanced to log sequence 392 (LGWR switch)

Current log# 42 seq# 392 mem# 0: +DATA/q9db/onlinelog/group_42.854.817830087

在ASM ORACLE RAC环境中,使用root操作oracle 数据库导致该错误,强烈建议:操作oracle数据库,请使用oracle数据库安装用户(最少也是同一个所属组用户)运行,超级用户root对于oracle来说也不是万能的

--------------------------------------ORACLE-DBA----------------------------------------

最权威、专业的Oracle案例资源汇总之案例:Oracle报错ORA-15025 ORA-27041 root用户操作rac导致节点宕机

oracle重启root,案例:Oracle报错ORA-15025 ORA-27041 root用户操作rac导致节点宕机相关推荐

  1. oracle双机切换 无法挂载,Linux下Oracle RAC一个节点宕机导致共享存储无法挂载的故障排除...

    环境:两台HP ML570 Linux AS4.5 Oracle 10g两台Server做了Oracle的RAC,通过SAN Switch连接到HP MSA1000故障现象:因为其中一个Ora 环境: ...

  2. Oracle RAC一节点宕机导致另一节点HANG的问题分析

    正所谓"福无双至,祸不单行",生产上有套2节点Oracle 11.2.0.4数据库,其中2节点因硬件故障宕机,1节点去HANG住了.我们一起来分析这起故障. 凌晨4点半,值班同时电 ...

  3. oracle补丁报错10044,【案例】Oracle补丁 数据库打patch报错OPatch failed with error code 73...

    天萃荷净 运维DBA反映在给Oracle数据库安装patch补丁时报错OPatch failed with error code 73,分析原因为相关服务未关闭导致 打patch出现Copy fail ...

  4. sqoop将oracle数据导入到hive报错:Error: java.io.IOException: SQLException in nextKeyValue

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 问题 一.问题是什么导致的? 二.验证问题 总结 问题 sqoop将oracle数据导入到hive报错:Error: jav ...

  5. oracle11g ora 29927,【案例】Oracle内存泄漏 进行10046跟踪分析07445导致数据库宕机

    天萃荷净 在一次ORA-7445导致oracle数据库down掉故障分析中,发现sql因某种原因导致大量的sql area中很多内存泄露,最终导致数据库down掉.通过实验找出类此奇怪SQL. SEL ...

  6. oracle rodm包,由重启引起的Oracle RAC节点宕机分析及追根溯源

    作者介绍 裴征峰,现就职于北京海天起点,二线专家成员,南京办事处负责人,OCP 10g.OCP 11g.OCM11g.超八年Oracle服务经验,擅长数据库故障诊断和性能调优.目前主要从事客户的现场维 ...

  7. oracle 监听 宕机,由重启引起的Oracle RAC节点宕机分析及追根溯源

    作者介绍 裴征峰,现就职于北京海天起点,二线专家成员,南京办事处负责人,OCP 10g.OCP 11g.OCM11g.超八年Oracle服务经验,擅长数据库故障诊断和性能调优.目前主要从事客户的现场维 ...

  8. oracle19c集群重启,由重启引起的Oracle RAC节点宕机分析及追根溯源

    原标题:由重启引起的Oracle RAC节点宕机分析及追根溯源 作者介绍 裴征峰,现就职于北京海天起点,二线专家成员,南京办事处负责人,OCP 10g.OCP 11g.OCM11g.超八年Oracle ...

  9. oracle rac节点重启的原因,由重启引起的Oracle RAC节点宕机分析及追根溯源

    作者介绍 裴征峰,现就职于北京海天起点,二线专家成员,南京办事处负责人,OCP 10g.OCP 11g.OCM11g.超八年Oracle服务经验,擅长数据库故障诊断和性能调优.目前主要从事客户的现场维 ...

最新文章

  1. 手工编译Android程序
  2. 关于SELECT 逻辑的执行顺序问题
  3. go语言基础之工程管理和工作区介绍
  4. 诗与远方:无题(二十七)- 写给我妹妹的一首诗
  5. 二级VB培训笔记07:通用对话框
  6. 【机器学习】Pandas读取存在Github上的数据集
  7. jdk基础之Object类getClass()方法
  8. rsync常见问题及解决办法
  9. 独自封装windows 10系统详细教程(三)
  10. css样式基础--基本选择器
  11. [Matlab] subs 函数 将符号变量代入符号表达式不需要加引号
  12. Java中List使用Comparator.comparing进行排序
  13. win10连接dns服务器未响应,win10提示dns服务器未响应怎么解决_win10网络诊断为dns未响应修复方法...
  14. 关于Linux下面移动硬盘读不出来
  15. 如何做好软件系统的需求调研,七种武器让你轻松搞定
  16. 通信达股票数据格式读取程序
  17. 使用winsw发布接口服务
  18. 螺旋无限延伸_八卦中的双螺旋结构,无限大∞符号隐含的秘密
  19. MySQL之DML(数据操纵语言)
  20. 数据结构之C语言Dequeue

热门文章

  1. 2022最新行政区域excel数据
  2. redis服务器错误日志分析
  3. 7.2.1因特网的链路层与网络层 - 因特网的链路层与网络层
  4. 20句简短含蓄的爱情名言
  5. WEB应用服务器都有哪些?
  6. 版本控制工具CVS使用经验介绍
  7. 【Python之pymysql库学习】一、分析fetchone()、fetchmany()、fetchall()(保姆级图文+实现代码)
  8. Cisco Packet Tracer 无线局域网部署
  9. python 提取批量xml文件中的坐标信息存入txt文件 xml文件转txt文件
  10. 到底发生了什么,让你刚入职就想离职?