Exadata Griddisk Can't be auto added

近日遇到Exadata 的磁盘故障，在更新完physical disk后，其中一个griddisk没有自动添加的到ASM实例中,在问题解决后，整理出整个问题分析的思路。

1.在磁盘失败的情况下，如果有LED灯亮，如果怀疑是硬件问题需要首先收集硬件日志

首先需要使用sundiag.sh脚本收集cell硬件的信息，检查是否有硬件损坏，并定位具体设备，更换故障设备。

（注：sundiag.sh是oracle提供的硬件检查脚本，下面是在compute node上执行，然后到每一个compute node和cell的/tmp下找到生成的日志)

#dcli -l root -g /opt/oracle.SupportTools/onecommand/all_group "/opt/oracle.SupportTools/sundiag.sh"
For example
dmorlcel09: Success in AdpEventLog
dmorlcel09:
dmorlcel09: Exit Code: 0x00
……
dmorlcel09: sundiag_2012_07_10_06_08/dmorlcel09_megacli64-status_2012_07_10_06_08.out
dmorlcel09: ==============================================================================
dmorlcel09: Done the report files are in bzip2 compressed /tmp/sundiag_2012_07_10_06_08.tar.bz2
dmorlcel09:

2.但是在还盘后问题没有解决, ASM不能自动增加griddisk到磁盘组, 下面是我的分析步骤

$ sqlplus / as sysasm
（1）Check sum of griddisk
column "Diskgroup" format A30
column "Imbalance" format 99.9 Heading "Percent|Imbalance"
column "Variance" format 99.9 Heading "Percent|Disk Size|Variance"
column "MinFree" format 99.9 Heading "Minimum|Percent|Free"
column "DiskCnt" format 9999 Heading "Disk|Count"
column "Type" format A10 Heading "Diskgroup|Redundancy"
SELECT g.name "Diskgroup",
100*(max((d.total_mb-d.free_mb)/d.total_mb)-min((d.total_mb-d.free_mb)/d.total_mb))/max((d.total_mb-d.free_mb)/d.total_mb) "Imbalance",
100*(max(d.total_mb)-min(d.total_mb))/max(d.total_mb) "Variance",
100*(min(d.free_mb/d.total_mb)) "MinFree",
count(*) "DiskCnt",
g.type "Type"
FROM v$asm_disk d, v$asm_diskgroup g
WHERE d.group_number = g.group_number and
d.group_number <> 0 and
d.state = 'NORMAL' and
d.mount_status = 'CACHED'
GROUP BY g.name, g.type;
---
Diskgroup Percent Imbalance Percent Disk Size Variance Minimum Percent Free Disk Count Redundancy
---------------- --------- --------- ------- ----- ----------
DBFS_DG 84.6 .0 99.8 220 NORMAL
DG_DAT1 7.1 .0 8.9 264 NORMAL
DG_DAT2 .1 .0 65.1 263 NORMAL <<<<<<<<This lack one disk then DG_DAT1
（2） We can find one griddisk isn’t mounted.
set line 300
column "PATH" format A100
SQL> select name, path, header_status from v$asm_disk order by path;
DG_DAT1_CD_11_DM02CEL04 o/192.168.10.34/DG_DAT1_CD_11_dm02cel04 MEMBER
DG_DAT1_CD_00_DM02CEL04 o/192.168.10.34/DG_DAT1_CD_00_dm02cel04 MEMBER
o/192.168.10.34/DG_DAT2_CD_00_dm02cel04 FORMER <<<<<<<<<<<<<<<<<< This status is unnormal
DG_DAT2_CD_01_DM02CEL04 o/192.168.10.34/DG_DAT2_CD_01_dm02cel04 MEMBER
------------------------------------
Comments
FORMER status indicate Disk was once part of a disk group but has been dropped cleanly from the group. It may be added to a new disk group with the ALTER DISKGROUP statement.
（3）Determine DG_DAT2_CD_00_dm02cel04 was missed
select NAME,HEADER_STATUS,MOUNT_STATUS,STATE,GROUP_NUMBER from V$ASM_DISK where NAME like '%CD_03_DM01CEL03'; <<<<<<This need modify as cell name
NAME HEADER_STATUS MOUNT_STATUS STATE GROUP_NUMBER
------------------------------------------------------------ ------------------------ -------------- ---------------- ------------
DG_DAT1_CD_00_DM02CEL04 MEMBER CACHED NORMAL 2
<<<<<<DG_DAT2_CD_00_dm02cel04 is missed

3.解决方法及步骤

Exadata硬盘错误更换后的ASM磁盘组重新添加操作顺利完成。
在exadata上面通过grid用户把RECO_DM01_CD_03_DM01CEL03重新加入到ASM中。
整个操作过程如下：

(1)、操作之前查询的磁盘组相关信息：

SQL> select name,header_status,mount_status,state,group_number from v$asm_disk where name like '%CD_03_DM01CEL03';
NAME HEADER_STA MOUNT_S STATE GROUP_NUMBER
------------------------------ ---------- ------- -------- ------------
DBFS_DG_CD_03_DM01CEL03 MEMBER CACHED NORMAL 2
DATA_DM01_CD_03_DM01CEL03 MEMBER CACHED NORMAL 1

(2)、把硬盘重新添加回磁盘组：

SQL> alter diskgroup RECO_DM01 add disk 'o/192.168.252.5/RECO_DM01_CD_03_dm01cel03' rebalance power 10;
Diskgroup altered.

(3)、添加之后，查看磁盘组信息：

SQL> select name,header_status,mount_status,state,group_number from v$asm_disk where name like '%CD_03_DM01CEL03';
NAME HEADER_STATUS MOUNT_STATUS STATE GROUP_NUMBER
------------------------------------------------------------ ------------------------ -------------- ---------------- ------------
DBFS_DG_CD_03_DM01CEL03 MEMBER CACHED NORMAL 2
RECO_DM01_CD_03_DM01CEL03 MEMBER CACHED NORMAL 3
DATA_DM01_CD_03_DM01CEL03 MEMBER CACHED NORMAL 1

4.故障原因分析，分析Alert+ASM.log

Name
--------
=== ODM Data Collection ===
NOTE: cache opening disk 192 of grp 3: DG_DAT2_CD_00_DM02CEL04 path:o/192.168.10.34/DG_DAT2_CD_00_dm02cel04
NOTE: Attempting voting file refresh on diskgroup DG_DAT2
GMON querying group 3 at 19 for pid 19, osid 12228
SUCCESS: refreshed membership for 3/0xa4c726c6 (DG_DAT2)
Tue Jun 05 22:33:40 2012
NOTE: Attempting voting file refresh on diskgroup DG_DAT2
Tue Jun 05 22:33:43 2012
SUCCESS: /* Exadata Auto Mgmt: ADD ASM Disk in given FAILGROUP */
alter diskgroup DG_DAT2 add
failgroup DM02CEL04
disk 'o/192.168.10.34/DG_DAT2_CD_00_dm02cel04'
name DG_DAT2_CD_00_DM02CEL04
rebalance nowait
NOTE: starting rebalance of group 3/0xa4c726c6 (DG_DAT2) at power 4
Starting background process ARB0
Tue Jun 05 22:33:46 2012
ARB0 started with pid=39, OS id=5039
NOTE: assigning ARB0 to group 3/0xa4c726c6 (DG_DAT2) with 4 parallel I/Os <<<<<<<<<<<<<<<我以为是在两个griddisk同时reblance的时候产生I/O压力导致的故障的griddisk添加失败
NOTE: F1X0 copy 2 relocating from 23:2 to 249:2 for diskgroup 3 (DG_DAT2)
NOTE: F1X0 copy 3 relocating from 249:2 to 255:9441 for diskgroup 3 (DG_DAT2)
......
Tue Jun 05 22:36:04 2012 <<<<<<<当时认为这个分析就是对的，但是后来发现其实root cause是在硬盘最开始报错时就决定的
NOTE: stopping process ARB0 <<<<<<<<<<<<<<<<<<<<<<<
NOTE: rebalance interrupted for group 3/0xa4c726c6 (DG_DAT2) <<<<<<<<<<<<<<<<<<<<<<< rebalance interrupted
NOTE: membership refresh pending for group 3/0xa4c726c6 (DG_DAT2)
Tue Jun 05 22:36:11 2012
GMON querying group 3 at 22 for pid 19, osid 12228
SUCCESS: refreshed membership for 3/0xa4c726c6 (DG_DAT2)
Tue Jun 05 22:36:17 2012
NOTE: Attempting voting file refresh on diskgroup DG_DAT2
Tue Jun 05 23:19:15 2012
NOTE: cache closing disk 192 of grp 3: DG_DAT2_CD_00_DM02CEL04
Tue Jun 05 23:19:15 2012
NOTE: membership refresh pending for group 3/0xa4c726c6 (DG_DAT2)
GMON querying group 3 at 23 for pid 19, osid 12228
GMON querying group 3 at 24 for pid 19, osid 12228
NOTE: Disk in mode 0x8 marked for de-assignment
SUCCESS: refreshed membership for 3/0xa4c726c6 (DG_DAT2)

5.Root Cause的最终分析

这个是由于一个physical disk最终划分到两个griddisk，当磁盘某一个扇区损坏，导致其中的一个griddisk直接被drop掉，另一个griddisk受到影响，但是并不会被drop，而是报警，在更坏新physical disk后，未损坏部分的griddisk直接被自动添加，而另一个必须手动添加。

针对这个问题深入分析，磁盘删除后会不会被ASM自动添加，取决于磁盘删除的方式

alter diskgroup DG_DAT2 drop disk DG_DAT2_CD_00_DM02CEL04 <<<<<<<<<<<<<<<<<<<<<<没有force参数的，系统不会再次尝试自动添加磁盘
alter diskgroup DG_DAT2 drop force disk DG_DAT2_CD_00_DM02CEL04 <<<<<<<<<<<<<<<<<<<<<<有force参数，系统认为不是正常删除的磁盘，所以会尝试自动添加新磁盘

下面是继续分析，问题发生时，具体是什么问题导致的磁盘drop，才能分析出，后续为什么不能自动添加到ASM磁盘组中
=== 收集alert_+ASM.log信息，问题发生时。这部分显示的是能正常被自动添加的grid disk===

Tue Jun 05 16:34:56 2012
XDWK started with pid=30, OS id=13410
WARNING: Exadata Auto Management: OS PID: 13410 Operation ID: 3131: ONLINE disk DG_DAT1_CD_00_DM02CEL04 in diskgroup DG_DAT1 Failed
SQL :
Cause :
Action : Check alert log to see why this operation failed.
Also check process trace file for matching Operation ID.
...................................
Tue Jun 05 22:25:59 2012
WARNING: Exadata Auto Management: OS PID: 20903 Operation ID: 3246: ONLINE disk DG_DAT1_CD_00_DM02CEL04 in diskgroup DG_DAT1 Failed
SQL :
Cause :
Action : Check alert log to see why this operation failed.
Also check process trace file for matching Operation ID.

=== 收集alert_+ASM.log信息，问题发生时。这部分显示的是不能正常被自动添加的grid disk===

Tue Jun 05 13:35:58 2012
XDWK started with pid=30, OS id=26485
SQL> /* Exadata Auto Mgmt: Proactive DROP ASM Disk */ <<<<<<<<<<<<<<<<<<<<<<<<<Exadata Auto Mgmt: Proactive DROP ASM Disk
alter diskgroup DG_DAT2 drop
disk DG_DAT2_CD_00_DM02CEL04
NOTE: GroupBlock outside rolling migration privileged region
NOTE: requesting all-instance membership refresh for group=3
Tue Jun 05 13:36:00 2012
GMON updating for reconfiguration, group 3 at 10 for pid 30, osid 26485
NOTE: group 3 PST updated.
Tue Jun 05 13:36:00 2012
NOTE: membership refresh pending for group 3/0xa4c87c09 (DG_DAT2)
GMON querying group 3 at 11 for pid 19, osid 15396
SUCCESS: refreshed membership for 3/0xa4c87c09 (DG_DAT2)
SUCCESS: /* Exadata Auto Mgmt: Proactive DROP ASM Disk */
alter diskgroup DG_DAT2 drop
disk DG_DAT2_CD_00_DM02CEL04
NOTE: Attempting voting file refresh on diskgroup DG_DAT2
NOTE: starting rebalance of group 3/0xa4c87c09 (DG_DAT2) at power 4
Starting background process ARB0
Tue Jun 05 13:36:05 2012
ARB0 started with pid=38, OS id=26796
NOTE: assigning ARB0 to group 3/0xa4c87c09 (DG_DAT2) with 4 parallel I/Os
NOTE: membership refresh pending for group 2/0xa4c87c08 (DG_DAT1)
GMON querying group 2 at 12 for pid 19, osid 15396
SUCCESS: refreshed membership for 2/0xa4c87c08 (DG_DAT1)
Tue Jun 05 13:36:11 2012
NOTE: Attempting voting file refresh on diskgroup DG_DAT1
Tue Jun 05 13:49:26 2012
Starting background process XDWK
Tue Jun 05 13:49:26 2012
XDWK started with pid=30, OS id=25037
Tue Jun 05 14:04:28 2012
Starting background process XDWK
Tue Jun 05 14:04:29 2012
XDWK started with pid=39, OS id=26978
Tue Jun 05 14:19:31 2012
Starting background process XDWK
Tue Jun 05 14:19:31 2012
XDWK started with pid=30, OS id=28260
Tue Jun 05 14:34:34 2012
Starting background process XDWK
Tue Jun 05 14:34:34 2012
XDWK started with pid=39, OS id=32093
Tue Jun 05 14:43:59 2012
NOTE: GroupBlock outside rolling migration privileged region
NOTE: requesting all-instance membership refresh for group=3
Tue Jun 05 14:44:22 2012
GMON updating for reconfiguration, group 3 at 13 for pid 30, osid 21558
Tue Jun 05 14:44:23 2012
NOTE: group 3 PST updated.
Tue Jun 05 14:44:34 2012
SUCCESS: grp 3 disk DG_DAT2_CD_00_DM02CEL04 emptied
NOTE: erasing header on grp 3 disk DG_DAT2_CD_00_DM02CEL04
NOTE: process _x000_+asm1 (21558) initiating offline of disk 192.3915944441 (DG_DAT2_CD_00_DM02CEL04) with mask 0x7e in group 3
NOTE: initiating PST update: grp = 3, dsk = 192/0xe96891f9, mask = 0x6a, op = clear
Tue Jun 05 14:44:34 2012

6.总结

开始自己考虑到一个celldisk被分为两个griddisk，在reblance的时候一定是导致了I/O争用的问题导致了其中一个加载失败，但是后来重新分析日志，发现问题不在这里。

从源头开始查找，查找该griddisk第一报错的时候是什么原因，最后发现这行日志，这里就引出另一个问题，ASM实例磁盘组删除的问题，所以在分析问题没有足够说服力的时候，尝试从头来，换个思路，兴许，问题就解决了。

alter diskgroup DG_DAT2 drop disk DG_DAT2_CD_00_DM02CEL04

本文转自 hsbxxl 51CTO博客，原文链接：http://blog.51cto.com/hsbxxl/931731，如需转载请自行联系原作者

Exadata Griddisk Can't be auto added相关推荐

oracle 11.2.0.4 mos,Oracle 11.2.0.4 最终版本发布以来的 Oracle PSU 列表
Oracle 11.2.0.4 最终版本发布以来的 Oracle PSU 列表 Oracle 11g R2 是目前客户的主流版本,这个版本后续发布了一系列的补丁,今天列表整理一下,供大家参考. 云和恩 ...
【读书笔记《Bootstrap 实战》】3.优化站点资源、完成响应式图片、让传送带支持手势...
A.优化站点资源速度很重要.用户很关心.我们的站点必须加载够快,否则用户就会走人.SEO 也很重要.我们的站点必须加载够快,否者搜索排名就会下降. 明白了这样,我们就来清点一下 [Bootstrap ...
单元测试试图告诉我们关于 Activity 的什么事情：第二部分
本文讲的是单元测试试图告诉我们关于 Activity 的什么事情:第二部分, Activity 和?Fragment,可能是因为一些奇怪的历史巧合,从 Android 推出之时起就被视为构建 Andr ...
解决GitHub文件无法下载的问题
参考链接博客 GitHub无法下载和显示图片 1.去https://www.ipaddress.com/ 2.箭头处输入raw.githubusercontent.com查询到真实IP地址 3.Win ...
exadata的xdwk进程
参考文档: Auto disk management feature in Exadata (Doc ID 1484274.1) EXADATA AUTO MANAGEMENT INITIATE DR ...
Oracle Exadata 一体机关机过程(虚拟机环境)
编辑好cell,db节点信息文件all_group,dbs_group,cell_group [root@idc-dns1 exatest]# pwd /root/exatest [root@idc- ...
Unity2017.1官方UGUI文档翻译——Auto Layout
Auto Layout 自动布局 The Rect Transform layout system is flexible enough to handle a lot of different ty ...
【Oracle】Exadata虚拟机配置（一）
Exadata是Oracle软硬结合的一体机,通过自己的机子不可能全然模拟出来,这里搭建的虚拟机仅仅是一个简单的.能够供我们学习Exadata的环境. 最简单能够模拟的Exadata虚拟机须要两个节点 ...

Exadata Griddisk Can't be auto added

Exadata Griddisk Can't be auto added相关推荐

最新文章

热门文章