应用环境描述

一、硬件

1、服务器:2台dell

r610—16G内存、2颗6核xeon cpu、2个146G sas盘,做了raid1

2、存储:dell

MD3220 24个300G硬盘

3、存储连接:6GB

HBA卡,2个通道都连线了

二、软件

1、系统:64位centos

5.5

2、系统内核版本:Linux

rac1 2.6.18-194.el5 #1 SMP Fri Apr 2 14:58:14 EDT 2010 x86_64

x86_64 x86_64 GNU/Linux

3、asm软件:oracleasm-2.6.18-194.el5-2.0.5-1.el5.x86_64.rpm、oracleasm-support-2.1.7-1.el5.x86_64.rpm、oracleasmlib-2.0.4-1.el5.x86_64.rpm

4、数据库软件:linux.x64_11gR2_database_1of2.zip、linux.x64_11gR2_database_2of2.zip

5、集群软件:linux.x64_11gR2_grid.zip

故障描述

一、故障前的情况:

1、集群实例正常运行

2、asm能用asmcmd查看目录和文件

3、数据库实例正常

4、监听器正常

5、客户端远程连接正常

6、多路径访问正常

7、/dev/oracleasm/disks目录的下的文件全部存在

二、故障的起因:

1、打算模拟服务器失效

2、直接重启两个服务器

init 6

三、故障现象:

1、两个服务器的asm实例都没有启动成功

2、两个服务器的oracle实例都没有启动成功

3、Crs等进程启动几个,但基本上不能正常工作

4、手动启动crs,失败

5、以grid用户手动连接实例,强制启动,失败

故障基本原因判断

数据库数据文件、集群软件所需的ocr文件都存储在asm设定的共享存储中,由于集群软件(包括asm实例)启动失败而最终也导致数据库实例启动失败。

处理过程

一、定位故障点:

1、查看系统进程,发现ASM进程没有起来。但有少许grid相关的进程,如下图所示:

2、手动执行/u01/app/grid/bin/crsctl

start crs 失败

3、查看设备文件目录/dev/mapper,发现共享存储的分区全部存在

[root@rac2

~]# ll

/dev/mapper/

total 0

crw------- 1 root

root 10, 63 Jul 24 00:00 control

brw-rw---- 1 root disk

253, 0 Jul 24 00:01 mpath13

brw-rw---- 1 root disk 253,

10 Jul 24 00:01 mpath13p1

brw-rw---- 1 root disk 253,

11 Jul 24 00:01 mpath13p2

brw-rw---- 1 root disk 253,

12 Jul 24 00:01 mpath13p3

brw-rw---- 1 root disk 253,

13 Jul 24 00:01 mpath13p5

brw-rw---- 1 root disk 253,

14 Jul 24 00:01 mpath13p6

brw-rw---- 1 root disk 253,

15 Jul 24 00:01 mpath13p7

brw-rw---- 1 root disk 253,

16 Jul 24 00:01 mpath13p8

brw-rw---- 1 root disk

253, 1 Jul 24 00:01 mpath14

brw-rw---- 1 root disk

253, 3 Jul 24 00:01 mpath14p1

brw-rw---- 1 root disk

253, 4 Jul 24 00:01 mpath14p2

brw-rw---- 1 root disk

253, 5 Jul 24 00:01 mpath14p3

brw-rw---- 1 root disk

253, 6 Jul 24 00:01 mpath14p5

brw-rw---- 1 root disk

253, 7 Jul 24 00:01 mpath14p6

brw-rw---- 1 root disk

253, 8 Jul 24 00:01 mpath14p7

brw-rw---- 1 root disk

253, 9 Jul 24 00:01 mpath14p8

brw-rw---- 1 root disk

253, 2 Jul 24 00:01 mpath15

4、初步怀疑是asm磁盘组出故障了,于是执行

oracleasm listdisks,发现输出只有一行,可实际上是10多行的。

[root@rac2 ~]#oracleasm

listdisks

DATA06

5、执行oracleasm

scandisks扫描,再次查看输出磁盘,还是只有一个。查了网上的资料,也有这种情况,别人的经验是多执行几次asm磁盘扫描就出来了,但对我这个情况无效。

6、当我们初始化创建asm磁盘组时,使用命令

oracleasm createdisk OCR1 /dev/mapper/mpath14p1

执行成功后,将在目录/dev/oracleasm/disks目录生成OCR1这个文件,文件名就是asm的磁盘名;创建多少asm磁盘,就会有多少同名文件。进入目录/dev/oracleasm/disks,查看一下,只剩下一个块设备文件DATA06,其余的全部不见了。

[root@rac2

~]# ll

/dev/oracleasm/disks/

total 0

brw-rw---- 1 grid asmadmin

8, 22 Jul 24 00:01 DATA06

与oracleasm listdisks

输出的结果完全一致,由此可知asm磁盘组与操作系统这个目录有直接的关联。这几者的关系可以如下图标识:

现在要做的事情是能不能恢复余下的磁盘文件。

二、处理方法

1、先上网搜索一下吧,搜出来不少,都是建议用dd清理磁盘,然后再用oracleasm

createdisk 重新创建磁盘组。但我担心这样做,asm磁盘里面的数据会全部丢失,没敢这样尝试。

2、打电话问我原来的同事,他现在转行做dba了。他告诉我,看看是不是设备文件的权限问题,我到服务器上去查看,发现一个机器的/dev/mapper/mpath* 的属主是

root:disk,而另一个服务器相应的目录属主却是grid:oinstall。按照他的建议,我在文件/etc/rc.local写入了行“chown

–R

grid:oinstall”,然后重启系统,查看目录确实属主按我的意愿变成grid:root,但asm磁盘仍然不能识别,看来问题不在这里。

3、在多个qq群发送消息,有说权限问题的,也有建议oracleasm scandisk

的。还有的人认为oracleasm服务没有运行起来。还有的人说是裸设备权限问题,我可是没有使用裸设备啊,打开文件/etc/sysconfig/rawdevices,没有任何生效的文本行(全部被注释上了),这应诊了没有使用裸设备。

搞了好几天,没得进展。一天睡在床上,有想起这个问题,既然/dev/oracleasm/disks有DATA06这个文件,能不能手工创建一些呢(即丢失的那些文件),于是又爬起来。但当我手动执行touch

/dev/oracleasm/disks/DATA08时,提示没有权限。看来,只能用mknod之类的命令才可以在这个目录创建文件。

念头一转,又想:既然DATA06这个文件存在,可能会在某些文件中有记录吧?执行grep

DATA06 /etc -r 全路径搜索,还真搜到一个文件

/etc/blkid/blkid.tab,这个文件的如下:

[root@rac1

~]# more

/etc/blkid/blkid.tab

b016-5190e1a7bcc6"

TYPE="ext3" SEC_TYPE="ext2">/dev/sda7

a256-b9bc84c07b75"

TYPE="ext3" SEC_TYPE="ext2">/dev/sda6

9095-955122dc5ff1"

TYPE="ext3" SEC_TYPE="ext2">/dev/sda5

93ff-f442c99f6dcf"

TYPE="ext3" SEC_TYPE="ext2">/dev/sda3

/dev/sda2

8-ff9e007602fd" TYPE="ext3"

SEC_TYPE="ext2">/dev/sda1

/u01/swapfile

/dev/ma

pper/mpath14p8

/dev/mapper/m

path15p8

LABEL="DATA06"

TYPE="oracleasm">/dev/ma

pper/mpath14p6

/dev/mapper/m

path14p5

/dev/mapper/m

path15p5

/dev/mapper/m

path14p3

/dev/mapper/m

path15p3

/dev/mapper/m

path14p2

/dev/mapper/m

path15p2

/dev/mapp

er/mpath14p1

/dev/mapp

er/mpath15p1

/dev/sdb1

/dev/sdb2

vice>

/dev/sdb3

vice>

/dev/sdb5

vice>

LABEL="DATA06" TYPE="oracleasm">/dev/sd

b6

/dev/sd

b8

/dev/sdc1

/dev/sdc2

vice>

/dev/sdc3

vice>

/dev/sdc5

vice>

/dev/sdc8

vice>

/dev/sde1

/dev/sde2

vice>

/dev/sde3

vice>

/dev/sde5

vice>

LABEL="DATA06" TYPE="oracleasm">/dev/sd

e6

/dev/sd

e8

/dev/sdf1

/dev/sdf2

vice>

/dev/sdf3

vice>

/dev/sdf5

vice>

/dev/sdf8

vice>

从输出能看出一些端倪,凡是label为空的,就是asm磁盘丢失的。照这个思路,我手动在这个文件改了对应的3行,使其label=“DATA08”。DATA08是当时用oracleasm createdisk创建出来,预留下来的。因为没有数据存在这个DATA08磁盘,所以就是破坏了,也无关紧要。接着执行oracleasm

scandisks ; 再 oracleasm listdisks

还是没有任何变化,看来这招也不灵。最后重启系统,看是否有效,还是一样。后来才知,/etc/blkid/blkid.tab文件的内容是运行blkid后从系统目录/dev下读入数据再自动生成的。

难道只得重新推到再来一次?不甘心啊!倒不是怕数据丢失,而是担心下次这个问题再次发生。

再准备推到重来之前,我再来试试创建一个asm磁盘。还是拿没有使用的/dev/mapper/mpath14p8分区来做,反正做坏了,也没什么影响。当执行oracleasm

createdisk DATA08 /dev/mapper/mpath14p8,没有成功,其输出为:

Device

"/dev/mapper/mpath14p8" is already labeled for ASM disk“”

这个输出给我很好的提示,它说明了asm

磁盘标签是存在的,但其值为空(它本来的值应该是DATA08)。于是我就思量,能不能强制把它由空值改成原来的值呢?

不知道怎么改oracle

asm磁盘标签,不过这难不倒咱。打开文件

/etc/init.d/oracleasm瞧瞧,乖乖,找到了呢.看下面一段函数:

force_relabel_disk()

{

OLD="$1"

NEW="$2"

echo -n "Renaming disk \"${OLD}\" to \"${NEW}\": "

"${ORACLEASM}"

renamedisk -f -v -l "${ORACLE_ASMMANAGER}" "${OLD}"

\

"$2" 1>>/var/log/oracleasm 2>&1

if_fail "$?" "Unable to rename disk \"${OLD}\" see

/var/log/oracleasm"

}

红色字体这行,就是强制性改asm磁盘标签的语法。迫不及待,马上执行 oracleasm

renamedisk -f /dev/mapper/mpath14p8 DATA08

,很顺利进行下去了。现在切换到目录/dev/oracleasm/disks,设备文件DATA08出现了,心里一阵狂写啊!在另一个主机上执行oracleasm

scandisk ,接着执行oracleasm listdisks

,看见DATA08闪耀登场。由此可以预计,只要按以前的标签名,把对应的asm磁盘强制改名,就应该可以恢复。

先不急于把所有的asm磁盘标签恢复,从ocr所在的磁盘标签做起。本案的ocr用了两个asm

磁盘,其名称为OCR1、OCR2(幸亏以前安装rac的时候,做了屏幕录像),执行下面两条命令:

oracleasm renamedisk -f

/dev/mapper/mpath14p1 OCR1

oracleasm renamedisk -f

/dev/mapper/mpath15p1 OCR2

成功执行后,用oracleasm

scandisks扫描,检查目录/dev/oracleasm/disks,文件OCR1、ORC2都存在了;检查 oracleasm

listdisks的输出,确实有OCR1和OCR2.

Ocr恢复了,可以试着启动crs.以root命令执行

crsctl start crs ,回车后,系统一阵沉默,上个厕所回来,执行完毕返回shell提示符下。赶紧ps auxww|grep

–I asm查看进程,asm实例确实起来了.切换到grid用户,执行asmcd,顺利进入交互模式,ASMCMD>ls

输出为:

ASMCMD>ls

DGCRS/

注:DGCRS是由OCR1、OCR2两者合并而成。

再另一个服务器上,启动crs,asm实例正常运行起来了。

现在,可以放心的强制更改余下的asm标签,完毕后目录的文件日下:

[root@rac1

dev]# ll

/dev/oracleasm/disks

total 0

brw-rw---- 1 grid

oinstall8, 18 Jul 26 17:05 DATA02

brw-rw---- 1 grid

oinstall8, 19 Jul 26 17:05 DATA03

brw-rw---- 1 grid

oinstall8, 21 Jul 26 17:05 DATA05

brw-rw---- 1 grid

oinstall8, 22 Jul 24 22:31 DATA06

brw-rw---- 1 grid

oinstall8, 24 Jul 26 17:05 DATA08

brw-rw---- 1 grid

oinstall8, 34 Jul 26 17:05 DATA12

brw-rw---- 1 grid

oinstall8, 35 Jul 26 17:05 DATA13

brw-rw---- 1 grid

oinstall8, 37 Jul 26 17:05 DATA15

brw-rw---- 1 grid oinstall

253, 14 Jul 24 22:41 DATA16

brw-rw---- 1 grid

oinstall8, 40 Jul 26 17:00 DATA18

brw-rw---- 1 grid

oinstall8, 17 Jul 26 17:05 OCR1

brw-rw---- 1 grid

oinstall8, 33 Jul 24 22:32 OCR2

确认无误后,联系相关人员告知要启动数据库了。再次检查ORACLE_SID、asm磁盘标签等,深呼吸一下,缓慢地输入/u01/app/grid/bin/srvctl

start database -d DD4QIGOU

回车,起身离座喝口统一鲜橙多(估计有塑化剂)。估计数据库启得差不多了,回坐查看,oracle实例全部正常起来。不过有一点意外,就是服务器交换了各自的实例(rac1运行的实例是db4qigou_2、而rac2运行的实例是db4qigou_1);这不要紧,关闭各种的实例,在rac1上执行$srvctl

start instance -d DB4QIGOU -i DB4QIGOU_1 -n rac1 ,rac2上执行srvctl

start instance -d DB4QIGOU -i DB4QIGOU_2 -n rac2就扳过来了。

补充:oracle官方站点有建议修改

/etc/sysconfig/oracleasm文件的扫描顺序,但在本例无效。

源地址:http://sery.blog.51cto.com/10037/624008

oracle 集合为空判断,执行 oracleasm listdisks,发现输出缺少多行相关推荐

  1. 字符串对象数组集合非空判断

    String 字符串 //直接用字符串调用方法 str.isEmpty() 如果为null则会抛出异常 if (StringUtils.isEmpty(str)){// "" 和n ...

  2. mysql 判断list不为空_判断List集合为空还是null的正确打开方式

    事故场景还原 最近在写一个项目的时候遇到一个这样一个问题,我简单的还原一下场景,这是模拟一个简单的管理系统 ① 一张简单的客户表 CREATE TABLE customer( id INT(11) N ...

  3. python判断集合为空

    python判断字符串或者集合是否为空的实例 最近在看<Effective Python>,里面提到判断字符串或者集合是否为空的原则,原文如下: Don't check for empty ...

  4. 判断java中String、自定义对象、集合为空的方法

    一.仅判断是否分配内存 如果仅判断该对象.集合是否已被分配内存(即null还是非null),而不用考虑是否有值,则直接使用 object == null判断即可. 二.如果需进一步判断 要进一步判断该 ...

  5. mybatis判断集合为空或者元素个数为零

    mybatis判断集合为空或者元素个数为零: <if test="mlhs != null and mlhs.size() != 0">and t.mlh_name n ...

  6. 在Java开发中,判断list集合为空还是为null的区别

    在Java开发中,判断list集合为空还是为null的区别 案例测试1 为什么输出not null,是因为null判断的是否对List集合分配内存空间,为不是List集合里面内容是否为空 案例测试2 ...

  7. Oracle中对空字符串的判断

    目录 1.在Oracle中,将长度为零的字符值视为NULL 2.在PL/SQL中判断空字符串 2.1 使用nvl函数空值处理 2.2 使用is not null改写 写在最前面:在Oracle 11g ...

  8. java判断对象无数据_java 对象属性不能为空判断

    如何判断一个对象里的属性是否都为空的 怎么判断一个对象里的属性是否都为空的怎么判断一个对象里的属性是否都为空的,或者判断该对象是否是一个实体!引用:怎么判断一个对象里的属性是否都为空的,或者判断该对象 ...

  9. oracle导出dmp空表导不出来,如何解决Oracle11g使用dmp命令无法导出空表问题

    如何解决Oracle11g使用dmp命令无法导出空表问题 导出:exp  username/password@orcl file=路径 tables=(tb1)    //tables=(tb1)可有 ...

最新文章

  1. 关于androidManifest.xml的概叙以及intent-filter的详细分析
  2. ABP框架连接Mysql数据库
  3. JetBrains——账户登录错误(JetBrains Account Error:JetBrains Account connection error: www.jetbrains.com)解决方案
  4. 循环结构作业c语言,C语言循环结构练习题带答案(最新整理)
  5. python 怎么安装电脑摄像头模块_Python模块及安装
  6. 天池大赛, Storm
  7. python 复制文件夹内容 并结构一致_Python-移动和覆盖文件和文件夹
  8. TED演讲:区块链将如何改变世界?看完太震撼了!
  9. Node.js: exports 和 module.exports 的区别
  10. 最和谐的离职:1.让公司觉得你无价值了;2.让个人感觉对公司损失很大,你觉得是哪个呢?
  11. PREV-52 小数第n位 (大数)
  12. Service onStartCommand 返回值
  13. 动态主机配置协议DHCP
  14. Myeclipse中JSP页面快捷键注释失效解决方法
  15. gem install mysql2的时候出现的错误
  16. 权限持久化---映像劫持检测(Shift后门)
  17. 《资本之王》书中的精髓:黑石公司是如何成长为全球最顶尖的私募股权投资机构的?
  18. ImageNet一作、李飞飞高徒邓嘉获最佳论文奖,ECCV 2020奖项全公布
  19. OpenCv阈值化处理cv2.threshold()函数
  20. 阿里云智能编码插件,更 Cosy 的开发体验

热门文章

  1. Android获取公网IP地址
  2. FineReport单元格扩展与父子格设置
  3. 小型智能机器人开发小组
  4. java 将微信录音amr转换为mp3格式
  5. 《程序员进阶攻略》学习笔记
  6. 计算机网络——华为QINQ详解及其实验配置
  7. Java 两数相除结果判断
  8. OSG三维渲染引擎之OSG简介
  9. css 六角形_实施六角形架构
  10. python绘制六角形(三个思路)