XMD RAC(Oracle 9i) 存儲修復處理
處理技朮﹕
[root@DELL-RAC02 root]# powermt display dev=all
Pseudo name=emcpoweri
CLARiiON ID=CK200040700048 [DMDI-NewRAC]
Logical device ID=600601602AA31000AEC05C9A0E8DD911 [LUN 2]
state=alive; policy=CLAROpt; priority=0; queued-IOs=0
Owner: default=SP A, current=SP A
==============================================================================
---------------- Host --------------- - Stor - -- I/O Path - -- Stats ---
### HW Path I/O Paths Interf. Mode State Q-IOs Errors
==============================================================================
1 QLogic Fibre Channel 2300 sdf SP A0 active alive 0 0
1 QLogic Fibre Channel 2300 sdk SP B0 active alive 0 0
2 QLogic Fibre Channel 2300 sdp SP A1 active alive 0 0
2 QLogic Fibre Channel 2300 sdu SP B1 active alive 0 0
Pseudo name=emcpowerj
CLARiiON ID=CK200040700048 [DMDI-NewRAC]
Logical device ID=60060160A1201000540A119C7673E011 [LUN 9]
state=alive; policy=CLAROpt; priority=0; queued-IOs=0
Owner: default=SP A, current=SP A
==============================================================================
---------------- Host --------------- - Stor - -- I/O Path - -- Stats ---
### HW Path I/O Paths Interf. Mode State Q-IOs Errors
==============================================================================
1 QLogic Fibre Channel 2300 sdb SP A0 active alive 0 0
1 QLogic Fibre Channel 2300 sdg SP B0 active alive 0 0
2 QLogic Fibre Channel 2300 sdl SP A1 active alive 0 0
2 QLogic Fibre Channel 2300 sdq SP B1 active alive 0 0
Pseudo name=emcpowerh
CLARiiON ID=CK200040700048 [DMDI-NewRAC]
Logical device ID=60060160A1201000C8799AB4E7D9D811 [LUN 3]
state=alive; policy=CLAROpt; priority=0; queued-IOs=0
Owner: default=SP A, current=SP A
==============================================================================
---------------- Host --------------- - Stor - -- I/O Path - -- Stats ---
### HW Path I/O Paths Interf. Mode State Q-IOs Errors
==============================================================================
1 QLogic Fibre Channel 2300 sde SP A0 active alive 0 0
1 QLogic Fibre Channel 2300 sdj SP B0 active alive 0 0
2 QLogic Fibre Channel 2300 sdo SP A1 active alive 0 0
2 QLogic Fibre Channel 2300 sdt SP B1 active alive 0 0
Pseudo name=emcpowerg
CLARiiON ID=CK200040700048 [DMDI-NewRAC]
Logical device ID=60060160A1201000C9799AB4E7D9D811 [LUN 4]
state=alive; policy=CLAROpt; priority=0; queued-IOs=0
Owner: default=SP A, current=SP A
==============================================================================
---------------- Host --------------- - Stor - -- I/O Path - -- Stats ---
### HW Path I/O Paths Interf. Mode State Q-IOs Errors
==============================================================================
1 QLogic Fibre Channel 2300 sdd SP A0 active alive 0 0
1 QLogic Fibre Channel 2300 sdi SP B0 active alive 0 0
2 QLogic Fibre Channel 2300 sdn SP A1 active alive 0 0
2 QLogic Fibre Channel 2300 sds SP B1 active alive 0 0
Pseudo name=emcpowerf
CLARiiON ID=CK200040700048 [DMDI-NewRAC]
Logical device ID=60060160A1201000F23A4A76723ADC11 [LUN 10]
state=alive; policy=CLAROpt; priority=0; queued-IOs=0
Owner: default=SP B, current=SP B
==============================================================================
---------------- Host --------------- - Stor - -- I/O Path - -- Stats ---
### HW Path I/O Paths Interf. Mode State Q-IOs Errors
==============================================================================
1 QLogic Fibre Channel 2300 sdc SP A0 active alive 0 0
1 QLogic Fibre Channel 2300 sdh SP B0 active alive 0 0
2 QLogic Fibre Channel 2300 sdm SP A1 active alive 0 0
2 QLogic Fibre Channel 2300 sdr SP B1 active alive 0 0
946 powermt display dev=all
947 exit
948 powermt display dev=all
949 id
950 ifconfig
951 powermt display dev=all
952 top
953 mkfs.ocfs -F -b 128 -C -g 500 -u 500 -L ocfs_data -m /ocfs_data -p 0775 /dev/emcpowerj1
954 fdisk -l
955 df -h
956 cd /data
957 ls
958 cd /ocfs_data
959 ls
960 df -h
961 fdisk /dev/emcpowerj
962 cd /
963 ls
964 ls -alhrt
965 cd /ocfs_index
966 ls
967 cd ..
968 ls
969 cd /ocfs_data/
970 ls
971 mkdir -p orcl
972 chown -R oracle.dba /ocfs_data/orcl
973 ls
974 mkfs.ocfs -F -b 128 -C -g 500 -u 500 -L ocfs_data -m /ocfs_data -p 0775 /dev/emcpowerj1
975 cd /etc
976 ls
977 vi fstab
DELL-RAC01$cat /etc/fstab
LABEL=/ / ext3 defaults 1 1
LABEL=/boot /boot ext3 defaults 1 2
none /dev/pts devpts gid=5,mode=620 0 0
none /proc proc defaults 0 0
none /dev/shm tmpfs defaults 0 0
LABEL=/tmp /tmp ext3 defaults 1 2
LABEL=/u01 /u01 ext3 defaults 1 2
LABEL=/usr /usr ext3 defaults 1 2
/dev/sda9 swap swap defaults 0 0
LABEL=/home-27975 /home ext3 defaults 1 2
/dev/cdrom /mnt/cdrom udf,iso9660 noauto,owner,kudzu,ro 0 0
/dev/emcpowerj1 /ocfs_data ocfs _netdev 0 0
/dev/emcpowerf1 /ocfs_ctrl_redo ocfs _netdev 0 0
/dev/emcpowerf2 /ocfs_arch1 ocfs _netdev 0 0
/dev/emcpowerf3 /ocfs_arch2 ocfs _netdev 0 0
/dev/emcpowerf4 /ocfs_index ocfs _netdev 0 0
/dev/emcpowerg1 /ocfs_data2 ocfs _netdev 0 0
/dev/emcpowerh1 /ocfs_index2 ocfs _netdev 0 0
/dev/emcpoweri1 /ocfs_data3 ocfs _netdev 0 0
978 top
979 ls
980 cat fstab
981 init
982 init 6
983 id
984 cd /u01/product/oracle/oracm/bin/
985 ls
986 ./ocmstart.sh
987 ps -ef | grep oracm
988 top
989 exit
990 cd /u01/product/oracle/oracm/
991 ls
992 cd bin/
993 ls
994 ./ocmstart.sh
995 ps -ef | grep oracm
事件回顧﹕
EMDX CX500 RAID5 Crush 修復描述( 4.30_13:00~~5.1_08:00) 及後續處理事項
背景: "EMD2 CX500在近期的使用中, 發現硬盤12 與 13 存在soft media error(類似硬盤壞塊),
所在在5.1放假 EMD2 不生產期間(4.29_8:00~5.2_24:00), 對相關硬盤進行更換;
其中:硬盤 9,10,11,12,13 組成一組 RAID5, 劃分為 Lun9 和 Lun 10, 硬盤 14 為HotSpare熱備盤"
異常發生過程
13:00~16:00 "13:02下線硬盤 14 HotSpare熱備盤, 拔除硬盤12號, 插入新硬盤12-New,
13:56顯示 Lun10 Rebuild完畢,14:44顯示 Lun9 Rebuild完畢,RAID5陣列Rebuild成功;"
"14:52 拔除硬盤13號, 插入新硬盤13-New,
15:43顯示 Lun10 Rebuild完畢; 15:47 顯示Lun9 Rebuild Halted;"
"此時: 硬盤13-New 顯示為 Fail 狀況, 同時, 硬盤12-New 也顯示為 Fail 狀況;
RAID5陣列兩塊硬盤(12&13號)出現在Fail 狀況中, 導致該陳列Crush;
劃分的Lun9和Lun10都不可以訪問, EMD2 RAC數據庫開始宕機中; "
"16:20 左右JonKey與德金接到值班人員電話到現場進行支援處理;
並同DELL現場維保工程師和廈門工程師商議後, 按照如下三個步驟進行測試和修復陣列RAID5;"
處理步驟一:
17:25~17:50 "17:25 拔除硬盤13-New, 重新拔插硬盤12-New, 17:27硬盤12-New自動上線,
RAID5陣列恢復為可訪問狀況, 但是RAID5陣列並不完整(13號硬盤還是在離線中);
此時, 數據庫可以開啟並正常訪問;"
處理步驟二:
17:50~19:20 17:51 插入硬盤13-New2, 18:42顯示 Lun10 Rebuild完畢; 但隨後顯示Lun9 Rebuild Halted;
"此時: 硬盤13-New2 顯示為 Fail 狀況, 同時, 硬盤12-New 也顯示為 Fail 狀況;
RAID5陣列兩塊硬盤(12&13號)出現在Fail 狀況中, 導致該陳列Crush;
劃分的Lun9和Lun10又重新都不可以訪問, EMD2 RAC數據庫開始宕機中; "
"19:16 拔除硬盤13-New2, 重新拔插硬盤12-New, 17:20硬盤12-New自動上線,
RAID5陣列恢復為可訪問狀況, 但是RAID5陣列並不完整(13號硬盤還是在離線中);
此時, 數據庫可以開啟並正常訪問;"
處理步驟三:
19:20~21:00 19:24 插入HotSpare熱備盤14, 20:27顯示 Lun10 Rebuild完畢; 但隨後顯示Lun9 Rebuild Halted;
"此時: HotSpare熱備盤14 顯示為 Fail 狀況, 同時, 硬盤12-New 也顯示為 Fail 狀況;
RAID5陣列兩塊硬盤(12&13號)出現在Fail 狀況中, 導致該陳列Crush;
劃分的Lun9和Lun10又重新都不可以訪問, EMD2 RAC數據庫開始宕機中; "
"20:43 拔除HotSpare熱備盤14, 重新拔插硬盤12-New, 20:45硬盤12-New自動上線,
RAID5陣列恢復為可訪問狀況, 但是RAID5陣列並不完整(13號硬盤還是在離線中);
此時, 數據庫可以開啟並正常訪問; 與 DB Dataguard進行數據同步;"
"鑒於步驟二和三均測試失敗, DELL廈門工程師升級服務響應等級,
重新分析存儲日誌後, 說明是Lun9所在的硬盤區块存在問題(三次都是Lun10 Rebuild成功, 而Lun9 Rebuild失敗);
需要將 Lun9 所在的數據全部複製到其它設備上, 並重建 Lun 9(類似重新格式化硬盤);"
"內部溝通後, 計劃分為兩個方案同時作業
(方案一. 重建Lun 9, 繼續修復存儲的陳列RAID5;
方案二. 考慮到舊DataGuard機器的規格, 協調一台高規格機器做成新DataGuard, 以便在方案一失敗的時候作為備用方案)"
針對方案一
23:00~2:00 "1. 冷拷貝Standby數據庫數據文件取代正式資料庫相應文件, 測試正式資料庫是否可以正常開啟; --- 經過測試可以正常開啟;
因此: 將 Lun9 上的數據複製至其它服務器, 重建該Lun之後, 再複製回來使用;
(數據複製過程中, Lun9 下的部分文件複製失敗, 後放棄直接複製該Lun上數據, 直接再備份一份舊DataGuard上的相同數據文件)"
2:00~5:30 2. 在2:06~3:30 從舊DataGuard上複製完成 Lun9 下之前已同步的文件到 IPC Standby DB(10.153.4.84/172.25.0.108), 作為備用;
3. 在3:35 刪除Lun9, 插入一塊新的13號硬盤, 陣列RAID5進行Rebuild中, 4:38 Lun9, Lun10 Rebuild完成, RAID5完全恢復正常;
"4. 考慮到硬盤12已下線多次, 4:42再次手動拔除硬盤12-New2; 重新插入一塊新的硬盤12-New3, 陣列RAID5重新進行Rebuild中,
5:31 Lun9, Lun10 Rebuild完成, RAID5再次完全恢復正常;"
5. 在5:35新插入一塊新的Hot Spare硬盤, 並配置上線; 至此, 陣列RAID5以及Hot Spare 恢復可使用狀態;
6. 在5:50 新劃分Lun9, 在6:10 該Lun 在存儲上完成初始化, 重新加入到RAC服務器群組中供數據庫格式化Ocfs格式後使用;
待處理事項 1. 開啟節點服務器71&72, 重新格式化Lun9 為Ocfs格式, 將原有的數據複製回該Lun9上;
2. 檢查數據庫文件的完整性, 並 Recover 數據庫, 開啟使用;
針對後備方案二
23:00~1:30 1.臨時抽調還在內部測試中的CSD官網的一台新R710服務器, 新安裝操作系統, 用於安裝32位Oracle9i數據庫;
1:30~5:30 2. 該機器由XX, XX, XX和XX等在凌晨1:00準備完畢, 交付XXX開始安裝配置Oracle數據庫, 並與舊DataGuard進行數據同步.
待處理事項 3. 早上5:30 ~ 7:30 已複製完成約350 GB 的資料的數據量, 剩餘 500 多G 的資料繼續同步中, 需要繼續監控同步狀況;
"4. 相關 IP 為 10.134.130.125 / 172.25.0.106; 該機器目前架設在F11, 若需要切換上線, 需要系統課安排人搬遷至D1更換IP之後上線;
同時, 需要通知OSS/BPA 等配合進行相關數據庫連接的更改事宜;"
其它問題點 "1. 截至目前, 更換全新的硬盤12 和 13 之後, 還是存在 Soft Media Error, 將繼續跟進DELL處理;
(考慮到是新硬盤, 對數據庫應用上應該無問題; )"
2. DELL 目前提供的不是全新的硬盤配件, 此次使用我們自己的三塊全新的備品, 需要協調DELL歸還新硬盤;
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/25198367/viewspace-694288/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/25198367/viewspace-694288/
XMD RAC(Oracle 9i) 存儲修復處理相关推荐
- 數據庫ORACLE轉MYSQL存儲過程遇到的坑~(總結)
ORACLE數據庫轉MySQL數據庫遇到的坑 總結 最近在做Oracle轉mysql的工程,遇到的坑是真的多,尤其是存儲過程,以前都沒接觸過類似的知識,最近也差不多轉完了就總結一下.希望能幫到一些人( ...
- mysql memcache redis_redis,mysql,memcache的區別與比較,redis兩種數據存儲持久化方式
redis與mysql比較 區別:mysql中一個中小型的網絡數據庫,比oracle和sqlserver小, 但是並發能力遠超過acess這樣的桌面數據庫:redis是一個內存鍵值數據庫,支持網絡.可 ...
- mysql存儲過程_Mysql存儲過程 | 學步園
一.創建存儲過程 在創建存儲過程之前,首先要了解delimiter 分界符,默認sql 語句分界符是 ; 分號,但為了寫較長的存儲過程,需要將默認分割符修改掉,建議修改為 //,如此之後,sql 語句 ...
- 7種解決方案修復請將磁片插入磁碟機
使用USB隨身碟時,您可能會收到"請將磁片(或光碟片)插入USB磁碟機(或光碟機)"的錯誤消息.因此,本文將重點介紹如何解決該問題,並指導您如何使用Bitwar Data Reco ...
- Oracle 9i与MS SQL Server 2000之比较连载五.zz
http://kb.cnblogs.com/a/1153156 Oracle 9i与MS SQL Server 2000之比较连载五 2008-04-14 18:13 四.Oracle中新的数据库对象 ...
- linux下oracle 9204 soft only,linux 下oracle 9i的安装
首先,准备安装需要的软件包和补丁包: 从网上下载升级补丁包,用于将Oracle9.2.0升级到9.2.0.4: p3006854_9204_LINUX.zip 所有的补丁说明如下: p3095277_ ...
- mysql中merge的用法_mysql中merge表存儲引擎用法介紹
mysql中merge表存儲引擎用法介紹: mysql的merge引擎類型允許你把許多結構相同的表合並為一個表.然后,你可以執行查詢,從多個表返回的結果就像從一個表返回的結果一樣.每一個合並的表必須有 ...
- oracle9i能闪回吗,[转]Oracle 9i的闪回查询概述
key words: Oracle闪回 flash 1.Oracle 9i的闪回查询功能 在Oracle 9i之前,如果用户错误操作数据后,除了不完全恢复外,没有好的解决办法.Oracle 9i中提供 ...
- ie11 no java plugin,修復Javascript在IE11中不起作用
說明 To Fix (Javascript not working in IE11) error you need to follow the steps below: STEP 1: STEP 2: ...
最新文章
- ant 修改组件默认样式属性
- win10笔记本电脑桌面发蓝、呈现负片的颜色,以及键盘中个别键失灵
- jq实现文字个数限制_分布式系统高可用实战之限流器(Go 版本实现)
- C语言再学习 -- 关键字const
- 搜索推荐炼丹笔记:单网络内部集成学习
- 无法安装软件之解决其一 (windows installer服务篇)
- 计算机考研择校真的要选大城市吗,2020考研,择校前要考虑的6大问题
- 实现textbox输入时模糊查询
- 甜甜用计算机1050除以一个数,上册四年级数学期末试卷带答案
- 动图,用Python追踪NBA球员的运动轨迹
- listview mysql源码_用ListView实现对数据库的内容显示
- oracle表的操作简述
- 简明python教程 沈洁元_Python简明教程-沈洁元
- java cryptojs_使用cryptojs的Java到JS和JS到Java的加密
- 周立功烧写器(ZLG SMARTPRO5000U-Plus)烧写验证
- termux使用教程python-Termux 入门教程:架设手机 Server 下载文件
- 抖音快手火山 热门采集/个人主页无水印视频批量解析下载工具2019-11-11
- BMP图片-文件头部信息
- easyui中combobox级联问题
- 【C++程序设计Ⅱ 兼谈对象模型 ——侯捷大师】心得摘要
热门文章
- python爬虫日记01
- excel中html批量转化为pdf文件,批量将Excel转换成pdf文档的方法
- 扫一扫vin码就能识别车架号的OCR技术
- 女朋友过生日,男子买了一条项链,女友:值不了多少钱
- 女士细线毛衣起多少针_手工编织毛衣各处针数和方法
- java.sql.Date和java.sql.Timestamp转换
- CTFSHOW-PHP特性
- Golang 小技巧
- java bulk_ElasticSearch-javaAPI-Bulk批量操作
- Coprime AtCoder Beginner Contest 215