系统运维从来就是一个精细化的工作,除了规则与规范的约束之外,运维人员的严谨、谨慎也必不可少,有时候一个简单的错误就会导致一场灾难,小到一个字符,一个空格。

本文的案例就是因为一个空格导致的,Oracle RAC遭遇故障重启。

故障现象:客户10.2.0.4 RAC for Solaris 10环境突然出现了实例重启。

故障过程:数据库正常运行到下午3点左右,随后两个节点分别重启,其中一个节点上的实例无法自动启动。检查两个实例的告警日志发现,在节点重启前,两个节点都出现了明显的ORA-27504错误。

错误信息

ORA-27504: IPC error creating OSD context

ORA-27300: OS system dependent operation:

if_not_found failed WITH STATUS: 0

ORA-27301: OS failure message: Error 0

ORA-27302: failure occurred at: skgxpvaddr9

ORA-27303: additional information:

requested interface 192.168.168.3 NOT found.

CHECK output FROM ifconfig command

注意,这里的错误信息提示已经比较明确,请求的IP地址不存在,需要检查ifconfig的输出。

接下来就是IPC超时:

Wed Apr 10 15:08:13 2013

ospid 25678: network interface WITH IP

address 192.168.168.3 no longer operational

requested interface 192.168.168.3 NOT found.

CHECK output FROM ifconfig command

Wed Apr 10 15:08:16 2013

IPC Send timeout detected.Sender: ospid 25748

Receiver: inst 2 binc 430164 ospid 11890

再然后实例驱逐不可避免:

Wed Apr 10 15:16:40 2013

Waiting FOR instances TO leave:

2

导致问题的原因根据错误信息很容易分析出来,节点2上的IP地址被修改,导致心跳通信出现了异常,而节点1试图将节点2踢出集群,但是由于无法和节点2之间进行通信,因此只有等待节点2重启

检查节点2的操作系统日志,获得如下主要信息:

Apr 10 15:00:04 ip: [ID 482227 kern.notice] ip_arp_done: init failed

Had[4135]: [ID 702911 daemon.notice] VCS CRITICAL

CPU usage ON bj-sst IS 92%

sshd[13485]:error: Failed TO allocate internet-DOMAIN X11 display socket.

在15点04秒时出现的ip_arp_done: init failed信息,说明设置网卡接口时使用了主机名信息,且主机的IP地址被在线修改。

最后根据HISTORY确认,发现有人通过root登录系统:

执行ifconfig –a6来检查IPV6的地址,但是命令敲错

执行了ifconfig –a 6,在a和6之间多了一个空格

导致主机所有的IP地址被设置成0.0.0.0

于是导致了上面的整个故障,一个空格导致整个集群瞬间崩溃,这就是一个空格引发的血案。

这个案例给我们的教训是,对于特权用户,任何一个操作,具体到命令级别,也需要小心谨慎,DBA用户和ROOT用户都在此列。

顺便温习一下 ifconfig 命令的用法:

ifconfig命令被用于配置和显示Linux内核中网络接口的网络参数。用ifconfig命令配置的网卡信息,在网卡重启后机器重启后,配置就不存在。要想将上述的配置信息永远的存的电脑里,那就要修改网卡的配置文件了。

语法

ifconfig(参数)


参数

add<地址>:设置网络设备IPv6的ip地址;

del<地址>:删除网络设备IPv6的IP地址;

down:关闭指定的网络设备;

<hw<网络设备类型><硬件地址>:设置网络设备的类型与硬件地址;

io_addr<I/O地址>:设置网络设备的I/O地址;

irq<IRQ地址>:设置网络设备的IRQ;

media<网络媒介类型>:设置网络设备的媒介类型;

mem_start<内存地址>:设置网络设备在主内存所占用的起始地址;

metric<数目>:指定在计算数据包的转送次数时,所要加上的数目;

mtu<字节>:设置网络设备的MTU;

netmask<子网掩码>:设置网络设备的子网掩码;

tunnel<地址>:建立IPv4与IPv6之间的隧道通信地址;

up:启动指定的网络设备;

-broadcast<地址>:将要送往指定地址的数据包当成广播数据包来处理;

-pointopoint<地址>:与指定地址的网络设备建立直接连线,此模式具有保密功能;

-promisc:关闭或启动指定网络设备的promiscuous模式;

IP地址:指定网络设备的IP地址;

网络设备:指定网络设备的名称。


讲解:

eth0表示第一块网卡,其中HWaddr表示网卡的物理地址,可以看到目前这个网卡的物理地址(MAC地址)是00:16:3E:00:1E:51。

inet addr用来表示网卡的IP地址,此网卡的IP地址是10.160.7.81,广播地址Bcast:10.160.15.255,掩码地址Mask:255.255.240.0。

lo是表示主机的回坏地址,这个一般是用来测试一个网络程序,但又不想让局域网或外网的用户能够查看,只能在此台主机上运行和查看所用的网络接口。比如把 httpd服务器的指定到回坏地址,在浏览器输入127.0.0.1就能看到你所架WEB网站了。但只是您能看得到,局域网的其它主机或用户无从知道。

第一行:连接类型:Ethernet(以太网)HWaddr(硬件mac地址)。

第二行:网卡的IP地址、子网、掩码。

第三行:UP(代表网卡开启状态)RUNNING(代表网卡的网线被接上)MULTICAST(支持组播)MTU:1500(最大传输单元):1500字节。

第四、五行:接收、发送数据包情况统计。

第七行:接收、发送数据字节数统计信息。

启动关闭指定网卡:

ifconfig eth0 up

ifconfig eth0 down

ifconfig eth0 up为启动网卡eth0,ifconfig eth0 down为关闭网卡eth0。ssh登陆linux服务器操作要小心,关闭了就不能开启了,除非你有多网卡。


为网卡配置和删除IPv6地址:

ifconfig eth0 add 33ffe:3240:800:1005::2/64

#为网卡eth0配置IPv6地址

ifconfig eth0 del 33ffe:3240:800:1005::2/64

#为网卡eth0删除IPv6地址


用ifconfig修改MAC地址:

ifconfig eth0 hw ether 00:AA:BB:CC:dd:EE


配置IP地址:

[root@localhost ~]# ifconfig eth0 192.168.2.10

[root@localhost ~]# ifconfig eth0 192.168.2.10 netmask 255.255.255.0

[root@localhost ~]# ifconfig eth0 192.168.2.10 netmask 255.255.255.0 broadcast 192.168.2.255


启用和关闭arp协议:

ifconfig eth0 arp    #开启网卡eth0 的arp协议

ifconfig eth0 -arp  #关闭网卡eth0 的arp协议

设置最大传输单元:

ifconfig eth0 mtu 1500 #设置能通过的最大数据包大小为 1500 bytes

综合来源:公众号「数据和云」等

更多相关文章阅读


http://www.taodudu.cc/news/show-4570441.html

相关文章:

  • java程序填空题输出汤姆猫_《Java语言程序设计(新)》地大模拟
  • Jav8 HashMap-putVal() 方法分析
  • 用Java程序模拟实现新冠病毒传染
  • 姚舜:干货!20条不能不知的职场生存法则
  • [1-6] 把时间当做朋友(李笑来)Chapter 6 【更多思考】 摘录
  • 只有自我负责,才能真正增长自己的力量
  • 捉虱子的博弈论
  • 世界上没有好人
  • 跃迁:从技术到管理的硅谷路径
  • 《朱赟的技术管理课》核心笔记
  • 浅谈游戏中BOSS设计的思路
  • 职场“老好人”生存法则
  • 邓白氏编码申请地址,DUNS
  • 邓西百度网盘批量分享工具
  • 邓白氏编码查询
  • 邓白氏主页
  • 申请邓白氏码(DUNS)步骤
  • D-U-N-S Number 邓白氏编码申请流程
  • Linux指令_邓慧斐
  • 序列学习——RNN网络之 LSTM 原理
  • 深度学习,NLP和表征(译:小巫)
  • JAVA学习笔记(三) 实现类
  • 汉语韵律短语切分方法初探
  • 《网络是怎样连接的》学习(一、浏览器)
  • 努力学习汉语汉文化
  • 兄弟机cnc系统面板图解_加工中心操作面板各按键的意思
  • 切削技术首页 基础知识 钻镗铣加工 钻铣切削加工负荷分析
  • 计算机辅助制造卜昆内容,西北工业大学07年硕士生入学考试专业课大纲(428计算机辅助制造)...
  • 计算机辅助编程可分为,东大18春学期《计算机辅助数控编程》在线作业123【辅导资料100分】...
  • 切削技术首页 基础知识 钻镗铣加工 铣削问题与对策

【空格】前后是非多,它能导致大故障,请看相关推荐

  1. 孪生网络图像相似度_生成对抗网络的进步多大,请看此文

    全文共4175字,预计学习时长8分钟 最近,多项研究采用了生成对抗网络(Generative Adversarial Networks, 简称GANs)这一技术来生成分辨率为1024x1024的高清图 ...

  2. MTU问题导致大数据包出不去。

    MTU问题导致大数据包出不去.需要把MTU的值改小点 ifconfig 可以查看到 MTU的值 cd /etc/sysconfig/network-scripts/  vi ifcfg-eth0 进行 ...

  3. 交换机组最常见的8大故障及解决方法

    在交换机组网时常见的故障比较多,为了帮助大家更好地排除这些故障,在此飞畅科技的小编来为大家介绍一些常见的典型故障案例和处理思路供大家参考.接下来大家就一起来看看交换机组最常见的8大故障及解决方法吧. ...

  4. 交换机组网常见九大故障问题

    交换机是一种用于电信号转发的网络设备.它可以为接入交换机的任意两个网络节点提供独享的电信号通路.最常见的交换机是以太网交换机.其他常见的还有电话语音交换机.光纤交换机等.那么,交换机组网常见九大故障问 ...

  5. ecu故障现象_传感器坏了,会导致什么故障现象?

    1.进气压力温度传感器损坏现象: ①ON档,发动机故障灯常亮; ②原地缓踩油门时冒少量黑烟,急加速冒大量黑烟: ③发动机没劲: ④故障码:P01D6(进气压力传感器电压低于下限) 原因分析:进气压力信 ...

  6. 第三代测序成本偏高是什么原因导致的? 是看了这道题下面的邹捷萌回答:现在基因测序的瓶颈主要在哪里?精度?速度? 在精确度方面第三代测序已经很高了,但目前国内生物实验室的测序还是以二代为主,推测成本可能

    第三代测序成本偏高是什么原因导致的? 是看了这道题下面的邹捷萌回答:现在基因测序的瓶颈主要在哪里?精度?速度? 在精确度方面第三代测序已经很高了,但目前国内生物实验室的测序还是以二代为主,推测成本可能 ...

  7. 青年大学习未看人员名单查询(JAVA)

    青年大学习未看人员名单查询 前言 代码演示 compare1 compare2 compare3 文件目录 后记 Compare4(加了一个查询重复观看人物的功能) 前言 感觉自己给个智障似的,(ll ...

  8. 变频器常见的十大故障现象和故障分析

    1 过流( OCT ) 过流是变频器报警最为频繁的现象. 1.1 现象     (1)  重新启动时,一升速就跳闸.这是过电流十分严重的现象.主要原因有 : 负载短路,机械部位有卡住 ; 逆变模块损坏 ...

  9. mysql语句查询慢造成mysql卡死_MySQL数据库之一次MySQL慢查询导致的故障

    本文主要向大家介绍了MySQL数据库之一次MySQL慢查询导致的故障 ,通过具体的内容向大家展现,希望对大家学习MySQL数据库有所帮助. 我们知道分析MySQL语句查询性能的方法除了使用EXPLAI ...

最新文章

  1. 直播预告丨6 大趋势,5 种核心能力,证券业数字新基建趋势全面解读
  2. redhat 安装Rabbitmq
  3. 颜宁问4对科研夫妻:男科学家怎样平衡事业家庭?
  4. 【实践驱动开发3-004】TI WL1835MODCOM8 在android的移植 - 系统结构初始化和参考列表
  5. DIV的摇晃效果---jquery实现
  6. android 8 ldac,小米Android 8.0机型支持LDAC功能
  7. Matpower疑惑解答
  8. cad页面布局快捷键_cad设置快捷键(cad快捷键在哪里修改设置)
  9. mapabc高德地图区域收缩事件监听
  10. android 11.0 12.0Launcher3去掉默认的google搜索栏
  11. 转载:技术大停滞——范式春梦中的地球工业文明2:科技利益集团鼓吹的范式春梦—所谓的技术大爆炸
  12. 基于蒙特卡洛方法的机器人工作空间MATLAB仿真
  13. day20遍历数组指定输出的数组
  14. 淘宝电商创业可能会面临哪些问题?
  15. PCLint使用介绍
  16. Linux kali系统使用fcrackzip/rarcrack破解zip/rar(或者zip 7z)类型的加密压缩文件
  17. 基于vue,安装vux-ui步骤
  18. C语言中字符串和字符数组的区别
  19. 2015湘潭邀请赛 Yada Number
  20. matlab 学自动驾驶(3) 建立一个驾驶场景并生成综合检测——driving scenario Designer

热门文章

  1. Word 在试图打开文件时遇到错误 文档可能已损坏 解决方法
  2. 《Effective C++》-第一章-让自己习惯C++
  3. 诗经 - 小雅 - 四杜
  4. java 浮雕效果_android 图像处理(黑白,模糊,浮雕,圆角,镜像,底片,油画,灰白,加旧,哈哈镜,放大镜)...
  5. 转载-解释路由包ping的情况
  6. 运维告诉我CPU飙升300%,为什么我的程序上线就奔溃了
  7. 频率色散参数和相关时间
  8. 多台路由器堆叠_关于多个无线网络叠加本人亲身经历!!最后成功了!!更新完毕!...
  9. 用python实现新年祝福微信的自动回复
  10. SAP 收货相关后台配置