李真旭@killdb

Oracle ACE,云和恩墨技术专家

个人博客:www.killdb.com

在墨菲定律里,我们知道,有可能发生的故障就一定会发生,哪怕需要诸多因素的叠加才可能满足那复杂的先决条件。在以下案例中,我们抽丝剥茧,细致入微的追溯最终确定了导致数据库RAC实例崩溃的微小原因。

这是一个真实的客户案例,可以概括为一条参数引发的血案。现象大致是某天凌晨某 RAC 节点实例被重启了,通过如下是 alert log 我们可以发现 RAC 集群的节点2实例被强行终止掉了,如下是详细的告警日志信息:

从上面的日志来看,在2:03分就开始报错 ORA-00600,一直持续到2:39分,lmd0 进程开始报同样的错误;然后接着 LMD0 进程强行把数据库实例终止掉了。。直接搜索 Oracle MOS,看上去有点类似这个 bug,不过很容易就可以排除。

Bug 14193240 : LMS SIGNALED ORA-600[KGHLKREM1] DURING BEEHIVE LOAD

从日志看,2:03分就开始报错,然而直到 lmd0 报错时,实例才被终止掉,也就是说 lmd0 报错才是问题的关键。那么我们首先来分析下 lmd0 进程的 trace 文件内容,如下所示:

从上面的信息来看,确实是内存 heap 存在错误的情况。根据 Oracle MOS 文档:

ORA-600 [KGHLKREM1] On Linux Using Parameter drop_cache On hugepages Configuration (1070812.1) 的描述来看,此次故障跟文档描述基本上一致,如下:

其中地址 [0x679000020] 后面的内容也均为0,跟文档描述一样,其次,文章中提到使用了linux 内存释放机制以及同时启用了hugepage配置。

根据文档描述,这应该是 Linux bug。通过检查对比2个节点配置,发现节点2的配置确实不同

当 drop_caches 设置为3,会触发 linux 的内存清理回收机制,可能出现内存错误的情况;然而我们检查配置发现并没有修改:

因此,我认为是之前人为进行了 echo 3 > /proc/sys/vm/drop_caches  操作来强制释放内存导致。    通过分析发现只能查看到最近几分钟的操作记录,如下:

看操作记录确实发现了操作,那么同时检查操作系统日志也发现了一些蛛丝马迹,如下:

BUG: soft lockup - CPU#1 stuck for 10s! [rel_mem.sh:13887

可以看到也确实出现了 drop_cache 的相关操作。大家注意看上面红色的地方,提到了是执行了一个 shell 脚本,然后还导致一共 cpu stuck 了,而且也能看出该脚本是在执行回收 cache 的动作。

我坚持认为客户环境上肯定进行了强制的内存回收,但是客户说他们没有进行任何人为操作,不过经过我检查发现确实有一个 crontab 脚本。

那么为什么主机上会部署这样的脚本呢? 我猜想肯定是操作系统的内存使用率看起来很高,通过检查发现确实如此:

我们可以看到128G的物理内存,cache 就占据了 88G 的样子目前。linux 文件系统的 cache 分为2种:page cache 和 buffer cache, page cache 是用于文件,inode 等操作的 cache,而 buffer cache 是用于块设备的操作。从上面的数据来看,我们所看到的 free -m 命令中的 cached 88552 全是 page cache。而实际上该数据库实例的内存分配一共也就40G,且使用的是 linux raw。

我们可以看到,整个主机物理内存为128G,而 Oracle SGA+pga 才40g,另外将近 90G 的内存都是 fs cache 所消耗。完全可以调整 linux 的参数去释放 cache,而不需要使用 echo 这种比较暴力的方式;根据 Oracle mos 的几个文档的描述,推荐设置如下几个参数:

sysctl -w vm.min_free_kbytes=4096000

sysctl -w vm.vfs_cache_pressure=200

sysctl -w vm.swappiness=40   (老版本的 linux 是设置 vm.pagecache 参数)

关于 linux cache 的一些知识请参考:

http://www.ibm.com/developerworks/cn/linux/l-cache/

File System’s Buffer Cache versus Direct I/O (文档 ID 462072.1)

本文出自数据和云公众号,原文链接

墨菲定律:一个参数Drop_caches导致集群数据库实例崩溃相关推荐

  1. 我的读书笔记 -《墨菲定律》

    2019-2-15 其实我是不想写这本书的总结的,因为说实在话,就一个墨菲定律就能够概括整本书,他下面所有的小标题又能够概括每一小节,每一小节都是墨菲定律从某一方向的延伸或者实例. 墨菲定律:如果有两 ...

  2. 管理学定律--墨菲定律

    如果有两种或两种以上的方式去做某件事情,而其中一种选择方式将导致灾难,则必定有人会做出这种选择.根本内容是:如果事情有变坏的可能,不管这种可能性有多小,它总会发生. 一.墨菲定律来源 1949年,一位 ...

  3. 墨菲定律 三种(is2120)

    //z 2012-09-11 08:46:41 IS2120@CSDN.T2699303400[T29,L404,R7,V202] 根据"墨菲定律": 一.任何事都没有表面看起来那 ...

  4. 生活中的定律——墨菲定律

    凡是可能出错的地方,就一定会出错. Anything that can go wrong will go wrong. --爱德华·墨菲,来自美国空军的一位工程师上尉. 墨菲定律 或许你之前从未耳闻墨 ...

  5. 高级程序员必会的程序设计原则 —— 墨菲定律及防呆设计

    前言 如果你或你带领的团队经常会写出一些BUG,日常不是在解决BUG就是在解决BUG的路上,那么你的项目一定是应验了墨菲定律,并且在开发时并没有足够考虑防呆设计.团队越是疲于奔命,错的越是多. 简记 ...

  6. 墨菲定律、二八法则、马太效应、手表定理、“不值得”定律等左右人生的金科玉律。

    一. 墨菲定律 1949年,一位名叫墨菲的空军上尉工程师,认为他的某位同事是个倒霉蛋,不经意间开了句玩笑:"如果一件事情有可能被弄糟,让他去做就一定会弄糟." 这句话迅速流传, ...

  7. 从黑天鹅事件到墨菲定律

    摘要:软件系统的稳定性,主要决定于整体的系统架构设计,然而也不可忽略编程的细节,正所谓"千里之堤,溃于蚁穴",一旦考虑不周,看似无关紧要的代码片段可能会带来整体软件系统的崩溃.本文 ...

  8. “墨菲定律”、“帕金森定理”和“彼德原理”

    "墨菲定律"."帕金森定理"和"彼德原理"并称为二十世纪西方文化三大发现 "墨菲定律"是一种心理学效应,是由爱德华·墨菲 ...

  9. 《墨菲定律(Murphy‘s Law)》(Yanlz+Unity+SteamVR+云技术+5G+AI=VR云游戏=黄金法则+生存智慧+马太效应+口红效应+羊群效应+二八法则+人工智能+立钻哥哥+==)

    <墨菲定律> <墨菲定律> 版本 作者 参与者 完成日期 备注 YanlzLaw_Murphy_V01_1.0 严立钻 2019.10.01 ##<墨菲定律>发布说 ...

最新文章

  1. 反arp攻击软件_谈谈电子欺骗中的ARP欺骗
  2. Python 列表 sort() 方法
  3. Execute Process Task
  4. php js获取表单内容,jquery form表单获取内容以及绑定数据_javascript技巧
  5. SSM 整合 2:Java EE 开发环境的搭建(JDK 配置、Tomcat 安装、IDE 安装、IDE 集成 Tomcat、Spring 及其组件的下载)
  6. 【CentOS 7LAMP架构4】,PHP5和PHP7的安装和配置#171219
  7. NYOJ-01串(dp)
  8. 维基百科简体中文语料的获取
  9. matlab画柱状图_附带调色、字体
  10. 谈谈独立游戏的商业化困境
  11. 天文竞赛怎么用计算机,师范生教学技能大赛!计算机设计大赛!主持礼仪风采大赛!天文台活动预告!民宿企划竞赛!舞蹈大赛!...
  12. 一个 将一个无效参数传递给了将无效参数视为严重错误的函数 及写入位置时发生访问冲突的问题的解决
  13. 樱花动漫视频数据表分析樱花动漫
  14. MySQL--数据库基础知识点(一)
  15. java 输出反斜杠_Java 反斜杠如何转义的问题
  16. 如何关闭Windows10的自动更新
  17. 代码质量管理工具SonarQube详解
  18. 《恐怖电脑》用户隐私政策
  19. 软件工程—Chapter2 计划
  20. c语言多线程造成的崩溃,C++多线程析构函数引起程序崩溃解析.pdf

热门文章

  1. r包安装路径 安装位置 设置
  2. 快速清除空格php,php如何清除空格
  3. 区间内的真素数 计蒜客 Python
  4. 立体视觉入门指南(7):立体匹配
  5. Java使用POi导出Excel(包含图片)
  6. 字符串典例,看了不亏
  7. 使用paddlehub制作酷炫视频
  8. vue+iview4.0 , vue+element实现下拉框可以自定义输入内容
  9. 成绩管理系统c语言程序设计,学生成绩管理系统(C语言)
  10. ubuntu NCNN Vulkan cuda 测试环境搭建,转载一篇简洁的搭建方法