红帽Linux故障定位技术详解与实例(1)

2011-09-28 14:26 圈儿 BEAREYES.COM 我要评论(0) 字号:T | T

在线故障定位就是在故障发生时, 故障所处的操作系统环境仍然可以访问,故障处理人员可通过console, ssh等方式登录到操作系统上,在shell上执行各种操作命令或测试程序的方式对故障环境进行观察,分析,测试,以定位出故障发生的原因。

AD:2014WOT全球软件技术峰会北京站 课程视频发布

红帽Linux故障定位技术详解与实例是本文要介绍的内容,主要是来了解并学习红帽linux故障定位技术的学习,故障定位技术分为在线故障定位和离线故障定位,一起来看详解。

1、故障定位(Debugging)场景分类

为便于描述问题,将Linux上各种软件故障定位的情形分成两类

(1)在线故障故障定位

在线故障定位(online-debugging)就是在故障发生时, 故障所处的操作系统环境仍然可以访问,故障处理人员可通过console, ssh等方式登录到操作系统上,在shell上执行各种操作命令或测试程序的方式对故障环境进行观察,分析,测试,以定位出故障发生的原因

(2)离线故障定位

离线故障定位(offline-debugging)就是在故障发生时,故障所处的操作系统环境已经无法正常访问,但故障发生时系统的全部或部分状态已经被系统本身所固有或事先设定的方式收集起来,故障处理人员可通过对收集到的故障定位状态信息进行分析,定位出故障发生的原因

2、应用进程故障情形及处理

应用进程的故障一般不会影响操作系统运行环境的正常使用(如果应用代码的bug导致了内核的crash或hang,则属于内核存在漏洞),所以可采用在线故障定位的方法,灵活的进行分析. 应用代码故障的情形有如下几种:

(1)进程异常终止

很多用户认为进程异常终止情况无从分析,但实际上进程异常终止情况都是有迹可寻的. 所有的进程异常终止行为,都是通过内核发信号给特定进程或进程组实现的. 可分成几个类型进行描述:

- SIGKILL. SIGKILL最特殊,因为该信号不可被捕获,同时SIGKILL不会导致被终止的进程产生core文件, 但如果真正的是由内核中发出的SIGKILL,则内核一定会在dmesg中记录下信息. 另外在内核中使用SIGKILL的地方屈指可数,如oom_kill_process()中, 所以通过dmesg记录并且分析内核中使用SIGKILL的代码,并不难分析原因

- SIGQUIT, SIGILL, SIGABRT, SIGBUS, SIGFPE, SIGSEGV. 这几个信号在保留情况下会终止进程并会产生core文件, 用户根据core中的stack trace信息,能直接定位出导致终止信号的代码位置. 另外, SIGQUIT,SIGABRT一般是由用户代码自己使用的,好的代码一般会记录日志. SIGILL, SIGBUS, SIGFPE, SIGSEGV, 都是由内核中产生的,搜索内核源码,不难列出内核中使用这几个信号的地方, 如SIGILL 是非法指令,可能是浮点运算产生的代码被corrupted或文本区域的物理内存corruption; SIGBUS多由MCE故障定位导致; SIGSEGV多由应用代码的指针变量被corrupted导致. 对于应用的heap或stack的内存被corrupted, 可用valgrind工具对应用进行profile, 通常能直接发现导致corruption的代码

- SIGINT, SIGPIPE, SIGALRM, SIGTERM. 这几个信号在保留情况下终止进程但不会产生core文件. 对这几个信号,建议用户一定要定义一个handler,以记录产生问题的上下文. 比较容易忽略的是SIGPIPE, 很多用户程序在使用select()或poll()时只监听read/write描述符,不监听exception描述符,在对方TCP已经关闭的情况下,仍然向socket中写入,导致SIGPIPE.

- 对于恶意的代吗产生的进程终止行为,如合作的一些进程中,A向B发SIGKILL, 而没做日志记录,或者B直接判断某条件而调用exit(), 也没有做日志记录.在应用代码量很大的情况下,通过分析代码故障定位这种情形也许很难. SystemTap提供了解决这个问题的一个比较好的方法,就是写用户层的probes, 追踪进程对signal(), exit() 等系统调用的使用

(2)进程阻塞,应用无法正常推进

这种情况,对于单个被阻塞的进程而言,属于正常状态, 但对于包含多个进程的应用整体而言,属于异常. 应用无法推进,说明其中某一个进程推进的因素出现了问题,导致其他依赖于它的进程也要等待. 分析这种情形需要分析清楚进程或事件之间的依赖关系,及数据的处理流. 首先要用gdb -p 的back trace功能查出各进程阻塞的执行路径, 以确定每个进程所处在的状态机的位置.

通常而言,如果只考虑各个进程的状态,则进程之间可能形成了一种互相依赖的环形关系,如(P1发请求=>P2处理=>P2发反应=>P1再请求=>P2处理=>P2再发反应), 但应用对workload, 一般是按一个个的transaction 或 session的方式进行处理的,每个transaction都有起点和终点, 我们需要用strace, tcpdump 等工具以及应用的执行日志进行观察,分析出当前正被处理的transaction所被阻滞的位置,从而找出全部状态机被阻塞的原因. 导致这种状态机停止运转的原因有多个:如和应用通信的远端出现了问题,后端数据库/目录等出现了问题,应用的某个进程或线程处于非正常的blocking位置或直接终止,不再正常工作.

(3)用户进程形成死锁

用户进程形成死锁,如果没有内存上的故障定位,则完全是应用自身的逻辑问题. 死锁的进程或线程之间由于锁的互相占有形成了环路。 这种情况发生时,用gdb -p 的back trace的功能能直接确定死锁的进程全部阻塞在futex()等和锁相关的系统调用上, 这些调用futex()的路径可能是mutex, semaphore, conditional variable 等锁函数. 通过分析call trace 的代码,能直接确定各进程在执行到该位置时,可能已经持有的全部锁, 根据这个修改程序的代码,消除死锁环路,就可解决问题.

注意,内存故障也可导致假的死锁的,如物理内存故障可直接导致锁变量的值为-1, 所以使用该锁的进程都会阻塞. 如果是代码的bug导致的内存corruption,可用valgrind工具检查程序来发现. 但如果是物理内存的故障定位导致的corruption, 则需要硬件的支持,对于高端的PC, 如MCE功能的机器,当物理内存故障定位时能直接产生异常或报告, 但对于低端PC服务器,除了运行memtest工具进行检测外,没有其他方法

(4)进程长期处于 'D' (UnInterruptible)状态没法退出

这种多是由内核中的故障引起的. 内核在很多执行路径中会将进程至于'D'的状态,以确保关键的执行路径不被外部的信号中断, 导致不必要的内核中数据结构状态的不一致性. 但一般而言,进程处于 'D' 状态的时间不会太久, 因为状态结束的条件(如timer触发,

IO操作完成等)很快会将进程唤醒. 当进程长期处于 'D',关键是要找出其阻塞的代码位置, 用 sysrq 的t键功能可直接打印出系统中全部睡眠进程的内核执行堆栈,如 echo 't' > /proc/sysrq-trigger, 其中包括出现 'D'状态的进程的内核态堆栈. 找出代码位置后,一般可直接分析出 'D' 状态不能退出的原因, 如IO read操作因硬件或nfs故障而不能完成.

有可能导致 'D' 状态的原因比较复杂,如‘D’的退出依赖于某变量的值,而该变量的值因某种原因被永久corrupted掉了.

转载于:https://www.cnblogs.com/L-H-R-X-hehe/p/3963496.html

红帽Linux故障定位技术详解与实例(1)相关推荐

  1. 红帽Linux故障定位技术详解与实例(3)

    红帽Linux故障定位技术详解与实例(3) 在线故障定位就是在故障发生时, 故障所处的操作系统环境仍然可以访问,故障处理人员可通过console, ssh等方式登录到操作系统上,在shell上执行各种 ...

  2. Linux磁盘阵列技术详解(二)--raid 1创建

    我在Linux磁盘阵列技术详解(一)里已经详细介绍了几种RAID磁盘阵列方式,原理以及创建raid 0 的详细步骤.那么这篇文档就着重讲解如何创建raid 1的技术: 步骤如下: ① 分区 同样我们还 ...

  3. java技术详解_Java反射技术详解及实例解析

    前言 相信很多人都知道反射可以说是Java中最强大的技术了,它可以做的事情太多太多,很多优秀的开源框架都是通过反射完成的,比如最初的很多注解框架,后来因为java反射影响性能,所以被运行时注解APT替 ...

  4. linux磁盘阵列教程,Linux磁盘阵列技术详解(二)--raid 1创建

    我在Linux磁盘阵列技术详解(一)里已经详细介绍了几种RAID磁盘阵列方式,原理以及创建raid 0 的详细步骤.那么这篇文档就着重讲解如何创建raid 1的技术: 步骤如下: ① 分区 同样我们还 ...

  5. Protocol Buffer技术详解(C++实例)

    原文:http://www.cnblogs.com/stephen-liu74/archive/2013/01/04/2842533.html 这篇Blog仍然是以Google的官方文档为主线,代码实 ...

  6. linux 环境变量详解,Linux 环境变量详解及实例

    Linux环境变量 ~/.bash_profile && ~/.bashrc 用户登陆Linux操作系统的时候,"/etc/profile", "~/.b ...

  7. Linux磁盘阵列技术详解(三)--raid 5和raid 10的创建 推荐

    先来看一下raid 5: ① 分区 ② 创建raid 5 mdadm -C -v /dev/md5 -l 5 -n 3 -x 1 /dev/sde{1,2,3,4} ③ 模拟磁盘故障 这里其实和rai ...

  8. java 编程 pdf linux_Linux编程技术详解.pdf

    Linux编程技术详解全面介绍了linux编程相关的知识,内容涵盖linux基本知识.如何建立linux开发环境.linux开发工具.linux文件系统.文件i/o操作.设备文件.进程与进程环境.守护 ...

  9. 嵌入式linux mtd,嵌入式Linux驱动设备之MTD技术详解

    原标题:嵌入式Linux驱动设备之MTD技术详解 MTD(memory technology device内存技术设备)是用于访问memory设备(ROM.flash)的Linux的子系统. MTD的 ...

最新文章

  1. not accessible due to restriction on required library
  2. Windows 8 离线安装.Net 3.5
  3. 【第四周作业】参加项目开发之后的一些体会
  4. python删除列表中字符串_python - 删除字符串中的字符列表
  5. C++笔记121023
  6. Python_collections_Counter计数器部分功能介绍
  7. Apache SOLR and Carrot2集成
  8. 牛逼,在浏览器中解锁加密的音乐文件
  9. bootbox.js官方文档中文版
  10. c 语言实现链表反转(超详细,有手就行)
  11. cors数据类型_CORS账号和南方RTK连接怎样操作使用?步骤说明
  12. html5游戏 做广告联盟怎么样,几个比较好的国外广告联盟推荐
  13. 小程序轮播图_微信小程序层叠轮播图
  14. Win11WSA无法启动的解决办法
  15. Loadrunner之关联——用小故事理解
  16. 测试的步骤(功能测试)
  17. linux安装微软字体
  18. 车速与档位匹配关系_驾考科目三车速和档位如何匹配
  19. darknet框架基于resnet34模型训练OCT图片
  20. moments音标_at the moment

热门文章

  1. 乱骑共享单车?黑名单见!
  2. 这些贷款合同陷阱你知道多少?
  3. 鸿蒙之下5怎么跳城池,鸿蒙之空间道尊
  4. c++语言程序的结构特点,C++的特点(特性)
  5. 计算机数媒专业优势,27所院校新开设数字媒体艺术专业,“数媒”专业为什么这么火?...
  6. videowriter最小的编码格式_cv2.VideoWriter() 指定写入视频帧编码格式
  7. matlab 多核并行编程
  8. Kubernetes系列之Helm介绍篇
  9. [数学]点、线、面分割问题
  10. vsftpd.conf 详解与实例配置