linux进程cpu时间片,Linux性能监控之CPU篇

这篇文章中,主要介绍CPU的一些基础知识.

首先介绍一下Linux kernel中的调度器(scheduler),调度器负责调度系统中的两种资源，一是线程，二是中断。调度器给不同资源不同的优先级。从高到低为：

1.硬件中断(Hardware Interrupts)--这些请求由硬件触发，比如磁盘已经完成了读写任务或是网卡受到了新的数据包。

2.软件中断(Software Interrupts)--这里指的是维护内核运行的内核态软件中断。比如内核的时钟管理进程。

3.实时进程(Real time threads)--实时进程比内核本身具备更高的优先级，它可以抢占内核的CPU时间片，在2.4内核是一个不可抢占的内核，它中不支持实时程序。

4.内核进程(Kernel threads)--包括所以的内核程序。

5.用户进程(User threads)--所有运行在用户态的进程。

关于CPU，有3个重要的概念：上下文切换(context switchs)，运行队列(Run queue)和使用率(utilization)。

上下文切换：

目前流行的CPU在同一时间内只能运行一个线程，超线程的处理器可以在同一时间运行多个线程(包括多核CPU)，Linux内核会把多核的处理器当作多个单独的CPU来识别。

一个标准的Linux内核何以支持运行50～50000个进程运行，对于普通的CPU，内核会调度和执行这些进程。每个进程都会分到CPU的时间片来运行，当一个进程用完时间片或者被更高优先级的进程抢占后，它会备份到CPU的运行队列中，同时其他进程在CPU上运行。这个进程切换的过程被称作上下文切换。过多的上下文切换会造成系统很大的开销。

运行队列：

每个CPU都会维持一个运行队列，理想情况下，调度器会不断让队列中的进程运行。进程不是处在sleep状态就是run able状态。如果CPU过载，就会出现调度器跟不上系统的要求，导致可运行的进程会填满队列。队列愈大，程序执行时间就愈长。“load”用来表示运行队列，用top命令我们可以看到CPU一分钟，5分钟和15分钟内的运行队列的大小。这个值越大表明系统负荷越大。

CPU使用率：

CPU使用率可分为一下几个部分

User

Time—执行用户进程的时间百分比；

System

Time—执行内核进程和中断的时间百分比；

Wait

IO—因为IO等待而使CPU处于idle状态的时间百分比；

Idle—CPU处于Idle状态的时间百分比。

关于时间片和动态优先级：

时间片对于CPU来说是很关键的参数，如果时间片太长，就会使系统的交互性能变差，用户感觉不到并行。如果太短，又会造成系统频繁的上下文切换，使性能下降。对于IO Bound的系统来讲并不需要太长的时间片，因为系统主要是IO操作；而对于CPU Bound的系统来说需要长的时间片以保持cache的有效性。

每一个进程启动的时候系统都会给出一个默认的优先级，但在运行过程中，系统会根据进程的运行状况不断调整优先级，内核会升高或降低进程的优先级(每次增加或降低5)，判断标准是根据进程处于sleep状态的时间。IO Bound进程大部分时间在sleep状态，所以内核会调高它的优先级，CPU Bound进程会被内核惩罚降低优先级。因此，如果一个系统上即运行IO Bound进程，又运行CPU Bound进程，我们会发现，IO Bound进程的性能不会下降，而CPU Bound进程性能会不断下降。

我们运行一个CPU Bound的程序：cpu-hog。用ps命令可以看出它的优先级在不断下降。

term1# ./cpu-hog

term2# while :; do ps -eo pid,ni,pri,pcpu,comm |

egrep

'hog|PRI'; sleep 1;

done

PID NI PRI %CPU

COMMAND

22855 0 20 84.5

cpu-hog

PID NI PRI %CPU

COMMAND

22855 0 18 89.6

cpu-hog

PID NI PRI %CPU

COMMAND

22855 0 15 92.2

cpu-hog

PID NI PRI %CPU

COMMAND

22855 0 15 93.8

cpu-hog

我们运行find命令，是一个IO Bound的程序，可以观察到它的优先级不断提高。

term1# find /

term2# while :; do ps -eo pid,ni,pri,pcpu,comm |

egrep

'find|PRI'; sleep 1;

done

PID NI PRI %CPU

COMMAND

23101 0 20 0.0 find

PID NI PRI %CPU

COMMAND

23101 0 21 4.0 find

PID NI PRI %CPU

COMMAND

23101 0 23 3.5 find

PID NI PRI %CPU

COMMAND

23101 0 23 4.3 find

PID NI PRI %CPU

COMMAND

23101 0 23 4.2 find

PID NI PRI %CPU

COMMAND

23101 0 23 4.4 find

如果同时运行2个程序就可看出明显的变化

#while :; do ps -eo pid,ni,pri,pcpu,comm | egrep

'find|hog';

sleep 1; done

23675 0 20 70.9

cpu-hog

23676 0 20 5.6 find

23675 0 20 69.9

cpu-hog

23676 0 21 5.6 find

23675 0 20 70.6

cpu-hog

23676 0 23 5.8 find

23675 0 19 71.2

cpu-hog

23676 0 23 6.0 find

23675 0 19 71.8

cpu-hog

23676 0 23 6.1 find

23675 0 18 72.8

cpu-hog

23676 0 23 6.2 find

23675 0 16 73.2

cpu-hog

23676 0 23 6.6 find

23675 0 14 73.9

cpu-hog

正如我们之前讨论的任何系统的性能比较都是基于基线的，并且监控CPU的性能就是以上3点，运行队列、CPU使用率和上下文切换。以下是一些对于CPU很普遍的性能要求：

1.对于每一个CPU来说运行队列不要超过3，例如，如果是双核CPU就不要超过6；

2.如果CPU在满负荷运行，应该符合下列分布，

a)User Time：65%～70%

b)System Time：30%～35%

c)Idle：0%～5%

3.对于上下文切换要结合CPU使用率来看，如果CPU使用满足上述分布，大量的上下文切换也是可以接受的。

常用的监视工具有，vmstat, top,dstat和mpstat.

# vmstat 1

procs -----------memory---------- ---swap--

-----io---- --system-- ----cpu----

r b swpd free buff cache si so bi bo in cs us sy

id wa

0 0 104300 16800 95328 72200 0 0 5 26 7 14 4 1 95

0 0 104300 16800 95328 72200 0 0 0 24 1021 64 1 1

98 0

0 0 104300 16800 95328 72200 0 0 0 0 1009 59 1 1

98 0

r表示运行队列的大小，

b表示由于IO等待而block的线程数量，

in表示中断的数量，

cs表示上下文切换的数量，

us表示用户CPU时间，

sys表示系统CPU时间，

wa表示由于IO等待而是CPU处于idle状态的时间，

id表示CPU处于idle状态的总时间。

dstat可以给出每一个设备产生的中断数：

# dstat -cip 1

----total-cpu-usage---- ----interrupts--- ---procs---

usr sys idl wai hiq siq| 15 169 185 |run blk new

6 1 91 2 0 0| 12 0 13 | 0 0 0

1 0 99 0 0 0| 0 0 6 | 0 0 0

0 0 100 0 0 0| 18 0 2 | 0 0 0

0 0 100 0 0 0| 0 0 3 | 0 0 0

我们可以看到这里有3个设备号15，169和185.设备名和设备号的关系我们可以参考文件/proc/interrupts,这里185代表网卡eth1.

# cat /proc/interrupts

CPU0

0: 1277238713 IO-APIC-edge timer

6: 5 IO-APIC-edge floppy

7: 0 IO-APIC-edge parport0

8: 1 IO-APIC-edge rtc

9: 1 IO-APIC-level acpi

14: 6011913 IO-APIC-edge ide0

15: 15761438 IO-APIC-edge ide1

169: 26 IO-APIC-level Intel

82801BA-ICH2

185: 16785489 IO-APIC-level eth1

193: 0 IO-APIC-level uhci_hcd:usb1

mpstat可以显示每个CPU的运行状况，比如系统有4个CPU。我们可以看到：

# mpstat –P ALL 1

Linux 2.4.21-20.ELsmp

(localhost.localdomain) 05/23/2006

05:17:31 PM CPU %user %nice %system %idle

intr/s

05:17:32 PM all 0.00 0.00 3.19 96.53

13.27

05:17:32 PM 0 0.00 0.00 0.00 100.00

0.00

05:17:32 PM 1 1.12 0.00 12.73 86.15

13.27

05:17:32 PM 2 0.00 0.00 0.00 100.00

0.00

05:17:32 PM 3 0.00 0.00 0.00 100.00

0.00

总结的说，CPU性能监控包含以下方面：

检查系统的运行队列，确保每一个CPU的运行队列不大于3.

确保CPU使用分布满足70/30原则(用户70%，系统30%)。

如果系统时间过长，可能是因为频繁的调度和改变优先级。

CPU Bound进程总是会被惩罚(降低优先级)而IO Bound进程总会被奖励(提高优先级)。

CPU性能指标

1. 用户进程使用CPU的比率

2.系统进程使用CPU的比率

3. WIO, 等待I/O 而是CPU处于空闲状态的比率。

4. CPU的空闲率

5. CPU用于上下文交换的比率

6，nice

7，real-time

8，运行进程队列的长度

9，平均负载

Linux下常用监控CPU性能的工具有

1. iostat www.2cto.com

只能查看所有CPU的平均信息

2. vmstat

能查看所有CPU的平均信息，

能查看CPU队列信息

3. mpstat

能查看单个和所有的CPU信息。

4. sar

与mpstat类似

5. top

6. nmon

iostat

[plain]

$ iostat

Linux 2.6.18-92.el5 08/30/2012

avg-cpu: %user %nice %system

%iowait %steal %idle

1.16

0.01 0.62 0.18

0.00 98.03

vmstat

[plain]

$ vmstat -n 5

procs -----------memory---------- ---swap-- -----io---- --system--

-----cpu------

r b swpd

free buff

cache si so

bi bo in cs us

sy id wa st

0 0 96 1261196 981892 3638872 0 0

0 16 1

1 1

1 98 0 0

-n 5 参数的意义是每隔 5 秒刷新一次

procs www.2cto.com

r --

下面的数字代表运行的序列。如果这个值连续大于系统的CPU个数表示系统运行较慢，有多数进程等待CPU。

如果r的个数大于CPU的4倍的话，则系统面临CPU短缺或是CPU的速率过低，造成系统运行过慢。

System

in -- 每秒产生的中断次数

cs -- 每秒产生的上下文切换次数。

这两个值越大，系统进程消耗的CPU的时间越大。

CPU

us --

用户进程消耗CPU的时间百分比。长期居高不下，就需要优化程序了。

sy --

系统进程消耗CPU的时间百分比。 sy 值高，并不是良性的表现。

wa --

IO等待消耗的CPU时间百分比，值高时，说明IO等待比较严重，可能由于磁盘大量随机访问造成，也有可能磁盘出现瓶颈。

id -- CPU

处于空闲时间百分比。如果持续为0且出现sy 是us

两倍状况，则系统面临CPU资源短缺。当发生此问题的时候请先调整应用程序对CPU的占用情况.使得应用程序能够更有效的使用CPU.同时可以考虑增加更多的CPU.

mpstat - (Multiprocessor Statistics)

实施监控，信息存放在 /proc/stat文件中

[sql]

$ mpstat -P ALL 2 10

Linux 2.6.18-92.el5 () 08/30/2012

www.2cto.com

08:16:34 PM CPU %user

%nice %sys

%iowait %irq

%soft %steal

%idle intr/s

08:16:36 PM all 0.78 0.00

0.26 0.26 0.00

0.26 0.00 98.44 1058.85

08:16:36 PM 0

0.52 0.00 0.52

0.00 0.00 0.52

0.00 98.44

1058.85

08:16:36 PM 1

0.52 0.00 0.00

0.00 0.00 0.00

0.00 99.48

0.00

以上意思是：每隔2秒采样所有CPU的使用状况，总过采样10次。语法如下：

mpstat [-P {|ALL}] [internal [count]]

-P 监控哪个CPU, 一般使用ALL就可以了

Internal 间隔的时间

count 采样的次数

输出参数意义

%user -- 用户态CPU时间比

%nice -- 负进程的CPU时间

%system - 核心态时间

iowait -- IO 等待时间

irq --

soft

idle

intr/s 每秒CPU接收中断的次数

sar

[plain]

sar -u 2 10

Linux 2.6.18-92.el5 () 08/30/2012

www.2cto.com

08:28:36 PM CPU %user

%nice %system %iowait %steal %idle

08:28:38 PM all 0.26 0.00 0.00 0.78 0.00 98.97

08:28:40 PM all 0.52 0.00 0.52 0.00 0.00 98.97

sar [options] [-A] [-o file] t [n]

在命令行中，n 和t 两个参数组合起来定义采样间隔和次数，t为采样间隔，是必须有

的参数，n为采样次数，是可选的，默认值是1，-o file表示将命令结果以二进制格式

存放在文件中，file 在此处不是关键字，是文件名。options 为命令行选项，sar命令

的选项很多，下面只列出常用选项：

-A：所有报告的总和。

-u：CPU利用率

-v：进程、I节点、文件和锁表状态。

-d：硬盘使用报告。

-r：内存和交换空间的使用统计。

-g：串口I/O的情况。

-b：缓冲区使用情况。

-a：文件读写情况。

-c：系统调用情况。

-q：报告队列长度和系统平均负载

-R：进程的活动情况。

-y：终端设备活动情况。

-w：系统交换活动。

-x { pid | SELF | ALL

}：报告指定进程ID的统计信息，SELF关键字是sar进程本身的统计，ALL关键字是所有系统进程的统计

www.2cto.com

%user：CPU处在用户模式下的时间百分比。

%nice：CPU处在带NICE值的用户模式下的时间百分比。

%system：CPU处在系统模式下的时间百分比。

%iowait：CPU等待输入输出完成时间的百分比。

%steal：管理程序维护另一个虚拟处理器时，虚拟CPU的无意识等待时间百分比。

%idle：CPU空闲时间百分比。

在所有的显示中，我们应主要注意%iowait和%idle，%iowait的值过高，表示硬盘存在I/O瓶颈，%idle值高，表示CPU较空闲，如果%idle值高但系统响应慢时，有可能是CPU等待分配内存，此时应加大内存容量。%idle值如果持续低于10，那么系统的CPU处理能力相对较低，表明系统中最需要解决的资源是CPU。

用sar进行运行进程队列长度分析：

#sar -q 2 10

Linux 2.6.18-53.el5PAE (localhost.localdomain)

03/28/2009

07:58:14 PM runq-sz plist-sz

ldavg-1 ldavg-5

ldavg-15

07:58:16 PM 0 493

0.64 0.56

0.49

07:58:18 PM 1 491

0.64 0.56

0.49

07:58:20 PM 1 488

0.59 0.55

0.49

07:58:22 PM 0 487

0.59 0.55

0.49

07:58:24 PM 0 485

0.59 0.55

0.49

07:58:26 PM 1 483

0.78 0.59

0.50

07:58:28 PM 0 481

0.78 0.59

0.50

07:58:30 PM 1 480

0.72 0.58

0.50

07:58:32 PM 0 477

0.72 0.58

0.50

07:58:34 PM 0 474

0.72 0.58

0.50

Average: 0 484 0.68 0.57 0.49

www.2cto.com

runq-sz 准备运行的进程运行队列。

plist-sz 进程队列里的进程和线程的数量

ldavg-1 前一分钟的系统平均负载(load average)

ldavg-5 前五分钟的系统平均负载(load average)

ldavg-15 前15分钟的系统平均负载(load average)

顺便说一下load avarage的含义

load average可以理解为每秒钟CPU等待运行的进程个数.

在Linux系统中，sar -q、uptime、w、top等命令都会有系统平均负载load

average的输出，那么什么是系统平均负载呢？

系统平均负载被定义为在特定时间间隔内运行队列中的平均任务数。如果一个进程满足以下条件则其就会位于运行队列中：

www.2cto.com

- 它没有在等待I/O操作的结果

- 它没有主动进入等待状态(也就是没有调用'wait')

- 没有被停止(例如：等待终止)

例如：

# uptime

20:55:40 up 24 days, 3:06, 1

user, load average: 8.13, 5.90, 4.94

命令输出的最后内容表示在过去的1、5、15分钟内运行队列中的平均进程数量。

一般来说只要每个CPU的当前活动进程数不大于3那么系统的性能就是良好的，如果每个CPU的任务数大于5，那么就表示这台机器的性能有严重问题。对

于上面的例子来说，假设系统有两个CPU，那么其每个CPU的当前任务数为：8.13/2=4.065。这表示该系统的性能是可以接受的。

linux进程cpu时间片,Linux性能监控之CPU篇相关推荐

linux top 命令可视化_linux性能监控：CPU监控命令之top命令
CPU监控命令之top命令 1概述: top命令是Linux下常用的性能分析工具,能够实时显示系统中各个进程的资源占用状况,类似于Windows的任务管理器.下面详细介绍它的使用方法. top是一 ...
Linux性能监控（CPU监控）
Linux性能监控(CPU监控) 主要分为四类: cup监控内存监控命令 IO性能网络性能 cup监控关于CPU,有3个重要的概念:上下文切换(context switchs),运行队列(Run ...
linux进程网络监控,linux下的进程、网络、性能监控命令
Linux下的java虚拟机性能监控与故障处理命令 java包中提供了很多监控JVM的工具类,作为java程序员必须得掌握常用的几个工具,下面是几个常用的JVM性能监控与故障处理工具的介绍与使用. 1 ...
php 系统平均负载,理解 Linux 的平均负载和性能监控
<理解 Linux 的平均负载和性能监控>要点: 本文介绍了理解 Linux 的平均负载和性能监控,希望对您有用.如果有疑问,可以联系我们. 在本文中,我们将解释 Linux 系统中最症结 ...
linux进程线程视频百度云,linux 进程线程时间片
aero 回复于:2003-08-10 21:01:44 偶觉得,已经不菜了. 如果你菜,那偶就还是鸟蛋了. coolhome 回复于:2003-08-10 20:27:00 [code:1:334e ...
linux进程管理机制,linux进程管理，linux进程管理机制
linux进程管理,linux进程管理机制一.基本介绍 1.在 LINUX 中,每个执行的程序(代码)都称为一个进程.每一个进程都分配一个 ID 号 2.每一个进程,都会对应一个父进程,而这个父进程 ...
linux监控cpu进程,Linux性能监控之CPU篇详解
监控CPU的性能就是以上3点,运行队列.CPU使用率和上下文切换.以下是一些对于Linux性能监控CPU很普遍的性能要求: Linux性能监控CPU篇 1. 对于每一个CPU来说运行队列不要超过3,例 ...
Linux性能监控之CPU
CPU介绍内核调度器将负责调度2种资源种类:线程(单一或者多路)和中断. 调度器去定义不同资源的不同优先权. 优先级:Interrupts(中断) > Kernel(System) Proce ...
linux系统和性能监控之cpu篇,Linux系统和性能监控之CPU篇
1.0 性能监控介绍性能优化就是找到系统处理中的瓶颈以及去除这些的过程,多数管理员相信看一些相关的"cook book"就可以实现性能优化,通常通过对内核的一些配置是可以简单的解 ...

linux进程cpu时间片,Linux性能监控之CPU篇

linux进程cpu时间片,Linux性能监控之CPU篇相关推荐

最新文章

热门文章