前言

今天运维同事在使用

salt '*' test.ping

两台机器上的执行时间完全不同。正常的为:

[root@salt_master ~]# time salt-key -L

Accepted Keys:

213

217

minion213

Unaccepted Keys:

Rejected Keys:

real 0m1.210s

user 0m0.732s

sys 0m0.339s

不正常的执行时间为:

[root@salt_master ~]# time salt-key -L

Accepted Keys:

213

217

minion213

Unaccepted Keys:

Rejected Keys:

real 0m41.134s

user 0m0.761s

sys 0m0.318s

相差太大了,不能接受,需要找出原因。遇到这种疑难问题,strace 就派上用场了。

strace 的使用说明

首先我们看看 strace 的用法

[root@perf01 ~]# strace --help

strace: invalid option -- '-'

usage: strace [-dDffhiqrtttTvVxx] [-a column] [-e expr] ... [-o file]

[-p pid] ... [-s strsize] [-u username] [-E var=val] ...

[command [arg ...]]

or: strace -c [-D] [-e expr] ... [-O overhead] [-S sortby] [-E var=val] ...

[command [arg ...]]

-c -- count time, calls, and errors for each syscall and report summary

-f -- follow forks, -ff -- with output into separate files

-F -- attempt to follow vforks, -h -- print help message

-i -- print instruction pointer at time of syscall

-q -- suppress messages about attaching, detaching, etc.

-r -- print relative timestamp, -t -- absolute timestamp, -tt -- with usecs

-T -- print time spent in each syscall, -V -- print version

-v -- verbose mode: print unabbreviated argv, stat, termio[s], etc. args

-x -- print non-ascii strings in hex, -xx -- print all strings in hex

-a column -- alignment COLUMN for printing syscall results (default 40)

-e expr -- a qualifying expression: option=[!]all or option=[!]val1[,val2]...

options: trace, abbrev, verbose, raw, signal, read, or write

-o file -- send trace output to FILE instead of stderr

-O overhead -- set overhead for tracing syscalls to OVERHEAD usecs

-p pid -- trace process with process id PID, may be repeated

-D -- run tracer process as a detached grandchild, not as parent

-s strsize -- limit length of print strings to STRSIZE chars (default 32)

-S sortby -- sort syscall counts by: time, calls, name, nothing (default time)

-u username -- run command as username handling setuid and/or setgid

-E var=val -- put var=val in the environment for command

-E var -- remove var from the environment for command

[root@perf01 ~]#

对于我们今天遇到的问题,我们重点关注下面的参数:

-f:跟踪包括 fork 的子进程。

-o file:输出跟踪的日志到一个文件中,而不是标准输出流中。

-T:打印系统调用的时间。

strace 的使用

我们使用下面的命令:

strace -f -T -o aa.txt salt '*' test.ping

我们得到的文本文件拷贝到 excel 中,按照 分列,使得系统调用时间在一列,然后使用 excel 的排序功能按照降序排列,我们可以看到下面的

4669 poll([{fd=3, events=POLLIN}], 1, 5000) = 0 (Timeout) 5.005197

4669 poll([{fd=3, events=POLLIN}], 1, 5000) = 0 (Timeout) 5.005197

4669 poll([{fd=3, events=POLLIN}], 1, 4999) = 0 (Timeout) 5.004221

4669 poll([{fd=3, events=POLLIN}], 1, 4999) = 0 (Timeout) 5.004221

4669 poll([{fd=4, events=POLLIN}], 1, 4999) = 0 (Timeout) 5.004206

4669 poll([{fd=4, events=POLLIN}], 1, 4999) = 0 (Timeout) 5.004206

4669 poll([{fd=3, events=POLLIN}], 1, 4999) = 0 (Timeout) 5.004201

4669 poll([{fd=3, events=POLLIN}], 1, 4999) = 0 (Timeout) 5.004201

4669 poll([{fd=4, events=POLLIN}], 1, 4999) = 0 (Timeout) 5.00418

4669 poll([{fd=4, events=POLLIN}], 1, 4999) = 0 (Timeout) 5.00418

4669 poll([{fd=3, events=POLLIN}], 1, 4999) = 0 (Timeout) 5.004177

4669 poll([{fd=3, events=POLLIN}], 1, 4999) = 0 (Timeout) 5.004177

4669 poll([{fd=3, events=POLLIN}], 1, 4999) = 0 (Timeout) 5.004166

4669 poll([{fd=3, events=POLLIN}], 1, 4999) = 0 (Timeout) 5.004166

4669 select(0, NULL, NULL, NULL, {0, 25000}) = 0 (Timeout) 0.025196

4669 select(0, NULL, NULL, NULL, {0, 25000}) = 0 (Timeout) 0.025196

4669 select(0, NULL, NULL, NULL, {0, 25000}) = 0 (Timeout) 0.025184

4669 select(0, NULL, NULL, NULL, {0, 25000}) = 0 (Timeout) 0.025184

发现 poll 系统调用中存在大量的超时,我们现在可以拷贝其中一个

4669 poll([{fd=3, events=POLLIN}], 1, 5000) = 0 (Timeout)

到 aa.txt 中查找这个调用的上下文

4669 connect(3, {sa_family=AF_INET, sin_port=htons(53), sin_addr=inet_addr("202.96.199.133")}, 16) = 0 <0.000048>

4669 gettimeofday({1421912262, 387646}, NULL) = 0 <0.000038>

4669 poll([{fd=3, events=POLLOUT}], 1, 0) = 1 ([{fd=3, revents=POLLOUT}]) <0.000047>

4669 sendto(3, "K`\1\0\0\1\0\0\0\0\0\0\00234\003199\003106\003202\7in-a"..., 45, MSG_NOSIGNAL, NULL, 0) = 45 <0.000057>

4669 poll([{fd=3, events=POLLIN}], 1, 5000) = 0 (Timeout) <5.005197>

4669 socket(PF_INET, SOCK_DGRAM|SOCK_NONBLOCK, IPPROTO_IP) = 4 <0.000059>

4669 connect(4, {sa_family=AF_INET, sin_port=htons(53), sin_addr=inet_addr("202.106.196.115")}, 16) = 0 <0.000051>

4669 gettimeofday({1421912267, 394615}, NULL) = 0 <0.000037>

可以注意到其中连个链接的 ip 地址

...

... sin_addr=inet_addr("202.96.199.133")

...

... sin_addr=inet_addr("202.106.196.115")

这两个 ip 地址是这台 linux 上配置的 DNS,在主机上 ping 这俩个地址确实是 ping 不通,对比正常那台 linux 的 DNS 配置时,配置确实是不同的。修改到一致后,问题消失。至此使用 strace 调试问题也就完美结束了。

参考

linux salt命令 -e,linux 下 Salt 命令的疑难杂症相关推荐

  1. dos下编写java程序_在DOS命令行状态下,如果命令java Hello成功运行了程序,那么下面哪些叙述是正确的()...

    [判断题]在JDK命令行开发工具中,用编译程序javac.exe编译生成的文件是二进制可执行文件. [论述题]你认为堂吉诃德是一个怎样的人? [简答题]练习函数 [单选题]下列制度体现商法提高交易效率 ...

  2. linux vsftpd用法,Linux_LINUX系统下vsftpd 命令详解,FTP命令是Internet用户使用最频 - phpStudy...

    LINUX系统下vsftpd 命令详解 FTP命令是Internet用户使用最频繁的命令之一,不论是在DOS还是UNIX操 作系统下使用FTP,都会遇到大量的FTP内部命令. 熟悉并灵活应用FTP的内 ...

  3. mysql的top命令参数_linux下top命令详解包括top命令参数使用及结果(virt,res,shr)排序举例说明...

    top 命令是 Linux 下常用的系统资源占用查看及性能分析工具,能够实时显示系统中各个进程的资源(比如cpu.内存的使用)占用状况,类似于 Windows 的任务管理器.top命令的执行结果是一个 ...

  4. oracle home 命令,$ORACLE_HOMEbin目录下所有命令的使用方法及命令详解

    求$ORACLE_HOME/bin目录下所有命令的使用方法及命令详解 如题. $ORACLE_HOME/bin目录下有很多命令,那我们平时用到的也不是太多,即使用到的那部分可能用法也不是完全能掌握,所 ...

  5. 下防火墙命令与centos7下防火墙命令区别

    一.centos6防火墙命令  1.查看防火墙规则  #iptables -L  2.状态.开启.关闭.重启防火墙  #service iptables status  #service iptabl ...

  6. linux(ubuntu)系统下Top命令详解

    参考链接: 1. https://www.cnblogs.com/niuben/p/12017242.html 2. https://blog.csdn.net/qq_39416311/article ...

  7. 将windows c盘安装在linux,将WindowsC盘hda1安装在Linux文件系统的/winsys目录下,命令是()。...

    _ 什么叫做可再生能源?什么叫做不可再生能源? 井筒施工时,应及时观测()等变化情况.当发现影响施工的不利地质因素时,应及时提供补充地质资料. PAEI中的A是指() 破伤风症状出现的顺序是() 下面 ...

  8. centos6查看java命令_centos6.5下常见命令和操作

    本章内容概览: 1.linux系统下配置ip地址 2.linux系统下安装jdk并配置环境变量 3.linux系统下安装tomcat并配置环境变量 4.linux系统下安装ssh远程登陆工具并实现免密 ...

  9. 说说在CMD命令行模式下ADB命令显示为不是内部或外部命令,亦不是可运行程序和批处理文件的解决办法

    有时候在android开发中我们会用到adb命令行,但很多人在cmd中输入adb命令后,会出现'adb'不是内部或外部命令,亦不是可运行程序和批处理文件的问题 解决办法是:找到SDK目录,在其子目录p ...

  10. linux前一个的输出作为后一个参数,将Linux命令的结果作为下一个命令的参数

    查询所有的pid并杀死. jps -l | grep bdcsc2-native-demo | awk '{print $1}' | xargs kill -9 KISS:keep it short ...

最新文章

  1. 进程间通信--命名管道
  2. Java 8新特性——default方法(defenece方法)介绍
  3. HDU1556(树状数组模版)
  4. 使用未编译的XAML动态生成WPF控件
  5. 基于事件的 NIO 多线程服务器--转载
  6. bootstrap3 徽章_【可预留】不倒翁工作室,数码宝贝 勇气徽章
  7. php语言设计图书管理系统,图书馆管理系统PHP版_7tmu7b
  8. ROADS POJ - 1724(最短路+邻接表+dfs)
  9. mysql 开发基础系列19 触发器
  10. primefaces_Primefaces单选按钮,复选框示例
  11. [2019杭电多校第七场][hdu6655]Just Repeat
  12. 华为光纤猫HG8240R设置
  13. OPPO VOOC快充电路和协议
  14. 嵌入式系统开发笔记17:CJ/T-188 冷热量表协议解析6
  15. 阿里云ECS七天训练营-搭建FTP
  16. 关于JavaScript的模块(CommonJS, AMD, CMD, ES6模块)的理解
  17. 学习项目1(移动端京东)
  18. Kali安装的一些常用软件
  19. 实例讨论数据可视化的配色思路
  20. 简单CRM系统开发(二)

热门文章

  1. AndroidDialog
  2. 论supervisor的使用(一)
  3. ffmpeg 基本数据结构和对象: AVPacket、AVPicture、AVFrame
  4. SegmentFault Hackathon 2018 火热登场,Let's hack!
  5. Windows删除文件时显示找不到该项目
  6. UNIX高手应该保持的习惯
  7. 买了一本老镇的swift语言实战晋级
  8. C中堆管理—浅谈malloc,free,calloc,realloc函数之间的区别
  9. Android 应用程序 降低耗电量的一些思路
  10. c语言程序改错类型,C语言程序改错总结