【人在运维囧途_14】打扫干净屋子再请客
有 些时候木有更新人在囧途之运维的系列鸟、今儿个题目稍显文艺
不过、俺觉得、这种方格不赖、可能后续的文全是这样咯
人在运维囧途总会和服务器故障不期而遇、磕磕绊绊也在所难免
但是在轻视逻辑的状态下拼命找答案、只会浪费更多的时间、这是非常危险的
我记得福尔摩斯有提过:
在没有事实作为参考以前妄下猜测(论点)是个很可怕的错误
感觉不正确的人总是用事实去套自己固有的猜测(论点)
而不是按正确的方法根据得到的事实来推导结论,看它能否吻合已得到的事实
其最重要一点(没有之一哦)是、要先对故障现场了如指掌!!
接下来是一些做法、让大家更容易理解福尔摩斯话里所谓的"事实"、诸位看官请笑纳
⑴ 穿越问题的前世今生
莫一下子扎入服务器、你需要先明白对这台服务器有多少已知情况
必须理清的问题大致如下图所示:
⑵ 有谁在?
有道是、一山不容二虎、除非、、、、哈哈
目前都有谁在线?有哪些用户访问过?想知道吗?哦、、那就看这哥俩了
● w
● last
⑶ 之前发生了什么?
秋后算账也要先翻翻老底子哟、厚不厚也就这一回咯
可借助:
① 命令:history
② 变量:HISTTIMEFORMAT
这两人可是衣宽带水的烂兄烂弟呀、离了谁、谁就活得抓狂哦
⑷ 现在运行的进程是啥?
这个比较容易哈、条条大路通罗马、譬如:
● pstree -a
或者、、、
● ps aux
、、、、、
⑸ 监听的网络服务
话不多说、亮三把杀手锏唬唬大伙
● netstat -lntp
● netstat -lnup
● netstat -lnxp
至于含义嘛、房事不懂问天涯啦
⑹ CPU & 内存
在这里、偶感觉有点解方程的味道、
利用几个命令/工具、来回答几个问题
这个、这个、这、、貌似回到了遥远的初中、那时、我还年轻
比如、方程式有:
● free -m
● uptime
● top
● htop
比如、问题是:
① 还有空余内存否?是否使用了swap?
② 还有剩余CPU否?几核的?是否有某些核负载过多?
③ 服务器最大负载来自哪里?平均负载是多少?
⑺ 硬件
● lspci
● ethtool
● dmidlecode
如有很多服务器还是裸机状态、可以看一下:
① 找到 RAID 卡(是否带 BBU备用电池?)、CPU、空余的内存插槽
② 网卡是否设置好?是否正运行在半双工状态?速度是10MBps?有TX/RX报错吗?
⑻ IO 性能
● iostat -kx 2
● vmstat 2 10
● mpstat 2 10
● dstat --top-io --top-bio
这些命令对后端优化好处N多:
① 检查磁盘使用量、磁盘是否已满?
② 是否开启了swap交换模式(si/so)
③ CPU被谁占用?
④ dstat可以看到谁在进行IO:是MySQLD 还是 PHP 等
⑼ 挂载点和文件系统
● mount
● cat /etc/fstab
● vgs
● pvs
● lvs
● df -h
回答以下问题:
① 一共挂载了多少文件系统
② 有没有某个服务专用的文件系统
③ 文件系统的挂载选项什么
④ 是否有大文件被删除但空间未被释放
⑤ 是否还有空间来扩展一个分区
⑽ 内核、中断和网络
● sysctl -a | grep ...
● cat /proc/interrupts
● cat /proc/net/ip_conntrack
● netstat
● ss -s
回答以下问题:
① 显示所有存在的连接、netstat可能较慢、ss可先了解总体
② 在不同状态下(TIME_WAIT....)TCP连接时间的设置如何
③ conntrack_max是否设置的足够大、能应付你服务器的流量
④ SWAP交换设置是什么?对于工作站来说 swappiness 设为 60 就好
⑤ 中断请求是否均衡地分配给CPU处理?
⑾ 系统日志和内核消息
● dmesg
● less /var/log/messages
● less /var/log/secure
● less /var/log/auth
回答以下问题:
① 查看错误和告警信息、如是否存在过载的连接数
② 看看是否有硬件错误或文件系统错误
③ 分析这些错误事件和前面发现的疑点进行时间上的比对
⑿ 定时任务
① 是否有某个定时任务运行过于频繁?
② 是否有某些用户提交了隐藏的定时任务?
③ 在出现故障的时候、是否正好有某个备份任务在执行?
⒀ 其他应用的系统日志
这里是个硕大的、蛋碎的、抓狂的、(此处省略N个形容词)、、、、的工程
比如:Oracle的alert和trc文件
Nagios的日志
....
经过如此一番折腾、我想、对故障现场也大概有些理解了、这时、我们才可开始 troubleshoting、
行文到此进入尾声了、既然是最后、那么问题又来鸟
大伙都听过"水果蔬菜在'最后一公里' 坐地涨价"的老大难问题吧
这是网络上大行其是的最后一公里问题哦、木有听过的、感觉google
但、、、、别捉急呀、我们不谈最后、在服务器排除问题时、还看今朝哈
来来、来、排好队、1、2、3、、大家一起喊、我们的目标是"最前十分钟" !!!
【人在运维囧途_14】打扫干净屋子再请客相关推荐
- 【人在运维囧途_03】20个Linux系统内置监视工具: w 和 ps
人在囧途之运维的第三篇出炉啦.嘿咻嘿咻.吾必上下求索.将运维进行到底 闲言少叙.直面主题 有兴趣的朋友.不妨参考 第一篇:[人在运维囧途_01]20个Linux系统内置监视工具:top ...
- 【运维囧事】Citrix Xendesktop 与 XML 集成时添加信任关系
不得不说,Citrix的相关产品的安全做的真TNND的强悍... 装完Xendesktop后,启用Smart Card来做认证.NND,就是过不去.提示说服务器之间不信任... 错误详细信息:The ...
- 【运维囧事】运维的苦乐之旅
人生就是一段充满苦与乐的旅程,在人生当中有痛苦也有欢乐,痛苦不一定是负面的,有的时候还会使你进步,增强应变能力.对一般人而言,人生一定要是快乐的才是有意义的,可是你仔细想想,有谁不是因为挫折而更加的坚 ...
- 【运维囧事】事先没想到客户光驱坏了,主要原因还是自己当初经验不足
那是我刚上班头半年发生的事,客户打电话到公司,说是电脑出问题了,WORD打不开.公司让我去看看,我到了客户那里一看,我勒个去,别说WORD打不开,连系统都进不了.幸好我从公司出发的时候,经理说带点系统 ...
- 中国E动网陈明华:云计算不拼人 拼“运维能力”
IDC评述网12月18日报道:由IDC评述网组办"2014-2015年度十佳IDC评选"于11月08日正式启动投票,活动将持续4个多月,截止至2015年02月05日结束.本次评选, ...
- 北京开源人linux运维实战
上面的架构图,想必大家都看到了,基本上都能看懂.通过一张图我们可以想到什么呢?有什么好想的,不就一张图吗?的确,就一张图,曾几何时,我也这样天真的认为.觉得没什么,就是一张人人都能看懂 ...
- 可怜了,这帮苦逼的人肉运维,还有...
点击上方蓝色小字,关注"涛哥聊Python" 重磅干货,第一时间送达 来源:不会笑青年 -END- 本教程来自英国伦敦大学学院UCL的Niloy J. Mitra等学者做了关于深度 ...
- 阿里云“网红“运维工程师白金:做一个平凡的圆梦人
他是阿里云的一位 P8 运维专家,却很有野心得给自己取花名"辟拾(P10)": 他没有华丽的履历,仅凭着 26 年的热爱与坚持,一步一个脚印踏出了属于自己的技术逆袭之路: 他爱好清 ...
- 阿里云“网红quot;运维工程师白金:做一个平凡的圆梦人
他是阿里云的一位 P8 运维专家,却很有野心得给自己取花名"辟拾(P10)": 他没有华丽的履历,仅凭着 26 年的热爱与坚持,一步一个脚印踏出了属于自己的技术逆袭之路: 他爱好清 ...
- 转载:百度 新浪门户网站运维工程师
转帖地址:http://linuxblog.com.cn/viewthread.php?tid=221 对于网站运维,感觉大家还是比较迷惘与不解,确实,这是一个新兴岗位:近来闲而无事,在此结合自已以往 ...
最新文章
- 大数据岗位必知必会的53个Java基础
- 如何看待机器视觉的“对抗样本”问题,其原理是什么?
- Define and Publish Platform Events
- Web 标准实践系列(一)——Google 的首页
- 最新的推荐系统论文两篇
- JS学习记录(BOM部分)
- LeetCode 2169. 得到 0 的操作数
- resultmap拿不到数据_阿里巴巴国际站每日电商运营工作数据表格
- ZPan私人网盘 v1.4.1
- 高新园区到大连计算机学校,教育局 | 高新园区2018指标分配表及大连各区指标到校表(附:现行大连指标名额分配方案)...
- linux系统下安装2080ti驱动,CentOS 7.4 Nvidia GeForce RTX 2080 Ti 显卡驱动安装
- Python3 解释器
- linux系统计时,关于linux:计算机系统中的计时机制
- 逆向工具IDA安装教程
- 【数据资产】数据资产目录建设方法与案例
- 在ubantu16.04系统下安装ros操作系统
- 设计一个以1秒频率闪烁的LED灯(亮灭各500ms)
- 微信小程序安卓密码加密的小黑点太大
- 通过Requst进行12306查票(2022-09-10)
- c语言起点零算法32继续求多项式,武汉科技大学ACM :1001: 零起点学算法34——继续求多项式...