些时候木有更新人在囧途之运维的系列鸟、今儿个题目稍显文艺
     不过、俺觉得、这种方格不赖、可能后续的文全是这样咯
     
     人在运维囧途总会和服务器故障不期而遇、磕磕绊绊也在所难免
     但是在轻视逻辑的状态下拼命找答案、只会浪费更多的时间、这是非常危险的
     我记得福尔摩斯有提过:
     在没有事实作为参考以前妄下猜测(论点)是个很可怕的错误
     感觉不正确的人总是用事实去套自己固有的猜测(论点)
     而不是按正确的方法根据得到的事实来推导结论,看它能否吻合已得到的事实
     
     其最重要一点(没有之一哦)是、要先对故障现场了如指掌!!
     
     接下来是一些做法、让大家更容易理解福尔摩斯话里所谓的"事实"、诸位看官请笑纳
     
      ⑴ 穿越问题的前世今生
        
        莫一下子扎入服务器、你需要先明白对这台服务器有多少已知情况
        必须理清的问题大致如下图所示:

⑵ 有谁在?
        
        有道是、一山不容二虎、除非、、、、哈哈
        目前都有谁在线?有哪些用户访问过?想知道吗?哦、、那就看这哥俩了
        
        ● w
        ● last
        
     ⑶ 之前发生了什么?
        
        秋后算账也要先翻翻老底子哟、厚不厚也就这一回咯
        可借助:
        ① 命令:history
        ② 变量:HISTTIMEFORMAT
        这两人可是衣宽带水的烂兄烂弟呀、离了谁、谁就活得抓狂哦
        
     ⑷ 现在运行的进程是啥?
        
        这个比较容易哈、条条大路通罗马、譬如:
        ● pstree -a
        或者、、、
        ● ps aux 
        、、、、、
        
     ⑸ 监听的网络服务
        
        话不多说、亮三把杀手锏唬唬大伙
        
        ● netstat -lntp
        ● netstat -lnup
        ● netstat -lnxp
        
        至于含义嘛、房事不懂问天涯啦
        
        
        
     ⑹ CPU & 内存
        
        在这里、偶感觉有点解方程的味道、
        利用几个命令/工具、来回答几个问题
        这个、这个、这、、貌似回到了遥远的初中、那时、我还年轻
        
        比如、方程式有:
        ● free -m
        ● uptime
        ● top 
        ● htop
        
        比如、问题是:
        ① 还有空余内存否?是否使用了swap?
        ② 还有剩余CPU否?几核的?是否有某些核负载过多?
        ③ 服务器最大负载来自哪里?平均负载是多少?
        
        
     ⑺ 硬件
        
        ● lspci
        ● ethtool
        ● dmidlecode
        
        如有很多服务器还是裸机状态、可以看一下:
        
        ① 找到 RAID 卡(是否带 BBU备用电池?)、CPU、空余的内存插槽
        ② 网卡是否设置好?是否正运行在半双工状态?速度是10MBps?有TX/RX报错吗?
        
        
     ⑻ IO 性能
        
        ● iostat -kx 2
        ● vmstat 2 10
        ● mpstat 2 10 
        ● dstat --top-io --top-bio
        
        这些命令对后端优化好处N多:
        
        ① 检查磁盘使用量、磁盘是否已满?
        ② 是否开启了swap交换模式(si/so)
        ③ CPU被谁占用?
        ④ dstat可以看到谁在进行IO:是MySQLD 还是 PHP 等
        
        
     ⑼ 挂载点和文件系统
        
        ● mount 
        ● cat /etc/fstab
        ● vgs
        ● pvs
        ● lvs
        ● df -h
        
        回答以下问题:
        
        ① 一共挂载了多少文件系统
        ② 有没有某个服务专用的文件系统
        ③ 文件系统的挂载选项什么
        ④ 是否有大文件被删除但空间未被释放
        ⑤ 是否还有空间来扩展一个分区
        
        
        
     ⑽ 内核、中断和网络
        
        ● sysctl -a | grep ...
        ● cat /proc/interrupts
        ● cat /proc/net/ip_conntrack
        ● netstat
        ● ss -s
        
        回答以下问题:
        
        ① 显示所有存在的连接、netstat可能较慢、ss可先了解总体
        ② 在不同状态下(TIME_WAIT....)TCP连接时间的设置如何
        ③ conntrack_max是否设置的足够大、能应付你服务器的流量
        ④ SWAP交换设置是什么?对于工作站来说 swappiness 设为 60 就好
        ⑤ 中断请求是否均衡地分配给CPU处理?
        
        
     ⑾ 系统日志和内核消息
        
        ● dmesg
        ● less /var/log/messages
        ● less /var/log/secure
        ● less /var/log/auth
        
        回答以下问题:
        
        ① 查看错误和告警信息、如是否存在过载的连接数
        ② 看看是否有硬件错误或文件系统错误
        ③ 分析这些错误事件和前面发现的疑点进行时间上的比对
        
        
     ⑿ 定时任务
        
        ① 是否有某个定时任务运行过于频繁?
        ② 是否有某些用户提交了隐藏的定时任务?
        ③ 在出现故障的时候、是否正好有某个备份任务在执行?
        
        
     ⒀ 其他应用的系统日志
        
        这里是个硕大的、蛋碎的、抓狂的、(此处省略N个形容词)、、、、的工程
        比如:Oracle的alert和trc文件
                    Nagios的日志
                     ....
              
     经过如此一番折腾、我想、对故障现场也大概有些理解了、这时、我们才可开始 troubleshoting、
     
     行文到此进入尾声了、既然是最后、那么问题又来鸟
     大伙都听过"水果蔬菜在'最后一公里' 坐地涨价"的老大难问题吧
     这是网络上大行其是的最后一公里问题哦、木有听过的、感觉google
     但、、、、别捉急呀、我们不谈最后、在服务器排除问题时、还看今朝哈
     来来、来、排好队、1、2、3、、大家一起喊、我们的目标是"最前十分钟"  !!!

【人在运维囧途_14】打扫干净屋子再请客相关推荐

  1. 【人在运维囧途_03】20个Linux系统内置监视工具: w 和 ps

    人在囧途之运维的第三篇出炉啦.嘿咻嘿咻.吾必上下求索.将运维进行到底        闲言少叙.直面主题 有兴趣的朋友.不妨参考 第一篇:[人在运维囧途_01]20个Linux系统内置监视工具:top ...

  2. 【运维囧事】Citrix Xendesktop 与 XML 集成时添加信任关系

    不得不说,Citrix的相关产品的安全做的真TNND的强悍... 装完Xendesktop后,启用Smart Card来做认证.NND,就是过不去.提示说服务器之间不信任... 错误详细信息:The ...

  3. 【运维囧事】运维的苦乐之旅

    人生就是一段充满苦与乐的旅程,在人生当中有痛苦也有欢乐,痛苦不一定是负面的,有的时候还会使你进步,增强应变能力.对一般人而言,人生一定要是快乐的才是有意义的,可是你仔细想想,有谁不是因为挫折而更加的坚 ...

  4. 【运维囧事】事先没想到客户光驱坏了,主要原因还是自己当初经验不足

    那是我刚上班头半年发生的事,客户打电话到公司,说是电脑出问题了,WORD打不开.公司让我去看看,我到了客户那里一看,我勒个去,别说WORD打不开,连系统都进不了.幸好我从公司出发的时候,经理说带点系统 ...

  5. 中国E动网陈明华:云计算不拼人 拼“运维能力”

    IDC评述网12月18日报道:由IDC评述网组办"2014-2015年度十佳IDC评选"于11月08日正式启动投票,活动将持续4个多月,截止至2015年02月05日结束.本次评选, ...

  6. 北京开源人linux运维实战

            上面的架构图,想必大家都看到了,基本上都能看懂.通过一张图我们可以想到什么呢?有什么好想的,不就一张图吗?的确,就一张图,曾几何时,我也这样天真的认为.觉得没什么,就是一张人人都能看懂 ...

  7. 可怜了,这帮苦逼的人肉运维,还有...

    点击上方蓝色小字,关注"涛哥聊Python" 重磅干货,第一时间送达 来源:不会笑青年 -END- 本教程来自英国伦敦大学学院UCL的Niloy J. Mitra等学者做了关于深度 ...

  8. 阿里云“网红“运维工程师白金:做一个平凡的圆梦人

    他是阿里云的一位 P8 运维专家,却很有野心得给自己取花名"辟拾(P10)": 他没有华丽的履历,仅凭着 26 年的热爱与坚持,一步一个脚印踏出了属于自己的技术逆袭之路: 他爱好清 ...

  9. 阿里云“网红quot;运维工程师白金:做一个平凡的圆梦人

    他是阿里云的一位 P8 运维专家,却很有野心得给自己取花名"辟拾(P10)": 他没有华丽的履历,仅凭着 26 年的热爱与坚持,一步一个脚印踏出了属于自己的技术逆袭之路: 他爱好清 ...

  10. 转载:百度 新浪门户网站运维工程师

    转帖地址:http://linuxblog.com.cn/viewthread.php?tid=221 对于网站运维,感觉大家还是比较迷惘与不解,确实,这是一个新兴岗位:近来闲而无事,在此结合自已以往 ...

最新文章

  1. 大数据岗位必知必会的53个Java基础
  2. 如何看待机器视觉的“对抗样本”问题,其原理是什么?
  3. Define and Publish Platform Events
  4. Web 标准实践系列(一)——Google 的首页
  5. 最新的推荐系统论文两篇
  6. JS学习记录(BOM部分)
  7. LeetCode 2169. 得到 0 的操作数
  8. resultmap拿不到数据_阿里巴巴国际站每日电商运营工作数据表格
  9. ZPan私人网盘 v1.4.1
  10. 高新园区到大连计算机学校,教育局 | 高新园区2018指标分配表及大连各区指标到校表(附:现行大连指标名额分配方案)...
  11. linux系统下安装2080ti驱动,CentOS 7.4 Nvidia GeForce RTX 2080 Ti 显卡驱动安装
  12. Python3 解释器
  13. linux系统计时,关于linux:计算机系统中的计时机制
  14. 逆向工具IDA安装教程
  15. 【数据资产】数据资产目录建设方法与案例
  16. 在ubantu16.04系统下安装ros操作系统
  17. 设计一个以1秒频率闪烁的LED灯(亮灭各500ms)
  18. 微信小程序安卓密码加密的小黑点太大
  19. 通过Requst进行12306查票(2022-09-10)
  20. c语言起点零算法32继续求多项式,武汉科技大学ACM :1001: 零起点学算法34——继续求多项式...

热门文章

  1. 社交网络分析:中国与国际媒体互引的社会网络分析
  2. Mac OS X Safari 插件存放位置
  3. 模式识别技术是人工智能的基础技术,模式识别技术的发展潜力
  4. 磨刀不误砍柴工—ElasticSearch的schema详解
  5. 嵌入式培训课程哪里好?嵌入式开发学习路线
  6. LG V10距离感应器失效后的解决办法
  7. (转)Java程序员注意——扼杀性能的 10 个常见 Hibernate 错误
  8. 如果读书无用,那为什么还要读书
  9. win10系统mysql重新配置密码
  10. 按键精灵 获取某网站服务器时间,按键精灵如何获得网络时间的毫秒