原标题:运维是个坑,盘点背锅侠的点点滴滴~

运维是个遇坑、填坑、再遇坑、再填坑,有些时候还被同事挖坑,duang的一下掉下去了,还要自己慢慢爬坑;有些却是自己了解不够深入,或不够细心所留下来的坑。

小编认为,在实际操作中遇到了多多少少的坑,只有运维人们共享所遇到的坑,才能更快的定位与解决这些烦人的坑,所以小编针对运维这个坑准备了几个问题,下面我们就来看看网友们都有哪些精彩回答吧!

图片来源于网络

讨论话题

1.你遇到过哪些的坑让你印象深刻?你是如何解决的。

2.有哪些细枝末节的坑你是想提醒一下身边的运维伙伴的?

3.谈谈出现坑的主要原因与如何规避它们。

精彩回复

【撒加】

1.你遇到过哪些的坑让你印象深刻?你是如何解决的。

我影响最深的应该是一次配置Haproxy的时候,对于各种时间,当时都是少了单位(默认都是毫秒),结果导致我们在测试应用的时候,一会好一会不好,这个失误一般来说还真不好查,怎么看配置怎么没有问题,后来是抓包后发现连接超时时间特别短,回过头在看配置文件时,才把10改成10s。

2.有哪些细枝末节的坑你是想提醒一下身边的运维伙伴的?

其实做运维,尤其是基础架构的运维,接触的都是开源组件啊、流程啊等等,这些都有可能是踩坑的地方。一一列举真的太多了。

3.谈谈出现坑的主要原因与如何规避它们。

从带团队开始,也总结了下出现坑的一些原因,大体上有这些

a:研发代码问题,比如代码逻辑、代码中出现字母打错的情况、少个标点符号什么的、为了修一个bug结果导致新bug的出现等

b:测试部门对于上线的代码测试不够充分,存在侥幸心理,一上线,吼吼,业务出现问题

c:运维部自身,运维流程不规范、不标准;运维人员对开源组件的认识不足且文档一般都不仔细看(90%都是度娘上去看别人怎么配置的,自己不会去深究);运维人员做事不经思考,不是先想怎么做,而是先做了再说出现问题再去考虑,严重浪费人力成本;

以上的问题,对于研发和测试部门,作为运维真的不好去建议什么,只能向上反应,希望他们怎么做。

对于运维部门,我认为,首先要制定的就是运维规范和流程,而且能让机器去做的就不要让人去做(人的风险更大),让人参与的内容越少越好;再次,需要培养运维人员看官方文档的习惯、做事的习惯;第三,要赏罚分明,没有赏罚,大家做事自然不会考虑太多(我罚过部门的人,一次后,做事效率提升了,踩坑的次数骤减)

以上是对这个活动的一点看法,哈哈

【General_715】

1.你遇到过哪些的坑让你印象深刻?你是如何解决的。

有一次在rhel5上配置yum,因为rhel是需要认证的,配置起来完全和centos不一样,配置上去之后没有起到作用,就联系了红帽的技术支持,也没找出原因就叫我用sosreport命令(记不太清了,应该是这个)收集信息,命令执行时间较长,在执行的过程中,我自己把问题解决了,于是联系技术支持,他叫我ctrl+C退出即可,结果我执行了之后,服务器down了。。。。。。后来打电话过去,他们说是这个命令的bug,已经在rhel6版本修复,5版本不予修复。

还有,最开始接触脚本的时候,脚本了用了rm命令,后面接的是变量,在后面是tmp目录,目的是想再某一个目录(通过变量取得)下建一个tmp目录,然后用完之后删除这个tmp目录,结果这个变量有一次没取到,然后就把根目录下的tmp目录删除了。。。还有,某一个内部系统使用起来非常慢,项目经理很不满意,后来我上系统上用top命令查看,发现数据库进程占用cpu达到了100%,登上数据库一看,正在执行的一个sql语句对某一个表进行查询操作,我一查,这个表几百万行。后来经过调查和询问,系统搭建的时候,有一个脚本要定期执行去删除这个表的数据,结果脚本,之前搭建的同事忘了放到crontab里去执行,从来就没运行过。

2.有哪些细枝末节的坑你是想提醒一下身边的运维伙伴的?

首先,最重要的就是要在测试环境进行一些未知的操作,在完全确认没问题之后,在上生产环境进行操作。整个操作过程记录成文档,留下日志,在生产环境操作的时候,严格按照之前准备好的文档执行。而且要在非业务时间。

再有,就是不要再脚本里出现rm命令,更不可以在rm命令后面接变量。

3.谈谈出现坑的主要原因与如何规避它们。

第一,自己操作不仔细,出现操作失误。

第二,开发程序有bug,这个就需要在测试环境先运行,没问题了再上生产环境运行。

第三,新手进行操作因为没经验容易引起问题,最好有有经验的人在旁边看着,不要让新手独立进行操作

【799029078】

谈谈这短短两个月遇到的几个坑吧 。

1 普通用户执行 sudo ls /root/ntp* 找不到文件 ROOT ls /root/ntp*

解决办法:sudo bash -c "ls /root/ntp* "

2 用户test有附加组test1

当用usermod 删除附加组时 id命令不显示test2

groups命令还会继续显示附加组为test1

解决办法:重新登入 groups命令就会正

3 背景: 一个计划任务 每分钟会去检测一个服务进程,如果进程不存在则启动

场景:卸载该服务

步骤:

1 删除计划任务

2 检测进程

3 如果进程存在则删除进程

4 删除安装目录

缺陷:计划任务会出现间隔定期去读取/etc/crontab的配置文件,步骤1虽然删除了,但是计划任务已经读取进去了。

在执行完步骤3后,计划任务又把进程拉起来了,造成服务卸载了,但是进程还在。

下次再安装时该服务会出现异常。该问题出现的几率应该在0.5%以下

解决办法:

增加步骤5 检测进程是否存在,再kill进程。就算计划任务在步骤4以后执行,它也拉不起进程了,因为服务的安装目录都被删除了。哈哈

4 ansible异步任务的两个坑

坑1

shell:xxxx

async:

poll:

args:

chdir:

后面的这个chdir压根没作用!有木有

坑2

还是

async:

poll:

如果用该异步任务实现shell去产生另一个异步任务,另一个异步任务有几率不会真正执行!概率高达10%左右

5 端口的一个坑

这是几个月前遇到的问题了

web服务器别绑定87号端口!!!!

浏览器默认不让访问

我知道一种学习

于坚

责任编辑:

上夜班的linux运维都坑,运维是个坑,盘点背锅侠的点点滴滴~相关推荐

  1. 有了堡垒机,运维工程师们不再是背锅侠啦

    众所周知,运维工程师的工作比较繁琐杂乱,且经常是背锅侠.所以要想舒舒服服做好IT运维工作,就要用堡垒机!用了堡垒机,从此告别背锅侠!下面我们小编就给大家简单讲解一下堡垒机的定义.作用.功能等等,希望可 ...

  2. 测试员都是背锅侠?测试人员避“锅”攻略,拿走不谢

    最近发生了一起生产事故,究其根源,事故本身属于架构或者需求层面需要规避的问题,测试人员的责任其实是非常小的,但实际情况是:相关测试人员因此承担了很大的压力,成为质量问题的"背锅侠" ...

  3. 系统运维手册_如何摆脱“背锅侠”,做一个合格的IT运维人员

    说到IT运维,身处IT行业的小编有许多话要说."起的比鸡早,睡的比猪晚",最后被累成了狗.但是不得不说IT运维对于一个企业来说是至关重要的,现代化企业的判断标准就在于是否有完善的互 ...

  4. 公司和领导都靠不住,所谓中高层就是背锅侠--读《美国陷阱》有感

    这两天匆忙地扫了一遍这个书,感觉这书真是好运,写得一般的一本书,恰好华为事件,帮它炒作了.先放个个人感想吧.我的强烈感受是,出事了,公司和领导都是靠不住的.其中最悲哀的就是,作者作为新加坡分公司总裁, ...

  5. 7.24运维日福利:运维都是段子手,张口就是100条!

    各位运维宝宝,节日快乐,今天加个鸡腿吧! 在运维帮的公众号看到一篇文章,是关于"一句话说运维"的活动,看完以后不得不感慨--运维都是段子手中的老司机!我从中抽取了100条比较经典的 ...

  6. 我会背锅,能去做运维吗?

    导读:我会重启,能去做运维吗?不能,你还得会背锅!运维的日常操作有哪些?背锅!背锅!背锅!运维的终极操作是什么?rm -rf /*-- 说正经的,运维工程师往往承担着非常重要的工作,出问题时总是冲在最 ...

  7. 腾讯十年运维专家谈运维的自我修养

    公众号关注 「奇妙的 Linux 世界」 设为「星标」,每天带你玩转 Linux ! 作者:huashionxu,腾讯 TEG 业务运维专家 技术运维作为站在研发团队背后的男人们,一直在担任着举重若轻 ...

  8. 做不背锅的运维(文末有彩蛋!)

    系统出了故障,第一个挨板子的就是运维人员.不管任何原因,先找运维,给他一口好锅.运维好苦啊!稳定运行时,似乎是多余的存在:有问题时,要替人背锅.与其被动,不如主动一点,不做背锅侠! 怎么做呢?先看几个 ...

  9. 谷歌宕机,只有运维背锅吗?

    作者|阿文 责编|伍杏玲 出品|CSDN(ID:CSDNnews) 北京时间 6月3⽇凌晨2点58分开始,有大量用户访问⾕歌服务出现各种错误提醒,并且阻止⽤户访问电子邮件.上传YouTube视频等. ...

最新文章

  1. Pytorch使用CPU运行“Torch not compiled with CUDA enabled”
  2. pytorch 过采样
  3. ddr5内存上市时间_辣评烩:SK海力士首发DDR5内存:频率冲上5600MHz
  4. ios点击大头针气泡不弹出_画家双手抖不停,画不了画丢了工作,却迎合抖动创造出一个个奇迹...
  5. 第一章 进程与线程的基本概念
  6. [转][.NET 基于角色安全性验证] 之一:基础知识
  7. 解决 ORA-28001: the password has expired 问题
  8. sas table将缺失值计入百分比_SAS系列28:SAS宏语言(一)
  9. 第四篇 SpringBoot 2 x整合MyBatis
  10. Linux内核入门(五)——必要的硬件知识
  11. realme刷机鸿蒙教程,realme手机全机型解锁bootloader教程,支持一键刷机root权限
  12. 【Unity基础】Unity打包exe
  13. 爬虫(12)-爬虫爬取安居客二手房和新房信息
  14. 大篆汉字对照表_篆书转换器软件下载(篆体字转换汉字对照表)
  15. 连接SQLserver数据库发生错误,提示用户sa登录失败解决方法(亲试有用)
  16. emcc生成wasm,wast,bc文件的方法
  17. Java之Snake历程
  18. Java使用POI将doc文档转为Html
  19. css style 命名,CSS_CSS样式命名规范,命名一直是个让我头痛的问题 - phpStudy
  20. 【java集合】ConcurrentHashMap源码分析

热门文章

  1. 人工智能命题逻辑--测试题答案(三)
  2. 【软件测试】什么样的项目适合做自动化测试?自动化测试有需要那些技术?
  3. 一:部署harbor镜像仓库
  4. 微服务的优缺点_支付宝上的好医保长期医疗险这款保险到底怎么样?保障全面吗?有哪些优缺点?值得买吗?...
  5. 第16集 生成BOM清单标签导出
  6. iptables 一些命令
  7. 令人心酸至极的100个微瞬间
  8. 服务器属于三大系统,服务器三大操作系统
  9. python爬虫模式_python爬虫的入门试炼
  10. 利用Python turtle库制作夜空