上夜班的linux运维都坑,运维是个坑,盘点背锅侠的点点滴滴~
原标题:运维是个坑,盘点背锅侠的点点滴滴~
运维是个遇坑、填坑、再遇坑、再填坑,有些时候还被同事挖坑,duang的一下掉下去了,还要自己慢慢爬坑;有些却是自己了解不够深入,或不够细心所留下来的坑。
小编认为,在实际操作中遇到了多多少少的坑,只有运维人们共享所遇到的坑,才能更快的定位与解决这些烦人的坑,所以小编针对运维这个坑准备了几个问题,下面我们就来看看网友们都有哪些精彩回答吧!
图片来源于网络
讨论话题
1.你遇到过哪些的坑让你印象深刻?你是如何解决的。
2.有哪些细枝末节的坑你是想提醒一下身边的运维伙伴的?
3.谈谈出现坑的主要原因与如何规避它们。
精彩回复
【撒加】
1.你遇到过哪些的坑让你印象深刻?你是如何解决的。
我影响最深的应该是一次配置Haproxy的时候,对于各种时间,当时都是少了单位(默认都是毫秒),结果导致我们在测试应用的时候,一会好一会不好,这个失误一般来说还真不好查,怎么看配置怎么没有问题,后来是抓包后发现连接超时时间特别短,回过头在看配置文件时,才把10改成10s。
2.有哪些细枝末节的坑你是想提醒一下身边的运维伙伴的?
其实做运维,尤其是基础架构的运维,接触的都是开源组件啊、流程啊等等,这些都有可能是踩坑的地方。一一列举真的太多了。
3.谈谈出现坑的主要原因与如何规避它们。
从带团队开始,也总结了下出现坑的一些原因,大体上有这些
a:研发代码问题,比如代码逻辑、代码中出现字母打错的情况、少个标点符号什么的、为了修一个bug结果导致新bug的出现等
b:测试部门对于上线的代码测试不够充分,存在侥幸心理,一上线,吼吼,业务出现问题
c:运维部自身,运维流程不规范、不标准;运维人员对开源组件的认识不足且文档一般都不仔细看(90%都是度娘上去看别人怎么配置的,自己不会去深究);运维人员做事不经思考,不是先想怎么做,而是先做了再说出现问题再去考虑,严重浪费人力成本;
以上的问题,对于研发和测试部门,作为运维真的不好去建议什么,只能向上反应,希望他们怎么做。
对于运维部门,我认为,首先要制定的就是运维规范和流程,而且能让机器去做的就不要让人去做(人的风险更大),让人参与的内容越少越好;再次,需要培养运维人员看官方文档的习惯、做事的习惯;第三,要赏罚分明,没有赏罚,大家做事自然不会考虑太多(我罚过部门的人,一次后,做事效率提升了,踩坑的次数骤减)
以上是对这个活动的一点看法,哈哈
【General_715】
1.你遇到过哪些的坑让你印象深刻?你是如何解决的。
有一次在rhel5上配置yum,因为rhel是需要认证的,配置起来完全和centos不一样,配置上去之后没有起到作用,就联系了红帽的技术支持,也没找出原因就叫我用sosreport命令(记不太清了,应该是这个)收集信息,命令执行时间较长,在执行的过程中,我自己把问题解决了,于是联系技术支持,他叫我ctrl+C退出即可,结果我执行了之后,服务器down了。。。。。。后来打电话过去,他们说是这个命令的bug,已经在rhel6版本修复,5版本不予修复。
还有,最开始接触脚本的时候,脚本了用了rm命令,后面接的是变量,在后面是tmp目录,目的是想再某一个目录(通过变量取得)下建一个tmp目录,然后用完之后删除这个tmp目录,结果这个变量有一次没取到,然后就把根目录下的tmp目录删除了。。。还有,某一个内部系统使用起来非常慢,项目经理很不满意,后来我上系统上用top命令查看,发现数据库进程占用cpu达到了100%,登上数据库一看,正在执行的一个sql语句对某一个表进行查询操作,我一查,这个表几百万行。后来经过调查和询问,系统搭建的时候,有一个脚本要定期执行去删除这个表的数据,结果脚本,之前搭建的同事忘了放到crontab里去执行,从来就没运行过。
2.有哪些细枝末节的坑你是想提醒一下身边的运维伙伴的?
首先,最重要的就是要在测试环境进行一些未知的操作,在完全确认没问题之后,在上生产环境进行操作。整个操作过程记录成文档,留下日志,在生产环境操作的时候,严格按照之前准备好的文档执行。而且要在非业务时间。
再有,就是不要再脚本里出现rm命令,更不可以在rm命令后面接变量。
3.谈谈出现坑的主要原因与如何规避它们。
第一,自己操作不仔细,出现操作失误。
第二,开发程序有bug,这个就需要在测试环境先运行,没问题了再上生产环境运行。
第三,新手进行操作因为没经验容易引起问题,最好有有经验的人在旁边看着,不要让新手独立进行操作
【799029078】
谈谈这短短两个月遇到的几个坑吧 。
1 普通用户执行 sudo ls /root/ntp* 找不到文件 ROOT ls /root/ntp*
解决办法:sudo bash -c "ls /root/ntp* "
2 用户test有附加组test1
当用usermod 删除附加组时 id命令不显示test2
groups命令还会继续显示附加组为test1
解决办法:重新登入 groups命令就会正
3 背景: 一个计划任务 每分钟会去检测一个服务进程,如果进程不存在则启动
场景:卸载该服务
步骤:
1 删除计划任务
2 检测进程
3 如果进程存在则删除进程
4 删除安装目录
缺陷:计划任务会出现间隔定期去读取/etc/crontab的配置文件,步骤1虽然删除了,但是计划任务已经读取进去了。
在执行完步骤3后,计划任务又把进程拉起来了,造成服务卸载了,但是进程还在。
下次再安装时该服务会出现异常。该问题出现的几率应该在0.5%以下
解决办法:
增加步骤5 检测进程是否存在,再kill进程。就算计划任务在步骤4以后执行,它也拉不起进程了,因为服务的安装目录都被删除了。哈哈
4 ansible异步任务的两个坑
坑1
shell:xxxx
async:
poll:
args:
chdir:
后面的这个chdir压根没作用!有木有
坑2
还是
async:
poll:
如果用该异步任务实现shell去产生另一个异步任务,另一个异步任务有几率不会真正执行!概率高达10%左右
5 端口的一个坑
这是几个月前遇到的问题了
web服务器别绑定87号端口!!!!
浏览器默认不让访问
我知道一种学习
○
于坚
责任编辑:
上夜班的linux运维都坑,运维是个坑,盘点背锅侠的点点滴滴~相关推荐
- 有了堡垒机,运维工程师们不再是背锅侠啦
众所周知,运维工程师的工作比较繁琐杂乱,且经常是背锅侠.所以要想舒舒服服做好IT运维工作,就要用堡垒机!用了堡垒机,从此告别背锅侠!下面我们小编就给大家简单讲解一下堡垒机的定义.作用.功能等等,希望可 ...
- 测试员都是背锅侠?测试人员避“锅”攻略,拿走不谢
最近发生了一起生产事故,究其根源,事故本身属于架构或者需求层面需要规避的问题,测试人员的责任其实是非常小的,但实际情况是:相关测试人员因此承担了很大的压力,成为质量问题的"背锅侠" ...
- 系统运维手册_如何摆脱“背锅侠”,做一个合格的IT运维人员
说到IT运维,身处IT行业的小编有许多话要说."起的比鸡早,睡的比猪晚",最后被累成了狗.但是不得不说IT运维对于一个企业来说是至关重要的,现代化企业的判断标准就在于是否有完善的互 ...
- 公司和领导都靠不住,所谓中高层就是背锅侠--读《美国陷阱》有感
这两天匆忙地扫了一遍这个书,感觉这书真是好运,写得一般的一本书,恰好华为事件,帮它炒作了.先放个个人感想吧.我的强烈感受是,出事了,公司和领导都是靠不住的.其中最悲哀的就是,作者作为新加坡分公司总裁, ...
- 7.24运维日福利:运维都是段子手,张口就是100条!
各位运维宝宝,节日快乐,今天加个鸡腿吧! 在运维帮的公众号看到一篇文章,是关于"一句话说运维"的活动,看完以后不得不感慨--运维都是段子手中的老司机!我从中抽取了100条比较经典的 ...
- 我会背锅,能去做运维吗?
导读:我会重启,能去做运维吗?不能,你还得会背锅!运维的日常操作有哪些?背锅!背锅!背锅!运维的终极操作是什么?rm -rf /*-- 说正经的,运维工程师往往承担着非常重要的工作,出问题时总是冲在最 ...
- 腾讯十年运维专家谈运维的自我修养
公众号关注 「奇妙的 Linux 世界」 设为「星标」,每天带你玩转 Linux ! 作者:huashionxu,腾讯 TEG 业务运维专家 技术运维作为站在研发团队背后的男人们,一直在担任着举重若轻 ...
- 做不背锅的运维(文末有彩蛋!)
系统出了故障,第一个挨板子的就是运维人员.不管任何原因,先找运维,给他一口好锅.运维好苦啊!稳定运行时,似乎是多余的存在:有问题时,要替人背锅.与其被动,不如主动一点,不做背锅侠! 怎么做呢?先看几个 ...
- 谷歌宕机,只有运维背锅吗?
作者|阿文 责编|伍杏玲 出品|CSDN(ID:CSDNnews) 北京时间 6月3⽇凌晨2点58分开始,有大量用户访问⾕歌服务出现各种错误提醒,并且阻止⽤户访问电子邮件.上传YouTube视频等. ...
最新文章
- Pytorch使用CPU运行“Torch not compiled with CUDA enabled”
- pytorch 过采样
- ddr5内存上市时间_辣评烩:SK海力士首发DDR5内存:频率冲上5600MHz
- ios点击大头针气泡不弹出_画家双手抖不停,画不了画丢了工作,却迎合抖动创造出一个个奇迹...
- 第一章 进程与线程的基本概念
- [转][.NET 基于角色安全性验证] 之一:基础知识
- 解决 ORA-28001: the password has expired 问题
- sas table将缺失值计入百分比_SAS系列28:SAS宏语言(一)
- 第四篇 SpringBoot 2 x整合MyBatis
- Linux内核入门(五)——必要的硬件知识
- realme刷机鸿蒙教程,realme手机全机型解锁bootloader教程,支持一键刷机root权限
- 【Unity基础】Unity打包exe
- 爬虫(12)-爬虫爬取安居客二手房和新房信息
- 大篆汉字对照表_篆书转换器软件下载(篆体字转换汉字对照表)
- 连接SQLserver数据库发生错误,提示用户sa登录失败解决方法(亲试有用)
- emcc生成wasm,wast,bc文件的方法
- Java之Snake历程
- Java使用POI将doc文档转为Html
- css style 命名,CSS_CSS样式命名规范,命名一直是个让我头痛的问题 - phpStudy
- 【java集合】ConcurrentHashMap源码分析