人生就是一段充满苦与乐的旅程,在人生当中有痛苦也有欢乐,痛苦不一定是负面的,有的时候还会使你进步,增强应变能力。对一般人而言,人生一定要是快乐的才是有意义的,可是你仔细想想,有谁不是因为挫折而更加的坚强呢?走过运维的风风雨雨,与大家一起回忆其中的苦乐甘甜,那何尝不是一段段激情燃烧的岁月呢,记载着你我成长的故事。。。。。

一、不要轻易地放弃

运维中时常会面临各种各样的挑战和难题,很多时候感觉自己快陷入绝境了,很多时候静下心来思考问题又能出现伟大的转机。任何时候都不要轻易地放弃,也许你只要再深入一步看到问题的某个细节,事情并没有你想象的那么复杂。

一台AIX生产服务器上装有DB2数据库,由于开发人员的误操作,造成一个重要表的被删除,需要进行恢复。为了安全,不能在生产环境的数据库上进行操作,需要放到测试环境进行恢复。问了一下开发人员,表被删除的时间为5月31日下午8点35分左右,现在已是晚间9点05分了,距离事故发生时间点已过去半个小时,根据安全等级规定需要在两个小时内进行恢复。这种状况的恢复是典型的前滚恢复,需要使用完整的数据库备份和日志相结合,然后将数据库或者被选择的表空间恢复到某个特定时间点。如果从备份时刻起到发生故障时的所有日志文件都可以获得的话,则可以恢复到日志上涵盖到的任意时间点。

首先检查了一下数据库的备份情况,上周日有一个完整备份,从完整备份到故障点的所有日志都完好的存在,心里总算松了一口气,看来问题似乎很好恢复。

接下来在测试环境找一台与生产环境DB2数据库版本一致的AIX小机,把完整数据库备份和相应日志传输过来。(注:不同的数据库版本,物理日志格式不一样,在做恢复的时候容易报SQL2547错误,从而不能前滚日志)从生产环境传输到测试环境的完整备份和日志,大家还要注意修改文件的属主和权限,以避免无法读取的错误。

紧接着,进行完整备份恢复,并前滚日志到指定时间点,一切都很正常顺利。然后告知开发人员进行检查,过了一会,开发人员反馈说没有查到数据,仍然是删除后的状态。这回有点纳闷了,怎么可能会没有,时间已过去了半个小时,真是让人着急啊。旁边的电话响个不停,听的人脑袋都要炸了。接着又将前滚日志的时间点提前了半小时再恢复,还是没有数据,这时有开发说可以手工录入丢失的283条数据,难道要放弃数据恢复么?心里纠结的七上八下,但是我脑中闪过一个念头,不能轻易放弃,也许是我们遗漏了某个细节。于是静下心来思考了几分钟,心里突然有点怀疑,会不会是两个小机的时间不一致啊,因为前滚时用的是local time

立即检查两个小机的时间

Sun Jun  4 15:43:47 BEIST 2013  (生产机时间)

Sun Jun  4 15:44:01 CDT 2013     (测试机时间)

注意红色部分,BEIST和CDT并不是同一个时区,BEIST与CDT之间相差8个小时。因为时区的不一致导致时间不统一,所以出现了问题。立即修改了测试机的时区并同步了一下时间,再来一次恢复,果然数据有了,表也恢复了,一切OK

细节决定成败,遇事一定要冷静沉着,问题面前不要轻易的说放弃。

二、直面问题---解决与发现

运维当中,我们通常会面临解决不完的问题,身为救火队员的你可能天天吃力不讨好,被无数投诉和报表弄得疲惫不堪……面对问题关键的是我们的心态,是积极应对还是消极拖延,这关乎到我们的工作和存在的价值。

大多数时候,运维人员都在进行着简单重复的工作,且很难得到最终用户的肯定。曾有人用“穷忙族”形容运维工程师,工位上不见人影,一坐下电话不断,是不是你该解决的问题都有人来找你。这样的场景,大家应该都有体会。不管你接手的问题是复杂还是简单,我们首要的心态就是面对问题解决问题,而不是抱怨与逃避。做运维时,有时候很怕接到自己搞不定的问题,害怕客户投诉也担心自己出丑丢面子。一次接到一任务,要求帮客户排除一新上数据库服务器网卡不稳定的问题,这类问题大家一般都往网络上想,但经过网络部工程师检测网络设备、网卡和千兆网线都说没问题,最后就推到系统部,让查到底是什么原因。其他人都觉得这问题不好办,索性推脱了。当经理最后问到我时,我知道不能再推了,硬着头皮说让我看看,我觉得不是什么大问题。心里虽然打着鼓,但知道只能直面问题往前冲了,管他呢拼一把,大不了就是出回丑丢回面子。问明事情的缘由“原来是近期新上的DB SERVER服务器,在压测中发现网卡很不稳定,压力测试刚刚进行十几分钟后,服务器反应就变得非常慢,PING的时候经常丢包而且SSH连接也时断时续”,刚开始我以为是高并发时导致的db server无响应,可是看了一下CPU、内存和硬盘IO,发现都没有达到较高值,甚至比我们的预警值低很多,而且监测也表明DB服务器剩余资源很充裕!真是比较奇怪,那么引起网卡不稳定的原因到底是什么呢?

接着我又向相关工程师了解了一下情况,知道这台DB服务器是双机热备中的一台服务器,前几天刚做的2组千兆网卡绑定。据工程师说绑定前也做过压测,没有出现这样的问题。难道是绑定设置的哪个环节出问题了?于是我决定从千兆网卡绑定进行详细检查。依次检查了“ifcfg-bond0、ifcfg-bond1文件没有问题,又检查了ifcfg-eth0、ifcfg-eth1、ifcfg-eth2、ifcfg-eth3文件还是没有问题,再接着检查modprobe.conf配置文件也很正常,最后检查了rc.local文件,发现BOND0和BOND1文件中绑定的网卡有误,造成一个IP地址对应两个不同的MAC地址,显然会造成网络的延迟和不稳定,这就跟以往的ARP***比较像。最后终于发现了问题的症结,成功解决了问题,为自己也为团队赢得了好评和荣誉。

在一次次的解决问题当中,我们不仅在积累处理不同问题的经验,更重要的是我们在得到客户的认可和好的工作评价。所以不要怕问题,每个问题正是你的机会,发现并善于解决问题,我们也会得到客户的肯定和个人的成长。

要记住,老板需要的,是会解决问题的人。成功青睐的,也是勇于解决问题的人。

三、唯有学习,才能不断提升自己

作为一名运维工程师,通常需要掌握的知识比较杂,学习起来也感觉比较苦与累。

首先熟悉网络,对网络常用的负载均衡技术和分层架构要熟悉,结合网站的内容发布、管理及静态化技术、动静分离方案,对主流网络设备的配置和冗余应用比较熟悉,并熟悉高并发下的网络压力管理和流量控制。

其次熟悉服务器的批量部署。相信许多企业里都有自动化运维的需求,如批量安装服务器、批量装应用、批量传文件、批量监控等等,网上也有N多相关的管理软件,开源的如Nagios、Cacti、zabbix、zenoss监控,Cfengine、cobbler、Puppet统一部署管理软件,商业的就更多。它们都很强大,当然也各有利弊,需要结合自己企业的业务应用去具体调整和配置。

再次就是熟悉数据库的集群和后端存储架构。通常数据库和存储都是整个IT架构中比较核心的东西,数据库的性能和高并发下的稳定对企业来讲是非常重要的,它直接关系到用户的体验和价值转化。还有存储的性能将直接影响IO,影响读写的速度。作为一个运维工程师尤其需要对系统的性能、容错、并发等有独到的认识与解决办法。还有就是需要对技术发展趋势有很高的敏感性和预见能力,能不断推进运维管理水平的进步并提升运维的价值。

作为运维工程师,要想有更大的发展,不仅要懂技术也更需要懂管理,建立流程规范的IT服务和支持,并实现行之有效的持续改善和对机制进行监控。运维上,好的管理制度和方法需要贯彻和坚持,如果不善于管理和监督,很难保证好的运维体系能运作下去,这对运维工作也会产生波动和影响。当然运维工程师也需要具有领导能力与团队协作技能,能在关键时候对技术的选择作出及时、有效的决定,来把握问题解决的方向。

   学习中的苦与乐都是相对的。以苦为苦,只能使我们消沉;不以苦为苦,就会使我们无视自己的不足;化苦为乐,则可能使我们在学习和工作中取得超常的成就。

   苦尽甘来,耕耘时的苦是为了收获时的乐。运维的路上,有风有雨,更有我们的坚持,让我们苦乐相随!

博客话题】 人在囧途之“运维囧”正在进行,欢迎大家参与,分享你运维工作中的囧事、趣事、经验谈!
详情查看:http://51ctotopic.blog.51cto.com/2009463/1254338

【运维囧事】运维的苦乐之旅相关推荐

  1. 【运维囧事】Citrix Xendesktop 与 XML 集成时添加信任关系

    不得不说,Citrix的相关产品的安全做的真TNND的强悍... 装完Xendesktop后,启用Smart Card来做认证.NND,就是过不去.提示说服务器之间不信任... 错误详细信息:The ...

  2. 【运维囧事】事先没想到客户光驱坏了,主要原因还是自己当初经验不足

    那是我刚上班头半年发生的事,客户打电话到公司,说是电脑出问题了,WORD打不开.公司让我去看看,我到了客户那里一看,我勒个去,别说WORD打不开,连系统都进不了.幸好我从公司出发的时候,经理说带点系统 ...

  3. 广发银行运维实践分享:Docker适配传统运维那些事

    数人云上海&深圳两地"容器之Mesos/K8S/Swarm三国演义"的嘉宾精彩实录第一弹来啦.今天是广发银行数据中心的运维老兵沈伟康关于传统运维与容器适配的全方位分享,万字 ...

  4. 【人在运维囧途_03】20个Linux系统内置监视工具: w 和 ps

    人在囧途之运维的第三篇出炉啦.嘿咻嘿咻.吾必上下求索.将运维进行到底        闲言少叙.直面主题 有兴趣的朋友.不妨参考 第一篇:[人在运维囧途_01]20个Linux系统内置监视工具:top ...

  5. 运维前线:一线运维专家的运维方法、技巧与实践导读

    前 言 为什么要写这本书 <运维前线:一线运维专家的运维方法.技巧与实践>(以下简称<运维前线>)是前线系列的一个子集,前线系列图书的出版理念是邀请多位业界专家,总结所在行业的 ...

  6. linux运维工程师 倒班,运维人员值班制度

    1.集中运维人员必须根据值班人员顺序表,随时听从上级安排值班任务,如有变动,须提前报告并落实好替代人员,一旦值班名单对外公布后不得更改. 2.值班形式分为现场值班和电话值班两种.值班作息时间和工作日保 ...

  7. 运维杂谈 | IT运维工程师的真实现状

    为了能让大家更加深入的了解运维工程师这个行业,做了一些深入的调查工作后对IT运维人员目前的现状进行一个总结,全部都是真实案例,作为运维工程师的你是否也对以下情况感同身受呢? 工资低-干很多杂活不能体现 ...

  8. 腾讯十年运维专家谈运维的自我修养

    公众号关注 「奇妙的 Linux 世界」 设为「星标」,每天带你玩转 Linux ! 作者:huashionxu,腾讯 TEG 业务运维专家 技术运维作为站在研发团队背后的男人们,一直在担任着举重若轻 ...

  9. 运维前线 一线运维专家的运维方法 技巧与实践pdf

    下载地址:网盘下载 内容简介 编辑 本书是运维领域的"集大成"之作,精选了运维领域重要的6大主题: (1)自动化运维 (2)系统运维 (3)云与虚拟化 (4)Web运维 (5)游戏 ...

最新文章

  1. 【C 语言】数组 ( 多维数组操作模型 | 取某个数组元素地址 | 取某个数组元素值 )
  2. 2.MATLAB安装
  3. 深度神经网络模型压缩方法总结
  4. 一个创业者的妥协与希望
  5. zookeeper 安装及集群
  6. C/C++中的占位符
  7. vue组件穿方法_vue组件中的数据传递方法
  8. iOS开发中那些高效常用的宏
  9. ext3转化为ext4
  10. jQuery实现手机号码的验证
  11. 定制Xposed框架(干货)
  12. 信息系统项目管理师计算题(进度管理计算)
  13. cncrypt安卓版_CnCrypt Protect
  14. Http跨站点请求伪造解决方案
  15. 用matlab实现kpca(核主成分分析法)
  16. php如何修改服务器的端口号,php请求远程服务器端口号
  17. WEKA (概率的应用)
  18. 使用数据增强技术对已有样本进行扩充
  19. 什么是学位,学位与学历有什么区别?大部分人都误解了
  20. 古剑奇谭二服务器维护,《古剑奇谭二》11月22日例行维护更新公告

热门文章

  1. Fibinary Numbers
  2. FZU OJ:2230 翻翻棋
  3. Oracle 【IT实验室】数据库备份与恢复之:如何对Oracle数据库文件进行恢复与备份...
  4. Oracle新手笔记(2) 关于Oracle 9i或9i以上版本客户端连接Oracle 8i及8i版本以下服务器端中文字符乱码的解决办法...
  5. 今天将Notebook还原了, 第一次外加了外围电路
  6. git -- 练习的笔记
  7. HTML5概要与新增标签
  8. 一头扎进Node系列 - 目录
  9. IOS开发之----常用函数和常数--秀清
  10. win8, VS2013 .NET 4.5在哪找svcutil.exe?