蓝色关注,回复“9”获取个人如何快速成长、架构、程序员或产品经理能力模型、技术管理等资料。

见字如面,我是军哥。

最近有一位读者跟我抱怨,他最近弄一个线上事故,造成系统宕机 20 分钟,并造成公司损失 10 万左右人民币,公司直接罚了他 2000 元并降薪一档,他觉得平常加班就多,一个人干两人的活,公司也一年多没涨薪来,这还罚款非常不好受,询问我这公司制度合理么?

我觉得这个问题很不错,决定就此写上一篇,各位请跟我来!


 1 

罚钱真的有用么?

据我所知,大部分的 IT 公司都会对一定级别事故的当事人直接罚钱,但这真的合理么?这样真的可以让员工少犯错么?

为此,我和多位设置惩罚制度的 CTO 聊了聊,他们认为,研发出事故的本质原因是缺乏责任心或能力问题,与其搞那么多复盘、整改,还不如直接罚钱,这样犯错的人下次就会小心了。

但是责任心或能力问题,真的是事故的本质么?

老实说,罚钱确实可以在一定程度上解决问题,但是会带来诸多副作用,比如会导致员工工作消极,多个部门之间互相推诿责任。

最后也请管理者换位思考一下,你自己能保证系统一定不出事故么?我觉得技术再牛逼的人也不敢打保票吧。我们能做的是降低事故的频率和事故快速恢复的能力。

我们进一步思考,出事故的原因,我觉得如下两种可能性居多,第一种是核心系统,因为业务复杂牵涉的上下游系统多,第二种是团队核心人员离职,新人老人交替期。

对于第一种,核心系统需求多负责度高,迭代速度也快,出问题就多,这就变成了多干多错,而对于一些边缘系统,出问题就少,就算出现了问题也没几个人关心,核心系统因为出事故就扣钱,这本质上就不是责任心或能力问题。

对于第二种,我认为是人员流失,工作没有做好交接导致,新人接替老人工作,会没有责任心么?这显然也不是问题的本质。

找不到事故的本质,还用罚钱这种暴力的方式,根本无法彻底解决问题,事故依然还会光临。

果不其然,上文说的多位设置惩罚制度的 CTO 坦言,公司事故一直有,偶尔还很多,但是感觉除了罚钱也没什么有效办法,于是我把压箱子的干货拿了出来,请看下文。


 2 

我亲身经历的事故系统化方案

我记得 2016 年饿了么线上事故频发,比如高峰时间不能下单,没多会就有一些大V 微博或朋友圈投诉,业务部门也会抱怨系统太烂,还拿那么高的工资,竞争对手也会因此大肆做文章,这对于我们技术部门是脸上无光的,CTO 因此被 CEO diss 也是家常便饭。

我当时是多位技术总监之一,在 CTO 的周会上,我要承诺把部门稳定性搞好,还要思考提什么建议,可以提升公司其他系统的稳定性。

我还记得,当时技术团队近千人,几百个系统,一天上线百余次,公司里有核心系统也有边缘系统,按前文所说,有的核心系统故障频发,有的系统故障少一些,但这些故障在 CEO 眼里都是技术部门的问题,都是 CTO 要搞定的。

后来经过技术和产品核心团队沟通达成一致,关于事故处理,我们不用大多数公司罚钱这种形式,我们系统化(事故前、中、后)的思路如下:

1、对公司任何员工,不管是基层还是总监都不要直接罚钱,但是纳入部门负责人绩效考核之中,对于基层员工事故只作为绩效参考作用。这里有一个先决条件,每个部门的系统稳定性会提前三个月收集数据,比如 A 部门三个月内有 1 个P0,那么对于 A 部门未来三个月最多只能有 1 个 P0 事故,这种考核的好处就是每个部门跟自己比,部门之间有了公平性。

2、每个部门根据自己的开发语言特性情况,整理出系统架构、数据库设计、安全等军规,我部门当时军规,请公众号后台回复 “111” 获取。

3、犯错的人必须带头复盘事故,部门负责人必须参与,复盘需要只对事不对人,一经发现对人攻击直接警告处分,犯错人分享失败的教训,其他部门或者核心骨干必须参与学习。

4、一个事故需要有彻底的解决方案而不是临时方案,必须有整改的截止时间,并且有专人来检查是否如期修改,还要保证同样的问题不能再犯错,最后对于复盘的事故要留存好文档,让不在场的同事或者新人都可以学习这些宝贵的经验。

5、容许大家犯错,但是比如新技术或新业务特性的上线,需要先小规模灰度再放量然后全量的过程,大家都必须遵守这个 SOP。

6、根据事故定期统计,给各个技术部门颁发“坚若磐石奖”和“不堪一击奖”,这些奖还会公示并邮件发送技术产品部门所有人。

通过以上六条,每个部门的事故降低了,稳定性提升了,所以 CTO 的日子就好过多了,大家的日子也就好过了。


写在最后

以上,是今天文章的全部。

回到读者开始的问题,我相信读者(你)心中已经有了答案。

如果你是公司的技术负责人,那么恭喜你,你可以按我的办法实施起来了,如果你不是技术负责人,给公司技术老大提提建议,顺便把这篇文章转给他。

关于我:军哥,前饿了么、贝壳技术总监,乐于结交朋友,也欢迎加我微信与我做朋友(公号输入框回复“w”即可),朋友圈做个点头之交!

另外军哥写了一些,关于个人如何快速成长、深度思考、程序员或产品经理能力模型、架构,OKR干货,技术管理等电子书资料,公号后台回复 “9”获取,不谢。


以往热文推荐:

谁的人生不焦虑的?来看看军哥的!

如何搞垮一支技术团队?

35 岁读者问我,目前在小厂,很焦虑怎么办?

66 个包过面试锦囊,拿走不谢!

一位沪飘 7 年程序员的悲催 2020!

今年想跳槽的朋友,务必看完这 9 个问题!

10 年架构师和你聊聊架构的实战篇!


更多精彩,关注我公众号,一起学习、成长

▲ 长按关注军哥手记,一起学习、成长

研发出了生产事故,到底要罚钱不?相关推荐

  1. 解读乔新亮的《看透本质:研发出了生产事故,到底要不要罚钱?》

    乔新亮简介:彩食鲜副总裁兼CTO.前苏宁科技集团副总裁.TGO鲲鹏会荣誉导师 导引 这篇文章给我最大的触动是切入点很小,但是通过逻辑矛盾处,启动思考,层层深入,不断反思和推翻自己对本质的错误认知,最后 ...

  2. 【管理经验】面对重大生产事故,应该怎么办?

    1 背景 你作为一个基层或者中层管理者,手下员工有件事情干砸了,并且出了生产事故,这个时候你该怎么做? 核心:1.要避免事件再次发生:2.背的动的锅,就老实背上,背不动就放: 面对实际的生产事故,作为 ...

  3. 生产事故 java_记一次生产事故:30万单就这样没了!

    背景 你好,我是彤哥. 昨天晚上下班回家,在地铁上,老大突然打来电话,B系统生产环境响应缓慢,影响了A系统的使用,几万小哥收不了单,大概有30万单卡住了,你去帮忙定位一下. 我8点半左右到家,立马上线 ...

  4. 工程师从容应用生产事故之道

    生产事故,对于程序员来说并不陌生,通常参加工作的人都遇到过,这些事故包括:有的是系统bug,有的是疏于维护,有的是因为操作不当造成的,有的是数据量变大负载不够,服务器被打挂的,有的是安全问题打穿数据库 ...

  5. Nature封面:AI 机器人研发出了一种全新的化学催化剂

    来源:学术头条 本文约2262字,建议阅读5分钟. 本文介绍来自利物浦大学的研究人员,成功的开发了一款人工智能机器人化学家.这款机器人化学家可以同时考虑数十个维度的变量,每天工作 21.5 个小时,像 ...

  6. 科技新品 | 富士胶片研发出全球最大容量数据流磁带;iGame发布内存新品“古德白”...

    "科技新产品动态"栏目把新鲜的具有代表性的科学产品带到您眼前,涉及消费电子,半导体.服务器.智能家电等众多品类,提供图片和简单的文字介绍. 富士胶片研发出全球最大容量数据流磁带:i ...

  7. 当谈论研发效能时,我们到底在谈什么?|大咖圆桌精华回顾

    不知不觉,「ONES 研发效能大师课」已经来到了本季的最后一期.在前面六期课程,张乐.冯斌(Kid).董晓红三位老师深度讲解了研发效能的现状.改进实践与提升瓶颈. 在这个过程中,我们也发现对于效能改进 ...

  8. 日本电产尼得科Nidec研发出超薄直线振动马达

    目前,市面上许多智能手机与智能手表中均装有振动马达.以前,主要是为了通过偏心马达以单一的振动方式通知用户来电:但近年来增加了一种新功能,即通过控制振动的方式,给用户带来一种宛如已按下按钮般的感觉或在游 ...

  9. 云栖科技评论第40期:斯坦福大学研发出易弯曲的有机半导体集成电路

    1.斯坦福大学研发出易弯曲的有机半导体集成电路 斯坦福大学研发出易弯曲的有机半导体集成电路 [新闻摘要]据外媒报道,斯坦福大学的研究组研发出一款易弯曲的有机半导体集成电路设备,加入弱酸(如醋酸)后可实 ...

最新文章

  1. python为什么用号做注释符_Python为什么用#号作注释符?
  2. 大地形实时渲染资源网收集
  3. 8.0强行转换后变成了7_【建筑通】钻孔灌注桩后注浆施工工艺介绍
  4. 《企业软件交付:敏捷与高效管理精要》——3.4 企业软件交付的软件工厂方法...
  5. python树莓派 是什么_用树莓派和Python给你的植物浇水
  6. 江苏大学考研885程序设计 - 编程题笔记
  7. ​炸裂!万字长文拿下 HTTP 我在字节跳动等你!
  8. Android电池管理系统系统分析
  9. SVD在推荐系统中的推导及应用-简单明了
  10. SpringAOP底层API之代理对象执行流程
  11. 软件开发团队的脓包(1-3)皇帝的新装、口号党、废话迷
  12. 深入理解Java类加载器(ClassLoader)
  13. 【python】80行代码实现压缩包密码破解软件,支持zip和rar
  14. ssl免费证书获取,并在nginx服务器上安装ssl证书,以及docker安装nginx需注意的细节。
  15. 部分PTA的入门习题以及题解
  16. clickhouse配置项config.xml详解——服务器配置参数
  17. python堆叠面积图_06. Matplotlib 2 |折线图| 柱状图| 堆叠图| 面积图| 填图| 饼图| 直方图| 散点图| 极坐标| 图箱型图...
  18. Android中白天模式与夜间模式的切换
  19. 《PTA——拼题A》之第1016题
  20. 勾股定理(计算)C++

热门文章

  1. 什么是认知偏见_偏见
  2. 不做经营,一切为0(四)
  3. 基于JSP会议管理系统毕业设计
  4. mysql电商产品排序_电商平台商品排序
  5. ac3168无线网卡驱动下载_笔记本 及 普通PC 无线网络连接方法
  6. 游戏关键数据指标解读
  7. 【总结】软件工程视频
  8. android地图旋转监听,android 百度地图  监听事件
  9. lua入门及wireshark自定义协议lua解码
  10. mac vscode 配置php跳转