高高兴兴上班来,突闻任务大面积报错,经过一番排查,发现服务器上某个用户不见了。

这下可坏了,某azkaban上的所有任务都是切到此用户执行,而且此用户下还有大量的crontab任务,全部都执行不了,包括给大boss发的邮件。


我第一反应是赶紧把这个用户添加上,领导说等ldap自动同步就行,检查了下ldap服务,发现没问题,但是连不上ldap服务器,网络丢包严重,于是我就等网络组处理了~
期间我用其它用户执行脚本,也因为网络问题无法连接。

等啊等,等啊等…
运维老哥等不及了,手动添加了此用户,但脚本还是无法执行。报如下错误:
Exception in thread “main” java.lang.RuntimeException: java.io.IOException: Permission denied
Caused by: java.io.IOException: Permission denied
at java.io.UnixFileSystem.createFileExclusively(Native Method)
at java.io.File.createTempFile(File.java:2024)
查了下hive参数hive.exec.scratchdir设置的目录:/tmp/hive
权限没有问题
然后查看hive日志/tmp/xx用户/hive.log,发现要创建本地目录

而此本地目录的用户及用户组全是数字,数字是被删用户的uid和gid,虽然新加用户的名称与被删用户相同,但是id不一样。
解决办法:
修改目录及文件的所属用户和组
当然,报上面的错不一定是同样的原因,具体原因要看日志。


至于用户为什么不见了,运维给出的结论是网络异常,ldap服务器无法访问。这我不太能理解,就算网络不通也不至于删用户吧?被删了无法同步还有点可能。
Anyway,有人背锅就行了,到底是不是人为的不那么重要。

PS:
我测试了一下,只要用户被删,原属于此用户的文件就会变成id

被删前

记一次重大的生产事故相关推荐

  1. transactionManager手动事物管理--记一次重大的生产事故

    前言 最近在线上环境出现了一个机器总是宕机的问题.就是资源总是耗尽,但是报错的功能点还不一样,每次报错之后都是先重启解决.但是支撑不了一天又会出现资源耗尽的提示.不过,哪个功能出现问题之后,经过仔细的 ...

  2. 生产事故 java_记一次生产事故:30万单就这样没了!

    背景 你好,我是彤哥. 昨天晚上下班回家,在地铁上,老大突然打来电话,B系统生产环境响应缓慢,影响了A系统的使用,几万小哥收不了单,大概有30万单卡住了,你去帮忙定位一下. 我8点半左右到家,立马上线 ...

  3. 记一次重大的生产上线事故,借此反思成长

    目录 写在前面 生产上线出现问题 问题1:logger日志没打印报错信息 问题2:日志打印不全的问题 问题3:equals报空指针问题 问题4:还是空指针问题 问题5:json报文字段上送有误 问题6 ...

  4. 记一次小型生产事故 | BeyondComper跨编码方式复制文件内容

    前言 今天组长在做站内巡检的时候,发现header内有一条meta标签的content显示为乱码. <meta name="description" content=&quo ...

  5. mysql grant produce_ERROR 1045 (28000) Mysql中grant 使用不当导致的生产事故

    背景: 新项目上线,Data Warehouse 的同事要从Mysql 的SLAVE 库上抽取数据.其中一项任务是授予读取数据库的权限. 没想到这个简单的操作也引发了一些意外. 在只读用户增加权限后, ...

  6. Spring Transactional还能导致生产事故?

    在Spring中进行事务管理非常简单,只需要在方法上加上注解@Transactional,Spring就可以自动帮我们进行事务的开启.提交.回滚操作.甚至很多人心里已经将Spring事务与@Trans ...

  7. 一个情怀引发的生产事故

    在一个项目中,需要轻量级用到脚本语言,来提高应用服务的灵活性.因为知道Roslyn可以动态编辑C#,本着情怀,就自然用Roslyn来处理这块业务了.开在windows上执行,一次调用风平浪静,因为这个 ...

  8. Spring官方推荐的@Transactional还能导致生产事故?

    在Spring中进行事务管理非常简单,只需要在方法上加上注解@Transactional,Spring就可以自动帮我们进行事务的开启.提交.回滚操作.甚至很多人心里已经将Spring事务与@Trans ...

  9. 记一次线上coredump事故

    转自:http://www.likecs.com/show-16439.html 记一次线上coredump事故 1.事故背景 上周三凌晨,我负责的某个模块在多台机器上连续发生coredump,幸好发 ...

最新文章

  1. Unity3D粒子系统碰撞器抑制、反弹
  2. 每天一道LeetCode-----移除有序链表中的重复节点
  3. linux下mysql-5.6忘记root密码,重置root密码详细过程
  4. 百万记录级MySQL数据库及Discuz!论坛优化
  5. python项目软件代码_七套Python库快速提升您项目的代码可维护性,软件工程,代码库...
  6. sendgrid java_java – SendGrid电子邮件API,发送电子邮件附件
  7. 前端Swiper滑动的时候最右一个反弹回去了
  8. 深度学习入门 基于python的理论和实践 第一章
  9. 开平方的快速算法(C程序)
  10. 当深度学习遇见自动文本摘要
  11. 初中计算机老师面试自我介绍,信息技术老师自我介绍
  12. php获取银行logo,PHP实现根据银行卡号判断银行
  13. 测试OTA升级时uboot是否会更新
  14. 龙芯平台OsTools-Gmac更新
  15. Python计算机视觉编程第一章 基本的图像操作与处理
  16. 第九周 任务一
  17. 图表点编辑数据无反应_我快疯了!为什么我的excel里的图表不能编辑数据!
  18. 随机预言机(random oracle)和PRF(Pseudorandom Function)是什么,区别在哪里?
  19. HTML下拉框选择事件
  20. makehuman模型导入unity,绑定动作后,四肢的运动方向与原方向不一致

热门文章

  1. 面试记录:光大银行北京分行金融科技岗实习
  2. 小姑娘说,我全靠水群,挤进了安全圈
  3. Intel MIC (至强融核) 安装步骤
  4. 2018-2019赛季多校联合新生训练赛第七场补题和题解(中石油)
  5. [原创] 4步骤,让你的皮肤晶莹剔透(2分钟学会)
  6. sqlserver数据库错误码
  7. 智多星骗子行为让人发指
  8. thingsboard往kafka推送数据
  9. php 正则车架号,正则判断工具类 - 我的开源中国 - OSCHINA - 中文开源技术交流社区...
  10. Pipeline支撑运维自动化:sftp原子模块