1. Node状态Drain,Reason显示low socket-core-thread-cpu count

什么原因导致的还不清楚。后续研究下复现方法
重置状态方法如下:

# scontrol update NodeName=(你的NodeName) State=RESUME

state直接重置为IDLE也行。看网络文章区别在于,如果有job在该node上运行,建议用RESUME;如果没有job运行可以用IDLE

2. The host (**)is not a valid controller

检查slurm.conf内ControlMachine的名称是否正确。

3. 编译缺少HD5Open

在ubuntu下编译时候,发现缺少hdf5相关库。查询资料安装hdf5相关包后错误依然存在。
于是编译时候打算跳过hdf5

# ./configure --enable-debug --with-munge --with-hdf5=no

4. 恢复处于down状态的node

机器或者集群重启或者恢复后,有时候node会处于down状态

(base) root@yc:~# sinfo
PARTITION  AVAIL  TIMELIMIT  NODES  STATE NODELIST
test    up   infinite      1   down yc

使用scontrol命令可以恢复节点

scontrol update NodeName=yc State=RESUME

再次检查node状态,显示已经恢复成idle

【Slurm】Slurm使用故障workaround记录相关推荐

  1. 安桥TX-NR509高清功放无声、HDMI故障维修记录

    安桥TX-NR509高清功放无声.HDMI故障维修记录 收了台安桥TX-NR509功放,收的时候通电开机,按键正常,继电器也有吸合,现场没有条件进一步测试,抱回家测试发现以下故障 故障现象:能开机,按 ...

  2. Buildozer生成的APP闪退+PermissionError故障排除记录

    0 情况介绍 最近有一个项目需要一个简单的手机客户端应用,由于项目是Python写的,所以希望手机客户端同样使用Python语言,查询后发现Python可以通过多种途径生成APK文件,经过多次安装尝试 ...

  3. DRV835x电机驱动故障调试记录

    1.前言 最近做了一个电机驱动的项目,使用是DRV8350. DRV8350,它是一个无刷直流栅极驱动器设备, 驱动三相马达的9-100V三相智能栅极驱动器 当尝试使用新设计的 PCB 系统去驱动电机 ...

  4. 一次完整的JVM堆外内存泄漏故障排查记录

    前言 记录一次线上JVM堆外内存泄漏问题的排查过程与思路,其中夹带一些JVM内存分配机制以及常用的JVM问题排查指令和工具分享,希望对大家有所帮助. 在整个排查过程中,我也走了不少弯路,但是在文章中我 ...

  5. 医院计算机网络故障演练记录,医院电脑服务器宕机演练脚本、过程及演练总结全套资料.doc...

    医院服务器宕机突发事件 演练记录 举办地点: 举办部门: 演习时间: 2018.5.20 突发服务器事件应急预案演练脚本 时间: 2018年5月20日16时00分 地点:门诊.收费处.住院处.药房. ...

  6. 小米笔记本pro15.6英寸频繁蓝屏故障解决记录

    2019年3月入手的小米本本已经跟了2年了,最近频发蓝屏,多次重启后又正常,扒拉系统日志看不出来个所以然,就是下方的这个蓝屏图片: 蓝屏图片 重启过程中间歇性出现这个提示标题 刚开始频率还不是很高,大 ...

  7. Ceph 故障修复记录(持续更新)

    目录 文章目录 目录 问题:故障域与副本数导致的 PG 不正常 问题:故障域与副本数导致的 PG 不正常 缘起:执行 rbd snap unprotect 执行卡死. 调查:Ceph 集群 PG 不正 ...

  8. kuberntes集群不能解析service ip故障排查记录

    一.故障描述 涉及kubernetes版本: 1.20 kuberntes集群发布服务后,不能正常解析service ip,无法使用telnet测试服务ip 在kubernetes命名空间里部署red ...

  9. 生物制药企业怎么应用软件系统降低故障发生记录

    今天我们来看几个典型问题: 1.工作系统彼此独立,涉及到数十个业务流程,上百种细分场景,业务人员进行多系统的录入.查询等操作,工作复杂度高且效率低. 2.业务高度依赖人工,对内亟待提高业务运行效率和安 ...

最新文章

  1. pycharm远程调试或运行代码
  2. AutoConfig工具使用
  3. jQuery的Autocomplete插件
  4. 一维稳态导热的数值计算c语言,传热传质上机实习题(参考资料C语言)
  5. Java--基础命名空间
  6. vector 详解(C++)
  7. matlab复杂网络上的博弈演化,科学网—复杂网络上的演化博弈研究 - 汪秉宏的博文...
  8. AngularJs--ng-repeate渲染完毕后执行的代码
  9. java gdal tiff_GDAL读写Tiff、DEM文件
  10. android导出微信朋友圈怎么发文字,微信朋友圈怎么发纯文字?看完这篇文章,你就知道该怎么操作了...
  11. js的json php无法json_decode,PHP中遇到BOM、 编码导致json_decode函数无法解析问题
  12. 千年鸿蒙盼尔来兮,古言爱情誓言
  13. 人民的名义泄漏版百度云46-56集百度网盘下载
  14. openstack云计算平台<5>--核心组件配置->Netwoking服务
  15. 那些想不断提高自己技术水平的Java程序员们
  16. java基础之垃圾回收_繁星漫天_新浪博客
  17. 将直播链接放入微信公众号
  18. 白嫖?超赞应用推荐全干货
  19. 禅道集成极狐gitlab #JIHULAB101
  20. 电生理连接技术的比较

热门文章

  1. 国科gk7102s-sensor框架驱动笔记
  2. c# asp.net mvc使用斑马GK888t打印机打印标签
  3. 英语会话必须掌握的五种基本结构[转]
  4. 基于Python的超市管理系统毕业设计源码111042
  5. 物联网就业前景分析:只要有人的地方就有物联网
  6. (Android7.0)Android获取PID、TID、UID
  7. ROS学习笔记-多机器人通信(1)-实现两台机器通信
  8. 事业单位招聘计算机类面试自我介绍,2019事业单位面试自我介绍范文
  9. 使用OpenCV+ZBar实现多条形码识别
  10. 熊猫互娱破产清算,王健林又给王思聪成立新公司了?