GPFS各类排故日志收集汇总
简介
IBM Spectrum Scale(原IBM GPFS)有大量的排故和性能调优文档,GPFS官方排故指南内容丰富(已上传:GPFS Problem Determination Guide V4.2),但大多操作需要在IBM技术人员指导下进行。
这里根据个人经验,总结一些常用的操作,具体命令执行前请查阅官方文档或获取官方技术支持。
GPFS 日志
最基本的排故第一步,查看GPFS日志
/var/adm/ras/mmfs.log.latest
GPFS 快照(snap)
GPFS快照包含了当前GPFS的基本信息(常用于提交给技术人员排故),执行命令为
/usr/lpp/mmfs/bin/gpfs.snap -a
这会将生成快照的命令分发到所有节点上,并收集大量GPFS信息数据。
如果你只想在快照中收集部分节点的信息,可以使用
/usr/lpp/mmfs/bin/gpfs.snap -N hpc-gpfs1i,<nodes>,<nodes>,<...>
如果仅需要单个节点的快照信息,登录该节点后输入(较少用)
/usr/lpp/mmfs/bin/gpfs.snap -z
节点挂起时GPFS快照
如果需要对挂起(hanging)的节点收集GPFS快照,可以注释gpfs.snap命令中的“df -k”。
# diff -urN gpfs.snap.orig gpfs.snap
--- gpfs.snap.orig 2012-07-19 11:32:25.000000000 -0400
+++ gpfs.snap 2012-07-19 11:33:14.000000000 -0400
@@ -382,7 +382,7 @@
typeset fileprint "Gathering common data."
- runCommand "df_k" "df -k" 5
+# runCommand "df_k" "df -k" 5
runCommand "gpfs_executables" "$ls -l /usr/lpp/mmfs/bin" 5
runCommand "ipcs_a" "ipcs -a" 5
runCommand "ls_dev" "$ls -l /dev" 5
GPFS dump/saferdump
通过GPFS dump可以将GPFS内部的详细状态转储到文件,从而对GPFS状态进行深入分析
/usr/lpp/mmfs/bin/mmfsadm saferdump all > /tmp/mmfs/$(uname -n).$(date +%s).gpfs.saferdump.all'
如果GPFS文件系统中有“锁”,saferdump可能无法执行,这种情况下可以直接使用dump命令
/usr/lpp/mmfs/bin/mmfsadm dump all > /tmp/mmfs/$(uname -n).$(date +%s).gpfs.dump.all'
除了dump所有信息以外,也可以指定dump的信息类型,例如dump GPFS waiters,因为GPFS性能问题常常是因为waiters.
for i in $(seq 1 4); do ssh hpc-mgmt${i} mmfsadm dump waiters 1; done
GPFS trace
如果要追踪GPFS的操作,可以使用GPFS trace。但trace命令会生成大量数据,如果排故结束,务必停止trace。
在特定节点启动trace
/usr/lpp/mmfs/bin/mmtracectl --start -N hpc-gpfs1i,<nodes>,<nodes>,<...>
在特定节点停止或关闭trace
/usr/lpp/mmfs/bin/mmtracectl --stop -N hpc-gpfs1i,<nodes>,<nodes>,<...>
/usr/lpp/mmfs/bin/mmtracectl --off -N hpc-gpfs1i,<nodes>,<nodes>,<...>
GPFS各类排故日志收集汇总相关推荐
- ELK分布式日志收集搭建和使用
大型系统分布式日志采集系统ELK 全框架 SpringBootSecurity 1.传统系统日志收集的问题 2.Logstash操作工作原理 3.分布式日志收集ELK原理 4.Elasticsearc ...
- 分布式日志收集ELK
一.传统系统的日志收集的问题 在传统项目中,如果在生产环境中,有多台不同的服务器集群,如果生产环境需要通过日志定位项目的Bug的话,需要在每台节点上使用传统的命令方式查询,这样效率非常低下. 通常,日 ...
- ELK+Filebeat+Kafka+ZooKeeper+Grafana大数据日志收集与分析平台
一.ELK与EFK架构 日志主要包括系统日志.应用程序日志和安全日志.系统运维和开发人员可以通过日志了解服务器软硬件信息.检查配置过程中的错误及错误发生的原因.经常分析日志可以了解服务器的负荷,性能安 ...
- ELK日志收集系统概述
前言 日志分析是运维工程师解决系统故障,发现问题的主要手段.日志主要包括系统日志应用程序日志和安全日志 系统运维和开发人员可以通过日志了解服务器软硬件信息检查配过程中的错误及错误发生的原因.经常分析日 ...
- 安卓学习文档收集汇总
安卓学习文档收集汇总 https://www.jianshu.com/p/86aed183ce6c?utm_campaign=maleskine&utm_content=note&ut ...
- 全球各类开放式数据库获取渠道汇总
全球各类开放式数据库获取渠道汇总 2017-09-23 11:59 在这个用数据说话的时代,能够打动人的往往是用数据说话的理性分析,无论是对于混迹职场的小年轻,还是需要数据进行分析和研究的同学,能够找 ...
- go语言日志收集系统
0.项目地址 完整项目的GitHub地址 https://github.com/taw19960426/learning-go-language/tree/main/go-log-collect 一. ...
- python分布式日志收集系统_Go实现海量日志收集系统(一)
项目背景 每个系统都有日志,当系统出现问题时,需要通过日志解决问题 当系统机器比较少时,登陆到服务器上查看即可满足 当系统机器规模巨大,登陆到机器上查看几乎不现实 当然即使是机器规模不大,一个系统通常 ...
- fluentd mysql_使用Fluentd + MongoDB构建实时日志收集系统
日志处理场景 日志量大 日志分散不易进行统一分析 难以添加有效监控 系统实现 Fluentd(td-agent) MongoDB Python Script(PyMongo module) Zabbi ...
最新文章
- 无人机巡逻喊话、疫情排查、送药消毒,抗疫战中机器人化身钢铁战士!
- R语言使用caret包对GBM模型自定义参数调优:自定义优化参数网格、可视化核心参数与评估指标关系、Accuracy与树的深度、个数的关系、Kappa与树的深度、个数的关系
- ASP.NET程序中常用的三十三种代码(转载)
- 80%的Oracle JDK用户另有想法
- 【Android 安全】DEX 加密 ( 代理 Application 开发 | multiple-dex-core 依赖库开发 | 配置元数据 | 获取 apk 文件并准备相关目录 )
- 微信小程序 引用其他js里的方法
- WPF学习笔记(三)
- 求叶节点带权路径长度之和
- 欧姆定律基本知识(笔记)
- 关于DX中纹理平移的一个小问题
- win10查询计算机ip和用户名和密码,Win10系统查询计算机IP子网掩码和默认网关设置教程...
- SketchUpPro 草图大师(2015-2020合集)
- c语言中fprintf的作用,c语言中fprintf的用法
- 在odl中怎样实现rpc
- linux持续测试ip端口延迟,Linux下使用nping测试TCP\UDP延迟
- CSDN前两百名博客
- snownlp对天猫商品评论数据进行情感分析(附源码)
- eclipse运行java总显示上一个程序的运行结果(解决方案)
- 什么是“天道左旋、地道右旋”?
- 【小黑屋】——总结反馈