监控集群

有的公司只用cdh但没用cm。此时可以自己写监控程序或者用JMX和Metrics sinks(Nagios、Ganglia)
hadoop有内置的指标功能,可以对外提供接口

提供的功能

健康检查

配置检查,扳手的标志,suspense的意思是忽略

图表

指标都存在mysql中,

定制图表

提供了特有的tsquery语法

Events事件

不一定是发生了错误,只是操作人员感兴趣的行为。

Alerts

Audits

reports

企业版才有,可以把报告下载,可以定制
磁盘使用
yarn任务
impala任务

example

配置email报警

监控集群

内容

hadoop daemons

监控master节点的cpu使用

磁盘和磁盘的分区

swap交换分区

网络传输

hdfs健康状况

日志

内容

yarn日志可以设置是否聚合,如果聚合,会存到hdfs,否则只存在本地。

故障诊断

不好推断,只能一个个排查

常见问题

由错误配置引起的

35%的错误由错误配置

example1

报错

分析


排序内存小于java内存,排序内存按需分配,不需要设置很大

example2,没有足够的副本,比如节点3个,因子设为了4

example3,删除了数据后回收站找不到

没启用回收站
保留时间太短

总结

CDH-TXKT-集群的监控和故障诊断相关推荐

  1. 大数据运维 | 集群_监控_CDH_Docker_K8S_两项目_云服务器

    说明:大数据时代,传统运维向大数据运维升级换代很常见,也是个不错的机会.如果想系统学习大数据运维,个人比较推荐通信巨头运维大咖的分享课程,主要是实战强.含金量高.专注度高,有6个专题+2个大型项目+腾 ...

  2. 查看grafana版本_使用 Prometheus 与 Grafana 为 Kubernetes 集群建立监控与警报机制

    作者 | Gregoire DAYET 策划 | 田晓旭 IT 团队已经明确意识到对基础设施进行监控的必要性.目前市面上存在着大量适用于传统基础设施且历史悠久的解决方案:Nagios.Zabbix 等 ...

  3. 使用yum安装CDH Hadoop集群

    使用yum安装CDH Hadoop集群 2013.04.06 Update: 2014.07.21 添加 lzo 的安装 2014.05.20 修改cdh4为cdh5进行安装. 2014.10.22  ...

  4. k8s集群资源监控-监控指标和方案---K8S_Google工作笔记0052

    技术交流QQ群[JAVA,C++,Python,.NET,BigData,AI]:170933152 我们接下来要实现集群的监控,那么我们要监控什么? 比如节点资源利用率,有多少节点在用,多少节点在空 ...

  5. 备份k8s_树莓派k8s集群安装kafka集群及监控

    安装准备 树莓派k8s集群 root@pi4-master01:~# kubectl get nodes -o wideNAME STATUS ROLES AGE VERSION INTERNAL-I ...

  6. 如何做好Clickhouse集群的监控覆盖?

    前言 常言道,兵马未至,粮草先行.在clickhouse上生产环境之前,我们就得制定好相关的监控方案,包括指标采集.报警策略.图形化监控大盘.有了全面有效的监控,我们就仿佛拥有了千里眼顺风耳,对于线上 ...

  7. K8s 集群资源监控、高可用搭建、部署java项目 (下)

    目录 集群资源监控 监控指标和搭建方案 搭建监控平台(k8s部署) 部署守护进程 部署prometheus 部署Grafana 高可用k8s集群 系统初始化 master节点部署keepalived ...

  8. turbine 集群聚合监控

    目录 一.turbine介绍 二.turbine配置 1.当前项目环境说明 2.turbine环境配置 (1)创建项目 (2)编辑pom (3)编辑yml (4)编辑主程序 (5)测试集群监控 3.项 ...

  9. Spring Cloud 入门——6.1 Turbine 集群数据监控

    代码信息 本篇文章涉及代码版本 组件 版本 Spring Boot 2.0.8.RELEASE Spring Cloud Finchley.SR1 本篇文章涉及应用 应用 说明 base-eureka ...

最新文章

  1. 一个完整的Installshield安装程序实例—艾泽拉斯之海洋女神出品(三) --高级设置一...
  2. LinearLayout 里面放入一个超宽的TextView
  3. Android运行时识别API版本
  4. 深入理解cookie和session
  5. python json dumps utf8_Python2操作JSON出现乱码的解决方案
  6. linux编译动态库之fPIC
  7. Java SSM框架之MyBatis3(六)MyBatis之参数传递
  8. 用例子看Swift4的GCD
  9. 常见的简单的无监督学习算法总结
  10. 几个更新(Update声明)查询方法
  11. ORCLE conn连接报错
  12. colab配置运行python项目
  13. 数字图像处理 采样定理_数字图像处理(第4版)
  14. Java 微信公众号消息推送(从零开始)
  15. 阿里性能调优工具Arthas
  16. 数字音频:音频采样率和位深度
  17. 【Web技术】1159- 浅析 Web 录屏技术方案与实现
  18. 天才小毒妃 第966章 不死不灭的痛苦
  19. 【博学谷学习记录】超强总结,用心分享|【探花交友】FastDFS
  20. IBM MQ 巡检指标

热门文章

  1. Cocos2D-HTML5开源2D游戏引擎
  2. oracle stdevp函数,SQL Server和Oracle的常用函数对比
  3. CollapsingToolbarLayout用法详解(简洁易懂)
  4. 划重点-使用ElasticSearch的44条建议
  5. SVM之线性不可分与核技巧
  6. Java日期:今天,昨天,某一天,某一天的前一天
  7. 石溪分校 计算机研究生专业,纽约州立大学石溪分校计算机科学硕士入学条件.pdf...
  8. macd指标在实战应用中效果如何,如何证明MACD指标详解能起到预警的作用
  9. 苹果浏览器无法边下边播MP4(谷歌浏览器可以)
  10. XCode使用googletest(包括googlemock)