CDH-TXKT-集群的监控和故障诊断
监控集群
有的公司只用cdh但没用cm。此时可以自己写监控程序或者用JMX和Metrics sinks(Nagios、Ganglia)
hadoop有内置的指标功能,可以对外提供接口
提供的功能
健康检查
配置检查,扳手的标志,suspense的意思是忽略
图表
指标都存在mysql中,
定制图表
提供了特有的tsquery语法
Events事件
不一定是发生了错误,只是操作人员感兴趣的行为。
Alerts
Audits
reports
企业版才有,可以把报告下载,可以定制
磁盘使用
yarn任务
impala任务
example
配置email报警
监控集群
内容
hadoop daemons
监控master节点的cpu使用
磁盘和磁盘的分区
swap交换分区
网络传输
hdfs健康状况
日志
内容
yarn日志可以设置是否聚合,如果聚合,会存到hdfs,否则只存在本地。
故障诊断
不好推断,只能一个个排查
常见问题
由错误配置引起的
35%的错误由错误配置
example1
报错
分析
排序内存小于java内存,排序内存按需分配,不需要设置很大
example2,没有足够的副本,比如节点3个,因子设为了4
example3,删除了数据后回收站找不到
没启用回收站
保留时间太短
总结
CDH-TXKT-集群的监控和故障诊断相关推荐
- 大数据运维 | 集群_监控_CDH_Docker_K8S_两项目_云服务器
说明:大数据时代,传统运维向大数据运维升级换代很常见,也是个不错的机会.如果想系统学习大数据运维,个人比较推荐通信巨头运维大咖的分享课程,主要是实战强.含金量高.专注度高,有6个专题+2个大型项目+腾 ...
- 查看grafana版本_使用 Prometheus 与 Grafana 为 Kubernetes 集群建立监控与警报机制
作者 | Gregoire DAYET 策划 | 田晓旭 IT 团队已经明确意识到对基础设施进行监控的必要性.目前市面上存在着大量适用于传统基础设施且历史悠久的解决方案:Nagios.Zabbix 等 ...
- 使用yum安装CDH Hadoop集群
使用yum安装CDH Hadoop集群 2013.04.06 Update: 2014.07.21 添加 lzo 的安装 2014.05.20 修改cdh4为cdh5进行安装. 2014.10.22 ...
- k8s集群资源监控-监控指标和方案---K8S_Google工作笔记0052
技术交流QQ群[JAVA,C++,Python,.NET,BigData,AI]:170933152 我们接下来要实现集群的监控,那么我们要监控什么? 比如节点资源利用率,有多少节点在用,多少节点在空 ...
- 备份k8s_树莓派k8s集群安装kafka集群及监控
安装准备 树莓派k8s集群 root@pi4-master01:~# kubectl get nodes -o wideNAME STATUS ROLES AGE VERSION INTERNAL-I ...
- 如何做好Clickhouse集群的监控覆盖?
前言 常言道,兵马未至,粮草先行.在clickhouse上生产环境之前,我们就得制定好相关的监控方案,包括指标采集.报警策略.图形化监控大盘.有了全面有效的监控,我们就仿佛拥有了千里眼顺风耳,对于线上 ...
- K8s 集群资源监控、高可用搭建、部署java项目 (下)
目录 集群资源监控 监控指标和搭建方案 搭建监控平台(k8s部署) 部署守护进程 部署prometheus 部署Grafana 高可用k8s集群 系统初始化 master节点部署keepalived ...
- turbine 集群聚合监控
目录 一.turbine介绍 二.turbine配置 1.当前项目环境说明 2.turbine环境配置 (1)创建项目 (2)编辑pom (3)编辑yml (4)编辑主程序 (5)测试集群监控 3.项 ...
- Spring Cloud 入门——6.1 Turbine 集群数据监控
代码信息 本篇文章涉及代码版本 组件 版本 Spring Boot 2.0.8.RELEASE Spring Cloud Finchley.SR1 本篇文章涉及应用 应用 说明 base-eureka ...
最新文章
- 一个完整的Installshield安装程序实例—艾泽拉斯之海洋女神出品(三) --高级设置一...
- LinearLayout 里面放入一个超宽的TextView
- Android运行时识别API版本
- 深入理解cookie和session
- python json dumps utf8_Python2操作JSON出现乱码的解决方案
- linux编译动态库之fPIC
- Java SSM框架之MyBatis3(六)MyBatis之参数传递
- 用例子看Swift4的GCD
- 常见的简单的无监督学习算法总结
- 几个更新(Update声明)查询方法
- ORCLE conn连接报错
- colab配置运行python项目
- 数字图像处理 采样定理_数字图像处理(第4版)
- Java 微信公众号消息推送(从零开始)
- 阿里性能调优工具Arthas
- 数字音频:音频采样率和位深度
- 【Web技术】1159- 浅析 Web 录屏技术方案与实现
- 天才小毒妃 第966章 不死不灭的痛苦
- 【博学谷学习记录】超强总结,用心分享|【探花交友】FastDFS
- IBM MQ 巡检指标
热门文章
- Cocos2D-HTML5开源2D游戏引擎
- oracle stdevp函数,SQL Server和Oracle的常用函数对比
- CollapsingToolbarLayout用法详解(简洁易懂)
- 划重点-使用ElasticSearch的44条建议
- SVM之线性不可分与核技巧
- Java日期:今天,昨天,某一天,某一天的前一天
- 石溪分校 计算机研究生专业,纽约州立大学石溪分校计算机科学硕士入学条件.pdf...
- macd指标在实战应用中效果如何,如何证明MACD指标详解能起到预警的作用
- 苹果浏览器无法边下边播MP4(谷歌浏览器可以)
- XCode使用googletest(包括googlemock)