该主机与 Cloudera Manager Server 失去联系的时间过长。 该主机未与 Host Monitor 建立联系
项目场景:
通过CDH集群对大数据集群实行监控管理
问题描述:
某台服务器主机与 Cloudera Manager Server 失去联系的时间过长,到时候该主机相关实例角色(组件实例)停止,严重影响集群稳定性以及任务执行。然后重启该主机agent服务失败。
[root@dn hadoop-yarn]# systemctl status cloudera-scm-agent
● cloudera-scm-agent.service - LSB: Cloudera SCM AgentLoaded: loaded (/etc/rc.d/init.d/cloudera-scm-agent; bad; vendor preset: disabled)Active: failed (Result: exit-code) since 二 2021-06-22 11:18:10 CST; 1min 16s agoDocs: man:systemd-sysv-generator(8)Process: 29729 ExecStart=/etc/rc.d/init.d/cloudera-scm-agent start (code=exited, status=203/EXEC)6月 22 11:18:10 dn systemd[1]: Starting LSB: Cloudera SCM Agent...
6月 22 11:18:10 dn systemd[1]: cloudera-scm-agent.service: control process exited, code=exited status=203
6月 22 11:18:10 dn systemd[1]: Failed to start LSB: Cloudera SCM Agent.
6月 22 11:18:10 dn systemd[1]: Unit cloudera-scm-agent.service entered failed state.
6月 22 11:18:10 dn systemd[1]: cloudera-scm-agent.service failed.
Warning: cloudera-scm-agent.service changed on disk. Run 'systemctl daemon-reload' to reload units.
提示
/usr/sbin/cmf-agent:行48: /usr/lib64/cmf/agent/build/env/bin/cmf-agent: 没有那个文件或目录
[23/Jun/2021 10:22:30 +0000] 7814 MainThread agent INFO Missing database jar: /usr/share/java/mysql-connector-java.jar (normal, if you're not using this database type)
[23/Jun/2021 10:22:30 +0000] 7814 MainThread agent INFO Missing database jar: /usr/share/java/oracle-connector-java.jar (normal, if you're not using this database type)
[23/Jun/2021 10:22:30 +0000] 7814 MainThread agent INFO Found database jar: /usr/share/cmf/lib/postgresql-9.0-801.jdbc4.jar
[23/Jun/2021 10:22:30 +0000] 7814 Dummy-1 daemonize WARNING Stopping daemon.
原因分析:
该主机/etc/rc.d/init.d/路径下cloudera-scm-agent莫名其妙消失了,很诡异!!!进而发现/usr/lib64/cmf/agent/路径文件也有丢失情况,执行 “netstat -apn |grep 7180 ” 发现7180端口服务也没起来,说明该主机已经不受CDH管控了。
解决方案:
一通操作猛如虎,从其他服务器拷贝文件至/usr/lib64/cmf/agent/路径下,将mysql-connector-java.jar,oracle-connector-java.jar 拷贝至/usr/share/java/路径下,再次启动agent服务。
[root@dn cloudera-scm-agent]# /etc/init.d/cloudera-scm-agent start
Starting cloudera-scm-agent (via systemctl): [ 确定 ]
agent服务正常启动,但是Cloudera Manager Server 与该主机还是未建立联系,接着排查日志
[root@dn cloudera-scm-agent]# tail -f /var/log/cloudera-scm-agent/cloudera-scm-agent.log
[23/Jun/2021 14:52:02 +0000] 11784 MainThread agent INFO Using Host ID: 1cea0f69-35c4-405d-9a79-9786a0aae310
[23/Jun/2021 14:52:02 +0000] 11784 MainThread agent INFO Using directory: /run/cloudera-scm-agent
[23/Jun/2021 14:52:02 +0000] 11784 MainThread agent INFO Using supervisor binary path: /usr/lib64/cmf/agent/d
[23/Jun/2021 14:52:02 +0000] 11784 MainThread agent INFO Neither verify_cert_file nor verify_cert_dir are co validation of server certificates in HTTPS communication. These options can be configured in this agent's config.ini fe validation.
[23/Jun/2021 14:52:02 +0000] 11784 MainThread agent INFO Agent Logging Level: INFO
[23/Jun/2021 14:52:02 +0000] 11784 MainThread agent INFO No command line vars
[23/Jun/2021 14:52:02 +0000] 11784 MainThread agent INFO Found database jar: /usr/share/java/mysql-connector
[23/Jun/2021 14:52:02 +0000] 11784 MainThread agent INFO Found database jar: /usr/share/java/oracle-connecto
[23/Jun/2021 14:52:02 +0000] 11784 MainThread agent INFO Found database jar: /usr/share/cmf/lib/postgresql-9
[23/Jun/2021 14:52:02 +0000] 11784 Dummy-1 daemonize WARNING Stopping daemon.
看到这个结果又傻了,又是一顿操作猛如虎,各大网站查,下面这段提示给了灵感
Neither verify_cert_file nor verify_cert_dir are co validation of server certificates in HTTPS communication. These options can be configured in this agent's config.ini fe validation.
经查config.ini找发现/etc/cloudera-scm-agent有类似文件
[root@dn cloudera-scm-agent]# ll
总用量 36
-rw-r--r-- 1 root root 8894 6月 23 14:51 config.ini.orig
-rw-r--r-- 1 root root 8879 5月 18 2018 config.ini.rpmsave
经过与其他从节点服务器对比,发现/etc/cloudera-scm-agent路径下少了一个配置文件config.ini,从其他服务器拷贝至该目录下,另外发现上述config.ini.orig文件server_host=localhost,这才是问题所在(为什么无法连接Cloudera Manager Server)。果断改为server真正的host,
再次确认config.ini配置文件 server_host是否为主机IP
再次重启
[root@dn cloudera-scm-agent]# /etc/rc.d/init.d/cloudera-scm-agent start
监控日志
[root@dn cloudera-scm-agent]# tail -f /var/log/cloudera-scm-agent/cloudera-scm-agent.log
agent服务已经正常启动,加载配置文件和数据。正常日志打印。大功告成,历时两天时间,终于落地。 日志有时候真的你很无助的时候,会给你希望,柳暗花明又一村!!!
其他:
启动Agents
/etc/rc.d/init.d/cloudera-scm-agent start
service cloudera-scm-agent start
检查Agents状态
service cloudera-scm-agent status
停止Agents
service cloudera-scm-agent stop
重启Agents
service cloudera-scm-agent restart
清理重启Agents
service cloudera-scm-agent clean_start
强制停止Agents
service cloudera-scm-agent hard_stop
强制重启Agents
service cloudera-scm-agent hard_restart
该主机与 Cloudera Manager Server 失去联系的时间过长。 该主机未与 Host Monitor 建立联系相关推荐
- CDH报错解决:该主机与 Cloudera Manager Server 失去联系的时间过长。该主机未与 Host Monitor 建立联系。
文章目录 概述 问题描述 解决方法 概述 说明下,qichu这里是由于集群资源有限,在最初配置如下: Master 172.20.10.100 Slave1 172.20.10.10 Slave2 ...
- 【CDH】该主机与 Cloudera Manager Server 失去联系的时间过长。该主机未与 Host Monitor 建立联系。
cloudera manager 运维 [出现问题]:该主机与 Cloudera Manager Server 失去联系的时间过长.该主机未与 Host Monitor 建立联系. [解决办法] 问题 ...
- 记一次【该主机与 Cloudera Manager Server 失去联系的时间过长。 该主机未与 Host Monitor 建立联系】修复过程
1.检查ntp服务,巧了真的是这个问题 原因是ntp服务挂掉了,重新启动后,等10分钟左右再启动所有角色. 我启动kudu的时候报错,无法同步还是因时钟同步问题,所以等10分钟左右再启动. 2.检查a ...
- 安装Cloudera manager Server步骤详解
安装Cloudera manager Server步骤详解 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 本篇博客主要是针对:https://www.cnblogs.com/yin ...
- CDH学习之查看日志之Cloudera Manager Server是否启动成功
.启动Cloudera Manager Server --查看是否启动 systemctl start cloudera-scm-server --查看状态 ps -ef | grep clouder ...
- CDH集群安装配置(五)- Cloudera Manager Server
在线安装 sudo yum install cloudera-manager-daemons cloudera-manager-server 离线安装 资源下载地址 https://archive.c ...
- uuid重复_0519-如何解决Cloudera Manager主机页面出现重复主机异常
1.问题重现 通过Cloudera Manager主页访问"主机"页面,发现其中一台主机有2条重复的记录,一条有角色相关信息但是心跳明显超时很久了,另外一台有心跳但是没有主机角色信 ...
- Cloudera Manager 4.6 安装部署hadoop CDH集群
Cloudera Manager 4.6 安装详解 1. Cloudera Manager介绍 1.1. 功能介绍 Cloudera Manager是一个针对hadoop集群的管理工具,功能包括:cd ...
- 二进制安装mysql集群_基于二进制安装Cloudera Manager集群
一.环境准备 参考链接:https://www.cnblogs.com/zhangzhide/p/11108472.html 二.安装jdk(三台主机都要做) 下载jdk安装包并解压:tar xvf ...
最新文章
- ASP.NET Aries 高级开发教程:Excel导入配置之规则说明(下)
- 在windows sever 2008系统中如何添加桌面体验功能
- 红帽OpenShift总经理谈容器技术需要关注的方向
- 为何python不好找工作k-为什么我不建议你通过 Python 去找工作?
- 包含数字和指定字符的正则表达式_Excel公式练习39: 求字符串中的数字组成的数能够被指定数整除的数的个数...
- sqlserver tds协议学习_数据安全交换协议来了,或将推动AI大步迈向3.0时代
- window.onload与$(document).ready()的区别
- 【opencv学习】给图像加图形注释
- 天刀服务器维护到几点,3月3日服务器例行维护公告
- 学python可以做什么职业-python学完之后比较适合哪些职业工作呢?
- (Origin教程)在图片和表格中插入Latex公式
- 《冰河的渗透实战笔记》电子书,442页,37万字,正式发布!!
- 输入起止坐标,返回途径网格。
- 原生JS JavaScript实现懒加载效果
- Ogre引擎渲染系列之Normal Specular Mapping
- java短信验证码功能发送的验证码如何校验_如何实现java手机短信验证功能
- python迅雷下载任务出错_迅雷下载时提示“任务出错”怎么办?小编教你(附多种解决方法)...
- Tomcat 部署多个SpringBoot 项目:ERROR org.springframework.boot.actuate.endpoint.jmx.EndpointMBeanExporter
- 短信验证码内容组成及设计注意事项
- java程序框图 质数_程序框图——数据大爆炸
热门文章
- 吐血推荐历史最全的蓝牙协议栈介绍
- 大一学生计算机专业用什么电脑,大一学生选电脑的几个注意事项, 学会了, 大学四年不用换电脑...
- 什么事java中hql语句,hibernate中hql语句详解
- Frustum PointNets文献整理
- 前 Google 工程师出书了!(全彩版)
- java u0100_《Groovy语言规范》
- PHPMailer通过163邮箱发信
- Android 播放mp3 tag乱码分析之jni 篇
- 200条装修小常识(1)
- win7开机突然变得很慢_win7系统电脑开机速度突然变慢怎么解决【设置步骤】