项目场景:

通过CDH集群对大数据集群实行监控管理


问题描述:

某台服务器主机与 Cloudera Manager Server 失去联系的时间过长,到时候该主机相关实例角色(组件实例)停止,严重影响集群稳定性以及任务执行。然后重启该主机agent服务失败。

[root@dn hadoop-yarn]# systemctl status cloudera-scm-agent
● cloudera-scm-agent.service - LSB: Cloudera SCM AgentLoaded: loaded (/etc/rc.d/init.d/cloudera-scm-agent; bad; vendor preset: disabled)Active: failed (Result: exit-code) since 二 2021-06-22 11:18:10 CST; 1min 16s agoDocs: man:systemd-sysv-generator(8)Process: 29729 ExecStart=/etc/rc.d/init.d/cloudera-scm-agent start (code=exited, status=203/EXEC)6月 22 11:18:10 dn systemd[1]: Starting LSB: Cloudera SCM Agent...
6月 22 11:18:10 dn systemd[1]: cloudera-scm-agent.service: control process exited, code=exited status=203
6月 22 11:18:10 dn systemd[1]: Failed to start LSB: Cloudera SCM Agent.
6月 22 11:18:10 dn systemd[1]: Unit cloudera-scm-agent.service entered failed state.
6月 22 11:18:10 dn systemd[1]: cloudera-scm-agent.service failed.
Warning: cloudera-scm-agent.service changed on disk. Run 'systemctl daemon-reload' to reload units.

提示
/usr/sbin/cmf-agent:行48: /usr/lib64/cmf/agent/build/env/bin/cmf-agent: 没有那个文件或目录

[23/Jun/2021 10:22:30 +0000] 7814 MainThread agent        INFO     Missing database jar: /usr/share/java/mysql-connector-java.jar (normal, if you're not using this database type)
[23/Jun/2021 10:22:30 +0000] 7814 MainThread agent        INFO     Missing database jar: /usr/share/java/oracle-connector-java.jar (normal, if you're not using this database type)
[23/Jun/2021 10:22:30 +0000] 7814 MainThread agent        INFO     Found database jar: /usr/share/cmf/lib/postgresql-9.0-801.jdbc4.jar
[23/Jun/2021 10:22:30 +0000] 7814 Dummy-1 daemonize    WARNING  Stopping daemon.

原因分析:

该主机/etc/rc.d/init.d/路径下cloudera-scm-agent莫名其妙消失了,很诡异!!!进而发现/usr/lib64/cmf/agent/路径文件也有丢失情况,执行 “netstat -apn |grep 7180 ” 发现7180端口服务也没起来,说明该主机已经不受CDH管控了。


解决方案:

一通操作猛如虎,从其他服务器拷贝文件至/usr/lib64/cmf/agent/路径下,将mysql-connector-java.jar,oracle-connector-java.jar 拷贝至/usr/share/java/路径下,再次启动agent服务。

[root@dn cloudera-scm-agent]# /etc/init.d/cloudera-scm-agent start
Starting cloudera-scm-agent (via systemctl):               [  确定  ]

agent服务正常启动,但是Cloudera Manager Server 与该主机还是未建立联系,接着排查日志


[root@dn cloudera-scm-agent]# tail -f /var/log/cloudera-scm-agent/cloudera-scm-agent.log
[23/Jun/2021 14:52:02 +0000] 11784 MainThread agent        INFO     Using Host ID: 1cea0f69-35c4-405d-9a79-9786a0aae310
[23/Jun/2021 14:52:02 +0000] 11784 MainThread agent        INFO     Using directory: /run/cloudera-scm-agent
[23/Jun/2021 14:52:02 +0000] 11784 MainThread agent        INFO     Using supervisor binary path: /usr/lib64/cmf/agent/d
[23/Jun/2021 14:52:02 +0000] 11784 MainThread agent        INFO     Neither verify_cert_file nor verify_cert_dir are co validation of server certificates in HTTPS communication. These options can be configured in this agent's config.ini fe validation.
[23/Jun/2021 14:52:02 +0000] 11784 MainThread agent        INFO     Agent Logging Level: INFO
[23/Jun/2021 14:52:02 +0000] 11784 MainThread agent        INFO     No command line vars
[23/Jun/2021 14:52:02 +0000] 11784 MainThread agent        INFO     Found database jar: /usr/share/java/mysql-connector
[23/Jun/2021 14:52:02 +0000] 11784 MainThread agent        INFO     Found database jar: /usr/share/java/oracle-connecto
[23/Jun/2021 14:52:02 +0000] 11784 MainThread agent        INFO     Found database jar: /usr/share/cmf/lib/postgresql-9
[23/Jun/2021 14:52:02 +0000] 11784 Dummy-1 daemonize    WARNING  Stopping daemon.

看到这个结果又傻了,又是一顿操作猛如虎,各大网站查,下面这段提示给了灵感

Neither verify_cert_file nor verify_cert_dir are co validation of server certificates in HTTPS communication. These options can be configured in this agent's config.ini fe validation.

经查config.ini找发现/etc/cloudera-scm-agent有类似文件

[root@dn cloudera-scm-agent]# ll
总用量 36
-rw-r--r-- 1 root root 8894 6月  23 14:51 config.ini.orig
-rw-r--r-- 1 root root 8879 5月  18 2018 config.ini.rpmsave

经过与其他从节点服务器对比,发现/etc/cloudera-scm-agent路径下少了一个配置文件config.ini,从其他服务器拷贝至该目录下,另外发现上述config.ini.orig文件server_host=localhost,这才是问题所在(为什么无法连接Cloudera Manager Server)。果断改为server真正的host,

再次确认config.ini配置文件 server_host是否为主机IP

再次重启

[root@dn cloudera-scm-agent]# /etc/rc.d/init.d/cloudera-scm-agent start

监控日志

[root@dn cloudera-scm-agent]# tail -f /var/log/cloudera-scm-agent/cloudera-scm-agent.log


agent服务已经正常启动,加载配置文件和数据。正常日志打印。大功告成,历时两天时间,终于落地。 日志有时候真的你很无助的时候,会给你希望,柳暗花明又一村!!!

其他:
启动Agents
/etc/rc.d/init.d/cloudera-scm-agent start
service cloudera-scm-agent start
检查Agents状态
service cloudera-scm-agent status
停止Agents
service cloudera-scm-agent stop
重启Agents
service cloudera-scm-agent restart
清理重启Agents
service cloudera-scm-agent clean_start
强制停止Agents
service cloudera-scm-agent hard_stop
强制重启Agents
service cloudera-scm-agent hard_restart

该主机与 Cloudera Manager Server 失去联系的时间过长。 该主机未与 Host Monitor 建立联系相关推荐

  1. CDH报错解决:该主机与 Cloudera Manager Server 失去联系的时间过长。该主机未与 Host Monitor 建立联系。

    文章目录 概述 问题描述 解决方法   概述 说明下,qichu这里是由于集群资源有限,在最初配置如下: Master 172.20.10.100 Slave1 172.20.10.10 Slave2 ...

  2. 【CDH】该主机与 Cloudera Manager Server 失去联系的时间过长。该主机未与 Host Monitor 建立联系。

    cloudera manager 运维 [出现问题]:该主机与 Cloudera Manager Server 失去联系的时间过长.该主机未与 Host Monitor 建立联系. [解决办法] 问题 ...

  3. 记一次【该主机与 Cloudera Manager Server 失去联系的时间过长。 该主机未与 Host Monitor 建立联系】修复过程

    1.检查ntp服务,巧了真的是这个问题 原因是ntp服务挂掉了,重新启动后,等10分钟左右再启动所有角色. 我启动kudu的时候报错,无法同步还是因时钟同步问题,所以等10分钟左右再启动. 2.检查a ...

  4. 安装Cloudera manager Server步骤详解

    安装Cloudera manager Server步骤详解 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 本篇博客主要是针对:https://www.cnblogs.com/yin ...

  5. CDH学习之查看日志之Cloudera Manager Server是否启动成功

    .启动Cloudera Manager Server --查看是否启动 systemctl start cloudera-scm-server --查看状态 ps -ef | grep clouder ...

  6. CDH集群安装配置(五)- Cloudera Manager Server

    在线安装 sudo yum install cloudera-manager-daemons cloudera-manager-server 离线安装 资源下载地址 https://archive.c ...

  7. uuid重复_0519-如何解决Cloudera Manager主机页面出现重复主机异常

    1.问题重现 通过Cloudera Manager主页访问"主机"页面,发现其中一台主机有2条重复的记录,一条有角色相关信息但是心跳明显超时很久了,另外一台有心跳但是没有主机角色信 ...

  8. Cloudera Manager 4.6 安装部署hadoop CDH集群

    Cloudera Manager 4.6 安装详解 1. Cloudera Manager介绍 1.1. 功能介绍 Cloudera Manager是一个针对hadoop集群的管理工具,功能包括:cd ...

  9. 二进制安装mysql集群_基于二进制安装Cloudera Manager集群

    一.环境准备 参考链接:https://www.cnblogs.com/zhangzhide/p/11108472.html 二.安装jdk(三台主机都要做) 下载jdk安装包并解压:tar xvf ...

最新文章

  1. ASP.NET Aries 高级开发教程:Excel导入配置之规则说明(下)
  2. 在windows sever 2008系统中如何添加桌面体验功能
  3. 红帽OpenShift总经理谈容器技术需要关注的方向
  4. 为何python不好找工作k-为什么我不建议你通过 Python 去找工作?
  5. 包含数字和指定字符的正则表达式_Excel公式练习39: 求字符串中的数字组成的数能够被指定数整除的数的个数...
  6. sqlserver tds协议学习_数据安全交换协议来了,或将推动AI大步迈向3.0时代
  7. window.onload与$(document).ready()的区别
  8. 【opencv学习】给图像加图形注释
  9. 天刀服务器维护到几点,3月3日服务器例行维护公告
  10. 学python可以做什么职业-python学完之后比较适合哪些职业工作呢?
  11. (Origin教程)在图片和表格中插入Latex公式
  12. 《冰河的渗透实战笔记》电子书,442页,37万字,正式发布!!
  13. 输入起止坐标,返回途径网格。
  14. 原生JS JavaScript实现懒加载效果
  15. Ogre引擎渲染系列之Normal Specular Mapping
  16. java短信验证码功能发送的验证码如何校验_如何实现java手机短信验证功能
  17. python迅雷下载任务出错_迅雷下载时提示“任务出错”怎么办?小编教你(附多种解决方法)...
  18. Tomcat 部署多个SpringBoot 项目:ERROR org.springframework.boot.actuate.endpoint.jmx.EndpointMBeanExporter
  19. 短信验证码内容组成及设计注意事项
  20. java程序框图 质数_程序框图——数据大爆炸

热门文章

  1. 吐血推荐历史最全的蓝牙协议栈介绍
  2. 大一学生计算机专业用什么电脑,大一学生选电脑的几个注意事项, 学会了, 大学四年不用换电脑...
  3. 什么事java中hql语句,hibernate中hql语句详解
  4. Frustum PointNets文献整理
  5. 前 Google 工程师出书了!(全彩版)
  6. java u0100_《Groovy语言规范》
  7. PHPMailer通过163邮箱发信
  8. Android 播放mp3 tag乱码分析之jni 篇
  9. 200条装修小常识(1)
  10. win7开机突然变得很慢_win7系统电脑开机速度突然变慢怎么解决【设置步骤】