1.问题重现

通过Cloudera Manager主页访问“主机”页面,发现其中一台主机有2条重复的记录,一条有角色相关信息但是心跳明显超时很久了,另外一台有心跳但是没有主机角色信息,而且所有主机都是未知状态,如下:

回到Cloudera Manager主页也发现无论是Cloudera Management Service还是集群的Hadoop服务都是未知状态。

重启Cloudera Management Service显示失败:

  • 测试环境

1.CDH6.1

2.Redhat7.4

3.采用root进行操作

2.问题解决

1.首先我们登录MySQL,并查看Cloudera Manager数据库的HOSTS表进行核对。

mysql -u root -puse cm;SELECT HOST_ID,NAME,IP_ADDRESS,HOST_IDENTIFIER FROM HOSTS;

Fayson的集群一共4台机器,发现确实有5台主机,并且IP为172.31.6.83有两台机器:

2.查看Cloudera Manager数据库的ROLES_AUD即角色表确认172.31.6.83有角色的HOST_ID。

MariaDB [cm]> select * from ROLES_AUD order by HOST_ID;

对应第1步的HOSTS表的数据,发现并没有HOST_ID为5的数据,所以我们主要需要处理HOST_ID为5同时IP也为172.31.6.83的数据。

3.从第1步的HOSTS表的数据记录重复的172.31.6.83主机的HOST_IDENTIFIER值。

MariaDB [cm]> SELECT HOST_ID,NAME,IP_ADDRESS,HOST_IDENTIFIER FROM HOSTS where IP_ADDRESS='172.31.6.83';

HOST_ID为1的HOST_IDENTIFIER值为5b72bbe2-b332-4aff-959d-6f705205365b

HOST_ID为5的HOST_IDENTIFIER值为2ac39f58-b166-4cd7-8b72-b718398ec02a

4.查看172.31.6.83主机的Cloudera Agent的真实UUID。

[root@ip-172-31-6-83 ~]# cd /var/lib/cloudera-scm-agent[root@ip-172-31-6-83 cloudera-scm-agent]# cat uuid[root@ip-172-31-6-83 cloudera-scm-agent]#

确认真实的Agent uuid与第4步中的HOST_ID为5的HOST_IDENTIFIER值一致,接下来我们开始进行处理。

5.首先停止172.31.6.83主机的Agent服务。

[root@ip-172-31-6-83 ~]# systemctl stop cloudera-scm-agent[root@ip-172-31-6-83 ~]# systemctl status cloudera-scm-agent

6.从Cloudera Manager的“主机”页面删除没有角色的172.31.6.83主机,根据前面第2步其实我们也能判定删除的是HOST_ID为5的那条信息。

删除成功:

7.停止Cloudera Manager Server的服务

[root@ip-172-31-6-83 ~]# systemctl stop cloudera-scm-server [root@ip-172-31-6-83 ~]# systemctl status cloudera-scm-server

8.使用MySQL自带的命令备份CM数据库,mysqldump,这里省略,不清楚的可以自己百度。

9.将172.31.6.83主机的Agent UUID的文件中的值改为第3步骤中HOST_ID为1的HOST_IDENTIFIER值,即5b72bbe2-b332-4aff-959d-6f705205365b

[root@ip-172-31-6-83 ~]# cd /var/lib/cloudera-scm-agent[root@ip-172-31-6-83 cloudera-scm-agent]# echo -n "5b72bbe2-b332-4aff-959d-6f705205365b" > uuid[root@ip-172-31-6-83 cloudera-scm-agent]#

10.重启172.31.6.83主机上的Cloudera Manager Server以及Agent服务

[root@ip-172-31-6-83 ~]# systemctl start cloudera-scm-server[root@ip-172-31-6-83 ~]# systemctl start cloudera-scm-agent

11.回到Cloudera Manager主页重启CMS服务

启动成功

12.重启集群所有服务

重启后,整个集群恢复正常:

3.总结

1.当集群的某台主机你更新了OS,或硬件配置或者进行了CDH升级,或者你手动操作修改了Agent的UUID文件都可能导致Cloudera Manager的主机页面有重复的主机显示。

2.一旦有重复主机显示,该主机其实严格意义上不属于集群的一部分了,没办法使用Cloudera Manager来管理这台主机比如重启这台机器上的相关服务。

3.Fayson本次测试模拟的有重复显示的主机刚好是CMS服务所在的主机,所以直接导致整个集群的状态不可监控,重启CMS服务也直接失败,如果是某台DataNode出现重复,不会出现这么恶劣的情况。

4.本文提供的修改Agent的UUID文件是其中的一种办法,你也可以直接修改MySQL数据库来实现,目的就是MySQL中保存的数据需要与Agent本地的UUID文件匹配。

5.注意修改Agent的uuid文件务必使用echo -n命令。

uuid重复_0519-如何解决Cloudera Manager主机页面出现重复主机异常相关推荐

  1. vue重复路由_解决vue路由name同名,路由重复的问题

    在项目中,想让路由后缀为空,或者index的时候,都跳转到路由为index的页面,于是在router中如下配置 routes: [{ path: '/', name: 'index', compone ...

  2. cloudera manager的7180 web界面访问不了的解决办法(图文详解)

    说在前面的话 我的机器是总共4台,分别为ubuntucmbigdata1.ubuntucmbigdata2.ubuntucmbigdata3和ubuntucmbigdata4.(注意啦,以下是针对Ub ...

  3. VMware Fusion安装cloudera manager

    题记:最近使用 VirtualBox 安装CDH,通过host-only + NAT 形式配置网络时,配置起来数次失败.遂选用VMware Fusion 重新尝试. 使用素材 硬件 环境配置 Mast ...

  4. Cloudera Manager和CDH5.8离线安装

    https://blog.csdn.net/zzq900503/article/details/52982828 简介 我们在上篇文章中已经了解了CDH,为了后续的学习,我们本章就来安装CDH5.8. ...

  5. [转]Cloudera Manager和CDH5.8离线安装

    https://blog.csdn.net/zzq900503/article/details/52982828 https://www.cnblogs.com/felixzh/p/9082344.h ...

  6. hadoop基础----hadoop实战(七)-----hadoop管理工具---使用Cloudera Manager安装Hadoop---Cloudera Manager和CDH5.8离线安装

    hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍 简介 我们在上篇文章中已经了解了CDH,为了后续的学习,我们本章就来 ...

  7. Cloudera Manager 4.6 安装部署hadoop CDH集群

    Cloudera Manager 4.6 安装详解 1. Cloudera Manager介绍 1.1. 功能介绍 Cloudera Manager是一个针对hadoop集群的管理工具,功能包括:cd ...

  8. Cloudera Manager 术语和架构

    简介: 本文介绍了Cloudera Manager 的常见术语和架构 Cloudera Manager 术语 为了有效地使用Cloudera Manager,您应该首先了解其术语. 术语之间的关系如下 ...

  9. cloudera manager整体介绍

    体系架构 Cloudera Manager的核心是Cloudera Manager Server.Server托管Admin Console Web Server和应用程序逻辑.它负责安装软件.配置. ...

最新文章

  1. linux设置数据库定时备份,linux中使用计划任务进行数据库定期备份
  2. Eclipse SVN冲突详细解决方案
  3. Codeforces Round #496 (Div. 3)【未完结】
  4. 解决 transaction-manager Attribute transaction-manager is not allowed here
  5. 同时支持mp4/ogg/webm/flv格式的视频播放
  6. (3)评价模型-分析总和
  7. 用startup启动tomcat并测试访问资源
  8. IINA+ :在IINA播放器上观看直播
  9. 【控制】反馈控制入门,PID控制
  10. matlab及系统仿真期末试题,matlab与系统仿真综合试题
  11. MySql绿色版安装和配置
  12. windows安装和配置阿帕奇+PHP服务器
  13. Arduino UNO驱动DS1307数字实时时钟RTC
  14. 什么流读取MultipartFile_IO流 - ShelterY
  15. qnap raid5升级raid6_实践出真知!100TB的RAID5到底能否重建成功?
  16. 电商品牌私域流量社群运营推广裂变sop搭建营销计划表格方案
  17. 河北最新食品安全管理员模拟真题集及答案解析
  18. 可以免费打电话的网站
  19. dellwin10无法自动修复此计算机,处理win10系统无法自动修复此计算机的办法
  20. 用个人电脑搭建服务器

热门文章

  1. 金色金箔高品质纹理素材,将在你的下一个设计项目中被使用。
  2. UI实用素材模板|可临摹学习的控制面板
  3. 虚拟dom_虚拟DOM与dom diff
  4. 亚麻纤维截面形态_纺织品知识点--纺织纤维的分类get
  5. windows 启动exe程序前注入dll(c++)
  6. Madagascar的自定义浮点型函数--三角函数和反三角函数
  7. tcmalloc内存分配器分析笔记:基于gperftools-2.4
  8. Linux内核空间内存申请函数kmalloc、kzalloc、vmalloc的区别
  9. leetcode题库:3.无重复字符的最长子串
  10. Maven 仓库使用与私有仓库搭建