今天启动集群tidb时出现一个错误,是某个tikv节点报错:node_exporter-9100.service  failed

一个节点的问题会导致整个集群启动失败。去此节点下的日志文件中查找,发现没有什么报错原因。无奈此时只能去系统日志中查看发生了什么问题

果然发现了问题

Jan 16 15:35:05 ip-172-31-26-133 systemd-logind: New session 2045 of user tidb.
Jan 16 15:35:05 ip-172-31-26-133 systemd: Started Session 2045 of user tidb.
Jan 16 15:35:05 ip-172-31-26-133 systemd: Starting Session 2045 of user tidb.
Jan 16 15:35:05 ip-172-31-26-133 ansible-stat: Invoked with checksum_algorithm=sha1 get_checksum=False follow=False path=/home/tidb/deploy get_md5=False get_mime=True get_attributes=True
Jan 16 15:35:05 ip-172-31-26-133 ansible-stat: Invoked with checksum_algorithm=sha1 get_checksum=False follow=False path=/data/data_tidb get_md5=False get_mime=True get_attributes=True
Jan 16 15:35:08 ip-172-31-26-133 ansible-systemd: Invoked with no_block=False force=None name=node_exporter-9100.service enabled=False daemon_reload=False state=started user=False masked=None
Jan 16 15:35:09 ip-172-31-26-133 ansible-wait_for: Invoked with host=172.31.26.133 send=GET /metrics HTTP/1.0#015#012#015#012 port=9100 delay=0 state=present sleep=1 timeout=300 exclude_hosts=None search_regex=200 OK path=None connect_timeout=5
Jan 16 15:35:17 ip-172-31-26-133 systemd: node_exporter-9100.service holdoff time over, scheduling restart.
Jan 16 15:35:17 ip-172-31-26-133 systemd: Started node_exporter-9100 service.
Jan 16 15:35:17 ip-172-31-26-133 systemd: Starting node_exporter-9100 service...
Jan 16 15:35:17 ip-172-31-26-133 systemd: Failed at step EXEC spawning /home/tidb/deploy/scripts/run_node_exporter.sh: No such file or directory
Jan 16 15:35:17 ip-172-31-26-133 systemd: node_exporter-9100.service: main process exited, code=exited, status=203/EXEC
Jan 16 15:35:17 ip-172-31-26-133 systemd: Unit node_exporter-9100.service entered failed state.
Jan 16 15:35:17 ip-172-31-26-133 systemd: node_exporter-9100.service failed.
Jan 16 15:35:32 ip-172-31-26-133 systemd: node_exporter-9100.service holdoff time over, scheduling restart.
Jan 16 15:35:32 ip-172-31-26-133 systemd: Started node_exporter-9100 service.
Jan 16 15:35:32 ip-172-31-26-133 systemd: Starting node_exporter-9100 service...
Jan 16 15:35:32 ip-172-31-26-133 systemd: Failed at step EXEC spawning /home/tidb/deploy/scripts/run_node_exporter.sh: No such file or directory
Jan 16 15:35:32 ip-172-31-26-133 systemd: node_exporter-9100.service: main process exited, code=exited, status=203/EXEC
Jan 16 15:35:32 ip-172-31-26-133 systemd: Unit node_exporter-9100.service entered failed state.
Jan 16 15:35:32 ip-172-31-26-133 systemd: node_exporter-9100.service failed.

从日志中我们发现了问题所在,其实报错原因是不能启动9100这个node_exporter服务,因为缺少脚本导致的。后来对比一下其他集群节点,原来是集群中的每个节点的tidb用户的家目录下都有一个“deploy”的目录,但是报错的这个节点的deploy目录却没有,不知道是什么原因给删除了,所以我们不得不重新在tidb用户家目录下建立一个deploy目录,我们不必手工来创建,直接在中控机操作即可。解决方法如下:

1、现在我们在中控机上执行这一步骤。

这里的 -l 后面的ip是报错的这个节点的IP。

2、执行成功之后,我们就可以看到这个家目录下的deploy目录了。

3、有了这个目录,那我们就能启动成功了,这个时候再去中控机启动集群,就成功了。本次成功解决问题。

所以我发现出先问题去两个地方找:一个是tidb节点的错误日志,还有一个是系统日志。

转载于:https://www.cnblogs.com/FengGeBlog/p/10277917.html

tidb集群某个节点报错之:node_exporter-9100.service failed相关推荐

  1. redis集群添加节点报错Either the node already knows other nodes (check with CLUSTER NODES) or contains some k

    [README] redis集群添加节点报错 [ERR] Node 192.168.163.202:6380 is not empty. Either the node already knows o ...

  2. java连接cdh集群_有一台电脑需要通过beeline的方式连接到CDHclouderahadoop集群,提示报错。...

    有一台电脑需要通过beeline的方式连接到CDHclouderahadoop集群,提示报错. 码农的苦恼 2020-02-24 10:25:48 目前客户端服务器已经开通了3000-60000的端口 ...

  3. Docker服务启动报错:Job for docker.service failed because the control process exited with error

    错误 Docker服务启动报错:Job for docker.service failed because the control prcess exited with error 原文地址: htt ...

  4. jenkins启动报错 Job for jenkins.service failed because the control process exited with error code.

    启动时若提示下述内容,则表示启动失败 Job for jenkins.service failed because the control process exited with error code ...

  5. Linux配置分布式数据/mysql集群 ndb_mgmd 实验报错摘录

    本实验按照网上教程编写:https://www.digitalocean.com/community/tutorials/how-to-create-a-multi-node-mysql-cluste ...

  6. lua脚本在redis集群中执行报错--Lua script attempted to access a non local key in a cluster node...

    EVAL.EVALSHA命令 Redis从2.6.0版本开始提供了eval命令,通过内置的Lua解释器,可以让用户执行一段Lua脚本并返回数据.因为Redis单线程模型的特点,可以保证多个命令的原子性 ...

  7. CDH集群执行任务报错:User xxx not found

    1.基本情况 CDH集群, 节点分别为node1/node2/node3,  已安装Kerberos安全认证,  执行spark任务, 执行模式为spark on yarn 集群模式. 2.报错信息 ...

  8. 记录go-redis使用集群时,报错:CROSSSLOT Keys in request don‘t hash to the same slot

    问题描述 需求:从一个变化的列表list中取出第一条数据,list 10s更新一次,10s内不能一直取第一条,需要均衡: bug代码: // lua脚本 var copyIndexScript str ...

  9. redis集群关闭 启动报错_使用虚拟机搭建 Redis 集群,实现数据库的负载均衡功能。...

    实操题目:使用虚拟机搭建 Redis 集群,实现数据库的负载均衡功能.并使用图文描述整个过程.先创建集群: ①创建集群需要使用ruby脚本,所以要先安装ruby环境 安装ruby环境:yum inst ...

最新文章

  1. hive olap 数据仓库_数据仓库那些事儿
  2. Django之Form组件
  3. Kafka常用操作命令总结
  4. Hibernate学习(三)
  5. oracle中if/else功能的实现的3种写法
  6. Ubuntu14.04-LAMP环境搭建
  7. 谷歌招聘主管公开八大求职秘诀
  8. 数据库连接池问题[转]
  9. STM32系列单片机在进入main函数前都在干些什么?
  10. rhel系统启动过程_Linux系统启动过程
  11. pytorch安装换源ubuntu_PyTorch入门之PyTorch的安装
  12. k8s组件通信或者创建pod生命周期
  13. VS2015 Cordova Ionic移动开发(一)
  14. python基础之psutil模块和发邮件(smtplib和yagmail)
  15. 文件i/o函数 open/close
  16. select for update是属于排他锁,也属于悲观锁
  17. 创建对象和实现原型继承的几种方式
  18. 不可思议有氧机器人_不思议迷宫奇怪的机器人 不思议迷宫奇怪的机器人获取方式一览...
  19. 【华为认证】HCIA-DATACOM技术分享-VRP系统基本操作-入门级手册(一)
  20. gitlab密码忘了怎么办?

热门文章

  1. Programming guide for HLSL (二)
  2. php中strrpos函数的返回值类型是型_函数strrpos('Welcome to learning PHP', 'e')的返回值是______...
  3. python写的定时播放音乐
  4. 18049 迭代法求平方根
  5. python无法安装pycurl_python3安装pycurl
  6. ccsu 1179 青蛙过河 递推
  7. python是单线程的,多线程有意义么
  8. iOS ——版本更新检测 判断应用版本和升级提示
  9. Shopee虾皮店铺迟迟不出单,导致这种情况的原因是什么
  10. 学术能力被AI超越,从抑郁到接受事实,一位哈佛生物学家的内心独白