tidb集群某个节点报错之:node_exporter-9100.service failed
今天启动集群tidb时出现一个错误,是某个tikv节点报错:node_exporter-9100.service failed
一个节点的问题会导致整个集群启动失败。去此节点下的日志文件中查找,发现没有什么报错原因。无奈此时只能去系统日志中查看发生了什么问题
果然发现了问题
Jan 16 15:35:05 ip-172-31-26-133 systemd-logind: New session 2045 of user tidb. Jan 16 15:35:05 ip-172-31-26-133 systemd: Started Session 2045 of user tidb. Jan 16 15:35:05 ip-172-31-26-133 systemd: Starting Session 2045 of user tidb. Jan 16 15:35:05 ip-172-31-26-133 ansible-stat: Invoked with checksum_algorithm=sha1 get_checksum=False follow=False path=/home/tidb/deploy get_md5=False get_mime=True get_attributes=True Jan 16 15:35:05 ip-172-31-26-133 ansible-stat: Invoked with checksum_algorithm=sha1 get_checksum=False follow=False path=/data/data_tidb get_md5=False get_mime=True get_attributes=True Jan 16 15:35:08 ip-172-31-26-133 ansible-systemd: Invoked with no_block=False force=None name=node_exporter-9100.service enabled=False daemon_reload=False state=started user=False masked=None Jan 16 15:35:09 ip-172-31-26-133 ansible-wait_for: Invoked with host=172.31.26.133 send=GET /metrics HTTP/1.0#015#012#015#012 port=9100 delay=0 state=present sleep=1 timeout=300 exclude_hosts=None search_regex=200 OK path=None connect_timeout=5 Jan 16 15:35:17 ip-172-31-26-133 systemd: node_exporter-9100.service holdoff time over, scheduling restart. Jan 16 15:35:17 ip-172-31-26-133 systemd: Started node_exporter-9100 service. Jan 16 15:35:17 ip-172-31-26-133 systemd: Starting node_exporter-9100 service... Jan 16 15:35:17 ip-172-31-26-133 systemd: Failed at step EXEC spawning /home/tidb/deploy/scripts/run_node_exporter.sh: No such file or directory Jan 16 15:35:17 ip-172-31-26-133 systemd: node_exporter-9100.service: main process exited, code=exited, status=203/EXEC Jan 16 15:35:17 ip-172-31-26-133 systemd: Unit node_exporter-9100.service entered failed state. Jan 16 15:35:17 ip-172-31-26-133 systemd: node_exporter-9100.service failed. Jan 16 15:35:32 ip-172-31-26-133 systemd: node_exporter-9100.service holdoff time over, scheduling restart. Jan 16 15:35:32 ip-172-31-26-133 systemd: Started node_exporter-9100 service. Jan 16 15:35:32 ip-172-31-26-133 systemd: Starting node_exporter-9100 service... Jan 16 15:35:32 ip-172-31-26-133 systemd: Failed at step EXEC spawning /home/tidb/deploy/scripts/run_node_exporter.sh: No such file or directory Jan 16 15:35:32 ip-172-31-26-133 systemd: node_exporter-9100.service: main process exited, code=exited, status=203/EXEC Jan 16 15:35:32 ip-172-31-26-133 systemd: Unit node_exporter-9100.service entered failed state. Jan 16 15:35:32 ip-172-31-26-133 systemd: node_exporter-9100.service failed.
从日志中我们发现了问题所在,其实报错原因是不能启动9100这个node_exporter服务,因为缺少脚本导致的。后来对比一下其他集群节点,原来是集群中的每个节点的tidb用户的家目录下都有一个“deploy”的目录,但是报错的这个节点的deploy目录却没有,不知道是什么原因给删除了,所以我们不得不重新在tidb用户家目录下建立一个deploy目录,我们不必手工来创建,直接在中控机操作即可。解决方法如下:
1、现在我们在中控机上执行这一步骤。
这里的 -l 后面的ip是报错的这个节点的IP。
2、执行成功之后,我们就可以看到这个家目录下的deploy目录了。
3、有了这个目录,那我们就能启动成功了,这个时候再去中控机启动集群,就成功了。本次成功解决问题。
所以我发现出先问题去两个地方找:一个是tidb节点的错误日志,还有一个是系统日志。
转载于:https://www.cnblogs.com/FengGeBlog/p/10277917.html
tidb集群某个节点报错之:node_exporter-9100.service failed相关推荐
- redis集群添加节点报错Either the node already knows other nodes (check with CLUSTER NODES) or contains some k
[README] redis集群添加节点报错 [ERR] Node 192.168.163.202:6380 is not empty. Either the node already knows o ...
- java连接cdh集群_有一台电脑需要通过beeline的方式连接到CDHclouderahadoop集群,提示报错。...
有一台电脑需要通过beeline的方式连接到CDHclouderahadoop集群,提示报错. 码农的苦恼 2020-02-24 10:25:48 目前客户端服务器已经开通了3000-60000的端口 ...
- Docker服务启动报错:Job for docker.service failed because the control process exited with error
错误 Docker服务启动报错:Job for docker.service failed because the control prcess exited with error 原文地址: htt ...
- jenkins启动报错 Job for jenkins.service failed because the control process exited with error code.
启动时若提示下述内容,则表示启动失败 Job for jenkins.service failed because the control process exited with error code ...
- Linux配置分布式数据/mysql集群 ndb_mgmd 实验报错摘录
本实验按照网上教程编写:https://www.digitalocean.com/community/tutorials/how-to-create-a-multi-node-mysql-cluste ...
- lua脚本在redis集群中执行报错--Lua script attempted to access a non local key in a cluster node...
EVAL.EVALSHA命令 Redis从2.6.0版本开始提供了eval命令,通过内置的Lua解释器,可以让用户执行一段Lua脚本并返回数据.因为Redis单线程模型的特点,可以保证多个命令的原子性 ...
- CDH集群执行任务报错:User xxx not found
1.基本情况 CDH集群, 节点分别为node1/node2/node3, 已安装Kerberos安全认证, 执行spark任务, 执行模式为spark on yarn 集群模式. 2.报错信息 ...
- 记录go-redis使用集群时,报错:CROSSSLOT Keys in request don‘t hash to the same slot
问题描述 需求:从一个变化的列表list中取出第一条数据,list 10s更新一次,10s内不能一直取第一条,需要均衡: bug代码: // lua脚本 var copyIndexScript str ...
- redis集群关闭 启动报错_使用虚拟机搭建 Redis 集群,实现数据库的负载均衡功能。...
实操题目:使用虚拟机搭建 Redis 集群,实现数据库的负载均衡功能.并使用图文描述整个过程.先创建集群: ①创建集群需要使用ruby脚本,所以要先安装ruby环境 安装ruby环境:yum inst ...
最新文章
- hive olap 数据仓库_数据仓库那些事儿
- Django之Form组件
- Kafka常用操作命令总结
- Hibernate学习(三)
- oracle中if/else功能的实现的3种写法
- Ubuntu14.04-LAMP环境搭建
- 谷歌招聘主管公开八大求职秘诀
- 数据库连接池问题[转]
- STM32系列单片机在进入main函数前都在干些什么?
- rhel系统启动过程_Linux系统启动过程
- pytorch安装换源ubuntu_PyTorch入门之PyTorch的安装
- k8s组件通信或者创建pod生命周期
- VS2015 Cordova Ionic移动开发(一)
- python基础之psutil模块和发邮件(smtplib和yagmail)
- 文件i/o函数 open/close
- select for update是属于排他锁,也属于悲观锁
- 创建对象和实现原型继承的几种方式
- 不可思议有氧机器人_不思议迷宫奇怪的机器人 不思议迷宫奇怪的机器人获取方式一览...
- 【华为认证】HCIA-DATACOM技术分享-VRP系统基本操作-入门级手册(一)
- gitlab密码忘了怎么办?
热门文章
- Programming guide for HLSL (二)
- php中strrpos函数的返回值类型是型_函数strrpos('Welcome to learning PHP', 'e')的返回值是______...
- python写的定时播放音乐
- 18049 迭代法求平方根
- python无法安装pycurl_python3安装pycurl
- ccsu 1179 青蛙过河 递推
- python是单线程的,多线程有意义么
- iOS ——版本更新检测 判断应用版本和升级提示
- Shopee虾皮店铺迟迟不出单,导致这种情况的原因是什么
- 学术能力被AI超越,从抑郁到接受事实,一位哈佛生物学家的内心独白