一、背景

最近flink在执行任务时频繁报错,提示连接taskmanager超时,在flink任务报错5-6次后,该任务变以faled状态结束,导致我们得数据没有进行实时传输

二、问题排查

通过查看flink job-mangager和task-manager日志查看返现刚刚启动没有久得flink任务存在连接taskmanager超时问题,观察flink得task-manager得pod状态,确实是刚刚启动几十分钟,为什么taskmanager会发生重启呢,而其他的taskmanager均在正常运行使用kubectl get pod -o wide -n ns| grep flink发现重启的task-manager均在同一节点,于是便怀疑这台节点有问题。
首先查看node状态,正常OK
再查看组件运行状态,kubelete、flanneld、kube-proxy等,OK没有重启现象
既然k8s集群没问题,那么就是网络有问题,仔细排查,发现到网关也正常,通过命令ifconfig发现很重要的问题

这个bond0网卡有个dropped 6但是其他机器都是0,于是上网查了以下发现:TX dropped “发送时,丢弃的数据包数“。
这样原因就找到了,既然是网络问题,那就从网络排查,因为是bond模式所以不应该存在底层网络链接的问题,那就只能是Bond模式有问题了。
使用命令查看:cat /proc/net/bonding/bond0

哦豁、问题出来了,配置的bond1模式没有生效,因为网络那边的人说,交换机只识别bond1模式,具体不清楚,查看Bond配置没问题,那就使用命令:modprobe -r bonding使bond1模式生效。然后重启网卡,成功改为bond1模式,至此没有丢包现象,观察一天后,taskmanager正常运行,问题圆满解决。

k8s_node节点得pod频繁重启排查原因相关推荐

  1. 服务器频繁重启的原因是什么?116.211.168.x

    服务器频繁重启的原因是什么? 有的服务器不断的自动重启,这是什么原因引起的呢?笔者和大家一起悬系研究下! 1.服务器自动重启,首先需要远程核查,是不是因为木马病毒引起,导致不断重启服务器,发现异常的木 ...

  2. win10资源管理器频繁重启可能原因及解决方案——基于日志内容的查找

    win10资源管理器频繁重启可能原因及解决方案 声明:本文提供的只是一种思路,主要是告诉大家去哪里找这个资源管理器的日志,以及在日志中怎样定位故障模块,找到故障模块的名称了基本上就确定了经常导致资源管 ...

  3. 记一次k8s pod频繁重启的优化之旅

    1.背景 最近有运维反馈某个微服务频繁重启,客户映像特别不好,需要我们尽快看一下. 听他说完我立马到监控平台去看这个服务的运行情况,确实重启了很多次.对于技术人员来说,这既是压力也是动力,大多数时候我 ...

  4. oracle rac节点重启,oracle RAC一个节点频繁重启解决

    oracle RAC一个节点频繁重启解决 类别:Oracle数据库   作者:码皇   来源:hijk139的专栏     点击: oracle RAC一个节点频繁重启解决故障现象:2011年的一次问 ...

  5. nacos配置刷新失败导致的cpu上升和频繁重启,nacos配置中心源码解析

    大家好,我是烤鸭: nacos 版本 1.3.2,先说下结论,频繁重启的原因确实没有找到,跟nacos有关,日志没有保留多少,只能从源码找下头绪(出问题的版本 server用的是 nacos 1.1, ...

  6. rac节点频繁重启的问题分析

    环境:两台联想R680的物理机搭建一套2节点RAC,数据库版本为ORACLE 11.2.0.4 一.故障问题现象: 节点2频繁发生重启,从1月至2月发生多次重启,甚至一天内3次重启,让人头疼. 二.问 ...

  7. 【K8S系列】Pod重启策略及重启可能原因

    目录 1 重启策略 1.1 Always 1.2  OnFailure 1.3 Nerver 1.4 yaml示例 2 Pod常见异常状态 2.1  Pending状态 2.2 Waiting/Con ...

  8. k8s 详解 pod 生命周期 容器探测(live and ready) 钩子函数 pod的重启策略

    pause 容器, 每个pod的都有的根容器,评估pod 的健康状态,设置ip地址,ip+端口可以访问到指定的容器 pod pod 之间采用 flannel 通信 pod 定义 yaml 资源清单 一 ...

  9. K8S POD无限重启问题

    记录一次K8S POD无限重启 项目在K8S上无限重启 问题排查 发现问题 解决方案 最终成果 项目在K8S上无限重启 项目无限重启,不可用. 问题排查 首先查看k8s描述. kubectl desc ...

最新文章

  1. Linux centos6.7 关闭防火墙
  2. C++实现斐波那契查找(附完整源码)
  3. 【PAT甲级 BigInteger】1019 General Palindromic Number (20 分) Java版 7/7通过
  4. Hadoop日常管理与维护
  5. 技术停滞_检测和测试停滞的流– RxJava常见问题解答
  6. ei eo eq什么意思_EI源刊是什么意思
  7. IBM 前面板显示信息提示
  8. 拯救者r7000怎么关闭触控板_联想拯救者R7000(2020版)上手体验,有没有AMD Yes?
  9. 在安全模式下激活xp
  10. 4月8日--关于Date的练习题--自定义获取当前时间
  11. [leetcode]5366. 检查网格中是否存在有效路径
  12. Chrome浏览器更新失败
  13. python 之 前端开发( JavaScript变量、数据类型、内置对象、运算符、流程控制、函数)...
  14. Genymotion 各对应版本
  15. 池州计算机一级考试试题题库,池州科目一考试题库
  16. Unexpected Exception caught setting '' on 'class com.: Error setting expression '' with value ['', ]
  17. 入行数据科学,这些书一定要看
  18. 2020年终总结,少壮工夫老始成
  19. 玩转MFC文档视图架构编程1——深入浅出MFC文档/视图架构之基本概念深入浅出MFC文档/视图架构之文档
  20. Docker入门-什么是Docker

热门文章

  1. github push报错 Support for password authentication was removed on August 13, 2021. Please use a perso
  2. Redmine基础: 邮件配置
  3. freeSwitch DISA实现
  4. duplicate symbol in....
  5. 奇梦达产能削减四分之三
  6. cool start
  7. 做了996的网站优化,就来聊聊SEO网络优化
  8. 易买网更多新闻代码_新闻 | 0516崔智友得女等更多资讯
  9. 电商直播系统_电商直播源码中购物车功能实现
  10. Outlook2010客户端—搜索/检索不到近期的邮件