1. 荒腔走板

最近一两个月生产K8s集群频繁出现短时503 Service Temporarily Unavailable,还不能主动复现,相当郁闷,压力山大。

HTTP 5xx响应状态码用于定义服务端错误。

  • 500 Internal Server Error:所请求的服务器遇到意外的情况并阻止其执行请求,通常针对单个请求,整个站点有时还是提供服务。

  • 502 Bad Gateway Error 暗示连接链路中某个服务器下线或者不可用;

  • 503 Service  Unavailable 意味着托管您的应用程序的实际Web服务器上存在问题。

2. 排查记录

  • 基本上每隔2-3天出现一次,每次2-3分钟,此时整站503;

  • 因为不能主动复现,8月26日排查相应时间段的EFK日志: impala连接问题,大数据运维同事排查到webapp发起impala的请求与impala集群时钟未对齐,导致webapp impalaODBC Driver连不上impala集群;

进入k8s集群节点,确实部分节点的时钟对齐服务未启动,不定时出现比北京时间慢2,3分钟的情况,这个确实可以解释时间差导致的impala连接认证失败。

  • 8月26日同步所有k8s节点的时钟,之后接近一周,并未出现问题;

  • 9月3日又出现一次短时503无服务,EFK日志显示依旧是impala连接问题,此处大数据同事未能定位具体原因,暂时定义为偶发/抖动

3.思考和推演

故障现场每次只有impala连接问题,我也搞不懂impala连接问题竟然会导致webapp service下线。

我们的webapp兼具toB和toC业务,站点强依赖mongodb、弱依赖于impala:impala即使连不上,只是不能查,站点sso+订单相关的写入操作应该还可用。

回想起前几天看到的k8s探针,糟糕,我们的就绪探针好像探测了impala

// ASP.NetCore上暴露的的探测逻辑:impala && mongodb
services.AddHealthChecks().AddCheck<ImpalaHealthCheck>(nameof(ImpalaHealthCheck), tags: new[] { "readyz" }).AddCheck<MongoHealthCheck>(nameof(MongoHealthCheck), tags: new[] { "readyz" });app.UseHealthChecks("/readyz", new HealthCheckOptions{Predicate = (check) => check.Tags.Contains("readyz")});

强烈推测:就绪探针3次探测impala失败, Pod将会被标记为Unready, 该Pod将从webapp服务负载均衡器移除, 不再分配流量,导致nginx无实际意义的后端服务,站点503。

迅速找一个beta环境,断开impala连接,验证猜想。

4.问题回顾

bugfix不是我正向推断出来的,而是纯靠经验推演出来的,倒不是有明确推断思路,也算给大家提前踩坑了。

docker的健康检查只能探测,Kubernetes存活、就绪探针不仅有探测,还有决策能力。

这里我们的k8s就绪探测使用策略出现了问题:
探测到webapp弱依赖impala有问题,就下线了整个webapp服务,应该只探测强依赖,强依赖有问题,才表明容器未就绪,这也是就绪探针的初衷。

强烈建议根据webapp结构合理设置探针和探针参数,避免不切实际的健康检查失败导致的频繁重启或服务下线。

干货周边也很重要

  1. 硬核技能k8s初体验

  2. Docker-HealthCheck指令探测ASP.NET Core容器健康状态

  3. Kubernetes Liveness and Readiness Probes

Kubernetes探针踩坑记相关推荐

  1. IdentityServer 部署踩坑记

    IdentityServer 部署踩坑记 Intro 周末终于部署了 IdentityServer 以及 IdentityServerAdmin 项目,踩了几个坑,在此记录分享一下. 部署架构 项目是 ...

  2. python从入门到实践django看不懂_Python编程:从入门到实践踩坑记 Django

    <>踩坑记 Django Django Python 19.1.1.5 模板new_topic 做完书上的步骤后,对主题添加页面经行测试,但是浏览器显示 服务器异常. 个人采用的开发环境是 ...

  3. 东八区转为0时区_踩坑记 | Flink 天级别窗口中存在的时区问题

    ❝ 本系列每篇文章都是从一些实际的 case 出发,分析一些生产环境中经常会遇到的问题,抛砖引玉,以帮助小伙伴们解决一些实际问题.本文介绍 Flink 时间以及时区问题,分析了在天级别的窗口时会遇到的 ...

  4. Spring @Transactional踩坑记

    @Transactional踩坑记 总述 ​ Spring在1.2引入@Transactional注解, 该注解的引入使得我们可以简单地通过在方法或者类上添加@Transactional注解,实现事务 ...

  5. 服务器重新部署踩坑记

    服务器重新部署踩坑记 Intro 之前的服务器是 Ubuntu 18.04 ,上周周末想升级一下服务器系统,从 18.04 升级到 20.04,结果升级升挂了... 后来 SSH 始终连不上,索性删除 ...

  6. windows container 踩坑记

    windows container 踩坑记 Intro 我们有一些服务是 dotnet framework 的,不能直接跑在 docker linux container 下面,最近一直在折腾把它部署 ...

  7. Spark踩坑记——数据库(Hbase+Mysql)转

    转自:http://www.cnblogs.com/xlturing/p/spark.html 前言 在使用Spark Streaming的过程中对于计算产生结果的进行持久化时,我们往往需要操作数据库 ...

  8. android小程序_小程序踩坑记

    小程序踩坑记 希望这个文章能尽量记录下小程序的那些坑,避免开发者们浪费自己的生命来定位到底是自己代码导致的还是啥神秘的字节跳变原因. 前记 小程序大多数坑是同一套代码在不同平台上表现不一致导致的,微信 ...

  9. go nil json.marshal 完是null_字节跳动踩坑记#3:Go服务灵异panic

    这个坑比较新鲜,刚填完,还冒着冷气. - 1 - 在字节跳动,我们服务的所有 log 都通过统一的日志库采集到流式日志服务.落地 ES 集群,配上字节云超(sang)级(xin)强(bing)大(ku ...

最新文章

  1. 12 个的优秀手机设计灵感
  2. C# WinForm编程之System.Windows.Forms.DataGridViewRow.DataBoundItem Property
  3. 阻塞队列 java 源码_Java源码解析阻塞队列ArrayBlockingQueue常用方法
  4. 多线程:interrupted、isinterrupted区别
  5. python type instance_Python type, types and isinstance()使用
  6. python实现字典树 时间复杂度_Python实现字典树
  7. 关于tomcat和sessionCookieName和SESSION_PARAMETER_NAME以及disableURLRewriting参数原理和使用...
  8. 使用Drools跟踪输出
  9. winsw将命令部署为服务(比如springboot)
  10. mysql投资_[Leetcode]585. 2016年的投资(MySQL)
  11. Mac电脑上java如何手动释放内存?
  12. clr20r3 程序终止的几种解决方案_IT外包桌面解决方案——不慌,蓝屏而已
  13. 第四百零四天 how can I 坚持
  14. 学会这几点,你会成为一名月薪过万的Java程序员
  15. word里画的流程图怎么全选_流程图怎么做?用Word制作流程图超方便!
  16. 如何批量将 pptx 格式的 PPT 演示文稿转换为 ppt 格式
  17. 计算机网络层之 P2P
  18. Calcite-学习笔记(入门篇)
  19. 三维电子无人机倾斜摄影数字沙盘开发第38课 实现简单的粒子效果
  20. Google Map 初步使用

热门文章

  1. mysql DDL数据定义语言
  2. java爬虫-简单爬取网页图片
  3. [Android] 修改ImageView的图片颜色
  4. (第九周)团队项目14
  5. 纪实:对CSDN博客系统的一些质疑
  6. 还原出厂设置 擦除frp_如何备份,擦除和还原Apple Watch
  7. mysql qt自增_mysql自增设置
  8. 【Solidity】3.类型 - 深入理解Solidity
  9. Nodejs前端服务器压缩图片
  10. 微软 改变 开源【几个站点】