问题1:K8S集群服务访问失败?

原因分析:证书不能被识别,其原因为:自定义证书,过期等。

解决方法:更新证书即可。

问题2:K8S集群服务访问失败?

curl: (7) Failed connect to 10.103.22.158:3000; Connection refused

原因分析:端口映射错误,服务正常工作,但不能提供服务。

解决方法:删除svc,重新映射端口即可。​​​​​​​

kubectl delete svc nginx-deployment

问题3:K8S集群服务暴露失败?​​​​​​​

Error from server (AlreadyExists): services "nginx-deployment" already exists

原因分析:该容器已暴露服务了。

解决方法:删除svc,重新映射端口即可。

问题4:外网无法访问K8S集群提供的服务?**

原因分析:K8S集群的type为ClusterIP,未将服务暴露至外网。

解决方法:修改K8S集群的type为NodePort即可,于是可通过所有K8S集群节点访问服务。

kubectl edit svc nginx-deployment

问题5:pod状态为ErrImagePull?

readiness-httpget-pod   0/1     ErrImagePull   0          10s

原因分析:image无法拉取;

解决方法:更换镜像即可。

问题6:创建init C容器后,其状态不正常?​​​​​​​

NAME READY STATUS RESTARTS AGEmyapp-pod 0/1 Init:0/2 0 20s

原因分析:查看日志发现,pod一直出于初始化中;然后查看pod详细信息,定位pod创建失败的原因为:初始化容器未执行完毕。​​​​​​​

Error from server (BadRequest): container "myapp-container" in pod "myapp-pod" is waiting to start: PodInitializing

waiting for myserviceServer: 10.96.0.10
Address: 10.96.0.10:53** server can't find myservice.default.svc.cluster.local: NXDOMAIN*** Can't find myservice.svc.cluster.local: No answer
*** Can't find myservice.cluster.local: No answer
*** Can't find myservice.default.svc.cluster.local: No answer
*** Can't find myservice.svc.cluster.local: No answer
*** Can't find myservice.cluster.local: No answer

解决方法:创建相关service,将SVC的name写入K8S集群的coreDNS服务器中,于是coreDNS就能对POD的initC容器执行过程中的域名解析了。​​​​​​​

kubectl apply -f myservice.yaml

​​​​

NAME READY STATUS RESTARTS AGE
myapp-pod 0/1 Init:1/2 0 27mmyapp-pod 0/1 PodInitializing 0 28mmyapp-pod 1/1 Running 0 28m

问题7:探测存活pod状态为CrashLoopBackOff?

原因分析:镜像问题,导致容器重启失败。

解决方法:更换镜像即可。

问题8:POD创建失败?


readiness-httpget-pod 0/1 Pending 0 0s
readiness-httpget-pod 0/1 Pending 0 0s
readiness-httpget-pod 0/1 ContainerCreating 0 0s
readiness-httpget-pod 0/1 Error 0 2s
readiness-httpget-pod 0/1 Error 1 3s
readiness-httpget-pod 0/1 CrashLoopBackOff 1 4s
readiness-httpget-pod 0/1 Error 2 15s
readiness-httpget-pod 0/1 CrashLoopBackOff 2 26s
readiness-httpget-pod 0/1 Error 3 37s
readiness-httpget-pod 0/1 CrashLoopBackOff 3 52s
readiness-httpget-pod 0/1 Error 4 82s

原因分析:镜像问题导致容器无法启动。

解决方法:更换镜像。

问题9:POD的ready状态未进入?​​​​​​​

readiness-httpget-pod 0/1 Running 0 116s

原因分析:POD的执行命令失败,无法获取资源。

解决方法:进入容器内部,创建yaml定义的资源

问题10:pod创建失败?

原因分析:yml文件内容出错—-使用中文字符;

解决方法:修改myregistrykey内容即可。

11、kube-flannel-ds-amd64-ndsf7插件pod的status为Init:0/1?

排查思路:kubectl -n kube-system describe pod kube-flannel-ds-amd64-ndsf7 #查询pod描述信息;

原因分析:k8s-slave1节点拉取镜像失败。

解决方法:登录k8s-slave1,重启docker服务,手动拉取镜像。

k8s-master节点,重新安装插件即可。

​​​​​​​

kubectl create -f kube-flannel.yml;kubectl get nodes

12、K8S创建服务status为ErrImagePull?

排查思路:

kubectl describe pod test-nginx

原因分析:拉取镜像名称问题。

解决方法:删除错误pod;重新拉取镜像;​​​​​​​

kubectl delete pod test-nginx;kubectl run test-nginx --image=10.0.0.81:5000/nginx:alpine

13、不能进入指定容器内部?

原因分析:yml文件comtainers字段重复,导致该pod没有该容器。

解决方法:去掉yml文件中多余的containers字段,重新生成pod。

14、创建PV失败?

原因分析:pv的name字段重复。

解决方法:修改pv的name字段即可。

15、pod无法挂载PVC?

原因分析:pod无法挂载PVC。

accessModes与可使用的PV不一致,导致无法挂载PVC,由于只能挂载大于1G且accessModes为RWO的PV,故只能成功创建1个pod,第2个pod一致pending,按序创建时则第3个pod一直未被创建;

解决方法:修改yml文件中accessModes或PV的accessModes即可。

16、问题:pod使用PV后,无法访问其内容?

原因分析:nfs卷中没有文件或权限不对。

解决方法:在nfs卷中创建文件并授予权限。

17、查看节点状态失败?​​​​​​​

Error from server (NotFound): the server could not find the requested resource (get services http:heapster:)

原因分析:没有heapster服务。

解决方法:安装promethus监控组件即可。

18、pod一直处于pending’状态?

原因分析:由于已使用同样镜像发布了pod,导致无节点可调度。

解决方法:删除所有pod后部署pod即可。

19、helm安装组件失败?

​​​​​​​​​​​​​​
[root@k8s-master01 hello-world]# helm install
Error: This command needs 1 argument: chart nam
[root@k8s-master01 hello-world]# helm install ./Error: no Chart.yaml exists in directory "/root/hello-world"

原因分析:文件名格式不对。

解决方法:mv chart.yaml Chart.yaml

end

欢迎关注微信公众号【厦门微思网络】。www.xmws.cn专业IT认证培训19周年
主要课程:思科、华为、红帽、ORACLE、VMware、CISP、PMP等认证培训及考证

收藏丨运维良药,K8S日常故障处理集锦相关推荐

  1. 19 个 K8S 日常故障处理集锦

    问题1:K8S集群服务访问失败? 原因分析:证书不能被识别,其原因为:自定义证书,过期等. 解决方法:更新证书即可. 问题2:K8S集群服务访问失败? curl: (7) Failed connect ...

  2. 【运维】K8S集群部署系列之ETCD集群搭建(四)

    ETCD集群扩容和缩容 本文将介绍生产环境下如何对ETCD集群进行扩容和缩容. 文章目录 ETCD集群扩容和缩容 新节点环境准备(node3) 下载安装包并初始化环境 网络准备 生成`node3`对等 ...

  3. 干货收藏|医疗数据安全、临床业务容灾、智能运维及数字化转型方案集锦

    数智赋能,助力医院高质量发展! 历时三天的2022中华医院信息网络大会(CHINC)圆满落下帷幕,美创科技赴五年之约,与医疗行业用户朋友在深圳再聚交流,也带来关于"医疗行业数据安全.数字化转 ...

  4. 企业云上安全事件突发,这五个问题值得运维大佬们日常自查!

    简介: 近日媒体报道,某SaaS公司由于内部员工恶意删库,导致业务停摆.市值蒸发超10亿.如何避免类似事件发生,是值得技术和企业管理人员共同关注的问题. 引言 近日媒体报道,某SaaS公司由于内部员工 ...

  5. oracle 运维入门,Oracle日常基本运维命令及基本体系结构

    Oracle日常基本运维命令及基本体系结构 发布人:中嘉和信发布时间:2020.05.11来源:运维派 中嘉和信北京机房以康盛机房.亦庄国际机房.四季青机房为主,作为互联网数据中心集成服务领域的标杆企 ...

  6. 运维工程师的日常工作内容

    第一式.监控报警报表 ①没有监控就是不知己,不知己每战必殆. ②没有报警就是不能兼听,不兼听就不明. ③没有报表,反正Leader不高兴,其他的也没啥吧,毕竟像杰夫·贝佐斯与张小龙这样的Leader很 ...

  7. 运维工程师之日常巡检

    # 情境 最近面试过程当中,发现好多运维工程师日常工作内容中,有一项周而复始每天都要做的事巡检服务器资源信息(如:CPU,硬盘,内存...)作为一个技术人,起码的懒人意识应该要有,同样的也会提高自己的 ...

  8. 【运维面试秘籍】2022最值得收藏的运维面试文章汇总

    运维面试秘籍,包含了运维技术面试技巧和HR的面试技巧,如果你是刚刚大学毕业或者已经从业三五年想要提升薪资,那这个面试技巧就绝对适合你. 如果你没有学历,或者学历比较低,或者没有工作经验,那本专栏绝对适 ...

  9. 运维(34) K8s使用

    文章目录 一.前言 二.资源创建 1.命令行 2.配置文件 3.可视化界面 三.命名空间 1.命令行 2.配置文件 四.Pod 1.命令行 2.配置文件 3.`Kubernetes Dashboard ...

最新文章

  1. 哈利波特 pdf_干货!哈利波特英文原版pdf免费领,(含音频)词汇量大于新概念!...
  2. 【BLE】TLSR8258开发记录之9--IIC驱动TMP102
  3. 查询数据库耗费资源的sql
  4. Azure上用API成功创建Lambda Function的截图
  5. jsoup解析HTML用法小结
  6. java 获取键盘输入法_Java中接收键盘输入的三种方法
  7. hive 把mysql语句执行_Hive SQL 语句的执行顺序
  8. 使用Python实现生产者消费者问题
  9. 【codevs3119】高精度开根号(二分答案)
  10. python实现文件批量添加重命名
  11. Android仿miui11风格,华为手机适配安装MIUI11风格的主题-添加百变锁屏
  12. Python+selenium批量把网页文档保存为PDF
  13. ubuntu-创建桌面快捷方式
  14. cam_lidar_calib激光雷达和相机联合标定
  15. 正版软件汇集,遥感集市
  16. 前端静态资源缓存最优解以及max-age的陷阱
  17. 【备忘】hive 调优
  18. 改变elementui卡片crad样式_Ueditor文字和echarts图片 生成 word 前端解决方案
  19. md文档html显示+toc,使用md-toc.js来生成文章目录
  20. OpenGL画三角形

热门文章

  1. vector邻接表建图+DFS+BFS
  2. 2020-10-26(安卓逆向开篇)
  3. python实现模逆运算
  4. 模块隐藏(LDR_MODULE链 与 PE特征)
  5. 【PAT乙级】1019 数字黑洞 (20 分)
  6. 列表解析和生成器表达式
  7. ThreadLocal的使用
  8. jQuery的get()和post()方法
  9. Spring MVC的优势
  10. 【详细了解】Nginx 除了负载均衡,还能做什么?