暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

【故障处理】误删PKI和Manifests导致Kubernetes集群瘫痪的解决方案

Linux运维智行录 2025-01-09
29

在Kubernetes集群的日常运维中,PKI(Public Key Infrastructure)和Manifests文件扮演着至关重要的角色。PKI负责管理集群的证书和密钥,确保各组件之间的安全通信;Manifests文件则定义了集群中各种资源的配置和部署信息。

生产环境,我们始终怀有敬畏


01
问题背景

风雨交加的下午,突然企微群收到报障。整个集群不可用请求上会议支援。

Tip:连接不到VIP:6443端口,一般是kube-apiserver或etcd异常


02
了解问题

1、上会议后了解背景信息,用户有一个master节点磁盘故障维修后,发现etcd数据丢失。用户采取将master节点剔除集群后,再重新加入集群。--> 到这里逻辑上没有问题的,集群处于可用状态。

2、用户有了方案撸起袖子就干,万万没想到在正常节点执行 rm -rf etc/kubernetes/*。kubernetes控制平面的服务都被干掉了导致整个集群不可用了。 --> 好了,就这个步骤导致今年奖金黄了

哭唧唧

3、确认正常节点的etcd数据是否被误删,最后答复是没有的。--> 不幸中的万幸,还能抢救下。


03
解决措施

文章转载自Linux运维智行录,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论