暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

kubernetes集群-问题处理

运维及时雨 2019-11-27
1312

问题:kernel:unregister_netdevice: waiting for lo to become free. Usage count = 3


早晨10点左右到公司,业务人员发现某个服务不正常,正常打开kubernetes集群,查看集群状态发现有俩个服务异常,delete pod重新加载还是不正常,查看pod日志一直调度不成功,查看node事件,发现node节点NotReady

 进入node5节点,控制台报错,如下:

    kernel:unregister_netdevice: waiting for eth0 to become free. Usage count = 3
    kernel:unregister_netdevice: waiting for eth0 to become free. Usage count = 3
    kernel:unregister_netdevice: waiting for eth0 to become free. Usage count = 3
    kernel:unregister_netdevice: waiting for eth0 to become free. Usage count = 3

    查看/var/log/message日志发现报错信息如下:

    因为看到kernel报错,内核级别的一般都需要重启服务器才能解决,故把该节点打上污点后,人工驱逐node5上的相关服务,使之不可调度,因该环境有多套namespace业务,通过人工切换调度模式使该node下的服务被调度到集群内其他节点运行,让业务正常运转。

    服务正常后,赶快google,发现是个bug:

    https://access.redhat.com/solutions/3105941

    目前分析到的原因是和docker版本、网络地址空间有关,猜测是每次pod重新拉起都会申请到一个内部地址,定位docker网络问题,另外该集群内的所有节点开机1年多,从未重启过。做个记录后续查到具体原因再贴上来。

    目前只能是重启该台node,重启后重新调度pod服务正常。

    另外该版本kubernetes版本实在是太老了,打算最近重新部署一套stable kubernetes集群。

      [root@node1 ~]docker -v
      docker version 18.06.1-cebuild e68fc7a
      [root@node1 ~]# uname -a
      Linux node1 3.10.0-693.2.2.el7.x86_64 #1 SMP Tue Sep 12 22:26:13 UTC 2017 x86_64 x86_64 x86_64 GNU/Linux
      [root@node1 ~]# kubectl --version
      Kubernetes v1.9.2+coreos.0


      文章转载自运维及时雨,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

      评论