暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

华为GaussDB A 操作系统故障定位手段

墨天轮 2019-10-12
814

操作系统故障定位手段

查询集群状态时,显示一个节点上所有实例都不正常的情况下,可能是操作系统发生了故障。

可以通过如下方法确定OS是否存在问题:

  • 通过SSH或者其它远程登录工具登录该节点。如果连接失败,请尝试通过ping发包检查网络状态。
    • 如果没有回复,则表明这台机器可能存在如下问题:网络连接故障、处于宕机状态或者正处于重启状态。若操作系统内核发生panic引起系统崩溃,系统重新启动时间较慢,需经过较长时间(大约20分钟)才能重启。建议经过5分钟尝试连接一次,若20分钟后不能连接成功,则表明这台机器已宕机或网络连接有问题,需要管理员到现场进行检查处理。
    • 可以ping通网络,但在SSH登入时卡住或登入后不能执行任何命令,通常是由系统资源不足(如CPU或IO资源过载)引起的机器不响应外部连接。建议重试几次。若5分钟内仍不能操作这台机器,需管理员到现场进行检查处理。
  • 可以远程登录节点,但在执行操作时,响应缓慢,需检查系统运行情况后,进行进一步处理。如收集系统信息,确定系统版本、硬件、参数设置及登录用户情况。下面列出一些常用命令供参考。
    • “who”命令查看当前在线用户。
    • “cat /etc/SuSE-release”或“cat /etc/redhat-release”和“uname -a”命令检查系统的版本和内核信息。
    • “sysctl -a”命令(需要root用户执行)和“cat /etc/sysctl.conf”命令获得系统参数信息。
    • “cat /proc/cpuinfo”和“cat /proc/meminfo”获得CPU和内存信息。
    • “top -H”命令查看CPU的使用情况,确定是否因为某个进程导致CPU使用率过高。若存在这种情况,通过gdb或gstack打印该程序堆栈,观察是否该程序处于死循环逻辑。
    • “iostat -x 1 3”命令查看IO的使用情况,确定是否当前磁盘的IO处于饱和状态。查看当前运行的执行作业情况,决定是否对占用较多IO的执行作业进行处理。
    • “vmstat 1 3”命令查看当前系统中内存的消耗情况,结合“top”命令获得哪些进程消耗内存较多,处于超出预期的状态。
    • 以root用户查看操作系统日志信息(/var/log/messages)或dmseg信息,检查是否操作系统发生过异常错误。
    • 操作系统的watchdog是为了保证OS系统正常运行,或者从死循环,死锁等状态退出的一种机制,如果watchdog超时,会复位系统,重启。 一般默认60s。

查看更多:华为GaussDB 200 故障定位方法
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论