暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

华为GaussDB A ALM-12045 网络读包丢包率超过阈值

墨天轮 2019-10-12
1649

ALM-12045 网络读包丢包率超过阈值

告警解释

系统每30秒周期性检测网络读包丢包率,并把实际丢包率和阈值(系统默认阈值0.5%)进行比较,当检测到网络读包丢包率连续多次(默认值为5)超过阈值时产生该告警。

用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 > 主机 > 网络读信息 > 读包丢包率”修改阈值。

平滑次数为1,网络读包丢包率小于或等于阈值时,告警恢复;平滑次数大于1,网络读包丢包率小于或等于阈值的90%时,告警恢复。

该告警检测默认关闭。若需要开启,请根据“检查系统环境”步骤,确认该系统是否可以开启该告警发送。

告警属性

告警ID

告警级别

是否自动清除

12045

重要

告警参数

参数名称

参数含义

ServiceName

产生告警的服务名称。

RoleName

产生告警的角色名称。

HostName

产生告警的主机名。

NetworkCardName

产生告警的网口名。

Trigger Condition

系统当前指标取值满足自定义的告警设置条件。

对系统的影响

业务性能下降或者个别业务出现超时问题。

风险提示:在SUSE内核版本3.0以上或RedHat 7.2版本,由于系统内核修改了网络读包丢包数的计数机制,在该系统下,即使网络正常运行,也可能会导致该告警出现,对业务无影响,建议优先按照“检查系统环境”进行排查。

可能原因

  • 操作系统问题。
  • 网卡配置了主备bond模式。
  • 告警阈值配置不合理。
  • 客户网络环境质量差。

处理步骤

查看网络丢包率

  • 打开FusionInsight Manager页面,在告警列表中,单击此告警所在行的,查看该告警的主机名称和网卡名称。
  • 使用PuTTY工具,以omm用户登录该告警所在节点,执行/sbin/ifconfig 网卡名称命令检查网络中是否存在丢包。

    说明:
    • 告警节点IP地址:根据告警定位信息中的“HostName”字段值,在FusionInsight Manager的“主机”查询对应的IP地址,管理平面和业务平面IP都需要检查。
    • 丢包率=(dropped个数/RX packets总个数)*100%,如果丢包率大于该指标所设置的系统阈值(系统默认阈值0.5%),则认为网络读包存在丢包现象。
    • 是,执行11。
    • 否,执行3。

检查系统环境

  • 使用PuTTY工具,以omm用户登录主OMS节点或者告警所在节点。
  • 执行cat /etc/*-release命令,确认操作系统的类型。

    • RedHat,执行5。
      #cat /etc/*-release Red Hat Enterprise Linux Server release 7.2 (Santiago)
    • SuSE,执行6。
      #cat /etc/*-release SUSE Linux Enterprise Server 11 (x86_64) VERSION = 11 PATCHLEVEL = 3
    • 其他,执行11。

  • 执行cat /etc/redhat-release命令,查询操作系统版本是否为RedHat 7.2(x86)或者RedHat 7.4(TaiShan)。

    #cat /etc/redhat-release Red Hat Enterprise Linux Server release 7.2 (Santiago)
    • 是,不能开启告警发送,执行7。
    • 否,执行11。

  • 执行cat /proc/version命令,查询SUSE内核版本是否为3.0及以上。

    #cat /proc/version Linux version 3.0.101-63-default (geeko@buildhost) (gcc version 4.3.4 [gcc-4_3-branch revision 152973] (SUSE Linux) ) #1 SMP Tue Jun 23 16:02:31 UTC 2015 (4b89d0c)
    • 是,不能开启告警发送,执行7。
    • 否,执行11。

  • 登录FusionInsight Manager,进入“运维 > 告警 > 阈值设置”页面。
  • 在“阈值设置”页面左侧树形结构中选择“待操作集群名称 >主机 > 网络读信息 > 读包丢包率”,查看发送告警开关指示是否打开。

    • 是,说明开启了告警发送,执行9。
    • 否,已经关闭告警发送,执行10。

  • 关闭该告警“发送告警”开关,屏蔽对“网络读包丢包率超过阈值”的检测,操作后的结果如下图所示。

  • 在FusionInsight Manager的“告警”界面,搜索“12045”告警,将未自动清除的该告警全部手动清除,处理完毕。

    说明:

    “网络读包丢包率超过阈值”的告警ID是12045。

检查网卡是否配置了主备bond模式

  • 使用PuTTY工具,以omm用户登录告警所在节点,执行ls -l /proc/net/bonding命令,查看该节点是否存在“/proc/net/bonding”目录。

    • 是,如下所示,则该节点配置了bond模式,执行12。
      #ls -l /proc/net/bonding/ total 0 -r--r--r-- 1 root root 0 Oct 11 17:35 bond0
    • 否,如下所示,则该节点未配置bond模式,执行14。
      #ls -l /proc/net/bonding/ ls: cannot access /proc/net/bonding/: No such file or directory

  • 执行cat /proc/net/bonding/bond0命令,查看配置文件中Bonding Mode参数的值是否为fault-tolerance。

    说明:

    bond0为bond配置文件名称,请以11查询出的文件名称为准。

    #cat /proc/net/bonding/bond0 Ethernet Channel Bonding Driver: v3.7.1 (April 27, 2011) Bonding Mode: fault-tolerance (active-backup) Primary Slave: eth1 (primary_reselect always) Currently Active Slave: eth1 MII Status: up MII Polling Interval (ms): 100 Up Delay (ms): 0 Down Delay (ms): 0 Slave Interface: eth0 MII Status: up Speed: 1000 Mbps Duplex: full Link Failure Count: 1 Slave queue ID: 0 Slave Interface: eth1 MII Status: up Speed: 1000 Mbps Duplex: full Link Failure Count: 1 Slave queue ID: 0
    • 是,该环境的网卡为主备bond模式,执行13。
    • 否,执行14。

  • 检查该告警中NetworkCardName参数对应的网卡是否为备网卡。

    • 是,备网卡的告警无法自动恢复,请在告警管理页面手动清除该告警,处理完毕。
    • 否,执行14。
      说明:

      备网卡判断方式:查看配置文件/proc/net/bonding/bond0,NetworkCardName参数对应的网卡名称等于其中一个Slave Interface,但是不等于Currently Active Slave(当前主网卡),则该网卡为备网卡。

检查阈值设置是否合理。

  • 登录FusionInsight Manager,查看该告警阈值是否合理(默认0.5%为合理值,用户可以根据自己的实际需求调整)。

    • 是,执行17。
    • 否,执行15。

  • 根据实际服务的使用情况在“运维 > 告警 > 阈值设置 > 待操作集群的名称 > 主机 > 网络读信息 > 读包丢包率”中更改告警阈值。如图1所示。

    图1 设置告警阈值

  • 等待5分钟,检查该告警是否恢复。

    • 是,处理完毕。
    • 否,执行17。

检查网络是否异常。

  • 联系系统管理员,检查网络是否存在异常。

    • 是,恢复网络故障,执行18。
    • 否,执行19。

  • 等待5分钟,检查该告警是否恢复。

    • 是,处理完毕。
    • 否,执行19。

收集故障信息。

  • 在主集群的FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
  • 在“服务”中勾选“Manager”。
  • 设置“主机”为告警所在节点和主OMS节点。
  • 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后30分钟,单击“下载”。
  • 请联系技术支持,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

无。

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论