暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

华为GaussDB A ALM-37027 特征向量训练编码服务平台不可用

墨天轮 2019-10-12
841

ALM-37027 特征向量训练编码服务平台不可用

告警解释

当部署在Coordinator节点上的特征向量训练编码服务实例进程异常或者处于“abnormal”状态时,会产生此告警。

告警属性

告警ID

告警级别

是否自动清除

37027

紧急

告警参数

参数名称

参数含义

Source

产生告警的集群名称

ServiceName

产生告警的服务名称

RoleName

产生告警的角色名称

HostName

产生告警的节点名称

对系统的影响

若发生此告警,说明集群中可以完成长特征到短特征训练的编码训练平台不可用,长特征不能及时转换为短特征,从而不可以使用针对短特征的高效检索服务,这会导致数据库对特征值匹配的检索效率降低。

可能原因

  • 训练平台进程未被启动或被其他程序终止。
  • 实例安装目录丢失。
  • SimsTrainserver实例安装节点Coordinator实例本身存在故障或Coordinator实例不存在。
  • 当前数据库状态异常无法提供数据读写能力。

处理步骤

查看告警原因。

  • 在FusionInsight Manager界面,选择“运维 > 告警 > 告警”,在告警列表中单击此告警所在行的。从“定位信息”中获取产生该告警的集群名称、节点主机名称以及实例名称。
  • 在FusionInsight Manager界面,选择“集群 > 产生告警的集群名称 > 服务 > MPPDB > 实例”,获取SimsTrainserver实例安装节点。
  • omm用户登录SimsTrainserver实例安装节点,执行命令source环境变量,并用gs_om -t status --detail查看集群状态(假如集群安装目录是“/opt/huawei/Bigdata”。)。

    source /opt/huawei/Bigdata/mppdb/.mppdbgs_profile

    gs_om -t status --detail

  • 查询结果如下所示:

    • 若cluster_state状态为“Normal”“Degrade”,执行5查看Coordinator状态。
    • 若cluster_state状态为“Unavailable”,则表示当前整个集群状态异常,执行9。
      [ CMServer State ] node node_ip instance state ------------------------------------------------------------------------------------------- 1 SZX1000071373 10.90.57.221 1 /opt/huawei/Bigdata/mppdb/cm/cm_server Primary 2 SZX1000071374 10.90.57.222 2 /opt/huawei/Bigdata/mppdb/cm/cm_server Standby [ Cluster State ] cluster_state : Normal redistributing : No balanced : No

  • 观察3命令执行结果中“ [ Coordinator State ]”部分(假如集群数据目录是“/srv/BigData”):

    • 若显示的Coordinator实例列表中不存在SimsTrainserver实例安装节点,请先参考产品文档“常见紧急故障修复”章节在SimsTrainserver实例安装节点上添加Coordinator实例。再执行6。
    • 若SimsTrainserver实例安装节点的Coordinator实例状态不为“Normal”,请先参考产品文档“常见紧急故障修复”章节修复Coordinator实例。再执行6。
    • 若SimsTrainserver实例安装节点的Coordinator实例状态为“Normal”,执行6。
    [ Coordinator State ] node node_ip instance state --------------------------------------------------------------------------------------- 1 SZX1000071373 10.90.57.221 1 /srv/BigData/mppdb/data1/coordinator Normal 2 SZX1000071374 10.90.57.222 2 /srv/BigData/mppdb/data1/coordinator Normal 3 SZX1000071375 10.90.57.223 3 /srv/BigData/mppdb/data1/coordinator Normal

  • 进入MPPDB的安装目录下,找到“simSearch/TrainServer/bin”目录。进入“simSearch/TrainServer/bin”目录下面执行sh monitor_trainServer.sh status命令:

    • 若显示“[monitor_trainServer.sh] process status normal”,处理完毕。
    • 若显示“[monitor_trainServer.sh] process status abnormal”,执行7。

  • 执行脚本start_trainServer.sh,再进入MPPDB的安装目录下,找到“simSearch/TrainServer/bin”目录。进入“simSearch/TrainServer/bin”目录下面执行sh monitor_trainServer.sh status命令:

    • 若显示“[monitor_trainServer.sh] process status normal”,执行8。
    • 若显示“[monitor_trainServer.sh] process status abnormal”,执行9。

  • 等待3分钟,查看告警是否仍然存在。

    • 是,执行9。
    • 否,处理完毕。

收集故障信息。

  • 在FusionInsight Manager界面,单击运维 > 日志 > 下载
  • “服务”列表框中勾选“MPPDB”
  • 单击右上角的设置日志收集的“开始时间”“结束时间”分别为告警产生时间的前后1小时,单击“下载”
  • 请联系技术支持,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

无。

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论