ALM-37027 特征向量训练编码服务平台不可用
告警解释
当部署在Coordinator节点上的特征向量训练编码服务实例进程异常或者处于“abnormal”状态时,会产生此告警。
告警属性
告警ID |
告警级别 |
是否自动清除 |
---|---|---|
37027 |
紧急 |
是 |
告警参数
参数名称 |
参数含义 |
---|---|
Source |
产生告警的集群名称 |
ServiceName |
产生告警的服务名称 |
RoleName |
产生告警的角色名称 |
HostName |
产生告警的节点名称 |
对系统的影响
若发生此告警,说明集群中可以完成长特征到短特征训练的编码训练平台不可用,长特征不能及时转换为短特征,从而不可以使用针对短特征的高效检索服务,这会导致数据库对特征值匹配的检索效率降低。
可能原因
- 训练平台进程未被启动或被其他程序终止。
- 实例安装目录丢失。
- SimsTrainserver实例安装节点Coordinator实例本身存在故障或Coordinator实例不存在。
- 当前数据库状态异常无法提供数据读写能力。
处理步骤
查看告警原因。
- 在FusionInsight Manager界面,选择“运维 > 告警 > 告警”,在告警列表中单击此告警所在行的
。从“定位信息”中获取产生该告警的集群名称、节点主机名称以及实例名称。
- 在FusionInsight Manager界面,选择“集群 > 产生告警的集群名称 > 服务 > MPPDB > 实例”,获取SimsTrainserver实例安装节点。
- 以omm用户登录SimsTrainserver实例安装节点,执行命令source环境变量,并用gs_om -t status --detail查看集群状态(假如集群安装目录是“/opt/huawei/Bigdata”。)。
source /opt/huawei/Bigdata/mppdb/.mppdbgs_profile
gs_om -t status --detail
- 查询结果如下所示:
- 若cluster_state状态为“Normal”或“Degrade”,执行5查看Coordinator状态。
- 若cluster_state状态为“Unavailable”,则表示当前整个集群状态异常,执行9。
[ CMServer State ] node node_ip instance state ------------------------------------------------------------------------------------------- 1 SZX1000071373 10.90.57.221 1 /opt/huawei/Bigdata/mppdb/cm/cm_server Primary 2 SZX1000071374 10.90.57.222 2 /opt/huawei/Bigdata/mppdb/cm/cm_server Standby [ Cluster State ] cluster_state : Normal redistributing : No balanced : No
- 观察3命令执行结果中“ [ Coordinator State ]”部分(假如集群数据目录是“/srv/BigData”):
- 若显示的Coordinator实例列表中不存在SimsTrainserver实例安装节点,请先参考产品文档“常见紧急故障修复”章节在SimsTrainserver实例安装节点上添加Coordinator实例。再执行6。
- 若SimsTrainserver实例安装节点的Coordinator实例状态不为“Normal”,请先参考产品文档“常见紧急故障修复”章节修复Coordinator实例。再执行6。
- 若SimsTrainserver实例安装节点的Coordinator实例状态为“Normal”,执行6。
[ Coordinator State ] node node_ip instance state --------------------------------------------------------------------------------------- 1 SZX1000071373 10.90.57.221 1 /srv/BigData/mppdb/data1/coordinator Normal 2 SZX1000071374 10.90.57.222 2 /srv/BigData/mppdb/data1/coordinator Normal 3 SZX1000071375 10.90.57.223 3 /srv/BigData/mppdb/data1/coordinator Normal
- 进入MPPDB的安装目录下,找到“simSearch/TrainServer/bin”目录。进入“simSearch/TrainServer/bin”目录下面执行sh monitor_trainServer.sh status命令:
- 若显示“[monitor_trainServer.sh] process status normal”,处理完毕。
- 若显示“[monitor_trainServer.sh] process status abnormal”,执行7。
- 执行脚本start_trainServer.sh,再进入MPPDB的安装目录下,找到“simSearch/TrainServer/bin”目录。进入“simSearch/TrainServer/bin”目录下面执行sh monitor_trainServer.sh status命令:
- 若显示“[monitor_trainServer.sh] process status normal”,执行8。
- 若显示“[monitor_trainServer.sh] process status abnormal”,执行9。
- 等待3分钟,查看告警是否仍然存在。
- 是,执行9。
- 否,处理完毕。
收集故障信息。
- 在FusionInsight Manager界面,单击“运维 > 日志 > 下载”。
- 在“服务”列表框中勾选“MPPDB”。
- 单击右上角的
设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后1小时,单击“下载”。
- 请联系技术支持,并发送已收集的故障日志信息。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
无。
- 观察3命令执行结果中“ [ Coordinator State ]”部分(假如集群数据目录是“/srv/BigData”):
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。