
cell节点RIAD卡故障是exadata常见的问题之一,本文通过故障现象及故障处理过程进行展示。

1. 设备当前状态
Exadata X3-2 cell03节点异常,不能提供服务。InfiBand卡指示灯不亮,当前cell03已关闭。

连接显示器,cell03界面,提示RAID卡相关组件故障,需要进行更换。

cell 03的LIOM web界面不能登录,使用ssh登录LIOM,执行show faulty,显示没有报错。

当前RAID卡外置BBU


2. 故障原因
经判断为RAID组件异常,需要更换RAID卡。

3. RAID更换步骤
1) 工具准备
序号 | 项目 | 数量 | 备注 |
1 | 防静电手环 | 1个 | |
2 | 十字螺丝刀 | 1把 | |
3 | USB键盘 | 1个 | |
4 | VGA显示器 | 1个 | |
5 | 人员 | 1人 | 2人较佳 |
2) 确认故障cell目前已关机
3) 记录后面板网线、infiband线、电源线等连接位置,有标签时,确保标签正确
4) 拔下电源断电,设备从后往前推,完整漏出上面板
5) 拆下上面板
6) 找到RAID卡位置
首先找到BBU位置

通过BBU上连线找到RAID位置

拨开面板外绿色卡托,拔下故障RAID卡。
7) 更换RAID电池
将故障RAID上的电池拆下,更换到新的RAID卡上。
下图仅作参考,实际可能有差异,详情以实际为准。

图 带电池的RAID

图 不带电池的RAID卡

图 RAID卡示意图
8) 将新RAID卡插入到故障cell节点
9) 正确连接原有线路:网线、InfiBand、电源线等
10) 电源接通约3分钟左右,该cell节点LIOM加电完成,声音明显变大,此时按前面板电源键,系统加电
11) 导入RIAD配置
正常启动时,会提示按F导入外部配置或按C加载配置功能,此处选择F,系统会自动将磁盘的RIAD信息同步到新RAID上。

注:该界面需要注意是否有其它错误提示。
12) 正常启动
约1分钟自动导入完成后,系统会自动重启,然后会引导操作系统完成启动。

4. 参考
1388322.1 | How to Replace a Faulty RAID HBA on an Exadata server (V2 - X4-2/X4-8) |
不足之处,还望抛砖。
作者:王坤,微信公众号:rundba,欢迎转载,转载请注明出处。
如需公众号转发,请联系wx: landnow。
文章转载自rundba,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




