问题描述
在安装Centos7操作系统后,R6500 G4服务器风扇转速达到100%,GPU信息获取不正常。
GPU型号:Nvidia Tesla T4 GPU卡,系统版本:3.10.0-1062.el7.x86_64,如下图所示。

服务器固件信息,如下图所示。

风扇转速100%,如下图所示。

BMC获取GPU信息异常,如下图所示。

适用产品
R6500 G4
原因分析
R6500 G4服务器风扇转速达到100%的原因是BMC获取GPU温度失败。
BMC带外显示GPU信息异常原因如下:
nouveau驱动是系统自带的显卡驱动,不区分型号,但与许多NVIDIA卡相冲突,比如T4、RTX3080等,所以导致带外信息读取异常,安装NVIDIA驱动时也需要禁用nouveau驱动。但是nouveau驱动与个别NVIDIA卡不冲突,比如A100。
注意:
R6500 G4服务器风扇转速由BMC控制,由于上述问题中GPU温度获取异常,导致BMC将风扇转速提升到100%。
解决方案
禁用操作系统自带的显卡驱动: 进入操作系统,切换root用户,创建以下执行文本: 执行以下命令,禁用nouveau。 vi etc/modprobe.d/blacklist-nouveau.conf 按“Insert”键,在文件中插入如下内容:
按“ESC”键后,输入“:wq”保存退出。
执行以下命令,使配置生效。
sudo dracut --force
执行以下命令,重启服务器。
reboot
执行以下命令,查看是否nouveau是否自带驱动。
lsmod |grep -i nouveau
根据客户对GPU的用途选择显卡驱动安装。
*说明:NVIDIA驱动有好几种,取决于客户服务器的用途。如果需要安装NVIDIA驱动,需要跟客户确认需要安装的驱动版本。
Blacklkis nouveau
Options nouveau modeset=0

我们是一群平均从业年限5+的通信专业工程师。 关注我们,带你了解通信世界的精彩!
文章转载自中兴文档,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。





