暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

R6500 G4服务器Nvidia Tesla T4 GPU驱动不兼容,导致BMC获取GPU信息失败和风扇转速拉满问题的解决方法

中兴文档 2022-09-20
498


问题描述


在安装Centos7操作系统后,R6500 G4服务器风扇转速达到100%,GPU信息获取不正常。

GPU型号:Nvidia Tesla T4 GPU卡,系统版本:3.10.0-1062.el7.x86_64,如下图所示。


服务器固件信息,如下图所示。


风扇转速100%,如下图所示。


BMC获取GPU信息异常,如下图所示。



适用产品


R6500 G4


原因分析


  1. R6500 G4服务器风扇转速达到100%的原因是BMC获取GPU温度失败。

  2. BMC带外显示GPU信息异常原因如下:

    nouveau驱动是系统自带的显卡驱动,不区分型号,但与许多NVIDIA卡相冲突,比如T4、RTX3080等,所以导致带外信息读取异常,安装NVIDIA驱动时也需要禁用nouveau驱动。但是nouveau驱动与个别NVIDIA卡不冲突,比如A100。


注意:

R6500 G4服务器风扇转速由BMC控制,由于上述问题中GPU温度获取异常,导致BMC将风扇转速提升到100%。


解决方案


  1. 禁用操作系统自带的显卡驱动:
    进入操作系统,切换root用户,创建以下执行文本:
    1. 执行以下命令,禁用nouveau。
      vi etc/modprobe.d/blacklist-nouveau.conf
    2. 按“Insert”键,在文件中插入如下内容:

    3. Blacklkis nouveau

      Options nouveau modeset=0

    4. 按“ESC”键后,输入“:wq”保存退出。

    5. 执行以下命令,使配置生效。

      sudo dracut --force

    6. 执行以下命令,重启服务器。

      reboot

    7. 执行以下命令,查看是否nouveau是否自带驱动。

      lsmod |grep -i nouveau

  2. 根据客户对GPU的用途选择显卡驱动安装。

    *说明:NVIDIA驱动有好几种,取决于客户服务器的用途。如果需要安装NVIDIA驱动,需要跟客户确认需要安装的驱动版本。


我们是一群平均从业年限5+的通信专业工程师。
关注我们,带你了解通信世界的精彩!
文章转载自中兴文档,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论