本故障是沐曦GPU-C500X-64GB
但大部分型號沐曦GPU都涉及該問題
正常異常卡展示:
13 Normal GPU-C500X-64GB Metax AUNA2415000290
14 Normal GPU-C500X-64GB Metax N/A
基本信息:
(1)mx命令輸出展示:
mx-smi
mx-smi version: 2.1.10
No available devices were discovered
(2)正常異常卡展示:
帶內
13 Normal GPU-C500X-64GB Metax AUNA2415000290
14 Normal GPU-C500X-64GB Metax N/A
帶外
(3)係統下使用LSPCI檢查GPU識別數量正常
交叉測試
再次更換GPU依舊是新GPU在係統下不可用
經測試分析,發現新GPU不是發生了DOA,調查發現出廠時候GPU的固件版本是1.71.0,我司備件也同樣是這個版本
客戶現場GPU固件版本是1.20.3
該故障原因是固件版本不匹配導致
需要將GPU固件版本保持一致,但是因為新換上去的GPU不可用所以正常方式無法刷新固件,可使用如下方法刷新固件
1.將原有GPU全部拔下來,僅留下備件的GPU此時GPU便會正常識別可用,之後再進行正常刷新固件
2.如果mx-Sm1 -l命令新GPU顯示NotAvailable(please update vbios)那麼也可以直接升級固件,如果僅僅顯示Not Available,那麼需要使用metalink_train 0這個命令,使GPU變為上述please update vbios狀態再升級固件
該案例暫時沒有網友評論
✖
案例意見反饋
親~登錄後才可以操作哦!
確定你的郵箱還未認證,請認證郵箱或綁定手機後進行當前操作