那我就不買(mǎi)了!5090被曝虛擬化故障,云服務(wù)商懸賞1000美元解決問(wèn)題

電競體育9月8報道?GPU 計算云服務(wù)提供商 CloudRift 在上個(gè)月發(fā)布公告,GeForce RTX 5090 和 RTX PRO 6000 已被證實(shí)存在可復現的虛擬化故障,導致顯卡無(wú)法使用,直到整個(gè)系統重新上電,將懸賞 1000 美元(約 7128 元人民幣)解決這個(gè)問(wèn)題。
CloudRift 表示,在一些配備 RTX 5090 和 RTX PRO 6000 顯卡的節點(diǎn)上,這些顯卡偶爾會(huì )完全無(wú)響應 —— 通常在使用虛擬機幾天后,或在啟動(dòng) / 關(guān)閉過(guò)程中看似隨機的時(shí)間點(diǎn)。一旦發(fā)生這種情況,顯卡就無(wú)法重新分配。唯一的解決辦法是重啟整個(gè)節點(diǎn)。
CloudRift 已經(jīng)排除了大多數常見(jiàn)問(wèn)題:IOMMU 的 quirks、內核版本、驅動(dòng)綁定以及 libvirt 的配置錯誤。該公司的 H100s、B200s 和較舊的 RTX 4090 都在運行穩定,但這些較新的 RTX 顯卡給他們帶來(lái)了大麻煩。
據 Tom's Hardware 昨日報道,Proxmox 論壇和 Level1Techs 上的用戶(hù)也報告了類(lèi)似的問(wèn)題。在其中一個(gè)案例中,Windows 虛擬機關(guān)閉后系統掛起,即使操作系統重啟后 GPU 也無(wú)法重新初始化。另一位用戶(hù)描述了 Linux 虛擬機關(guān)閉時(shí) FLR 超時(shí)后主機 CPU 軟鎖,切換 PCIe ASPM 或 ACS 設置等嘗試未能解決問(wèn)題。