Nvidia 的 Blackwell AI GPU 過熱問題似乎被夸大了
據稱,有關 Nvidia 的 GB200 NVL72 服務器機架過熱的報道被夸大了。Business Insider 報道稱,Blackwell 的冷卻設計錯誤已經得到解決。據稱,Semianalysis 的首席分析師 Dylan Patel 告訴 Business Insider,已經存在了幾個月的 Blackwell 的設計問題已基本得到解決,并表示過熱問題在很大程度上被夸大了。
Semianalysis 的五位監控半導體行業的分析師報告說,觸發幾家供應商“返工”的冷卻系統問題是一個“微小”的變化。Blackwell 的冷卻故障在 Nvidia 的大型 72 芯片服務器機架上尤其存在問題,該機架的功耗高達 120kW。由于機架內部的 GPU 過熱,機架設計中的設計缺陷迫使 Nvidia 多次重新評估其設計。這阻礙了 Nvidia 的 GB200 硬件的出貨量,由于所需的設計更改而導致額外的延遲。
Nvidia 的 B200 GPU 是適用于 AI 工作負載的最強大處理芯片。例如,GB200 超級芯片具有數千瓦的可配置 TDP,峰值額定功率高達 2,700 瓦。這些荒謬的高功率數字使得空氣冷卻幾乎不可能在標準機架安裝外形尺寸的限制下使用。
這個物理問題迫使 Nvidia 要求在其最新的 Blackwell GPU 上進行液體冷卻。它還要求數據中心改造其服務器場,以適應支持液冷服務器所需的基礎設施。
Nvidia 可以通過創建速度較慢的風冷 GPU 來解決這個問題——GPU 制造商仍然以 H200 NVL 等 GPU 的形式這樣做。然而,為了保持在 AI GPU 軍備競賽的最前沿,Nvidia 不惜一切代價優先考慮性能,這就是為什么該公司選擇以犧牲風冷為代價制造需要數千瓦功率的 GPU。
好消息是,Nvidia 的 72 芯片 Blackwell 冷卻問題顯然很小,并且已經基本得到解決。此外,只有 Nvidia 的旗艦 72 芯片服務器機架存在問題。
評論