英特爾放棄同時封裝 CPU、GPU、內存計劃

作者：時間：2023-05-26 來源：半導體產業縱橫

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

英特爾將 CPU、GPU 和內存芯片拼接在一個稱為 XPU 的單一封裝上的宏偉計劃已經暫緩。英特爾超級計算集團副總裁杰夫·麥克維 (Jeff McVeigh) 透露，該公司的 Falcon Shores 平臺不僅會遲到，而且不會是一個 XPU。

本文引用地址：http://www.j9360.com/article/202305/447026.htm

英特爾最初計劃其 Falcon Shores 芯片同時具有 GPU 和 CPU 內核，從而創建該公司的第一個用于高性能計算的「XPU」。幾個月前英特爾宣布這款產品將轉向純 GPU 設計并將芯片推遲到 2025 年，這讓行業感到震驚——因為另外兩家處理器巨頭 AMD 的 Instinct MI300 和英偉達的 Grace Hopper 都具有混合 CPU+GPU 設計。

麥克維說：「之前將 CPU 和 GPU 集成到 XPU 中的努力還為時過早，」他認為，自從 Falcon Shores 詳細介紹以來，市場在這一年發生了巨大變化，以至于繼續進行下去不再有意義。麥克維將這種選擇比作登山。「當在登山的時候，如果天氣變壞，你感覺不對，你不會僅僅因為它在那里就去頂峰。你會推遲到當你準備好了，當生態系統準備好了，當氣候準備好了。」

根據麥克維的說法，當今的 AI 和 HPC 工作負載過于動態，無法進行集成。「當工作負載固定時，當你非常清楚它們不會發生巨大變化時，集成就很棒，」他補充道。雖然 Falcon Shores 不會成為 XPU，但這并不意味著英特爾不會在適當的時候重啟該項目。

英特爾發布了新的 HPC 和 AI 路線圖，其中沒有顯示 Gaudi3 處理器的繼任者——相反，Gaudi 和 GPU 與 Falcon Shores GPU 合并，因為它繼承了英特爾首屈一指的 HPC 和 AI 芯片。英特爾表示，「計劃整合 Habana 和 AXG 產品 [GPU] 路線圖」，但整合的細節很少。

采用標準以太網交換，很像英特爾專注于 AI 的 Gaudi 架構，數量不詳的 HBM3 內存，以及「I/O 旨在擴展」，這可能意味著 Falcon Shores 將配備不同的內存容量選項。英特爾確實表示 Falcon 將配備高達 288GB 的 HBM3 和 9.8TB/s 的總內存吞吐量。正如預期的那樣，它將支持較小的數據類型，如 FP8 和 BF16。

對于英特爾來說，英特爾放慢 GPU 發布節奏意味著它將不得不利用舊產品與英偉達和 AMD 的混合架構產品競爭。

AMD MI300

1 月，AMD 展示了其迄今為止對加速處理單元 (APU) 的最佳外觀，這是 AMD 對 CPU-GPU 架構的專業術語。

根據 AMD 在 1 月份分享的封裝照片，該芯片將配備 24 個 Zen 4 內核——與 11 月份在 AMD 的 Epyc 4 Genoa 平臺中使用的相同——分布在兩個由六個 GPU 芯片和八個高帶寬內存組成的小芯片上模塊總共有 128GB。

在性能方面，AMD 聲稱該芯片提供的「AI 性能」是 Frontier 超級計算機中使用的 MI250X 的 8 倍，同時每瓦性能也提高了 5 倍。根據 The Next Platform 的說法，考慮到對具有稀疏性的 8 位浮點 (FP8) 數學的支持，這將使該芯片的性能與四個 MI250X GPU 相當，并且可能使該芯片功耗處于 900W 左右如果屬實，那么 MI300A 將成為一款很「熱」的芯片，幾乎肯定需要液體冷卻才能馴服。對于 HPC 系統來說，這應該不是問題，其中大部分已經使用直接液體冷卻，但可能會迫使遺留數據中心升級其設施，否則就有可能被拋在后面。

英偉達 Grace Hopper

從技術上講，AMD 并不是唯一一家為數據中心追求 CPU-GPU 組合架構的公司。AMD 將與英偉達的 Grace Hopper 芯片展開競爭。

MI300 和 Grace Hopper 是截然不同的路線。英偉達解決這個特殊問題的方法是使用其專有的 900GBps NVLink-C2C 互連將其 72 核 Arm 兼容的 Grace CPU 與 GH100 芯片配對。雖然這消除了 PCIe 作為兩個組件之間的瓶頸，但它們是不同的，每個都有自己的內存。GH100 芯片有自己的 HBM3 內存，而 Grace GPU 耦合到 512GB 的 LPDDR5，適用于 500GBps 的內存帶寬。

另一方面，MI300A 看起來是一個誠實的 APU，能夠尋址相同的 HBM3 內存，而無需通過互連來回復制它。

哪種方法會帶來更好的性能，哪些工作負載尚未得到解決，但唯一確定的事英特爾不會在這場戰斗中占據一席之地。

英特爾表示，它將利用 CXL 接口，使其客戶能夠利用可組合的架構，該架構可以在其定制設計中將各種 CPU/GPU 比率結合在一起。然而，CXL 接口僅在元素之間提供 64 GB/s 的吞吐量，而像 Nvidia 的 Grace Hopper 這樣的定制 CPU+GPU 設計可以在 CPU 和 GPU 之間提供高達 1 TB/s 的內存吞吐量。對于許多類型的工作負載——尤其是需要大量內存帶寬的 AI 工作負載，這比 CXL 實現具有性能和效率優勢。更不用說元素之間固有的低延遲連接和其他優勢，如更高的性能密度。