顛覆性的HBM4
一位業內人士表示,「『半導體游戲規則』可能在 10 年內改變,區別存儲半導體和邏輯半導體可能變得毫無意義」。
本文引用地址:http://www.j9360.com/article/202312/453899.htmHBM4,魅力為何如此?
技術的突破
2023 年,在 AI 技術應用的推動下,數據呈現出爆炸式的增長,大幅度推升了算力需求。據悉,在 AI 大模型領域,未來 AI 服務器的主要需求將從訓練側向推理側傾斜。而根據 IDC 的預測,到 2026 年,AIGC 的算力 62.2% 將作用于模型推理。同時,預計到 2025 年,智能算力需求將達到當前的 100 倍。
據悉,自 2015 年以來,從 HBM1 到 HBM3e 各種更新和改進中,HBM 在所有迭代中都保留了相同的 1024 位 (每個堆棧) 接口,即具有以相對適中的時鐘速度運行的超寬接口。然而,隨著內存傳輸速率要求不斷提高,尤其是在 DRAM 單元的基礎物理原理沒有改變的情況下,這一速度將無法滿足未來 AI 場景下的數據傳輸要求。為此,下一代 HBM4 需要對高帶寬內存技術進行更實質性的改變,即從更寬的 2048 位內存接口開始。
接口寬度從每堆棧 1024 位增加到每堆棧 2048 位,將使得 HBM4 具備的變革意義。
當前,生成式人工智能已經成為推動 DRAM 市場增長的關鍵因素,與處理器一起處理數據的 HBM 的需求也必將增長。未來,隨著 AI 技術不斷演進,HBM 將成為數據中心的標準配置,而以企業應用為重點場景的存儲卡供應商期望提供更快的接口。
根據 DigiTimes 援引 Seoul Economy 的消息:下一代 HBM4 內存堆棧將采用 2048 位內存接口。
將接口寬度從每堆棧 1024 位增加到每堆棧 2048 位將是 HBM 內存技術所見過的最大變化。自 2015 年以來,從 HBM1 到 HBM3e 各種更新和改進中,HBM 在所有迭代中都保留了相同的 1024 位 (每個堆棧) 接口。
采用 2048 位內存接口,理論上也可以使傳輸速度再次翻倍。例如,英偉達的旗艦 Hopper H100 GPU,搭配的六顆 HBM3 達到 6144-bit 位寬。如果內存接口翻倍到 2048 位,英偉達理論上可以將芯片數量減半到三個,并獲得相同的性能。
回顧 HBM 發展歷史,由于物理限制,使用 HBM1 的顯卡的內存上限為 4GB。然而,隨著時間的推移,SK 海力士和三星等 HBM 制造商已經改進了 HBM 的缺點。
HBM2 將潛在速度提高了一倍,達到每個堆棧 256GB/s,最大容量達到 8GB。2018 年,HBM2 進行了一次名為 HBM2E 的小更新,進一步將容量限制提高到 24GB,并帶來了另一次速度提升,最終達到峰值時的每芯片 460GB/s。
當 HBM3 推出時,速度又翻了一番,允許每個堆棧最大 819GB/s。更令人印象深刻的是,容量增加了近三倍,從 24GB 增加到 64GB。和 HBM2E 一樣,HBM3 看到了另一個中期升級,HBM3E,它將理論速度提高到每堆棧 1.2 TB/s。
在此過程中,HBM 在消費級顯卡中逐漸被更便宜的 GDDR 內存所取代。HBM 越發成為成為數據中心的標準配置,以企業應用為重點場景的存儲卡供應商們期望提供更快的接口。
有機遇就有挑戰
目前,HBM 主要是放置 CPU/GPU 的中介層上,并使用 1024bit 接口連接到邏輯芯片。SK 海力士目標是將 HBM4 直接堆疊在邏輯芯片上,完全消除中介層。HBM4 很可能與現有半導體完全不同,散熱問題也隨之而來。因此,要想為邏輯+存儲這一集成體散熱,可能需要非常復雜的方法,液冷和浸沒式散熱或是解決方案。
HBM 主要是通過硅通孔技術進行芯片堆疊,以增加吞吐量并克服單一封裝內帶寬的限制,將數個 DRAM 裸片像樓層一樣垂直堆疊。在 HBM4 技術實現上,一個模塊中堆疊更多的內存芯片的技術復雜性必然將進一步提高,主要難題在于需要增加硅通孔數量并縮小凸塊間距。
例如為了生產 HBM4 內存堆棧(包括 16-Hi 堆棧),三星需要完善 SangJoon Hwang 提到的幾項新技術。其中一項技術稱為 NCF(非導電薄膜),是一種聚合物層,可保護 TSV 的焊接點免受絕緣和機械沖擊。另一種是 HCB(混合銅鍵合),這是一種鍵合技術,使用銅導體和氧化膜絕緣體代替傳統焊料,以最大限度地減少 DRAM 器件之間的距離,并實現 2048 位接口所需的更小的凸塊。這不是一項簡單的工作。
入局
三星電子的技術團隊執行副總裁兼 DRAM 產品主管 SangJoon Hwang 在公司博客文章中寫道「展望未來,HBM4 預計將于 2025 年推出,其技術針對正在開發的高熱性能進行了優化,例如非導電薄膜 (NCF) 組裝和混合銅接合 (HCB),」。
盡管三星預計 HBM4 將于 2025 年推出,但其生產可能會在 2025-2026 年開始,因為業界需要為該技術做大量準備。與此同時,三星將為客戶提供數據傳輸速率為 9.8 GT/s 的 HBM3E 內存堆棧,每個堆棧的帶寬為 1.25 TB/s。
在封裝技術方面,三星采用了無凸點鍵合技術。無凸點鍵合是一種先進的封裝技術,它將芯片與芯片之間直接進行連接,無需使用傳統的微凸點鍵合。這種技術可以顯著提高內存的 I/O 速度和可靠性,同時降低了制造成本。
三星在無凸點鍵合技術上的突破得益于其在封裝領域的深厚積累和技術積累。通過不斷研發和創新,三星成功地將無凸點鍵合技術應用到 HBM4 內存的生產中,實現了銅層與銅層之間的直接互連。這種直接互連的方式可以大幅度提高內存的傳輸速度和穩定性,同時降低了功耗。
三星在 HBM4 內存技術的發展中展現了強大的研發實力和技術創新能力。通過工藝學習和封裝技術的創新,三星成功地將 FinFET 立體晶體管和無凸點鍵合技術應用到 HBM4 內存的生產中。這些新技術的應用使得 HBM4 內存具有更高的性能、更低的功耗和更低的制造成本。
今年早些時候,美光透露「HBMNext」內存將于 2026 年左右出現,提供 32GB 至 64GB 之間的每堆棧容量以及每堆棧 2 TB/s 或更高的峰值帶寬,較 HBM3E 的每堆棧 1.2 TB/s 顯著增加。要構建 64GB 堆棧,需要具有 32GB 內存設備的 16-Hi 堆棧。盡管 HBM3 規范也支持 16-Hi 堆棧,但到目前為止還沒有人宣布此類產品,而且看起來如此密集的堆棧只會通過 HBM4 進入市場。
11 月,據韓媒中央日報(Joongang.co.kr)報道,韓國內存芯片大廠 SK 海力士正計劃攜手英偉達(NVIDIA)開發全新的 GPU,擬將其新一代的高帶寬內存(HBM4)與邏輯芯片堆疊在一起,這也將是業界首創。SK 海力士已與英偉達等半導體公司針對該項目進行合作,據報道當中的先進封裝技術有望委托臺積電,作為首選代工廠。
SK 海力士目標是將未來的 HBM4 以 3D 堆疊的形式堆疊在英偉達、AMD 等公司的邏輯芯片上,預計該 HBM4 內存堆棧將采用 2048 位接口。

圖:SK 海力士 HBM4 計劃連接方式(來源:韓國中央日報)
外媒 Tom』s Hardware 指出,這種設計與 AMD V-Cache 類似,后者將一小塊 L3 緩存(cache)直接放在 CPU 頂部,新技術則是則將 GPU 所有 HBM 內存放在 GPU 頂部或幾個芯片的頂部。
這種技術優點是縮小封裝尺寸、提高容量和性能,但散熱將是最大問題。比如采用 V-Cache 的 AMD CPU,必須降低 TDP 和主頻,以補償 3D cache 產生的額外熱量,像英偉達 H100 這種數據中心 GPU,需要 80-96GB 的 HBM,在容量和熱量與 V-cache 完全難比擬。現在一塊計算中心計算卡的功耗可能是幾百瓦,即便只是 HBM 部分也相當耗電,要做好散熱可能需要非常復雜的方式。
另外,選擇這種集成方法也將改變芯片的設計和制造方式,存儲器與邏輯芯片將采用相同的工藝技術,而且會在同一間晶圓廠生產,確保最終的性能。如果僅考慮 DRAM 的成本,那么確實會有較大幅度的增長,所以各方都還沒有真正認真考慮這一方案。
據了解,SK 海力士正在與包括英偉達在內的芯片設計公司討論 HBM4 集成設計方案。SK 海力士和英偉達可能從一開始就進行了合作,而且會選擇在臺積電生產,將使用晶圓鍵合技術將 SK 海力士的 HBM4 堆疊在邏輯芯片上。
此前,SK 海力士的一位負責人曾強調,「最關鍵的作用是制造工廠(FAB)和封裝部門之間的緊密溝通,因為 HBM 需要在后處理方面進行先發制人的投資?!顾a充道:「SK 海力士已經能夠開發出與競爭對手不同的封裝技術,并從合作伙伴那里獲得長期獨家的關鍵材料?!?/p>
面對三星的競爭,SK 海力士并不擔心。「雖然三星電子可以通過同時提供存儲器和邏輯芯片工藝來引領 HBM 領域。」但 SK 海力士的一位負責人表示,「客戶不希望一家公司占據主導地位,他們目前重視英偉達、臺積電和 SK 海力士之間的合作。」
評論