a一级爱做片免费观看欧美,久久国产一区二区,日本一二三区免费,久草视频手机在线观看

新聞中心

EEPW首頁 > 網絡與存儲 > 市場分析 > 對內存的重新思考

對內存的重新思考

作者:Semiconductor Engineering 時間:2024-02-19 來源:半導體產業縱橫 收藏

Semiconductor Engineering 與 Cadence 產品管理部門集團總監 Frank Ferro 討論了日益異構的系統中的發展之路。參與討論的還有:Rambus 的研究員和杰出發明家 Steven Woo;西門子 EDA 的技術專家 Jongsin Yun;是德科技解決方案項目經理 Randy White;以及 Arteris 解決方案和業務發展副總裁 Frank Schirrmeister。以下是這次談話的摘錄。

本文引用地址:http://www.j9360.com/article/202402/455474.htm

SE:在我們努力處理 AI/ML 和能源需求時,哪些配置需要重新思考?我們是否會看到從馮諾依曼結構向其他結構的轉變?

Woo:關于系統架構,業界正在發生分歧。我們在基于 x86 的服務器上運行的傳統應用程序負載著主要的工作,還不會消失。已經建立和發展了幾十年的軟件依賴于該架構才能發揮良好的性能。相比之下,AI/ML 屬于一個新的類別。人們已經重新思考了架構,并構建了非常特定于領域的處理器。我們看到大約三分之二的能量用于處理器與 (High Bandwidth Memory,高帶寬存儲器)之間移動數據,而僅有約三分之一的能量消耗在實際訪問 DRAM 核心的數據位上。如今,數據遷移變得更具挑戰性且成本更高。我們不會擺脫內存。隨著數據集的不斷擴大,我們需要內存。因此,問題是,「未來正確的發展方向是什么?」關于堆疊有很多討論。如果我們將存儲器直接放在處理器的頂部,它會完成兩件事。首先,今天的帶寬受限于芯片外圍或邊緣,那是 I/O(輸入輸出)的位置。但是,如果將存儲器直接堆疊在處理器頂部,現在您可以將芯片的整個區域用于分布式互連,并且可以獲得更多存儲器本身的帶寬,它可以直接輸入到處理器中,鏈路變得更短了,功率效率可能提高 5 倍至 6 倍。其次,由于更多區域陣列互連到存儲器,可獲得的帶寬也會提高數倍。將這兩者結合起來可以提供更多帶寬并提高功率效率。行業的發展需要滿足各種需求,這肯定是未來我們會看到存儲系統開始發展的方式之一,以使其變得更節能并提供更多帶寬。

Ferro:當我大約在 2016 年開始研究 時,一些思想先進的客戶詢問是否可以將其堆疊。他們已經研究了一段時間如何在頂部堆疊 DRAM,因為這樣具有明顯的優勢。從物理層來看,PHY 基本上可以忽略不計,這可以節省大量的能源和效率。但是現在,在頂部有存儲器的處理器功率已經達到幾百瓦。存儲器無法承受熱量。它可能是熱鏈中最薄弱的環節,這又帶來了另一個挑戰。雖然有一定的好處,但仍然需要找出如何處理熱量的問題。現在有更多動力推動這種新架構的發展,因為它在性能和功耗方面確實節省了總體成本,并提高了計算效率。但是還有一些物理設計挑戰需要解決。正如 Steve 所說,「我們看到了各種各樣的新架構」。我完全同意 GPU/CPU 架構不會消失,并且仍將占據主導地位。與此同時,全球每個公司都試圖為他們的 AI 找到更好的方案。我們看到了片上 SRAM 和 的組合。如今,LPDDR 在數據中心中的應用日漸增多,原因是功耗問題。我們甚至看到 GDDR 被用于一些 AI 推理應用,以及其他所有的舊內存系統。現在他們試圖盡可能在一個指定面積內擠壓 DDR5。我已經看過你能想到的所有架構,無論是 DDR、HBM、GDDR 還是其他架構。這取決于你的處理器核心,你的整體附加值是多少,然后如何突破你特定的架構。與之相關的內存系統,這樣你就可以根據可用的內容設計出 CPU 和存儲器架構。

Yun:另一個問題是非易失性。例如,如果 AI 必須處理物聯網(IoT)基礎設施中運行的 AI 的電力間隔問題,那么我們就需要不斷地關閉和啟動電源,所有這些用于 AI 訓練的信息都需要反復傳輸。如果我們有某種解決方案可以將這些權重數據存儲到芯片中,我們就不必總是為相同的權重進行來回調整,那么它將為特別是基于物聯網的 AI 節省大量的電力。還會有其他解決方案來幫助滿足這些電力需求。

Schirrmeister:從 NoC(片上網絡)的角度來看,我覺得非常有趣的是,你必須優化從處理器通過 NoC 訪問存儲器接口的路徑,處理器可能通過 UCIe 將一個小芯片傳遞給另一個小芯片,這個小芯片中包含存儲器。馮諾依曼架構并非已經消失。但現在有很多不同的變體,取決于你想計算的工作負載。它們需要在內存的背景下進行考慮,而這只是一個方面。數據在 DRAM 中如何安排?我們正在處理所有這些問題,比如存儲器的性能分析,然后優化系統架構。這激發了很多新架構的創新,這是我在大學學習馮諾依曼架構時從未想過的。在另一端的極端,你會看到類似于網格的東西。現在有更多的架構需要在其中進行考慮,這是由存儲器帶寬、計算能力等不以相同速度增長所驅動的。

White:有一種趨勢涉及到分解計算或分布式計算,這意味著架構師需要具備更多的工具。內存層次結構已經擴展了,語義也被納入考慮,還有 CXL(Compute Express Link)和不同的混合存儲器,這些混合存儲器可用于閃存和 DRAM 中。數據中心的一個并行應用是汽車行業。汽車一直具有傳感器計算和 ECU(電子控制單元)。我對它是如何演變到數據中心感到非常好奇。快進到今天,我們有分布式計算節點,稱為域控制器。這與以往相同。它試圖解決這樣一個問題,即由于計算機的規模沒有那么大,功率可能不是一個大問題,但延遲對于汽車來說肯定是一個大問題。ADAS(高級駕駛輔助系統)需要超高帶寬,你會遇到不同的需要權衡的問題。你會有更多的機械傳感器,但在數據中心有類似的限制。你可以擁有不需要低延遲的冷存儲,還有其他高帶寬應用。看到架構師的工具和選擇是如何發展的,這確實令人著迷。行業在應對這些問題方面做得非常好,我們所有人都提供各種解決方案以滿足市場需求。

SE:內存設計工具是如何發展的?

Schirrmeister:當我在 90 年代開始做我的第一批芯片時,最常用的系統工具是 Excel。從那時開始,我一直希望它能在某一點上系統級、內存、帶寬分析等方面有所突破。這對我的團隊影響很大。那時候這是非常先進的東西。但是,正如 Randy 所說,現在某些復雜的事物需要以之前在計算機上不可能實現的保真度進行模擬。舉一個例子,DRAM 訪問的某個延遲可能導致錯誤的架構決策,并可能錯誤地設計片上數據傳輸架構。從另一方面看也是這樣的。如果你總是假設最壞的情況,那么你將過度設計架構。讓工具執行 DRAM 和性能分析,并為控制器提供合適的模型,可以讓架構師模擬所有這些,這是一個令人著迷的環境。我從 90 年代就希望 Excel 作為一個系統級工具在某一天會失效,這個夢想可能會成真,因為某些動態效果你無法再在 Excel 中實現,你需要模擬它們,特別是當您引入具有 PHY 特性的芯片間接口時,以及其他鏈路層特性,比如檢查數據是否都正確并可能重新發送數據。不進行這些模擬將導致次優的架構。

Ferro:我們進行的大多數評估的第一步是提供內存測試臺,讓他們開始檢查 DRAM 的效率。即使是執行像運行本地工具進行 DRAM 仿真的簡單操作(但接下來會進入全面的仿真模擬),這也是一個巨大的步驟。我們發現越來越多的客戶要求進行這種類型的仿真。確保 DRAM 效率保持在 90% 以上是任何評估的非常重要的第一步。

Woo:全系統仿真工具興起的部分原因是,DRAM 變得越來越復雜。現在,使用 Excel 等簡單工具處理一些復雜的工作負載非常困難。如果你回顧 90 年代 DRAM 的數據表,可以發現那些數據表只有 40 頁左右。現在,它們有數百頁。這說明了為了獲得高帶寬輸出,設備的復雜性急劇上升。再加上內存在系統成本方面是驅動力,以及與處理器性能相關的帶寬和延遲。內存也是功耗的一個重要驅動因素,因此現在你需要進行更詳細的仿真模擬。在工具流方面,系統架構師了解內存是一個巨大的驅動力。因此,工具需要更加復雜,并且需要與其他工具很好地配合,以便系統架構師能夠獲得最佳全局視角,了解正在發生的情況——特別是內存如何影響系統。

Yun:隨著我們進入 AI 時代,使用了很多多核系統,但我們不知道哪些數據放在哪里。芯片也越來越與其并行。內存的大小要大得多。如果我們使用 ChatGPT 類型的 AI,那么模型的數據處理需要大約 350MB 的數據,僅作為權重就是大量的數據,實際的輸入/輸出則更大得多。所需數據量的增加意味著有很多我們以前沒見過的概率效應。觀察與這大量內存相關的所有錯誤是一項極具挑戰性的測試。ECC(糾錯碼)已廣泛應用,甚至在 SRAM(靜態隨機存取存儲器)中也應用了 ECC,盡管傳統上 SRAM 并未使用 ECC,但現在在大型系統中非常常見。測試所有這些非常具有挑戰性,并需要由 EDA 解決方案提供支持,以測試所有這些不同的條件。

SE:工程團隊日常面臨哪些挑戰?

White:在任何一天,你都會發現我在實驗室。我卷起袖子,弄臟雙手,戳線,焊接等等。我經常思考關于硅后驗證的問題。我們討論了早期模擬和片上工具——BiST(內建自檢)等。歸根結底,在出貨前,我們要進行某種形式的系統驗證或設備級測試。我們討論如何克服內存墻。我們將內存、HBM 等進行了共同定位。回顧封裝技術的演變,我們從鉛封裝開始。它們不能很好地保證信號完整性。幾十年后,我們轉向優化信號完整性,如球柵陣列(BGAs)。但我們無法訪問它,這意味著無法對其進行測試。因此,我們提出了一種稱為設備中介層(BGA 中介層)的概念,并允許我們在特殊夾具之間進行信號的層疊和外接。然后我們可以將其連接到測試設備。快進到今天,現在我們有了 HBM 和芯片。對于硅中介層之間的夾具,該如何層疊安裝?我們無法做到,這確實是一個難題。這是一個讓我徹夜難眠的挑戰。當 OEM 或系統客戶不能獲得 90% 的效率時,如何在現場進行故障分析?鏈路中存在更多的錯誤,它們無法正確初始化,訓練無法正常進行。這是系統完整性問題嗎?

Schirrmeister:與其去實驗室,你難道不更愿意在家使用虛擬界面完成這些工作嗎?解決方案難道不是將更多分析技術構建到芯片中嗎?通過芯片,我們將所有組件進一步集成在一起。將焊接鐵放在這個地方并不現實,因此需要一種片上分析的方法。我們在 NoC 上也面臨著同樣的問題。人們查看 NoC,你發送數據后它們就消失了。我們需要將分析添加到其中,以便人們可以進行調試,并將這種分析擴展到制造水平,這樣你最終就可以在家中通過芯片分析方法完成所有工作。

Ferro:尤其是在有高帶寬存儲器的情況下,你無法從物理上進入其中。當我們授權 PHY 時,我們還會提供一個與之搭配的產品,以便你可以關注其中的每一位數據(共 1024 位)。你可以用該工具開始讀取和寫入 DRAM,而無需在物理上進入其中。我喜歡中介層的想法。在測試過程中,我們確實從中介層中引出了一些引腳,但在系統中無法實現。進入這些 3D 系統確實具有挑戰性。即使從設計工具流程的角度來看,似乎大多數公司都在很多 2.5D 工具上進行自己單獨的流程。我們正在開始用一種更標準化的方式來構建一個 2.5D 系統,從信號完整性、功率到整個流程。

White:隨著事物進入芯片內部,我希望我們仍能保持同樣等級的準確性。我是 UCIe 格式合規小組的成員。我正在研究如何刻畫一個可靠的優質芯片。最終,這需要更多的時間,但我們將在測試所需的性能和準確性以及固有的靈活性之間找到一個平衡點。

Schirrmeister:如果我考慮小芯片及其在更開放的生產環境中的應用,測試是使其正常工作的最大挑戰之一。如果我有一家大公司并且我可以控制所有方面,那么我可以適當限制事物以使測試等變得可行。如果我想要遵循 UCIe 的口號,即 UCI 距離 PCI 只有一個字母之遙,我可以設想,從制造角度看,未來 UCIe 組件將變得像今天 PC 上的 PCI 插槽一樣,那么測試方面確實具有很大的挑戰性。我們需要找到解決方案。我們還有很多工作要做。



關鍵詞: 內存 HBM

評論


相關推薦

技術專區

關閉