四篇技術論文，英特爾在Hot Chips 2024大會上展示AI架構新進展

—— 英特爾至強 6系統集成芯片和Lunar Lake處理器，以及英特爾? Gaudi 3 AI加速器和OCI（光學計算互連）技術，領銜大會技術展示亮點

作者：時間：2024-08-28 來源：EEPW

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

近日，在2024年Hot Chips大會上，英特爾展示了其技術的全面與深度，涵蓋了從數據中心、云、網絡和邊緣到PC的各個領域AI用例，并介紹了其業界領先且完全集成的OCI（光學計算互連）芯粒，可用于高速AI數據處理。此外，英特爾還披露了關于英特爾^? 至強^? 6系統集成芯片（代號Granite Rapids-D）的最新細節，該產品預計將于2025年上半年發布。

本文引用地址：http://www.j9360.com/article/202408/462423.htm

英特爾網絡與邊緣事業部首席技術官Pere Monclus表示：“針對各種消費和企業級AI的應用場景，英特爾不斷提供其創新所需的平臺、系統和技術。隨著AI工作負載不斷增長，英特爾廣泛的行業經驗使我們能夠了解客戶的真正需求，以此推動創新、創意和理想商業成果落地。盡管性能更高的芯片和更高的平臺帶寬至關重要，但英特爾深知每種工作負載都有其獨特的挑戰。因此，為數據中心設計的系統不能簡單地被重新應用于邊緣。英特爾在所有計算系統架構方面所擁有的經過驗證的專業知識，將更好地為下一代AI創新提供動力。”

在Hot Chips 2024大會上，英特爾發表了四篇技術論文，重點介紹了英特爾? 至強? 6系統集成芯片、Lunar Lake客戶端處理器、英特爾^? Gaudi 3 AI加速器以及OCI（光學計算互連）芯粒。

為邊緣而生：下一代英特爾^? 至強^? 6系統集成芯片

英特爾院士、網絡與邊緣芯片架構師Praveen Mosur公布了英特爾? 至強? 6系統集成芯片設計的最新細節，以及它如何能夠解決邊緣使用場景中存在的特定挑戰，例如網絡連接的不穩定以及有限的空間和電力。得益于從全球超過9萬次1邊緣部署中獲得的經驗，英特爾? 至強? 6系統集成芯片將成為英特爾迄今為止針對邊緣場景優化程度最高的處理器。通過從邊緣設備擴展到邊緣節點使用單一系統架構和集成AI加速能力，企業可以更輕松、高效、安全地管理從數據攝取到推理的整個AI工作流程，從而幫助改善決策、提高自動化水平，并為其客戶創造價值。

英特爾? 至強? 6系統集成芯片結合了英特爾? 至強? 6處理器的計算芯粒，以及采用了Intel 4制程工藝的針對邊緣進行了優化的I/O芯粒，使該系統集成芯片在性能、能效和晶體管密度方面與前代系統集成芯片相比獲得了顯著提升。英特爾? 至強? 6系統集成芯片的其它特性還包括：

● 支持高達32條PCI Express（PCIe）5.0通道。

● 支持多達16條Compute Express Link（CXL）2.0通道。

● 擁有2x100G以太網。

● 在兼容的BGA封裝中提供4個或8個內存通道。

● 擁有專為邊緣環境優化的特性，包括更大的運行溫度范圍和工業級可靠性，使其成為高性能耐用設備的理想選擇。

英特爾^? 至強^? 6系統集成芯片還包括了用于提高邊緣和網絡工作負載的性能和效率的功能特性，包括：新的媒體加速功能，可增強實時OTT、點播（VOD）和廣播媒體的視頻轉碼和分析；英特爾^? 高級矢量擴展和英特爾^? 高級矩陣擴展（英特爾? AMX），可提高推理性能；英特爾^? 快速輔助技術（英特爾^?QAT），可實現能效更高的網絡和存儲性能；英特爾^? vRAN Boost，可降低虛擬化RAN的功耗；以及支持英特爾^?Tiber? 邊緣平臺，該平臺使用戶能夠在標準硬件上構建、部署、運行、管理和擴展邊緣和AI解決方案，具有類似云的簡潔性。

Lunar Lake：驅動下一代AI PC

英特爾客戶端CPU SoC首席架構師Arik Gihon討論了Lunar Lake客戶端處理器，以及它如何為x86架構的能效樹立新標桿，同時提供出色的核心、圖形和客戶端AI性能。新的性能核（P核）和能效核（E核）所提供的出色性能，使SoC的功耗相比上一代最多降低了40%。新的神經網絡處理單元（NPU）速度提升多達4倍，與上一代相比，使生成式AI能力也獲得了相應提升。此外，與前代產品相比，全新的Xe2圖形處理單元核心將游戲和圖形性能提高了1.5倍。

即將于9月3日舉行的英特爾酷睿Ultra發布會將公布有關Lunar Lake的更多細節。

英特爾^? Gaudi 3 AI加速器：針對生成式AI的訓練和推理而設計

AI加速器首席架構師Roman Kaplan指出，生成式AI模型的訓練與部署對算力提出了極為嚴苛的要求。隨著系統規模從單節點擴展至數千節點的龐大集群，這使得成本與能效也迎來巨大挑戰。

英特爾^? Gaudi 3 AI加速器能夠有效應對上述挑戰。該加速器通過創新的架構——優化的計算、內存和網絡架構，高能效矩陣乘法引擎、兩級緩存集成，以及廣泛的RoCE網絡（以太網融合RDMA技術）等策略，使得Gaudi 3 AI加速器能夠實現卓越的性能與能效，助力AI數據中心以低成本、可持續的方式運行，并解決了部署生成式AI工作負載時的擴展性問題。

英特爾將在今年9月分享Gaudi 3 AI加速器和未來英特爾至強6產品的更多信息。

傳輸速度高達4 Tbps的光學計算互連（OCI）芯粒，用于XPU之間的連接

英特爾硅光集成解決方案（IPS）團隊展示了業界領先、完全集成的OCI芯粒與英特爾CPU封裝在一起時，運行真實數據的情況。

硅光集成解決方案事業部光子芯片架構師Saeed Fathololoumi介紹了這一OCI芯粒及其設計。該芯粒可在最長可達100米的光纖上，單向支持64個32 Gbps通道。Fathololoumi還討論了該芯粒如何滿足AI基礎設施對更高帶寬、更低功耗和更長傳輸距離日益增長的需求。英特爾的OCI芯粒推動了高帶寬互連技術的進步，將有助于實現可擴展的CPU和GPU集群連接以及新型計算架構，包括新興AI基礎設施中的一致性內存擴展及資源解耦，適用于數據中心和HPC（高性能計算）應用。

AI讓企業和消費者有機會更快地推進創新。例如，消費者現在可以選擇AI PC，通過智能化功能提高效率、創造力、游戲和娛樂體驗以及安全性，而企業則可以利用強大的邊緣計算和AI來改善決策，提高自動化水平，并從專有數據中獲取價值。

在Hot Chips 2024的深度技術研討會上，英特爾的不同產品團隊還展現了獨到的技術洞見，以共同推動下一代AI技術的市場化進程。

免責聲明：

性能因使用方式、配置和其他細節而異。

1 英特爾內部數據。