?GPU芯片新技術出現,中國廠商值得借鑒
11 月 6 日,在創業三年,即將進入下一個三年之際,摩爾線程創始人兼 CEO 張建中給公司全體員工發了一封信。信中提到了很多關于過去三年研發工作的總結,以及未來發展規劃的內容,不過,這封信的核心內容是:摩爾線程將進行一次崗位優化,也就是裁員。
本文引用地址:http://www.j9360.com/article/202311/452786.htm對于這家中國本土新崛起的 GPU 芯片設計公司來說,最近幾年的形勢,使得擺在他面前的機遇和挑戰都顯得很凸出。
不僅摩爾線程,壁仞科技和沐曦集成電路也是近幾年中國本土表現非常凸出的 GPU 芯片創業公司,再加上老牌的景嘉微,以及其它幾家相關企業,把中國本土 GPU 技術和芯片產品市場熱度推向了一個新高度,在主動與被動之間,取得了明顯多于、快于 2018 年之前的成績。
然而,在市場和美國政策的雙重壓力下,特別是近期美國政府將壁仞科技和摩爾線程列入了實體清單,使得它們設計出的芯片難以拿到先進制程產能,再加上市場寒冬,以及在生態系統方面與英偉達的巨大差距,生存和發展愈加艱難,裁員難以避免。
GPU 及生態系統建設
1999 年 10 月,英偉達發布了 GeForce 256,這是一款基于臺積電 220nm 制程工藝、集成了 2300 萬個晶體管的圖形處理芯片。英偉達把 Graphics Processing Unit 的首字母「GPU「提煉出來,把 GeForce 256 冠以「世界上第一塊 GPU」稱號,巧妙地定義了 GPU 這個新品類,并占據這個詞的用戶心智直到今天。憑借先發優勢,不僅在芯片端,英偉達在 GPU 生態系統建設方面也是統治者,直到今天,也沒有哪家廠商能夠動搖它的根基。
GPU 原本是為圖像而生的,它把 CPU 從圖像顯示的苦力活中解放了出來,大量的流水線架構,使得 GPU 非常適合巨量、重復性的工作,自從 GPU 大規模應用以后,CPU 就擺脫了這些原本由它負責的頭疼工作,轉而去做更擅長的指令判斷和控制類的「大腦「型工作。
在發展的很長一段時間內,由 GPU 組成的顯卡主要用于大型游戲、CAD 制圖和視頻剪輯等圖像處理工作,后來,隨著應用和技術的發展,GPU 又滲透到自動駕駛、醫療影像、金融模型、生物信息等多個領域。如今,GPU 是人工智能(AI),特別是 AI 訓練應用領域的明星,火遍全球。
發展了這么多年,GPU 芯片賽道高度壟斷,全球 90% 的市場被少數幾家大企業占領,在集顯市場,英特爾和 AMD 平分天下,在獨顯賽道,AMD、英偉達二八分成;在 GPGPU(主要用于 AI 等高性能計算)市場,英偉達的市占率高達 90% 以上。
生態系統方面,2006 年,英偉達推出了并行計算平臺和編程模型 CUDA,它讓 GPU 擁有了解決復雜計算問題的能力,開發者們可以通過 CUDA 平臺,更方便地調度底層的 GPU 算力。當前,CUDA 擁有 400 多萬開發者,大部分 GPU 和 AI 芯片創業公司的產品也都通過兼容 CUDA 來進入用戶端。
為了追趕英偉達,英特爾于 2022 年發布了全新架構的第一款獨立顯卡,擁有超過一萬名軟件工程師的英特爾,在顯卡發布后的一年里,其顯卡驅動更新了 21 次,平均半年更新 10 版。
為了與 CUDA 競爭,AMD 于 2016 年推出了開放的 ROCm 平臺,不過,從目前的發展情況來看,ROCm 的市場接受度和應用規模依然與 CUDA 有非常大的差距。
中國 GPU 的發展近況
近些年,中國 GPU 取得了一些突破。
2019-2020 年,中國本土出現了 GPU、AI 芯片創業熱潮,壁仞科技、摩爾線程、燧原科技、沐曦集成電路、天數智芯等一批明星企業涌現出來,相關 GPU 芯片新品不斷。
2022 年 3 月,摩爾線程公布了首批顯卡產品,包括面向電腦和工作站的 MTT S60,以及面向服務器的 MTT S2000。兩張顯卡都采用了第一代 MUSA 架構(Moore Threads Unified System Architecture,中文名為「蘇堤」)。2022 年 11 月,該公司公布了第二批產品,包括面向電腦和工作站的顯卡 MTT S80,以及面向服務器的 MTT S3000,這兩款產品采用了新一代 MUSA 架構「春曉」,并使用了 PCIe Gen5 插槽。
壁仞科技的高光時刻,是在 2022 年 8 月發布了首款 GPGPU 芯片 BR100,并宣布該產品從 800 多個參選項目中脫穎而出,榮膺當年世界人工智能大會最高獎項 SAIL 獎。據悉,BR100 峰值算力達到國際廠商在售旗艦產品 3 倍以上,創下國內互連帶寬紀錄,還是國內率先采用 Chiplet 技術、率先采用 PCIe 5.0、率先支持 CXL 互連協議的 GPGPU 芯片。
今年 6 月,沐曦集成電路宣布完成 AI 訓練 GPU MXC500 的功能測算工作,同時,MXMACA 2.0 計算平臺基礎測試完成。
據悉,MXC500 是沐曦對標英偉達 A100/A800 的芯片,目標算力為 FP32 15 TFLOPS(A100 為 FP32 19.5 TFLOPS),兼容 CUDA,預計今年底規模出貨。
以上這些廠商推出的產品,目標都是要奪取英偉達和 AMD 在中國本土的市場份額。然而,英偉達經歷了 30 年的持續積累,才取得今天的成績,中國本土 GPU 廠商不可能在 5 年左右的時間內研發出具有同樣水平和市場影響力的產品。不過,如果中國 GPU 芯片能達到英偉達 H100 芯片性能的 70%,也是很有意義的。接下來的重點工作就是本土 GPU 生態系統建設。
中國 GPU 生態系統建設
比提升芯片性能更難的,是構建生態系統。英偉達不僅強在芯片硬件,更強在其軟件生態 CUDA,其 GPU+CUDA,就像英特爾和微軟構建的 Wintel,后來者要想再創建一整套軟硬件系統的成本非常高,而且非常難,不僅僅是錢的問題。假設投入和英偉達相當的人才和資源,以 3 倍的發展速度追趕,至少需要 10 年時間才能接近英偉達的水平。
以摩爾線程為例,理論上講,無論是 GPGPU,還是桌面級應用,該公司的產品性能已經達到了英偉達中端產品水準,但實際表現并非如此。以 MTT S80 為例,從游戲愛好者的測試結果來看,其早期實際性能接近 GTX1050Ti,今年更新驅動后,性能可以媲美 GTX1650,能流暢運行英雄聯盟等網游,也可以跑 4K 游戲,但與 RTX3060 相比,依然有很大差距。
MTT S80 強勁的硬件卻難以發揮理論性能,關鍵問題就是軟件適配,摩爾線程差的就是底層技術和驅動經驗的積累。據悉,MUSA 架構源于 IMG 的 PowerVR,這也從一個側面體現出該公司在 GPU IP 方面缺乏核心技術。
通過購買 IP 研發 GPU 是中國本土大多數廠商的選擇,包括芯動、壁仞科技等企業都是如此。該模式能夠以最小代價設計出商用產品,但是,芯片生產出來以后,軟硬件打磨就要考驗廠家的技術實力了,而這些軟實力是沒有地方購買的。
中國老牌 GPU 芯片企業景嘉微曾表示,做 GPU,三分靠硬件,七分靠軟件。英偉達在初期的產品性能也不好,還一度被 ATI 壓制,后期的成功除了全新架構的助攻,驅動的打磨功不可沒。
中國本土這些 GPU 芯片新星大多都想兼容英偉達的 CUDA,但是,在驅動軟件的適配上還差強人意,例如,早期的 MTT S80 只支持 DX9 游戲,雖然現在歷經 9 次版本驅動更新后,能支持更高的 DX11 游戲,但是其性能表現遠未達到硬件實際水平。
正是看到了差距,中國本土 GPU 廠商一直在生態系統建設方面增加投入。例如,今年,弘信電子與摩爾線程和燧原科技分別簽署了《戰略合作框架協議》,以打造人工智能軟硬件基礎設施。
目前,摩爾線程已經將大部分資源分配給軟件,占比達到 70%,重點關注元宇宙和 AI。沐曦已與服務器 OEM、大數據中心、互聯網、運營商等行業客戶建立了合作關系,并與眾多知名高校和研究機構開展產學研合作,快速推進產業上下游生態系統建設。
GPU 的新動向
全球范圍內,在已有基礎上,GPU 技術及其生態依然在向前發展,目前來看,有兩點很值得關注:一是 GPU 與 CPU 的融合,二是 RISC-V 的融入。
GPU 比 CPU 簡單得多;它可以更快地執行簡單的指令,執行是并行進行的,這也是 GPU 與 CPU 的最大不同之處。然而,并非所有軟件都可以輕松地并行化執行。CUDA 生態系統旨在提供工具來構建可以利用 GPU 進行并行計算的軟件應用程序,但是,大多數軟件應用程序仍然需要 CPU 才能運行。
基于 CPU 的應用程序不僅更容易開發,而且大多已經構建完成。很難想象哪些公司會花費時間和精力將已經在 CPU 上運行的東西移植到 GPU 上。
目前,AMD、英特爾和英偉達都在 CPU-GPU 融合技術方面下重注。
2023 上半年,AMD 首席技術官 Mark Papermaster 表示,該公司將在 2024 年推出 CPU-GPU 芯片,它將基于第 4 代 Epyc 架構的 CPU 內核與基于新一代 CDNA 3 架構的 GPU 結合在一起,也就是 AMD 近些年一直在宣傳的 APU 概念。
英特爾的 CPU-GPU 芯片 Falcon Shores 具有 x86 CPU 內核和 Xe GPU 內核,成熟產品將在 2025 年量產。
下面看一下 RISC-V 與 GPU 的融合。
最近,Ventana Micro Systems 與 Imagination Technologies 合作推出了基于 RISC-V 的 CPU-GPU 平臺。
Ventana 計劃推出一個仿真模型,展示其基于 RISV-C 的 CPU 如何與 Imagination 開發的 GPU 協同工作。這次演示將結合 Ventana 的新 CPU 產品 Veyron V2。據悉,V2 將對 RISC-V 指令集架構進行增強,使其能與 x86 和 Arm 同臺競技。
目前來看,Imagination 與 Ventana 的合作項目距離產品量產和規模化應用還有較大距離,但是,RISC-V CPU 和 GPU IP 融合的可用性,可能會帶來針對不同客戶端應用的新一波 RISC-V 平臺開發熱潮。
從目前的市場和應用需求來看,RISC-V 與 GPU 的結合是有基礎的。
在一些垂直市場,例如 5G/6G 通信、AI 推理和視頻處理等,傳統 CPU 已經無法滿足這些應用的計算量需求,需要新計算方法的出現。對于圖像處理來說,內存訪問瓶頸問題已經非常凸出,需要新的解決方案,甚至是新的計算架構,看看市場上最近發布的一些人工智能和 RISC-V 產品,會發現一些公司發布的處理器里面有新的 ISA,它們已經開始將 RISC-V 和 GPU IP 融合使用了。
通過指令擴展將 GPU 功能添加到 RISC-V 架構中很有創意,然而,二者融合這條路并不好走,最大的攔路虎就是架構融合,以及生態系統建設,需要的時間可能很長。要將 RISC-V 指令集改編成非常適合 GPU 任務的指令集,需要大量投資來定義 ISA 擴展,構建高度復雜的微架構,并對開源工具進行重大調整。如果將 RISC-V 指令集融入 GPU 架構,幾乎所有 RISC-V 的固有優勢都將被定制化稀釋掉,另外,RISC-V 核心 ISA 功能會限制 GPU 在特定領域的可用性。
雖然,有諸多挑戰,但鑒于 RISC-V 迅猛的發展勢頭,以及其在高性能計算領域的滲透決心,與同樣在高性能計算應用領域如魚得水的 GPU 融合,前景還是很值得期待的。
不僅是國際巨頭,中國本土 GPU 廠商,特別是更具前瞻性的幾家創業公司,在發展 GPU 方面也需要研發更具競爭力的技術和產品,而在當下美國政府推出各種限制政策的大環境下,中國本土 GPU 芯片技術和生態系統建設可以拓展更多思路,將更多先進的技術和理念融入相關產品。在本土企業客戶給出更多采用和試錯空間的情況下,中國芯片企業或許可以加快追趕國際先進 GPU 的步伐。
評論