DeepSeek適配國產芯片:差異化表現,商用前景各異
在 DeepSeek 熱浪的席卷之下,各大國產 GPU 公司紛紛投身適配浪潮。
本文引用地址:http://www.j9360.com/article/202502/467279.htm看似相同的動作,背后卻各有千秋。
如今,業內報道多聚焦于適配 DeepSeek 的公司數量,卻很少有人去深究這些公司間的差異。究竟是技術路線存在分歧,還是性能表現高低有別?是生態建設各具特色,亦或是應用場景有所不同?
適配模型,選原版還是蒸餾版?
從適配 Deepseek 模型的角度來看,芯片廠商的動作可大致歸為兩類。一類是對原生 R1 和 V3 模型進行適配,另一類則是適配由 R1 蒸餾而來的小模型。
至于這三者的區別:
Deepseek R1 定位為推理優先的模型,專為需要深度邏輯分析和問題解決的場景而設計。其在數學、編程和推理等多個任務上可達到高性能。
Deepseek V3 定位為通用型的大語言模型,其在多種自然語言處理任務中實現高效、靈活的應用,滿足多領域的需求。Deepseek R1/V3 原版模型通常具有較大的參數量,結構相對復雜。
DeepSeek-R1 系列蒸餾模型是基于 DeepSeek R1 進行蒸餾得到的輕量級版本,參數量較少,結構更精簡旨在保持一定性能的同時降低資源消耗。適合輕量級部署和資源受限場景,如邊緣設備推理、中小企業快速驗證 AI 應用。
雖說各家均在搶占適配 Deepseek 的高地,但實際上各家所適配的模型類型也并不相同。
上圖可見,雖主流 GPU 廠商均在加速適配 DeepSeek 模型的節奏,但明確宣布適配 DeepSeek R1 及 V3 原版模型的只有一半左右。這類模型對芯片的計算能力、內存帶寬以及多卡互聯等技術要求極高。其中包括華為昇騰、海光信息。
另一部分廠商則主要支持 DeepSeek-R1 系列蒸餾模型(參數規格在 1.5B - 8B 之間)。這些蒸餾模型的原始模型是通義千問和 LLAMA,因此原本能夠支持通義千問和 LLAMA 模型的平臺,基本上就能適配這些 DeepSeek 的蒸餾模型,工作量也相對較小。包括摩爾線程、壁仞科技等。
不同大小的模型所適應的場景不一樣,云端推理需要模型參數比較大,模型性能最好,主要適配原生 R1 或者 V3 模型;端側芯片主要適配 1.5B~8B 間的模型,這類模型推理結構非常成熟,無需花費額外的工作。
不同公司,優勢何在?
除了所適配的模型種類有別外,各家所選取的技術路線也有所不同,適配時遇到的難度也各不相同。
首先,從當前的技術生態和實際應用場景來看,DeepSeek 模型的運行和適配主要依賴于英偉達的硬件和編程語言,而各家廠商的適配能力則取決于其對原始開發生態的兼容性。
這也意味著,DeepSeek 目前主要適配英偉達芯片,這對其他硬件平臺的應用和性能有一定影響。因此是否容易適配基于英偉達 GPU 開發的 DeepSeek 等大模型,與芯片是否兼容 CUDA 有關。能兼容 CUDA 的廠商,彼此間兼容程度也有不同。
其次,從性能表現來看,不同 GPU 的計算能力(如 FLOPS、內存帶寬)不同,也直接影響 DeepSeek 在處理大規模深度學習任務時的速度。某些 GPU 可能在能效比上表現更優,適合在低功耗環境下運行 DeepSeek。
接下來,讀者不妨看看主流芯片公司在適配 DeepSeek 時,各自具備的優勢與面臨的挑戰。
華為昇騰(Ascend)
昇騰擁有芯片+框架+工具鏈等全棧 AI 能力,與 DeepSeek 的技術棧適配潛力大。
從硬件方面來看,昇騰 910 芯片針對 AI 訓練和推理優化,算力密度高,尤其適合大規模模型訓練。
從軟件生態方面來看,CANN 異構計算架構和 MindSpore 框架深度綁定,若 DeepSeek 基于 MindSpore 優化,昇騰適配性極強;同時支持 PyTorch/TensorFlow 的遷移工具。
關于昇騰適配 DeepSeek 面臨的挑戰,若 DeepSeek 依賴 CUDA 生態,需通過華為的兼容層(如昇騰異構計算加速庫)轉換,可能損失部分性能。
海光信息(DCU)
海光的優勢是海光 DCU 兼容通用的「類 CUDA」環境,以及擅長高性能計算。
從硬件方面來看,基于 AMD CDNA 架構的 DCU 系列,兼容 ROCm 生態,對 CUDA 代碼遷移友好,適合需兼容現有生態的 DeepSeek 場景。
從場景適配方面來看,在智算中心應用成熟,若 DeepSeek 側重 HPC+AI 融合場景(如科學計算),海光更具優勢。
關于海光適配 DeepSeek 面臨的挑戰,或許在軟件工具鏈成熟度上。
燧原科技(邃思)
燧原的優勢在于云端 AI 訓練與推理。
在架構設計方面,邃思芯片針對 Transformer 等大模型優化,計算密度高,適合 DeepSeek 的大規模參數場景。
在軟件適配方面,燧原支持 TF/PyTorch 主流框架,提供自動化編譯工具,降低 DeepSeek 遷移成本。
關于燧原適配 DeepSeek 面臨的挑戰,其生態影響力較弱,需依賴客戶定制化合作。
沐曦(MXN)
沐曦的優勢在于 GPU 通用性與 CUDA 兼容性。
在兼容性方面,MXN 系列兼容 CUDA,若 DeepSeek 重度依賴 CUDA 生態,沐曦的遷移成本相對較低。
在產品性能方面,沐曦 GPU 理論算力對標國際旗艦產品,適合高算力需求場景。
關于沐曦適配 DeepSeek 面臨的挑戰,產品量產進度和實際落地案例較少,需驗證穩定性。
天數智芯(天垓)
天數智芯的優勢在于兼容 CUDA 生態。
從生態適配方面,天垓 BI 芯片兼容 CUDA,對已有代碼庫的 DeepSeek 項目友好。
關于天數智芯適配 DeepSeek 面臨的挑戰,高端算力不足,支撐千億級大模型訓練存在壓力。
壁仞科技(BR 系列)
壁仞科技的單芯片算力峰值高。
從硬件指標來看,高算力峰值使其適合需要極致算力的 DeepSeek 任務。
關于壁仞適配 DeepSeek 面臨的挑戰,軟件棧成熟度待提升。
昆侖芯
與百度 PaddlePaddle 深度綁定,若 DeepSeek 與百度生態協同,適配性較強。
摩爾線程(MTT S 系列)
聚焦圖形渲染與 AI 融合場景,適合 DeepSeek 的多模態應用(如 3D 視覺),但通用計算能力有限。
云天勵飛/太初元碁
側重邊緣端推理,若 DeepSeek 部署在終端設備,這兩家更具優勢。
龍芯
龍芯目前以 CPU 為主,GPU 產品處于早期階段,適配 DeepSeek 暫不成熟。
在近期行業緊鑼密鼓地適配 DeepSeek 系列模型后,如何商用成為這一問題的焦點。
DeepSeek 商用,有哪些形式?
云上部署
比如:DeepSeek 模型通過華為云平臺提供服務,企業客戶可以通過 API 調用或云服務直接使用 DeepSeek 的功能,如圖像識別、自然語言處理、語音識別等。企業根據實際使用量(如計算資源、API 調用次數)付費,降低前期投入成本。云服務模式無需企業本地部署硬件,能夠快速上線和應用。
本地化部署
一體機形式:目前 DeepSeek 大模型一體機分為推理一體機和訓推一體機。DeepSeek 推理一體機內置 DeepSeek-R1 32B、70B、滿血版 671B 等不同尺寸模型,價格在幾十萬到數百萬不等,主要面向對數據安全、數據隱私較為敏感的企業用戶。而訓推一體機的售價更高,用于 DeepSeek-R1 32B 模型的預訓練和微調的一體機價格就達到數百萬。
企業自行部署:對于對性能要求極高的企業(如自動駕駛、金融風控)或者對安全性需求極高的企業(如政府和金融機構),DeepSeek 模型可以本地部署在 GPU 芯片等硬件上,實現「滿血」性能。
從當前的商用模式來看,由于本地部署 GPU 芯片和 DeepSeek 模型的成本較高,企業用戶會先在公有云上進行測試,與需求是否適配,再考慮私有云部署、一體機等形式。因此,中小企業可能更傾向于通過云服務使用相關技術。
自然,部分對數據安全高度重視或急需高性能算力的企業,不惜投入十萬乃至百萬資金,部署一體機以滿足自身需求。隨著 DeepSeek 開源模型的發展,其私有化部署需求日益凸顯,一體機化等相關市場正蓬勃發展,吸引眾多企業投身其中。
DeepSeek 商業化,芯片公司誰做的更好?
在 DeepSeek 概念里,昇騰和海光的商業化都取得了不錯的進展。
一體機熱銷,昇騰得到利好
昇騰:70% 的企業將基于昇騰向 DeepSeek 靠攏。
近日,DeepSeek 一體機的發布廠商包括華鯤振宇、寶德、神州鯤泰、長江計算等,均基于昇騰產品構建。
可以看到,隨著 DeepSeek 一體機的密集發布,昇騰的產業聯盟正在不斷擴大。
據悉,目前已有超過 80 家企業基于昇騰快速適配或上線了 DeepSeek 系列模型,并對外提供服務。預計未來兩周內,還將有 20 多家企業完成上線。這意味著,國內 70% 的企業將基于昇騰向 DeepSeek 靠攏。
相較于進口 GPU 方案,昇騰芯片的本地化服務和團隊對部署 DeepSeek 的效果影響顯著。以萬卡規模的數據中心為例,MindSpore 工具鏈的自動并行功能使得分布式訓練代碼量減少了 70%。
海光:智算中心、金融等多場景滲透
海光與 DeepSeek 的合作覆蓋智算中心、金融、智能制造等核心場景。
在智算中心方面,海光信息聯合青云科技推出「海光 DCU + 基石智算 + DeepSeek 模型」方案,支持按 Token 計費的靈活調用模式,降低企業 AI 應用門檻。
在金融科技方面,中科金財與海光信息技術股份有限公司聯合推出了軟硬一體解決方案。該方案融合了自研的多場景多基座大模型引擎與海光 DCU 系列加速卡,并完成了與 DeepSeek 模型的深度適配。
在智能制造方面,海光 DCU 通過適配 DeepSeek-Janus-Pro 多模態模型,賦能工業視覺檢測與自動化決策,助力三一重工等企業實現產線智能化升級。
在數據管理方面,空天數智打造的「睿思矩陣數據存管用平臺」全面適配海光 DCU,將 DeepSeek 嵌入平臺,作為「超級引擎」深入海量數據,為自然資源、能源電力、航空航天等領域提供數據處理支持。
此外,新致軟件聯合中科海光,正式發布新致信創一體機——以海光 K100 GPU 服務器為算力基石,深度融合新致新知人工智能平臺與 DeepSeek 系列大模型,為企業提供從芯片到模型的全棧國產化 AI 解決方案,開啟安全、高效、敏捷的智能化轉型新時代。
京東云也發布 DeepSeek 大模型一體機,支持華為昇騰、海光等國產 AI 加速芯片。
國產 GPU,機會來了
隨著 DeepSeek 一體機等應用的推出和廣泛應用,市場對國產芯片的需求正在顯著增加。
沐曦科技 CTO 楊建表示,大模型后訓練部分預計今年會有更多非英偉達卡加入,DeepSeek 推動的大模型私有化部署,對國產芯片而言也是機會。
「2025 年國產 GPU 的一個機會在于私有化部署,基本上這個市場會以大模型后訓練和推理為主。」楊建表示,基于英偉達應用于 AI 領域的 GPU 進入國內市場的方式,英偉達卡在零售市場上基本消失了,而私有化部署較依賴零售市場。若私有化部署市場爆發,國產卡將會有很大機會。
隨著海外芯片算力限制帶來的難題逼近,全球算力可能會形成兩條并行路線,逐漸脫鉤。到 2026 年、2027 年,美國預訓練和后訓練的算力基座預計仍是英偉達,在國內則是有一部分由英偉達承擔、一部分由國產芯片承擔。其中,后訓練部分今年逐漸會有更多非英偉達卡加入,這是因為后訓練對集群要求相對較低,不太需要千卡以上集群。
天數智芯相關人士也表示,隨著國產模型取得突破,對國產芯片適配需求增加,今年國產芯片有較大發展機會。
DeepSeek 模型的火熱也暗含著 AI 應用爆發的機會,芯片廠商將目光轉向 AI 應用所需的推理算力。去年國內評測芯片時主要著眼訓練,將國產芯片作為英偉達訓練的替代品,2025 年開始將有一個變化,即大家會逐漸看國產芯片在推理市場的機會。
上海人工智能研究院數字經濟研究中心資深咨詢顧問于清揚提到 DeepSeek 對國產芯片的促進。「DeepSeek 通過強化學習機制將模型的無效訓練降低 60%,對并行計算的需求較傳統架構降低 40%,使國產芯片在特定計算任務中的能效比可達英偉達 GPU 的 75%。」
與此同時,不僅限于 GPU 芯片,在 AI 推理側有細分優勢的 ASIC、FPGA 等芯片也將有豐富的發展機會。值得注意的是,雖然前文所述 DeepSeek 的火熱給國產芯片公司帶來諸多機遇,但是由于 DeepSeek 對英偉達 CUDA 生態仍有明顯的路徑依賴,國產芯片公司還需在互聯和生態等諸多方面進一步完善。
評論