DeepSeek只是前菜,LPU才是王炸
當下,人工智能蓬勃發展,創新技術不斷涌出,整個行業正經歷著一場意義深遠的變革。
本文引用地址:http://www.j9360.com/article/202502/466907.htm而這其中,DeepSeek 和 LPU 的出現格外引人注目。DeepSeek 憑借其卓越的性能和強大的成本優勢,迅速在全球范圍內圈粉無數,掀起了一股使用熱潮。而 LPU,作為專為語言處理任務量身定制的硬件處理器,以其區別于傳統 GPU 的創新架構、令人驚嘆的性能表現和超低的成本優勢,成為了 AI 領域的新寵。
DeepSeek 與 LPU 的結合,或許會為這場變革注入新的動力。
LPU 是什么?
2024 年 2 月,由谷歌 TPU 設計者 Jonathan Ross 創立的 Groq 公司發布新一代 LPU,實測性能引發行業震動:在 Meta Llama 2-70B 推理任務中,其 LPU 相較英偉達 H100 實現 10 倍性能提升,推理成本降低 80%。而 LPU 本質為減少計算中內存調用次數,從而實現推理效率的提升。對推理芯片而言,更高性能、更低成本的 LPU,提供了一個新的技術路徑選項。
LPU,全稱 Language Processing Unitix,是一種專門為語言處理任務設計的硬件處理器。它與我們熟知的 GPU(Graphics Processing Unit,圖形處理器)有著本質的區別。GPU 最初是為處理圖形渲染任務而設計的,在并行計算方面表現出色,因此后來被廣泛應用于人工智能領域的模型訓練和推理。然而,LPU 則是專門針對語言處理任務進行優化的,旨在更高效地處理文本數據,執行諸如自然語言理解、文本生成等任務。
從硬件架構來看,LPU 有著獨特的設計,采用了時序指令集計算機架構。同時,LPU 不需要芯片外內存,這是其區別于傳統硬件架構的重要特點。傳統的 GPU 在運行過程中,需要依賴高速的數據傳輸和大量的芯片外內存來存儲和處理數據,這不僅增加了硬件成本,還可能在數據傳輸過程中產生延遲,影響系統性能。而 LPU 使用的是 SRAM(Static Random - Access Memory,靜態隨機存取存儲器),其速度比 GPU 所用的存儲器快約 20 倍。這種高速的內存使得 LPU 在處理數據時能夠更快地讀取和寫入信息,大大提高了處理效率。
在能效方面,LPU 通過減少多線程管理的開銷和避免核心資源的未充分利用,實現了更高的每瓦特計算性能,在執行推理任務時,無需像 GPU 那樣頻繁從內存加載數據,消耗的電量也低于英偉達的 GPU。
Groq 公司作為 LPU 的重要推動者,公布的 LPU 性能令人驚嘆。與當前行業內的領先模型相比,LPU 展現出了巨大的優勢。例如,在與 GPT - 4 的對比中,Groq 的 LPU 比 GPT - 4 快 18 倍,在處理速度上達到了每秒 500 token 的驚人成績,打破了行業紀錄,其性能是英偉達 GPU 的 10 倍。而且,不同于英偉達 GPU 對高速數據傳輸和高帶寬存儲器(HBM)的依賴,Groq 的 LPU 系統中沒有采用 HBM,而是通過優化的 SRAM 設計,實現了高效的數據處理。這種獨特的設計使得 LPU 在保證高性能的同時,還降低了硬件成本和系統復雜性。
這一突破也凸顯了計算模式的潛在轉變,即在處理基于語言的任務時,LPU 可以提供一種專業化、更高效的替代方案,挑戰傳統上占主導地位的 GPU。
國產企業布局 LPU
國產 LPU 當然也受到市場關注。
目前,清華系的無問芯穹已研發出全球首個基于 FPGA(現場可編程邏輯門陣列)的大模型處理器,稱其為無穹 LPU,通過大模型高效壓縮的軟硬件協同優化技術,使得 LLaMA2-7B 模型的 FPGA 部署成本從 4 塊卡減少至 1 塊卡,并且性價比與能效比均高于同等工藝 GPU,即展示「一張卡跑大模型」。
無問芯穹研發的端側大模型推理處理器 LPU 采用異構計算技術。其核心目標是提供如水電煤般便捷的算力服務,解決當前市場中算力資源匱乏的問題。目前已通過適配多種 AI 芯片,實現不同模型高效并行處理,根據無問芯穹的內部測試數據,這款芯片在大規模模型推理場景中,算力成本下降高達 90%,為國內算力之困開辟了一條前路。
據悉,無問芯穹成立于 2023 年 5 月,創始團隊來自清華大學電子工程系,致力于成為大模型落地過程中的"M×N"中間層,以打造大模型軟硬件一體化方案,鏈接上下游,建立 AGI(通用人工智能)時代大模型基礎設施。
DeepSeek 利好上游,將推動 AI 大規模應用
2025 年 1 月 20 日,DeepSeek 正式發布 DeepSeek-R1 模型,在數學、代碼、自然語言推理等任務上,性能成功比肩 OpenAI-o1 正式版,在 1 月 24 日國外大模型排名 Arena 上,DeepSeek-R1 基準測試升至全類別大模型第三,在風格控制類模型分類中與 OpenAI-o1 并列第一,展現出強大的技術實力。僅僅一周后,DeepSeek 在中國區及美區蘋果 App Store 免費榜均占據首位,成為首個同期在中國和美區蘋果 App Store 占據第一位的中國應用,用戶量在短時間內迅速攀升,在全球范圍內掀起了使用熱潮。
DeepSeek 發展速度之快令人咋舌,日活數據的增長堪稱「火箭式」上升。前幾日,DeepSeek 的日活剛突破 2000 萬,然而不到一周的時間,日活已經飆升至 3000 萬,短短 7 天內用戶增長一個億。與之形成鮮明對比的是,曾經風靡全球的 ChatGPT 達到同樣的用戶增長規模需要 2 個月的時間。DeepSeek 的快速崛起,彰顯了其在人工智能領域的強大競爭力和市場吸引力。
隨著 DeepSeek 用戶的大規模增長,對上游做算力的公司產生了顯著的利好影響。算力作為人工智能運行的基礎支撐,是模型訓練和推理得以實現的關鍵。DeepSeek 的火爆意味著對算力的需求呈指數級增長,這為上游的算力供應商提供了廣闊的市場空間。
值得一提的是,三家基礎電信企業均全面接入 DeepSeek 開源大模型。這一舉措不僅進一步推動了 DeepSeek 的廣泛應用,還為電信企業自身的業務發展帶來了新的機遇。電信企業擁有豐富的網絡資源和龐大的用戶基礎,接入 DeepSeek 大模型后,可以將人工智能技術融入到通信服務、智能客服、大數據分析等多個業務領域,提升服務質量和用戶體驗,同時也為自身在人工智能時代的轉型發展奠定了堅實的基礎。
在市場層面,DeepSeek 的成功也引發了資本的關注。大量的投資涌入與 DeepSeek 相關的產業鏈,從算力支持到算法優化,再到應用開發,各個環節都成為了資本追逐的熱點。這不僅促進了相關企業的技術研發和業務拓展,還加速了整個行業的發展進程。
之所以 DeepSeek 如此受到關注,除了其在性能上的卓越表現外,還在于其具有強大的成本優勢。DeepSeek 模型厲害的地方在于,整個訓練僅花費了 557.6 萬美元,在 2048xH800 集群上運行 55 天完成。性能卻能和 OpenAI 的頂尖模型 ChatGPT-o1 比肩,甚至在某些領域還強一點。
這筆費用是什么概念呢?Anthropic 的 CEO 曾透露,GPT-4o 這樣的模型訓練成本約為 1 億美元。而目前正在開發的 AI 大模型訓練成本可能高達 10 億美元。他還預測,未來三年內,AI 大模型的訓練成本將上升至 100 億美元甚至 1000 億美元。換句話說,DeepSeek-V3 的這個成本幾乎可以忽略不計。由于 OpenAI 的大模型成本巨大,在美國政府的支持下,甚至發起了總投資 5000 億美元的星門計劃來建設 AI 設施。
高性能低價平權之下,LPU 被看好
AI 基礎設施建設的巨額成本一直是阻擋 AI 大規模應用的絆腳石。
DeepSeek-R1 具備高性能、低成本、開源三大屬性。DeepSeek-R1 問世,其開源屬性為企業提供了技術底座,如教育機構可基于開源代碼定制學科知識庫、教學場景交互邏輯等,人力資源機構也可針對招聘培訓等垂直場景構建垂直助手。且 DeepSeek-R1 大模型單次訓練和推理對算力的需求低,因此基于 DeepSeek-R1 二次訓練的成本也更低,更有利于企業低成本訓練及本地部署。簡而言之,DeepSeek-R1 的突破性發展,直接降低了 AI 應用的研發落地成本,將加速 AI 技術在各行業的滲透。
如果說,DeepSeek 屬于「核彈」級,那 LPU 就是「氫彈」級。據了解,美國 Groq 公司已經在自己的 LPU 芯片上實機運行 DeepSeek,效率比最新的 H100 快上一個量級,達到每秒 24000token。某種程度上,單純靠堆砌硬件算力,實現智力的邏輯也將失效。隨著硬件芯片制程逐漸到達瓶頸,后期人工智能主要靠算法和芯片架構優化推動。
而 DeepSeek 與 LPU 的結合標志著 AI 算力領域的重要變革,特別是在大語言模型(LLM)推理場景中展現出顯著的技術突破和市場潛力。這種結合使得大語言模型在處理速度、成本控制和應用范圍等方面都有了新的突破,為人工智能的發展開辟了新的道路。
作為 LPU 的主要供應商,美半導體初創公司 Groq 也受到了投資市場的看好。據了解,目前該公司已獲得沙特阿拉伯 15 億美元的承諾投資,以支持 Groq 擴建位于沙特達曼的 AI 推理基礎設施。Groq 的達曼數據中心由該企業同石油巨頭沙特阿美旗下子公司合作建設,目前該數據中心已包含 19000 個 Groq LPU(語言處理單元),可向 41 個國家的 40 億用戶提供服務。
另一方面,這也對英偉達和其他美國人工智能科技公司造成打擊,三星電子和 SK 海力士預計將在快速增長的人工智能 (AI) 內存芯片業務中面臨越來越多的不確定性。而這兩家公司主要生產用于英偉達 GPU 的 HBM 芯片。SK 海力士 1 月份的數據比 12 月下跌了 19.3%。這是自 2023 年 4 月該公司開發出全球 12 層 HBM3 芯片以來,環比跌幅最大的一次。
當 LPU 技術將 AI 創作成本降至消費級硬件可承載范圍,普通人使用 RTX 顯卡即可運行百億參數模型時,UGC 內容生產將迎來核爆式增長。這種生產力解放可能提前 10 年實現"人人都是創作者"的預言。
當 LPU 架構與神經擬態芯片結合后,個人設備的計算能力將得到質的飛躍。也許,未來的智能手機或筆記本電腦,借助這種技術,用戶無需聯網就能在本地快速運行復雜的語言模型,實現高效的個人工作流部署。
評論