新版DeepSeek V3悄然發布 外媒:很強但少了"人味"
3月25日消息,中國人工智能初創公司DeepSeek悄然發布了一款新的大語言模型,在人工智能行業引發震動。這不僅因為其強大的能力,還因為其獨特的發布方式。
本文引用地址:http://www.j9360.com/article/202503/468620.htm這個大小為641GB的模型名為DeepSeek-V3-0324,于周一悄然出現在人工智能資源庫Hugging Face上,幾乎沒有任何官方公告,延續了該公司低調卻影響深遠的發布風格。
此次發布尤其值得關注的是,該模型采用MIT許可(允許免費商用),并且有報道稱它可以直接在消費者級“硬件”上運行,尤其是配備M3 Ultra芯片的蘋果Mac Studio。
人工智能研究員Awni Hannun在社交媒體上寫道:“4比特量化的新版DeepSeek-V3-0324,在512GB M3 Ultra的機器上通過mlx-lm實現了每秒20個token的處理速度!”雖然售價為9499美元的Mac Studio可能超出了“消費者硬件”的定義,但能夠在這樣的硬件上本地運行如此龐大的模型,標志著與通常與最先進人工智能技術相關的數據中心需求有了根本性突破。
DeepSeek隱秘發布策略打破AI市場預期
這個擁有6850億參數的模型發布時沒有附帶技術白皮書、博客文章或營銷推廣,只有一個空白的README文件和模型權重。這種做法與西方人工智能公司通常精心策劃的產品發布形成鮮明對比,后者往往在發布前數月便開始進行炒作。
早期測試者報告稱,相比于前一版本,DeepSeek-V3-0324在各項指標上有了顯著提升。人工智能研究員Xeophon在社交媒體上發帖高調宣稱:“我在內部基準測試平臺上測試了新版DeepSeek V3,在所有測試中,它在各項指標上都有巨大的躍升。它現在是最好的非推理模型,把Sonnet 3.5拉下王座。”
如果這一說法得到更廣泛的驗證,DeepSeek的新模型將在性能排行榜上壓制Anthropic的Claude Sonnet 3.5,后者是業內公認頂尖的商業人工智能系統之一。而且與需要訂閱的Sonnet不同,DeepSeek-V3-0324的權重文件供任何人免費下載使用。
DeepSeek V3-0324的突破性架構如何實現無與倫比的效率
DeepSeek-V3-0324采用了混合專家(MoE)架構,從根本上重新構想了大語言模型的運作方式。傳統模型會在每項任務中激活全部參數,而DeepSeek的方法是在特定任務中只激活約370億個參數,盡管它擁有6850億個參數。
這種選擇性激活代表了模型效率的范式轉變。通過僅激活與每個特定任務最相關的“專家”參數,DeepSeek能夠在大幅減少計算需求的同時,提供與更大、完全激活的模型相當的性能。
該模型還融入了兩項突破性技術:多頭潛在注意力(MLA)和多token預測(MTP)。MLA增強了模型在處理長文本時保持上下文的能力,而MTP則可以每個步驟生成多個token,而非傳統的逐標記生成方式。兩者結合使得輸出速度提高了近80%。
開發工具創造者西蒙·威利森(Simon Willison)在博客中指出,4比特量化版本的DeepSeek-V3將存儲占用減少到352GB,這使得在像Mac Studio(配備M3 Ultra芯片)這樣的高端消費者硬件上運行成為可能。
這代表了人工智能技術部署方式的潛在重大轉變。傳統人工智能基礎設施通常依賴于多塊英偉達GPU,消耗數千瓦的電力,而Mac Studio在推理過程中僅消耗不到200瓦的電力。這一效率差距表明,人工智能行業可能需要重新審視關于頂尖模型性能所需基礎設施的假設。
中國的開源AI革命挑戰硅谷的“封閉花園”模式
DeepSeek的發布策略體現了中西方公司在人工智能商業理念上的根本分歧。像OpenAI和Anthropic這樣的美國領軍公司將他們的模型封閉在付費墻后,而中國人工智能公司則越來越多地采納寬松的開源許可。
這種做法正在迅速改變中國的人工智能生態系統。尖端模型的開源產生了乘數效應,使得初創公司、研究人員和開發人員能夠在沒有巨額資本支出的情況下,基于復雜的人工智能技術進行構建。這加速了中國人工智能能力的提升,令西方觀察者感到震驚。
這一策略背后的商業邏輯反映了中國市場的現實。在眾多資金雄厚的競爭對手存在的情況下,當競爭者免費提供類似能力時,保持專有模型變得越來越困難。開源通過生態系統領導地位、API服務和基于免費可用基礎模型構建的企業解決方案創造了替代的價值路徑。
即便是中國的科技巨頭也認識到這一轉變。百度宣布計劃在6月前將其文心一言4.5系列模型開源,而阿里巴巴和騰訊也發布了具有專業能力的開源人工智能模型。這一舉措與西方公司依賴API的策略形成了鮮明對比。
開源策略還解決了中國人工智能公司面臨的獨特挑戰。在獲取尖端英偉達芯片受限的情況下,中國公司更加強調效率和優化,以在有限的計算資源下實現競爭性性能。這種由需求驅動的創新現在已成為潛在的競爭優勢。
DeepSeek V3-0324:AI推理革新的基礎
DeepSeek-V3-0324的發布時機和特點強烈表明,DeepSeek預計將在未來兩個月內發布的改進型推理專用模型DeepSeek-R2。這符合DeepSeek的慣常模式,即基礎模型發布數周后推出專用推理模型。
Reddit用戶mxforest指出:“這與他們在圣誕節前后發布V3,幾周后推出R1的模式一致。傳聞R2將在4月發布,所以這可能就是它。”
推理模型的開源再怎么強調都不為過。目前,像OpenAI的o1和DeepSeek的R1這樣的推理模型代表了人工智能能力的最前沿,在數學、編程等領域展現了前所未有的問題解決能力。將這項技術免費開放,會使目前只有擁有雄厚資金支持的公司才能使用的人工智能系統普及化。
潛在的R2模型發布之際,關于推理模型計算需求的重要發現正在浮現。英偉達首席執行官黃仁勛最近指出,DeepSeek的R1模型“消耗的計算量是非推理人工智能系統的100倍”,這與之前業內對效率的假設相矛盾。這揭示了DeepSeek模型背后取得的非凡成就,它們在資源限制更大的情況下依然能夠提供競爭力的表現。
如果DeepSeek-R2繼續沿著R1設定的軌跡發展,它可能會直接挑戰GPT-5,即OpenAI的下一代旗艦模型,后者預計將在不久后發布。OpenAI封閉、資金密集型的方法與DeepSeek開放、資源高效的戰略之間,代表了人工智能領域兩種相互競爭的未來愿景。
如何體驗DeepSeek V3-0324:開發者和用戶的完整指南
對于那些急于體驗DeepSeek-V3-0324的人,根據技術需求和資源的不同,可以選擇多種途徑。完整的模型權重已在Hugging Face上發布,641GB的大小需要充足的存儲空間和計算資源。
對于大多數用戶而言,基于云的選項提供了最易接入的入口。OpenRouter提供免費API訪問該模型,并且配有用戶友好的聊天界面。只需選擇DeepSeek V3 0324作為模型即可開始體驗。
DeepSeek自己的聊天界面chat.deepseek.com也很可能已經更新為新版本,盡管公司尚未明確確認。早期用戶反饋稱,新的版本在該平臺上可用,且性能較此前版本有所提升。
希望將模型集成到應用程序中的開發者,也可以通過各種推理提供商訪問它。Hyperbolic Labs宣布成為“在Hugging Face平臺上首家提供該模型服務的推理提供商”提供該模型,而OpenRouter則提供與OpenAI SDK兼容的API訪問。
DeepSeek的新模型更注重技術精確性而非對話親和力
早期用戶報告稱,DeepSeek模型的交流風格發生了明顯變化。盡管之前的模型因其對話式、擬人化的語氣備受好評,但DeepSeek V3-0324呈現出更加正式、技術導向的風格。
Reddit用戶nother_level問道:“是只有我覺得這個版本不那么像人類了嗎?對我來說,DeepSeek V3與其他模型不同的地方在于它更像人類。它的語氣、措辭都不像其他大語言模型那樣機械感,但現在這個版本感覺像其他大語言模型一樣機械得要命。”
另一位用戶AppearanceHeavy6724補充道:“沒錯,它肯定失去了那種超然的魅力,感覺聰明反被聰明誤。”
這種明顯的風格變化似乎是DeepSeek工程師的有意設計。轉向更精準、分析式的交流風格,表明該公司正將模型重新定位至專業和技術應用,而非休閑對話的戰略。這與人工智能行業的廣泛趨勢一致,開發者越來越認識到,不同的使用場景需要不同的互動風格。
對開發專業應用的開發者而言,這種更精準的交流風格反而成為優勢,能為工作流程提供更清晰一致的輸出;但會削弱模型在需親和力的消費端應用中的吸引力。
DeepSeek的開源戰略如何重塑全球AI版圖
DeepSeek的人工智能技術開發和分發方法不僅是一項技術成就,也體現了關于先進技術應如何在社會中傳播的根本不同愿景。通過提供開放許可的尖端人工智能模型,DeepSeek推動了一個傳統閉源模型無法比擬的指數級創新。這一戰略正在快速縮小中國和美國在人工智能領域的差距。幾個月前,大多數分析師都認為中國落后美國一到兩年,而如今這一差距已縮小至3至6個月,部分領域接近持平甚至中國領先。
這種開源部署理念與安卓對移動生態系統的影響頗為相似。通過免費提供安卓系統,谷歌創建了一個平臺,最終實現了全球市場的主導地位。同樣,開源人工智能模型也有可能憑借廣泛普及和開發者集體創新,在競爭中超越閉源系統。
這一影響超越了市場競爭,直指技術獲取的根本問題。西方AI巨頭因將先進能力集中在資源充足的公司與個人手中而備受批評,而DeepSeek的開放戰略讓能力廣泛分布,可能加速全球AI應用。
隨著DeepSeek-V3-0324進入全球研究實驗室和開發者工作站,競爭已不再僅僅是關于構建最強大的人工智能,而是關于讓更多人能夠利用人工智能進行創造。在這場競賽中,DeepSeek的低調發布已充分預示了人工智能的未來。最自由分享技術的公司,或將最終主導AI重塑世界的進程。
評論