在LLM方面Google取得成功，而Meta和OpenAI則跌跌撞撞

—— Gemini 2.5 的性能和定價搶走了聚光燈

作者：時間：2025-04-25 來源：IEEE頻譜

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

大型語言模型（LLM）的早期歷史由 OpenAI 主導，在較小程度上由 Meta 主導。OpenAI 的早期 GPT 模型確立了 LLM 性能的前沿，而 Meta 則通過提供強大性能的開放權重模型開辟了一個健康的利基市場。開放權重模型具有可公開訪問的代碼，任何人都可以自由使用、修改和部署這些代碼。

本文引用地址：http://www.j9360.com/article/202504/469838.htm

這使得包括谷歌在內的一些科技巨頭落后了。2017 年，谷歌發表了一篇關于支撐大型語言模型的 transformer 架構的突破性研究論文，但該公司往往因其在 2023 年推出的拙劣產品而被人們記住，而不是其創新的人工智能研究。

但 Google 強大的新 LLM，以及 Meta 和 OpenAI 的失誤，正在改變這種氛圍。

Llama 4 Herd 走錯了蹄子

4 月 5 日星期六，Meta 出人意料地傳出了 Llama 4 發布的消息。

如果在周末發布主要型號的決定讓您感到奇怪，那么您并不孤單。這個時機讓每個人都措手不及，并在一定程度上掩蓋了接下來一周的新聞周期中的公告。

Meta 的新型開放重量級 LLM 確實有其優勢。Llama 4 是多模態的，這意味著它可以處理圖像、音頻和其他模態。它有三種口味，Llama 4 Behemoth、Maverick 和 Scout，它們有不同的大小和強度。Llama 4 Scout 還擁有高達 1000 萬個代幣的巨大上下文窗口。標記是 LLM 處理和生成的小文本單元，上下文窗口是模型一次可以處理的標記數。更大的上下文窗口有助于模型 “記住” 并在單個會話中處理大量文本。大多數模型的上下文窗口為 100 萬個或更少。

但是，當批評者注意到 Meta 在 LMArena 上狡猾地進行排名時，接受度變得更糟，LMArena 是一個根據用戶投票對 LLM 進行排名的網站。Meta 用于排名的特定 Llama 4 模型與其通用版本的一部分提供的模型不同。 LMArena 在一份聲明中表示，Meta 提供了“一個定制的模型來優化人類偏好”。

Meta 還因吹噓 Llama 4 Scout 的 1000 萬代幣上下文窗口而受到抨擊。雖然這個數字在技術上似乎是準確的，但長期上下文性能的基準發現 Llama 4 落后于競爭模型。

Meta 也沒有發布 Llama 4 的“推理”或“思考”模型，并保留了較小的變體，盡管 Meta 表示將提供推理模型。

“他們偏離了更系統地發布的規范，在這種版本中，他們把所有的鴨子都排成一排，”AI 咨詢公司 Gradient Flow 的創始人 Ben Lorika 說。“這似乎是想讓人們放心，他們有一個新模型，即使他們沒有所有組件，比如推理模型和更小的版本。”

GPT-4.5 被迫撤退

近幾個月來，OpenAI 也遇到了困難。

GPT-4.5 于 2 月 27 日作為研究預覽版發布，被吹捧為該公司“迄今為止最大和最好的聊天模型”。OpenAI 發現，事實上，它在基準測試中的表現通常優于之前的模型 GPT-4o。

然而，該模型的成本招致了批評。OpenAI 將模型的 API 訪問定價為每百萬個輸出令牌 150 美元。這比 GPT-15o 高出驚人的 4 倍，后者的價格僅為每百萬個代幣 10 美元。API 是 OpenAI 為希望在其應用程序和服務中使用 OpenAI 模型的開發人員提供的方法。

“GPT-4.5 可能是 2025 年第一季度發布的最大的傳統 LLM。我估計它是一個包含 5.4 萬億個參數的專家混合模型，“Life Architect 的 AI 顧問兼分析師 Alan D. Thompson 說。“這種原始規模很難用我們當前的硬件限制來證明是合理的，現在要為龐大的用戶群提供服務更具挑戰性。”

4 月 14 日，OpenAI 宣布將在不到三個月的時間內逐步減少通過 API 的 GPT-4.5 訪問。GPT 4.5 仍然可用，但只能通過 ChatGPT 界面提供給 ChatGPT 用戶。

OpenAI 在發布 GPT-4.1 的同時宣布了這一消息，GPT-4.1 是一種更經濟的模型，價格為每百萬個代幣 8 美元。OpenAI 的基準測試表明，GPT-4.1 總體上不如 GPT 4.5 強大，盡管它在某些編碼基準測試中確實表現得更好。

OpenAI 上周還發布了新的推理模型：o3 和 o4-mini。o3 模型在基準測試中的得分特別高。然而，成本再次成為一個問題，因為通過 API 訪問 o3 的價格為每百萬個輸出代幣 40 美元。

在競爭對手苦苦掙扎時，Google 崛起

Llama 4 和 ChatGPT-4.5 的中等接受度為競爭對手留下了機會——他們已經擴大了自己的優勢。

Meta 艱難地推出 Llama 4 不太可能讓開發人員遠離 DeepSeek-V3、谷歌的 Gemma 和阿里巴巴的 Qwen2.5。這些 LLM 于 2024 年底問世，現在是 LMArena 和 HuggingFace 排行榜上的首選開放重量級模型。在流行的基準測試中，它們與 Llama 4 競爭或優于 Llama 4，通過 API 訪問成本低廉，并且在某些情況下可以在消費級計算機硬件上下載和使用。

但真正引起人們眼球的是 Google 新的領先 LLM Gemini 2.5 Pro。

3 月 25 日發布的 Google Gemini 2.5 Pro 是一個“思維模型”，類似于 GPT-o1 和 DeepSeek-R1，它使用自我提示來推理任務。Gemini 2.5 Pro 是多模態的，具有 100 萬個代幣的上下文窗口，并支持深度研究。

Gemini 2.5 很快就贏得了基準測試的勝利，包括 SimpleBench 的頭把交椅（盡管它在 4 月 16 日輸給了 OpenAI 的 o3）和 Artificial Analysis 的綜合 AI 智能指數。Gemini 2.5 Pro 目前也位于 LMArena 的頂部。截至 4 月 14 日，谷歌型號已經占據了 LMArena 前 10 名中的 5 個（這包括 Gemini 2.5 Pro、Gemini 2.0 的三個變體和 Gemma 3-27B）。

強勁的表現足以吸引注意力，但谷歌也是價格領導者。Google Gemini 2.5 目前可通過 Google 的 Gemini 應用程序和 Google 的 AI Studio 網站免費使用。Google 的 API 定價也很有競爭力;Gemini 2.5 Pro 的定價為每 100 萬個輸出代幣 10 美元，而 Gemini 2.0 Flash 的定價僅為每 100 萬個代幣 40 美分。

“老實說，當談到高容量時，我可能最終會使用 DeepSeek-R1 或 Google Gemini 進行推理。我會使用 OpenAI，但我覺得我必須更加注意價格，“Lolica 說。

當然，這并不是說 Meta 和 OpenAI 沉沒了。由于 ChatGPT 的流行，OpenAI 尤其有回旋余地，據報道，ChatGPT 現在擁有 10 億用戶。盡管如此，Gemini 的強勁排名和基準表現表明，LLM 領域正在吹動變革之風——他們目前更青睞 Google。