OpenAI重磅推出o3/o4-mini新模型！能"看圖思考"

作者：時(shí)間：2025-04-17 來(lái)源：網(wǎng)易科技

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

4月17日消息，北京時(shí)間今日凌晨，OpenAI發(fā)布了兩款突破性AI模型，它們能夠通過(guò)圖像進(jìn)行推理，并可獨(dú)立使用工具，專(zhuān)家稱(chēng)它們?yōu)槿斯ぶ悄苣芰Φ囊淮物w躍。

本文引用地址：http://www.j9360.com/article/202504/469484.htm

這兩款新模型分別被稱(chēng)為o3與o4-mini，它們都是OpenAI “o系列” 推理模型的最新成員，并被稱(chēng)為迄今為止最智能、最強(qiáng)大的模型。這些系統(tǒng)能將圖像直接整合到推理過(guò)程中，并在單一任務(wù)流程中執(zhí)行網(wǎng)頁(yè)搜索、代碼運(yùn)行、文件分析乃至圖像生成等操作。

OpenAI總裁格雷格·布羅克曼（Greg Brockman）在發(fā)布會(huì)上表示：“有些模型會(huì)讓人覺(jué)得像是邁入未來(lái)的質(zhì)變，GPT-4就是其中之一。今天也將成為這樣的歷史時(shí)刻。這是首批讓頂尖科學(xué)家都承認(rèn)能產(chǎn)出確實(shí)優(yōu)秀、實(shí)用新穎創(chuàng)意的模型。”

OpenAI新模型通過(guò)“圖像思維”幫助解決視覺(jué)問(wèn)題

這些新模型最顯著的特征是“圖像思維”能力。它們不僅是識(shí)別圖像，還能在問(wèn)題解決流程中操控并推理。

OpenAI在聲明中強(qiáng)調(diào)：“它們不只是看圖——而是用圖像進(jìn)行思考。這解鎖了一類(lèi)全新的問(wèn)題求解方式，將視覺(jué)與文本推理相融合。”

在發(fā)布會(huì)演示環(huán)節(jié)，研究人員展示了o3如何分析一份來(lái)自十年前實(shí)習(xí)項(xiàng)目的物理海報(bào)：它能獨(dú)立解析其中復(fù)雜的圖示，甚至識(shí)別出海報(bào)本身未呈現(xiàn)的最終結(jié)論。

OpenAI多模態(tài)推理研究員布蘭登·麥肯錫（Brandon McKenzie）在演示中說(shuō)道：“它相當(dāng)于在幾秒內(nèi)為我閱讀了至少10篇不同的論文?！彼烙?jì)，這項(xiàng)任務(wù)如果由他本人完成，“光是重新熟悉當(dāng)年的項(xiàng)目背景就要好幾天，然后可能還得幾天才能完成文獻(xiàn)查閱?！?/p>

人工智能在推理過(guò)程中操控圖像的能力，比如放大細(xì)節(jié)、旋轉(zhuǎn)圖像或裁剪冗余元素等，被行業(yè)分析師認(rèn)為可能徹底改變從科研到教育等多個(gè)領(lǐng)域。

沃頓商學(xué)院研究人工智能、創(chuàng)新與創(chuàng)業(yè)公司的伊森·莫里克教授（Ethan Mollick）在社交平臺(tái)上發(fā)文稱(chēng)：

我獲得了o3的早期使用權(quán)限，這款模型令人印象深刻，能力非常強(qiáng)大。以下為一些有趣的示例：

1?? 解構(gòu)了我課堂上使用的商業(yè)案例

2?? 生成純代碼構(gòu)建的SVG矢量圖

3?? 創(chuàng)作雙螺旋結(jié)構(gòu)的約束性短篇故事

4?? 創(chuàng)作硬科幻太空戰(zhàn)斗場(chǎng)景

無(wú)標(biāo)題.jpg

超越AI模型：o3與o4-mini如何通過(guò)先進(jìn)工具集成作為完整AI系統(tǒng)運(yùn)行

OpenAI的高管強(qiáng)調(diào)，這次發(fā)布的不僅僅是推理模型的升級(jí)版本，而是完整的人工智能系統(tǒng)，它們能夠在解決問(wèn)題時(shí)獨(dú)立調(diào)用并串聯(lián)多個(gè)工具。

該公司在發(fā)布聲明中表示：“我們通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練模型使用工具——不僅讓它們學(xué)會(huì)如何使用工具，更讓它們學(xué)會(huì)何時(shí)使用工具?！?/p>

布羅克曼特別強(qiáng)調(diào)了這些模型在工具調(diào)用方面的強(qiáng)大能力：“它們實(shí)際上是在思維鏈中調(diào)用這些工具，以嘗試解決困難問(wèn)題。例如，我們?cè)吹給3為了解并執(zhí)行一個(gè)極其困難的任務(wù)，連續(xù)調(diào)用了大約600次工具?！?/p>

這種能力使模型能夠執(zhí)行復(fù)雜的、多步驟的工作流任務(wù)，而無(wú)需用戶持續(xù)介入。比如，當(dāng)被問(wèn)到“加州未來(lái)的能源使用趨勢(shì)”時(shí)，人工智能系統(tǒng)可以搜索公用事業(yè)數(shù)據(jù)、編寫(xiě)Python代碼進(jìn)行分析、生成可視化圖表，并撰寫(xiě)出一份全面的報(bào)告——所有步驟都作為一個(gè)流暢、連貫的過(guò)程完成。

OpenAI超越競(jìng)爭(zhēng)對(duì)手，在關(guān)鍵AI基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異

OpenAI宣稱(chēng)，o3在多個(gè)關(guān)鍵人工智能能力基準(zhǔn)測(cè)試中確立全新行業(yè)標(biāo)桿，包括Codeforces（編程競(jìng)賽平臺(tái)）、SWE-bench（軟件工程基準(zhǔn)）和MMMU（多模態(tài)理解評(píng)估）。

據(jù)外部專(zhuān)家評(píng)估，在復(fù)雜現(xiàn)實(shí)任務(wù)中，o3的重大錯(cuò)誤率較前代模型降低20%。

而輕量級(jí)模型o4-mini在保持強(qiáng)大推理能力的同時(shí)，更注重速度與成本效益。配備Python解釋器時(shí)，其在2025年AIME數(shù)學(xué)競(jìng)賽中取得99.5%的驚人準(zhǔn)確率。

OpenAI研究負(fù)責(zé)人馬克·陳（Mark Chen）在發(fā)布會(huì)上說(shuō)道：“我真的相信，憑借這套模型組合，o3和o4-mini，我們將會(huì)看到更多的突破?！?/p>

OpenAI發(fā)布新模型的時(shí)機(jī)也非常關(guān)鍵，該公司在兩天前剛剛推出了GPT-4.1模型，該模型在編程任務(wù)中表現(xiàn)優(yōu)異。接連不斷的發(fā)布表明，OpenAI在競(jìng)爭(zhēng)激烈的人工智能領(lǐng)域正在加速推進(jìn)，并面臨來(lái)自谷歌Gemini、Anthropic Claude以及埃隆·馬斯克（Elon Musk）旗下xAI等日益激烈的競(jìng)爭(zhēng)壓力。

上個(gè)月，OpenAI完成了歷史上最大規(guī)模的私募融資，籌集了400億美元資金，估值達(dá)3000億美元。另外，該公司還在考慮構(gòu)建自己的社交網(wǎng)絡(luò)，可能對(duì)標(biāo)馬斯克的X，并確保擁有獨(dú)立的訓(xùn)練數(shù)據(jù)源。

OpenAI新模型如何通過(guò)代碼導(dǎo)航能力重塑軟件工程領(lǐng)域

新模型在軟件工程領(lǐng)域的表現(xiàn)特別出色。布羅克曼在發(fā)布會(huì)上提到，o3在“檢索OpenAI內(nèi)部代碼庫(kù)時(shí)的表現(xiàn)比我還要出色，這真的很有用。”

作為此次發(fā)布的一部分，OpenAI還推出了Codex CLI，這是一款輕量級(jí)的編程智能體，可以直接在用戶的終端運(yùn)行。這個(gè)開(kāi)源工具讓開(kāi)發(fā)者能夠利用這些模型的推理能力來(lái)完成編程任務(wù)，支持截圖和草圖輸入。

OpenAI在公告中寫(xiě)道：“我們還分享了一個(gè)新的實(shí)驗(yàn)：Codex CLI，一個(gè)可以從終端運(yùn)行的輕量級(jí)編程智能體。通過(guò)將截圖或簡(jiǎn)略草圖傳遞給模型，并結(jié)合對(duì)本地代碼的訪問(wèn)，用戶可以從命令行獲得多模態(tài)推理的好處。”

為了鼓勵(lì)采用，OpenAI啟動(dòng)了一項(xiàng)100萬(wàn)美元的扶持計(jì)劃，支持使用Codex CLI和OpenAI的模型，每個(gè)項(xiàng)目將獲得2.5萬(wàn)美元的API信用額度。

無(wú)標(biāo)題.jpg

OpenAI首席執(zhí)行官山姆·奧特曼（Sam Altman）發(fā)帖稱(chēng)：“由于o3和o4-mini在編程領(lǐng)域表現(xiàn)優(yōu)異，OpenAI還推出了一個(gè)新產(chǎn)品——Codex CLI，旨在簡(jiǎn)化它們的使用。這是一款運(yùn)行在你計(jì)算機(jī)上的編程智能體，完全開(kāi)源，并已于今日發(fā)布；我們預(yù)計(jì)它將迅速改進(jìn)?！?/p>

OpenAI強(qiáng)化安全協(xié)議內(nèi)幕：如何防范AI濫用

OpenAI表示，已對(duì)新模型進(jìn)行了廣泛的安全測(cè)試，特別是針對(duì)它們拒絕有害請(qǐng)求的能力。該公司的安全措施包括完全重建安全訓(xùn)練數(shù)據(jù)，并開(kāi)發(fā)了系統(tǒng)級(jí)的緩解措施來(lái)標(biāo)記危險(xiǎn)的提示。

OpenAI在公告中稱(chēng)：“我們對(duì)這兩個(gè)模型進(jìn)行了迄今為止最嚴(yán)格的安全測(cè)試。o3和o4-mini在生物學(xué)、網(wǎng)絡(luò)安全和AI自我改進(jìn)能力等領(lǐng)域的潛在風(fēng)險(xiǎn)，仍然低于OpenAI的高風(fēng)險(xiǎn)閾值。”

在發(fā)布會(huì)上，OpenAI兩位研究人員展示了詳細(xì)的基準(zhǔn)測(cè)試結(jié)果，并指出新模型在訓(xùn)練計(jì)算量上超過(guò)了以往版本的10倍，才能實(shí)現(xiàn)這些強(qiáng)大的能力。

獲取o3和o4-mini的時(shí)機(jī)與方式：部署時(shí)間表與商業(yè)策略

OpenAI的新模型目前已立即向ChatGPT Plus、Pro和Team用戶開(kāi)放，Enterprise和Education客戶將在下周獲得訪問(wèn)權(quán)限。免費(fèi)用戶可以通過(guò)在提交查詢前選擇“Think”來(lái)體驗(yàn)o4-mini。

開(kāi)發(fā)者可以通過(guò)OpenAI的Chat Completions API和Responses API試用這兩個(gè)模型，盡管部分組織需要驗(yàn)證才能訪問(wèn)它們。

此次發(fā)布對(duì)OpenAI來(lái)說(shuō)是一個(gè)重要的商業(yè)機(jī)會(huì)，因?yàn)檫@些模型似乎比前代更強(qiáng)大且更具成本效益。該公司舉例稱(chēng)，在2025年AIME數(shù)學(xué)競(jìng)賽中，o3的性價(jià)比嚴(yán)格優(yōu)于o1。同樣，o4-mini在成本表現(xiàn)上也優(yōu)于o3-mini。

AI的未來(lái)：OpenAI架起推理與對(duì)話的橋梁打造下一代系統(tǒng)

業(yè)內(nèi)分析人士認(rèn)為，這些發(fā)布是人工智能能力融合的更廣泛趨勢(shì)的一部分，模型越來(lái)越多地將專(zhuān)業(yè)推理與自然對(duì)話能力和工具使用結(jié)合起來(lái)。

OpenAI在發(fā)布會(huì)中指出：“最新發(fā)布反映了我們的模型發(fā)展方向：我們正在將o系列的專(zhuān)門(mén)推理能力與GPT系列更多的自然對(duì)話能力和工具使用結(jié)合起來(lái)?！?/p>

不過(guò)，莫里克教授發(fā)帖稱(chēng)，o3是“非常強(qiáng)大的模型，但仍有明顯短板”。

隨著人工智能領(lǐng)域的競(jìng)爭(zhēng)日益加劇，谷歌、Anthropic等公司推出越來(lái)越強(qiáng)大的模型，OpenAI在推理能力和實(shí)際工具使用上的雙重關(guān)注表明，其戰(zhàn)略是旨在通過(guò)提供智能和實(shí)用性來(lái)保持領(lǐng)先地位。

通過(guò)o3和o4-mini，OpenAI已經(jīng)跨越了一個(gè)門(mén)檻——機(jī)器開(kāi)始像人類(lèi)一樣感知圖像，將視覺(jué)信息的處理作為思維過(guò)程的組成部分，而不僅僅是分析它們所看到的。這種從被動(dòng)識(shí)別到主動(dòng)視覺(jué)推理的轉(zhuǎn)變，可能比任何基準(zhǔn)分?jǐn)?shù)都更具意義，代表著人工智能終于開(kāi)始通過(guò)“思考的眼睛”來(lái)看待世界。