OpenAI十周年，火速發(fā)布GPT-5.2，奧特曼：十年后將構(gòu)建出超級(jí)智能

澎湃新聞?dòng)浾?秦盛

2025-12-12 11:08

來(lái)源：澎湃新聞

面對(duì)谷歌等競(jìng)爭(zhēng)對(duì)手帶來(lái)的壓力，在紅色緊急狀態(tài)下的OpenAI，在十周年之際火速發(fā)布GPT-5.2。

當(dāng)?shù)貢r(shí)間12月11日，OpenAI正式推出最新模型GPT-5.2，據(jù)官方介紹，該模型適用于專(zhuān)業(yè)工作和長(zhǎng)時(shí)運(yùn)行智能體，是迄今為止適用于專(zhuān)業(yè)知識(shí)工作的最強(qiáng)模型系列，在通用智能、長(zhǎng)上下文理解、智能體化工具調(diào)用和視覺(jué)方面得到顯著改進(jìn)，在執(zhí)行端到端的復(fù)雜現(xiàn)實(shí)世界任務(wù)方面優(yōu)于以往的模型。

GPT?5.2共有Instant、Thinking和Pro三個(gè)版本，將從今天開(kāi)始向付費(fèi)計(jì)劃用戶(hù)逐步推出，在 ChatGPT 中，GPT?5.1將繼續(xù)對(duì)付費(fèi)用戶(hù)可用三個(gè)月，之后將停止支持。在API（應(yīng)用接口）中，已對(duì)所有開(kāi)發(fā)者開(kāi)放。

OpenAI CEO山姆·奧特曼（Sam Altman）發(fā)文表示：“即使沒(méi)有諸如輸出精美文件這類(lèi)新功能，GPT-5.2也感覺(jué)像是我們?cè)S久以來(lái)獲得的最大升級(jí)。?”

據(jù)介紹，GPT-5.2在多數(shù)基準(zhǔn)測(cè)試中都達(dá)到了新的先進(jìn)水平，在GDPval測(cè)試中（GDPval是OpenAI推出的AI評(píng)估基準(zhǔn)，旨在衡量前沿模型在真實(shí)經(jīng)濟(jì)價(jià)值任務(wù)中的表現(xiàn)，以彌補(bǔ)學(xué)術(shù)測(cè)試與實(shí)際應(yīng)用間的差距），在涵蓋44個(gè)職業(yè)、定義明確的知識(shí)工作任務(wù)上，表現(xiàn)優(yōu)于行業(yè)專(zhuān)業(yè)人士。

GPT-5.2在GDPval測(cè)試中的表現(xiàn)，Thinking版在70.9%的比較中擊敗或持平頂尖行業(yè)專(zhuān)業(yè)人士。

編碼能力方面，GPT-5.2在SWE-Bench Pro（一項(xiàng)對(duì)現(xiàn)實(shí)世界軟件工程進(jìn)行的嚴(yán)格評(píng)估，測(cè)試四種語(yǔ)言，旨在更具抗污染性、挑戰(zhàn)性、多樣性和行業(yè)相關(guān)性）上，Thinking版取得了 55.6%的最高成績(jī)，在SWE-bench Verified上，Thinking版取得了80%的高分。

OpenAI表示，對(duì)于日常專(zhuān)業(yè)使用而言，這意味著模型能夠更可靠地調(diào)試生產(chǎn)代碼、實(shí)現(xiàn)功能請(qǐng)求、重構(gòu)大型代碼庫(kù)，并以更少的人工干預(yù)端到端地發(fā)布修復(fù)。

GPT?5.2 Thinking在前端軟件工程方面也優(yōu)于GPT?5.1 Thinking。早期測(cè)試者發(fā)現(xiàn)它在前端開(kāi)發(fā)和復(fù)雜或非傳統(tǒng)的 UI 工作（尤其是涉及 3D 元素的工作）方面明顯更強(qiáng)，比如制作海洋波浪模擬、假日賀卡制作器、打字游戲等。

據(jù)介紹，GPT?5.2 Thinking的事實(shí)準(zhǔn)確性、長(zhǎng)上下文、視覺(jué)以及工具調(diào)用性能都迎來(lái)大幅提升。比GPT?5.1 Thinking的幻覺(jué)更少，在一組匿名查詢(xún)中，包含錯(cuò)誤的回答相對(duì)減少了30%；在4-needle MRCR 變體（長(zhǎng)達(dá) 256k token）任務(wù)上實(shí)現(xiàn)接近100%準(zhǔn)確率，同時(shí)，對(duì)于需要思考超出最大上下文窗口的任務(wù)，GPT?5.2 Thinking與OpenAI新的Responses /compact端點(diǎn)兼容，擴(kuò)展了模型的有效上下文窗口；視覺(jué)方面，GPT?5.2 Thinking成為OpenAI迄今為止最強(qiáng)的視覺(jué)模型，在圖表推理和軟件界面理解方面的錯(cuò)誤率大約降低了一半，還能更好地理解圖像中元素的定位；工具調(diào)用性能方面，GPT?5.2 Thinking在Tau2-bench Telecom測(cè)試上實(shí)現(xiàn)了98.7%的得分，對(duì)于延遲敏感的使用場(chǎng)景，其在reasoning.effort='none'（無(wú)推理）設(shè)置下的表現(xiàn)也遠(yuǎn)優(yōu)于GPT?5.1和GPT?4.1。

GPT?5.2與GPT-5.1的視覺(jué)能力對(duì)比。

在科學(xué)與數(shù)學(xué)能力方面。在 GPQA Diamond（研究生級(jí)別的、防谷歌的問(wèn)答基準(zhǔn)）測(cè)試上，GPT?5.2 Pro達(dá)到93.2%，GPT?5.2 Thinkin達(dá)到92.4%。

OpenAI表示，在最近與GPT?5.2 Pro合作的研究中，研究人員探索了統(tǒng)計(jì)學(xué)習(xí)理論中的一個(gè)開(kāi)放性問(wèn)題。在特定、明確界定的設(shè)定下，模型提出了一個(gè)證明，隨后得到了作者的驗(yàn)證，并與外部專(zhuān)家一起進(jìn)行了審查，這證明了前沿模型已經(jīng)在人類(lèi)的密切監(jiān)督下協(xié)助數(shù)學(xué)研究。

同時(shí)，在ARC-AGI 1（衡量通用推理能力的基準(zhǔn)）測(cè)試上，GPT?5.2 Pro成為第一個(gè)突破90%閾值的模型，相比去年o3?preview的87%有所提高，同時(shí)將實(shí)現(xiàn)該性能的成本降低至1/390。

在難度更高、更能隔離流體推理能力的 ARC-AGI-2基準(zhǔn)測(cè)試上，GPT?5.2 Thinking在思維鏈模型中得分為 52.9%，GPT?5.2 Pro更是達(dá)到 54.2%，模型的推理新穎性、抽象問(wèn)題的能力進(jìn)一步提升。

值得一提的是，當(dāng)天還是OpenAI成立十周年，奧特曼發(fā)布了題為《十年》的博客，回顧了OpenAI成立十年來(lái)的突破、經(jīng)驗(yàn)教訓(xùn)以及有關(guān)AGI的思考。

他表示，OpenAI取得的成就超出了他最大膽的夢(mèng)想，“我們當(dāng)初設(shè)定了一個(gè)瘋狂、不太可能且史無(wú)前例的目標(biāo)。從極度不確定的開(kāi)端起步，盡管希望渺茫，但通過(guò)持續(xù)努力，現(xiàn)在看來(lái)，我們似乎有望實(shí)現(xiàn)我們的使命”。

奧特曼表示，當(dāng)他回顧早期的照片時(shí)，首先震驚于每個(gè)人看起來(lái)都那么年輕。接著，又震驚于每個(gè)人看起來(lái)都異常樂(lè)觀(guān)，而且那么快樂(lè)。“那是一段瘋狂而快樂(lè)的時(shí)光：盡管我們被嚴(yán)重誤解，但我們懷著堅(jiān)定的信念，覺(jué)得這件事意義重大，即使成功機(jī)會(huì)渺茫也值得為之付出巨大努力，我們擁有非常有才華的人，并且目標(biāo)明確”。

OpenAI在十周年視頻中發(fā)布的創(chuàng)業(yè)早期照片。

他表示，三年前推出ChatGPT時(shí)，世界注意到了，而當(dāng)推出 GPT-4 時(shí)，反響更是熱烈；突然間，考慮通用人工智能（AGI）不再是件瘋狂的事。“過(guò)去的三年極其緊張，充滿(mǎn)了壓力和重大的責(zé)任；這項(xiàng)技術(shù)以前所未有的規(guī)模和速度融入了世界。這需要我們以極高的執(zhí)行力來(lái)完成，而且我們不得不立即為此建立一種全新的能力。在這段時(shí)間里，從一無(wú)所有成長(zhǎng)為一家龐大的公司絕非易事，需要我們每周做出成百上千個(gè)決策。我為團(tuán)隊(duì)做出的許多正確決策感到自豪，而那些錯(cuò)誤的決策，則大多是我的責(zé)任”。

奧特曼表示從未對(duì)OpenAI的研究、產(chǎn)品路線(xiàn)圖以及整體上通向使命的路徑感到如此樂(lè)觀(guān)。再過(guò)十年，幾乎可以肯定OpenAI將構(gòu)建出超級(jí)智能?！拔翌A(yù)計(jì)未來(lái)會(huì)讓人感到奇妙；從某種意義上說(shuō)，日常生活和我們最關(guān)心的事情變化會(huì)非常小，我敢肯定，我們將繼續(xù)更關(guān)注其他人的行為，而非機(jī)器的行為。但從另一種意義上說(shuō)，2035年的人們將能夠做到一些我認(rèn)為我們現(xiàn)在難以輕易想象的事情”。

責(zé)任編輯：是冬冬

校對(duì)：施鋆

澎湃新聞報(bào)料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報(bào)

#OpenAI #GPT #ChatGPT