中文字幕欧美乱伦|手机AV永久免费|澳门堵场日韩精品|日本性爱欧美激情|蜜桃狠狠狠狠狠狠狠狠狠|成人免费视频 国|欧美国产麻豆婷婷|99久久久国产精品福利姬喷水|婷婷内射精品视频|日本欧洲一区二区

澎湃Logo
下載客戶(hù)端

登錄

  • +1

OpenAI十周年,火速發(fā)布GPT-5.2,奧特曼:十年后將構(gòu)建出超級(jí)智能

澎湃新聞?dòng)浾?秦盛
2025-12-12 11:08
來(lái)源:澎湃新聞
? 10%公司 >
字號(hào)

面對(duì)谷歌等競(jìng)爭(zhēng)對(duì)手帶來(lái)的壓力,在紅色緊急狀態(tài)下的OpenAI,在十周年之際火速發(fā)布GPT-5.2。

當(dāng)?shù)貢r(shí)間12月11日,OpenAI正式推出最新模型GPT-5.2,據(jù)官方介紹,該模型適用于專(zhuān)業(yè)工作和長(zhǎng)時(shí)運(yùn)行智能體,是迄今為止適用于專(zhuān)業(yè)知識(shí)工作的最強(qiáng)模型系列,在通用智能、長(zhǎng)上下文理解、智能體化工具調(diào)用和視覺(jué)方面得到顯著改進(jìn),在執(zhí)行端到端的復(fù)雜現(xiàn)實(shí)世界任務(wù)方面優(yōu)于以往的模型。

GPT?5.2共有Instant、Thinking和Pro三個(gè)版本,將從今天開(kāi)始向付費(fèi)計(jì)劃用戶(hù)逐步推出,在 ChatGPT 中,GPT?5.1將繼續(xù)對(duì)付費(fèi)用戶(hù)可用三個(gè)月,之后將停止支持。在API(應(yīng)用接口)中,已對(duì)所有開(kāi)發(fā)者開(kāi)放。

OpenAI CEO山姆·奧特曼(Sam Altman)發(fā)文表示:“即使沒(méi)有諸如輸出精美文件這類(lèi)新功能,GPT-5.2也感覺(jué)像是我們?cè)S久以來(lái)獲得的最大升級(jí)。?”

據(jù)介紹,GPT-5.2在多數(shù)基準(zhǔn)測(cè)試中都達(dá)到了新的先進(jìn)水平,在GDPval測(cè)試中(GDPval是OpenAI推出的AI評(píng)估基準(zhǔn),旨在衡量前沿模型在真實(shí)經(jīng)濟(jì)價(jià)值任務(wù)中的表現(xiàn),以彌補(bǔ)學(xué)術(shù)測(cè)試與實(shí)際應(yīng)用間的差距),在涵蓋44個(gè)職業(yè)、定義明確的知識(shí)工作任務(wù)上,表現(xiàn)優(yōu)于行業(yè)專(zhuān)業(yè)人士。

GPT-5.2在GDPval測(cè)試中的表現(xiàn),Thinking版在70.9%的比較中擊敗或持平頂尖行業(yè)專(zhuān)業(yè)人士。

編碼能力方面,GPT-5.2在SWE-Bench Pro(一項(xiàng)對(duì)現(xiàn)實(shí)世界軟件工程進(jìn)行的嚴(yán)格評(píng)估,測(cè)試四種語(yǔ)言,旨在更具抗污染性、挑戰(zhàn)性、多樣性和行業(yè)相關(guān)性)上,Thinking版取得了 55.6%的最高成績(jī),在SWE-bench Verified上,Thinking版取得了80%的高分。

OpenAI表示,對(duì)于日常專(zhuān)業(yè)使用而言,這意味著模型能夠更可靠地調(diào)試生產(chǎn)代碼、實(shí)現(xiàn)功能請(qǐng)求、重構(gòu)大型代碼庫(kù),并以更少的人工干預(yù)端到端地發(fā)布修復(fù)。

GPT?5.2 Thinking在前端軟件工程方面也優(yōu)于GPT?5.1 Thinking。早期測(cè)試者發(fā)現(xiàn)它在前端開(kāi)發(fā)和復(fù)雜或非傳統(tǒng)的 UI 工作(尤其是涉及 3D 元素的工作)方面明顯更強(qiáng),比如制作海洋波浪模擬、假日賀卡制作器、打字游戲等。

據(jù)介紹,GPT?5.2 Thinking的事實(shí)準(zhǔn)確性、長(zhǎng)上下文、視覺(jué)以及工具調(diào)用性能都迎來(lái)大幅提升。比GPT?5.1 Thinking的幻覺(jué)更少,在一組匿名查詢(xún)中,包含錯(cuò)誤的回答相對(duì)減少了30%;在4-needle MRCR 變體(長(zhǎng)達(dá) 256k token)任務(wù)上實(shí)現(xiàn)接近100%準(zhǔn)確率,同時(shí),對(duì)于需要思考超出最大上下文窗口的任務(wù),GPT?5.2 Thinking與OpenAI新的Responses /compact端點(diǎn)兼容,擴(kuò)展了模型的有效上下文窗口;視覺(jué)方面,GPT?5.2 Thinking成為OpenAI迄今為止最強(qiáng)的視覺(jué)模型,在圖表推理和軟件界面理解方面的錯(cuò)誤率大約降低了一半,還能更好地理解圖像中元素的定位;工具調(diào)用性能方面,GPT?5.2 Thinking在Tau2-bench Telecom測(cè)試上實(shí)現(xiàn)了98.7%的得分,對(duì)于延遲敏感的使用場(chǎng)景,其在reasoning.effort='none'(無(wú)推理)設(shè)置下的表現(xiàn)也遠(yuǎn)優(yōu)于GPT?5.1和GPT?4.1。

GPT?5.2與GPT-5.1的視覺(jué)能力對(duì)比。

在科學(xué)與數(shù)學(xué)能力方面。在 GPQA Diamond(研究生級(jí)別的、防谷歌的問(wèn)答基準(zhǔn))測(cè)試上,GPT?5.2 Pro達(dá)到93.2%,GPT?5.2 Thinkin達(dá)到92.4%。

OpenAI表示,在最近與GPT?5.2 Pro合作的研究中,研究人員探索了統(tǒng)計(jì)學(xué)習(xí)理論中的一個(gè)開(kāi)放性問(wèn)題。在特定、明確界定的設(shè)定下,模型提出了一個(gè)證明,隨后得到了作者的驗(yàn)證,并與外部專(zhuān)家一起進(jìn)行了審查,這證明了前沿模型已經(jīng)在人類(lèi)的密切監(jiān)督下協(xié)助數(shù)學(xué)研究。

同時(shí),在ARC-AGI 1(衡量通用推理能力的基準(zhǔn))測(cè)試上,GPT?5.2 Pro成為第一個(gè)突破90%閾值的模型,相比去年o3?preview的87%有所提高,同時(shí)將實(shí)現(xiàn)該性能的成本降低至1/390。

在難度更高、更能隔離流體推理能力的 ARC-AGI-2基準(zhǔn)測(cè)試上,GPT?5.2 Thinking在思維鏈模型中得分為 52.9%,GPT?5.2 Pro更是達(dá)到 54.2%,模型的推理新穎性、抽象問(wèn)題的能力進(jìn)一步提升。

值得一提的是,當(dāng)天還是OpenAI成立十周年,奧特曼發(fā)布了題為《十年》的博客,回顧了OpenAI成立十年來(lái)的突破、經(jīng)驗(yàn)教訓(xùn)以及有關(guān)AGI的思考。

他表示,OpenAI取得的成就超出了他最大膽的夢(mèng)想,“我們當(dāng)初設(shè)定了一個(gè)瘋狂、不太可能且史無(wú)前例的目標(biāo)。從極度不確定的開(kāi)端起步,盡管希望渺茫,但通過(guò)持續(xù)努力,現(xiàn)在看來(lái),我們似乎有望實(shí)現(xiàn)我們的使命”。

奧特曼表示,當(dāng)他回顧早期的照片時(shí),首先震驚于每個(gè)人看起來(lái)都那么年輕。接著,又震驚于每個(gè)人看起來(lái)都異常樂(lè)觀(guān),而且那么快樂(lè)。“那是一段瘋狂而快樂(lè)的時(shí)光:盡管我們被嚴(yán)重誤解,但我們懷著堅(jiān)定的信念,覺(jué)得這件事意義重大,即使成功機(jī)會(huì)渺茫也值得為之付出巨大努力,我們擁有非常有才華的人,并且目標(biāo)明確”。

OpenAI在十周年視頻中發(fā)布的創(chuàng)業(yè)早期照片。

他表示,三年前推出ChatGPT時(shí),世界注意到了,而當(dāng)推出 GPT-4 時(shí),反響更是熱烈;突然間,考慮通用人工智能(AGI)不再是件瘋狂的事。“過(guò)去的三年極其緊張,充滿(mǎn)了壓力和重大的責(zé)任;這項(xiàng)技術(shù)以前所未有的規(guī)模和速度融入了世界。這需要我們以極高的執(zhí)行力來(lái)完成,而且我們不得不立即為此建立一種全新的能力。在這段時(shí)間里,從一無(wú)所有成長(zhǎng)為一家龐大的公司絕非易事,需要我們每周做出成百上千個(gè)決策。我為團(tuán)隊(duì)做出的許多正確決策感到自豪,而那些錯(cuò)誤的決策,則大多是我的責(zé)任”。

奧特曼表示從未對(duì)OpenAI的研究、產(chǎn)品路線(xiàn)圖以及整體上通向使命的路徑感到如此樂(lè)觀(guān)。再過(guò)十年,幾乎可以肯定OpenAI將構(gòu)建出超級(jí)智能?!拔翌A(yù)計(jì)未來(lái)會(huì)讓人感到奇妙;從某種意義上說(shuō),日常生活和我們最關(guān)心的事情變化會(huì)非常小,我敢肯定,我們將繼續(xù)更關(guān)注其他人的行為,而非機(jī)器的行為。但從另一種意義上說(shuō),2035年的人們將能夠做到一些我認(rèn)為我們現(xiàn)在難以輕易想象的事情”。

    責(zé)任編輯:是冬冬
    校對(duì):施鋆
    澎湃新聞報(bào)料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
            查看更多

            掃碼下載澎湃新聞客戶(hù)端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2025 上海東方報(bào)業(yè)有限公司

            反饋