OpenAI吹了一晚上GPT-5“消除幻覺(jué)”，卻被演示翻車一秒破功

2025-08-08 14:05

來(lái)源：澎湃新聞·澎湃號(hào)·湃客

小編的悄悄話：翻車視頻在文末，但我相信熱愛AI的你一定會(huì)把前面看完的，對(duì)吧？?

北京時(shí)間8月8日凌晨， OpenAI正式發(fā)布其新一代旗艦人工智能模型——GPT-5。根據(jù)官方介紹，GPT-5被定位為該公司迄今為止最智能、最快速且最實(shí)用的模型，其核心特點(diǎn)是集成了一個(gè)內(nèi)置的“思考”（thinking）機(jī)制，旨在為廣大用戶提供專家級(jí)別的智能分析與響應(yīng)能力。

此次發(fā)布不僅是模型性能的線性提升，更在系統(tǒng)架構(gòu)、可靠性與應(yīng)用能力上進(jìn)行了一系列深度重構(gòu)。本文將基于官方發(fā)布的內(nèi)容，對(duì)GPT-5的模型架構(gòu)、發(fā)布計(jì)劃、核心改進(jìn)以及在關(guān)鍵領(lǐng)域的具體表現(xiàn)進(jìn)行客觀、詳盡的梳理與分析。

GPT-5系統(tǒng)架構(gòu)：引入動(dòng)態(tài)路由的統(tǒng)一智能模型

GPT-5摒棄了以往單一模型的架構(gòu)，采用了一個(gè)被稱為“統(tǒng)一系統(tǒng)”（unified system）的復(fù)合設(shè)計(jì)。該系統(tǒng)主要由三個(gè)部分構(gòu)成：一個(gè)高效的基礎(chǔ)模型、一個(gè)深度推理模型以及一個(gè)實(shí)時(shí)路由器。

高效基礎(chǔ)模型負(fù)責(zé)處理大多數(shù)常規(guī)請(qǐng)求，以確?？焖夙憫?yīng)。當(dāng)系統(tǒng)識(shí)別到問(wèn)題具有較高的復(fù)雜度或用戶明確提出深度分析需求時(shí)，則會(huì)激活名為“GPT-5 thinking”的深度推理模型。該模型會(huì)投入更多的計(jì)算資源與時(shí)間，進(jìn)行更周密的分析，以生成更全面、更準(zhǔn)確的專家級(jí)答案。

連接這兩個(gè)模型的是一個(gè)實(shí)時(shí)路由器（real-time router）。該路由器會(huì)根據(jù)對(duì)話類型、問(wèn)題復(fù)雜性、工具調(diào)用需求以及用戶的顯式指令，動(dòng)態(tài)決定使用哪個(gè)模型進(jìn)行響應(yīng)。該路由器是一個(gè)持續(xù)學(xué)習(xí)的系統(tǒng)，它會(huì)通過(guò)分析用戶偏好、模型切換行為和答案正確率等真實(shí)世界信號(hào)不斷進(jìn)行自我優(yōu)化。

在此系統(tǒng)之上，OpenAI還推出了專為處理最高難度任務(wù)設(shè)計(jì)的GPT-5 Pro。該版本通過(guò)擴(kuò)展的并行計(jì)算能力進(jìn)行更長(zhǎng)時(shí)間的推理，以提供最高質(zhì)量的答案，并取代了此前的OpenAI o3-pro。此外，系統(tǒng)還包含一個(gè)GPT-5 mini版本，用于在用戶的標(biāo)準(zhǔn)模型使用額度耗盡后，繼續(xù)提供服務(wù)。

根據(jù)OpenAI的規(guī)劃，未來(lái)計(jì)劃將這些不同的能力整合到一個(gè)單一模型中，這表明當(dāng)前的統(tǒng)一系統(tǒng)架構(gòu)可能是實(shí)現(xiàn)更高度集成化模型的一個(gè)過(guò)渡階段。

發(fā)布即上線，免費(fèi)用戶也能用

根據(jù)官方公布的時(shí)間表，GPT-5將從即日起開始向Plus、Pro、Team和免費(fèi)用戶推送，并將在一周后向Enterprise和Edu用戶開放。GPT-5將成為ChatGPT平臺(tái)新的默認(rèn)模型，取代包括GPT-4o在內(nèi)的舊版本。

不同層級(jí)的用戶將獲得差異化的使用權(quán)限：

免費(fèi)用戶：可以體驗(yàn)到GPT-5，但設(shè)有使用量限制。在用量達(dá)到上限后，系統(tǒng)將自動(dòng)切換至GPT-5 mini。完整的深度推理功能可能需要幾天時(shí)間才能完全覆蓋所有免費(fèi)用戶。

Plus用戶：擁有顯著高于免費(fèi)用戶的用量額度，可以將其作為日常使用的默認(rèn)模型。用戶也可以在設(shè)置中手動(dòng)選擇“GPT-5 Thinking”模式。

Pro用戶：可以無(wú)限制地使用標(biāo)準(zhǔn)版GPT-5，并擁有對(duì)GPT-5 Pro的獨(dú)家訪問(wèn)權(quán)。

Team、Enterprise和Edu用戶：將獲得充足的使用額度，以支持整個(gè)組織范圍內(nèi)的日常工作流程。

該分層策略旨在普及GPT-5基礎(chǔ)能力的同時(shí)，為有更高性能需求的專業(yè)人士和組織提供更高階的服務(wù)。

核心模型改進(jìn)：可靠性、誠(chéng)實(shí)度與安全性顯著提升

根據(jù)官方介紹：GPT-5總體上更“聰明”，這體現(xiàn)在學(xué)術(shù)和人類評(píng)估基準(zhǔn)上的表現(xiàn)，特別是在數(shù)學(xué)、編碼、視覺(jué)感知和健康方面。它在數(shù)學(xué)（AIME 2025沒(méi)有工具的94.6%）、現(xiàn)實(shí)世界編碼（SWE-bench Verified的74.9%，Aider Polyglot的88%）、多模態(tài)理解（MMMU的84.2%）和健康（HealthBench Hard的46.2%）方面建立了一個(gè)新的技術(shù)水平——這些收益在日常使用中。通過(guò)GPT-5 pro的擴(kuò)展推理，該模型還在GPQA上設(shè)置了新的SOTA，在沒(méi)有工具的情況下獲得了88.4%的分?jǐn)?shù)。

同時(shí)，GPT-5在測(cè)試指令遵循和代理工具使用的基準(zhǔn)方面顯示出顯著的增強(qiáng)，使其能夠可靠地執(zhí)行多步驟請(qǐng)求，跨不同工具進(jìn)行協(xié)調(diào)，并適應(yīng)上下文的變化，處理更復(fù)雜的任務(wù)。

相較于性能指標(biāo)的提升，GPT-5在模型的可靠性、誠(chéng)實(shí)度和安全性方面的改進(jìn)同樣值得關(guān)注。

首先，在事實(shí)準(zhǔn)確性方面，GPT-5顯著降低了內(nèi)容“幻覺(jué)”的發(fā)生率。官方數(shù)據(jù)顯示，與GPT-4o相比，GPT-5產(chǎn)生事實(shí)錯(cuò)誤的概率降低了約45%；在啟用深度“思考”模式后，其錯(cuò)誤率相比OpenAI o3更是降低了約80%。在針對(duì)開放式事實(shí)問(wèn)答的LongFact和FActScore基準(zhǔn)測(cè)試中，GPT-5的幻覺(jué)率比o3低了約六倍。

其次，在模型誠(chéng)實(shí)度方面，GPT-5被訓(xùn)練得能更好地識(shí)別自身能力的局限性。在一項(xiàng)移除輸入圖像的多模態(tài)測(cè)試中，前代模型o3在86.7%的情況下仍會(huì)自信地對(duì)不存在的圖像進(jìn)行描述，而GPT-5的這一比例僅為9%。這表明當(dāng)任務(wù)無(wú)法完成或缺少必要信息時(shí)，GPT-5更傾向于坦誠(chéng)地向用戶說(shuō)明情況，而非提供虛假或誤導(dǎo)性的信息。

再次，在安全性范式上，GPT-5引入了“安全完成”（safe completions）的訓(xùn)練方法。這與以往主要依賴“拒絕”高風(fēng)險(xiǎn)請(qǐng)求的模式不同，新范式旨在教導(dǎo)模型在遵守安全邊界的前提下，盡可能提供有益的、無(wú)害的回答。例如，在處理具有兩用性的問(wèn)題時(shí)，模型可以進(jìn)行高層次的、安全的解答，而不是一概拒絕。

最后，在交互風(fēng)格上，GPT-5減少了過(guò)度附和與不必要的修飾。根據(jù)官方評(píng)估，在旨在引發(fā)諂媚回應(yīng)的測(cè)試中，GPT-5的諂媚回復(fù)率從14.5%降至6%以下，旨在提供更嚴(yán)謹(jǐn)、更具建設(shè)性的對(duì)話體驗(yàn)。

此外，OpenAI還推出了四種新的預(yù)設(shè)人格（Cynic, Robot, Listener, Nerd）作為研究預(yù)覽，供用戶在不編寫復(fù)雜指令的情況下調(diào)整模型的溝通風(fēng)格。

關(guān)鍵應(yīng)用領(lǐng)域表現(xiàn)：編碼、寫作與健康等多場(chǎng)景能力評(píng)估

GPT-5在多個(gè)專業(yè)領(lǐng)域的應(yīng)用能力也達(dá)到了新的水準(zhǔn)，其表現(xiàn)在多項(xiàng)基準(zhǔn)測(cè)試中得到驗(yàn)證。

編碼：GPT-5被OpenAI自稱為迄今最強(qiáng)的編碼模型，在復(fù)雜前端生成、代碼調(diào)試方面有顯著提升，并對(duì)UI設(shè)計(jì)中的美學(xué)元素有更好的理解。在SWE-bench Verified基準(zhǔn)測(cè)試中，其pass@1準(zhǔn)確率為74.9%，在Aider Polyglot多語(yǔ)言代碼編輯基準(zhǔn)測(cè)試中，pass@2準(zhǔn)確率達(dá)到88.0%。

創(chuàng)意寫作：模型能夠處理更復(fù)雜的文學(xué)結(jié)構(gòu)和風(fēng)格要求。官方以一首關(guān)于京都寡婦的詩(shī)為例，對(duì)比了GPT-5和GPT-4o在處理情感深度、意象和隱喻方面的差異，顯示出GPT-5在生成具有文學(xué)質(zhì)感的文本方面更具優(yōu)勢(shì)。

健康：在HealthBench基準(zhǔn)測(cè)試中，GPT-5得分顯著高于以往所有模型。它的行為模式更像一個(gè)主動(dòng)的“思考伙伴”，能夠主動(dòng)提出問(wèn)題以提供更有幫助的回答。OpenAI強(qiáng)調(diào)，該功能定位是輔助用戶理解健康信息，而非替代專業(yè)醫(yī)療建議。

多模態(tài)理解：GPT-5在處理和推理圖像、視頻和圖表等非文本信息方面表現(xiàn)出色。在MMMU（大學(xué)水平視覺(jué)問(wèn)答）和VideoMMMU（基于視頻的多模態(tài)推理）等基準(zhǔn)測(cè)試中，準(zhǔn)確率分別達(dá)到了84.2%和84.6%。

經(jīng)濟(jì)價(jià)值任務(wù)：在一項(xiàng)針對(duì)法律、物流、工程等超過(guò)40個(gè)職業(yè)的復(fù)雜知識(shí)工作的內(nèi)部評(píng)估中，GPT-5的表現(xiàn)被認(rèn)為在約半數(shù)情況下可與人類專家媲美或超越。

“誠(chéng)實(shí)是美德”，對(duì)大模型也通用

值得一提的是，奧特曼表示：“我有點(diǎn)討厭‘通用人工智能’（AGI）這個(gè)詞，因?yàn)楝F(xiàn)在每個(gè)人對(duì)它的理解都略有不同。但這是朝著真正有能力的模型邁出的重要一步。這顯然是一個(gè)具有通用智能的模型?！?/p>

然而，他表示GPT-5仍“缺少一些非常重要的東西?！倍鴱慕裉斓腉PT?5發(fā)布來(lái)看，它仍然像是OpenAI再現(xiàn)有技術(shù)之上的量變積累，并未能達(dá)到行業(yè)所期待的“引發(fā)質(zhì)變”的飛躍。

在大模型之家看來(lái)，GPT-5此次最亮眼的進(jìn)步，莫過(guò)于終于學(xué)會(huì)了坦然說(shuō)“這個(gè)我做不了”。這種看似“認(rèn)慫”的表現(xiàn)，實(shí)則標(biāo)志著大模型對(duì)自身能力邊界認(rèn)知的真正覺(jué)醒。以往，不少大模型面對(duì)超出能力范圍的問(wèn)題時(shí)，常會(huì)用一本正經(jīng)的“幻覺(jué)”強(qiáng)行作答，看似給出了答案，實(shí)則可能誤導(dǎo)用戶。而GPT-5展現(xiàn)出的這種“邊界感”——清晰區(qū)分自己的“能為與不能為”，并誠(chéng)實(shí)向用戶傳遞這種局限，恰恰讓它在實(shí)用性與可靠性上邁出了關(guān)鍵一步。畢竟，一個(gè)知道自己“哪里不行”的AI，遠(yuǎn)比一個(gè)不懂裝懂的AI更值得信賴。這種對(duì)自身能力的清醒認(rèn)知，不僅讓大模型在真實(shí)場(chǎng)景中更能發(fā)揮價(jià)值，更成為人工智能在通往通用人工智能（AGI）道路上，不可或缺的重要成長(zhǎng)印記。

不過(guò)，這也并不妨礙OpenAI在現(xiàn)場(chǎng)演示中“翻車”。在演示利用GPT-5生成娛樂(lè)程序的演示環(huán)節(jié)，可以看到城堡上的火炮發(fā)射炮彈后，炮彈并沒(méi)有沿著火炮的方向飛出，而是向著火炮側(cè)面的方向飛走。隨后OpenAI團(tuán)隊(duì)立刻拉遠(yuǎn)鏡頭，并切換到了其他場(chǎng)景，演示人員的臉上也浮現(xiàn)出禮貌而不失尷尬的笑容。

看來(lái)大模型“消滅幻覺(jué)”，依舊任重而道遠(yuǎn)。

特別聲明

本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點(diǎn)，不代表澎湃新聞的觀點(diǎn)或立場(chǎng)，澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。

我要舉報(bào)

#GPT #OpenAI #人工智能