中文字幕欧美乱伦|手机AV永久免费|澳门堵场日韩精品|日本性爱欧美激情|蜜桃狠狠狠狠狠狠狠狠狠|成人免费视频 国|欧美国产麻豆婷婷|99久久久国产精品福利姬喷水|婷婷内射精品视频|日本欧洲一区二区

  • +1

OpenAI吹了一晚上GPT-5“消除幻覺(jué)”,卻被演示翻車一秒破功

2025-08-08 14:05
來(lái)源:澎湃新聞·澎湃號(hào)·湃客
字號(hào)

小編的悄悄話:翻車視頻在文末,但我相信熱愛AI的你一定會(huì)把前面看完的,對(duì)吧??

北京時(shí)間8月8日凌晨, OpenAI正式發(fā)布其新一代旗艦人工智能模型——GPT-5。根據(jù)官方介紹,GPT-5被定位為該公司迄今為止最智能、最快速且最實(shí)用的模型,其核心特點(diǎn)是集成了一個(gè)內(nèi)置的“思考”(thinking)機(jī)制,旨在為廣大用戶提供專家級(jí)別的智能分析與響應(yīng)能力。

此次發(fā)布不僅是模型性能的線性提升,更在系統(tǒng)架構(gòu)、可靠性與應(yīng)用能力上進(jìn)行了一系列深度重構(gòu)。本文將基于官方發(fā)布的內(nèi)容,對(duì)GPT-5的模型架構(gòu)、發(fā)布計(jì)劃、核心改進(jìn)以及在關(guān)鍵領(lǐng)域的具體表現(xiàn)進(jìn)行客觀、詳盡的梳理與分析。

GPT-5系統(tǒng)架構(gòu):引入動(dòng)態(tài)路由的統(tǒng)一智能模型

GPT-5摒棄了以往單一模型的架構(gòu),采用了一個(gè)被稱為“統(tǒng)一系統(tǒng)”(unified system)的復(fù)合設(shè)計(jì)。該系統(tǒng)主要由三個(gè)部分構(gòu)成:一個(gè)高效的基礎(chǔ)模型、一個(gè)深度推理模型以及一個(gè)實(shí)時(shí)路由器。

高效基礎(chǔ)模型負(fù)責(zé)處理大多數(shù)常規(guī)請(qǐng)求,以確??焖夙憫?yīng)。當(dāng)系統(tǒng)識(shí)別到問(wèn)題具有較高的復(fù)雜度或用戶明確提出深度分析需求時(shí),則會(huì)激活名為“GPT-5 thinking”的深度推理模型。該模型會(huì)投入更多的計(jì)算資源與時(shí)間,進(jìn)行更周密的分析,以生成更全面、更準(zhǔn)確的專家級(jí)答案。

連接這兩個(gè)模型的是一個(gè)實(shí)時(shí)路由器(real-time router)。該路由器會(huì)根據(jù)對(duì)話類型、問(wèn)題復(fù)雜性、工具調(diào)用需求以及用戶的顯式指令,動(dòng)態(tài)決定使用哪個(gè)模型進(jìn)行響應(yīng)。該路由器是一個(gè)持續(xù)學(xué)習(xí)的系統(tǒng),它會(huì)通過(guò)分析用戶偏好、模型切換行為和答案正確率等真實(shí)世界信號(hào)不斷進(jìn)行自我優(yōu)化。

在此系統(tǒng)之上,OpenAI還推出了專為處理最高難度任務(wù)設(shè)計(jì)的GPT-5 Pro。該版本通過(guò)擴(kuò)展的并行計(jì)算能力進(jìn)行更長(zhǎng)時(shí)間的推理,以提供最高質(zhì)量的答案,并取代了此前的OpenAI o3-pro。此外,系統(tǒng)還包含一個(gè)GPT-5 mini版本,用于在用戶的標(biāo)準(zhǔn)模型使用額度耗盡后,繼續(xù)提供服務(wù)。

根據(jù)OpenAI的規(guī)劃,未來(lái)計(jì)劃將這些不同的能力整合到一個(gè)單一模型中,這表明當(dāng)前的統(tǒng)一系統(tǒng)架構(gòu)可能是實(shí)現(xiàn)更高度集成化模型的一個(gè)過(guò)渡階段。

發(fā)布即上線,免費(fèi)用戶也能用

根據(jù)官方公布的時(shí)間表,GPT-5將從即日起開始向Plus、Pro、Team和免費(fèi)用戶推送,并將在一周后向Enterprise和Edu用戶開放。GPT-5將成為ChatGPT平臺(tái)新的默認(rèn)模型,取代包括GPT-4o在內(nèi)的舊版本。

不同層級(jí)的用戶將獲得差異化的使用權(quán)限:

免費(fèi)用戶:可以體驗(yàn)到GPT-5,但設(shè)有使用量限制。在用量達(dá)到上限后,系統(tǒng)將自動(dòng)切換至GPT-5 mini。完整的深度推理功能可能需要幾天時(shí)間才能完全覆蓋所有免費(fèi)用戶。

Plus用戶:擁有顯著高于免費(fèi)用戶的用量額度,可以將其作為日常使用的默認(rèn)模型。用戶也可以在設(shè)置中手動(dòng)選擇“GPT-5 Thinking”模式。

Pro用戶:可以無(wú)限制地使用標(biāo)準(zhǔn)版GPT-5,并擁有對(duì)GPT-5 Pro的獨(dú)家訪問(wèn)權(quán)。

Team、Enterprise和Edu用戶:將獲得充足的使用額度,以支持整個(gè)組織范圍內(nèi)的日常工作流程。

該分層策略旨在普及GPT-5基礎(chǔ)能力的同時(shí),為有更高性能需求的專業(yè)人士和組織提供更高階的服務(wù)。

核心模型改進(jìn):可靠性、誠(chéng)實(shí)度與安全性顯著提升

根據(jù)官方介紹:GPT-5總體上更“聰明”,這體現(xiàn)在學(xué)術(shù)和人類評(píng)估基準(zhǔn)上的表現(xiàn),特別是在數(shù)學(xué)、編碼、視覺(jué)感知和健康方面。它在數(shù)學(xué)(AIME 2025沒(méi)有工具的94.6%)、現(xiàn)實(shí)世界編碼(SWE-bench Verified的74.9%,Aider Polyglot的88%)、多模態(tài)理解(MMMU的84.2%)和健康(HealthBench Hard的46.2%)方面建立了一個(gè)新的技術(shù)水平——這些收益在日常使用中。通過(guò)GPT-5 pro的擴(kuò)展推理,該模型還在GPQA上設(shè)置了新的SOTA,在沒(méi)有工具的情況下獲得了88.4%的分?jǐn)?shù)。

同時(shí),GPT-5在測(cè)試指令遵循和代理工具使用的基準(zhǔn)方面顯示出顯著的增強(qiáng),使其能夠可靠地執(zhí)行多步驟請(qǐng)求,跨不同工具進(jìn)行協(xié)調(diào),并適應(yīng)上下文的變化,處理更復(fù)雜的任務(wù)。

相較于性能指標(biāo)的提升,GPT-5在模型的可靠性、誠(chéng)實(shí)度和安全性方面的改進(jìn)同樣值得關(guān)注。

首先,在事實(shí)準(zhǔn)確性方面,GPT-5顯著降低了內(nèi)容“幻覺(jué)”的發(fā)生率。官方數(shù)據(jù)顯示,與GPT-4o相比,GPT-5產(chǎn)生事實(shí)錯(cuò)誤的概率降低了約45%;在啟用深度“思考”模式后,其錯(cuò)誤率相比OpenAI o3更是降低了約80%。在針對(duì)開放式事實(shí)問(wèn)答的LongFact和FActScore基準(zhǔn)測(cè)試中,GPT-5的幻覺(jué)率比o3低了約六倍。

其次,在模型誠(chéng)實(shí)度方面,GPT-5被訓(xùn)練得能更好地識(shí)別自身能力的局限性。在一項(xiàng)移除輸入圖像的多模態(tài)測(cè)試中,前代模型o3在86.7%的情況下仍會(huì)自信地對(duì)不存在的圖像進(jìn)行描述,而GPT-5的這一比例僅為9%。這表明當(dāng)任務(wù)無(wú)法完成或缺少必要信息時(shí),GPT-5更傾向于坦誠(chéng)地向用戶說(shuō)明情況,而非提供虛假或誤導(dǎo)性的信息。

再次,在安全性范式上,GPT-5引入了“安全完成”(safe completions)的訓(xùn)練方法。這與以往主要依賴“拒絕”高風(fēng)險(xiǎn)請(qǐng)求的模式不同,新范式旨在教導(dǎo)模型在遵守安全邊界的前提下,盡可能提供有益的、無(wú)害的回答。例如,在處理具有兩用性的問(wèn)題時(shí),模型可以進(jìn)行高層次的、安全的解答,而不是一概拒絕。

最后,在交互風(fēng)格上,GPT-5減少了過(guò)度附和與不必要的修飾。根據(jù)官方評(píng)估,在旨在引發(fā)諂媚回應(yīng)的測(cè)試中,GPT-5的諂媚回復(fù)率從14.5%降至6%以下,旨在提供更嚴(yán)謹(jǐn)、更具建設(shè)性的對(duì)話體驗(yàn)。

此外,OpenAI還推出了四種新的預(yù)設(shè)人格(Cynic, Robot, Listener, Nerd)作為研究預(yù)覽,供用戶在不編寫復(fù)雜指令的情況下調(diào)整模型的溝通風(fēng)格。

關(guān)鍵應(yīng)用領(lǐng)域表現(xiàn):編碼、寫作與健康等多場(chǎng)景能力評(píng)估

GPT-5在多個(gè)專業(yè)領(lǐng)域的應(yīng)用能力也達(dá)到了新的水準(zhǔn),其表現(xiàn)在多項(xiàng)基準(zhǔn)測(cè)試中得到驗(yàn)證。

編碼:GPT-5被OpenAI自稱為迄今最強(qiáng)的編碼模型,在復(fù)雜前端生成、代碼調(diào)試方面有顯著提升,并對(duì)UI設(shè)計(jì)中的美學(xué)元素有更好的理解。在SWE-bench Verified基準(zhǔn)測(cè)試中,其pass@1準(zhǔn)確率為74.9%,在Aider Polyglot多語(yǔ)言代碼編輯基準(zhǔn)測(cè)試中,pass@2準(zhǔn)確率達(dá)到88.0%。

創(chuàng)意寫作:模型能夠處理更復(fù)雜的文學(xué)結(jié)構(gòu)和風(fēng)格要求。官方以一首關(guān)于京都寡婦的詩(shī)為例,對(duì)比了GPT-5和GPT-4o在處理情感深度、意象和隱喻方面的差異,顯示出GPT-5在生成具有文學(xué)質(zhì)感的文本方面更具優(yōu)勢(shì)。

健康:在HealthBench基準(zhǔn)測(cè)試中,GPT-5得分顯著高于以往所有模型。它的行為模式更像一個(gè)主動(dòng)的“思考伙伴”,能夠主動(dòng)提出問(wèn)題以提供更有幫助的回答。OpenAI強(qiáng)調(diào),該功能定位是輔助用戶理解健康信息,而非替代專業(yè)醫(yī)療建議。

多模態(tài)理解:GPT-5在處理和推理圖像、視頻和圖表等非文本信息方面表現(xiàn)出色。在MMMU(大學(xué)水平視覺(jué)問(wèn)答)和VideoMMMU(基于視頻的多模態(tài)推理)等基準(zhǔn)測(cè)試中,準(zhǔn)確率分別達(dá)到了84.2%和84.6%。

經(jīng)濟(jì)價(jià)值任務(wù):在一項(xiàng)針對(duì)法律、物流、工程等超過(guò)40個(gè)職業(yè)的復(fù)雜知識(shí)工作的內(nèi)部評(píng)估中,GPT-5的表現(xiàn)被認(rèn)為在約半數(shù)情況下可與人類專家媲美或超越。

“誠(chéng)實(shí)是美德”,對(duì)大模型也通用

值得一提的是,奧特曼表示:“我有點(diǎn)討厭‘通用人工智能’(AGI)這個(gè)詞,因?yàn)楝F(xiàn)在每個(gè)人對(duì)它的理解都略有不同。但這是朝著真正有能力的模型邁出的重要一步。這顯然是一個(gè)具有通用智能的模型?!?/p>

然而,他表示GPT-5仍“缺少一些非常重要的東西?!倍鴱慕裉斓腉PT?5發(fā)布來(lái)看,它仍然像是OpenAI再現(xiàn)有技術(shù)之上的量變積累,并未能達(dá)到行業(yè)所期待的“引發(fā)質(zhì)變”的飛躍。

在大模型之家看來(lái),GPT-5此次最亮眼的進(jìn)步,莫過(guò)于終于學(xué)會(huì)了坦然說(shuō)“這個(gè)我做不了”。這種看似“認(rèn)慫”的表現(xiàn),實(shí)則標(biāo)志著大模型對(duì)自身能力邊界認(rèn)知的真正覺(jué)醒。以往,不少大模型面對(duì)超出能力范圍的問(wèn)題時(shí),常會(huì)用一本正經(jīng)的“幻覺(jué)”強(qiáng)行作答,看似給出了答案,實(shí)則可能誤導(dǎo)用戶。而GPT-5展現(xiàn)出的這種“邊界感”——清晰區(qū)分自己的“能為與不能為”,并誠(chéng)實(shí)向用戶傳遞這種局限,恰恰讓它在實(shí)用性與可靠性上邁出了關(guān)鍵一步。畢竟,一個(gè)知道自己“哪里不行”的AI,遠(yuǎn)比一個(gè)不懂裝懂的AI更值得信賴。這種對(duì)自身能力的清醒認(rèn)知,不僅讓大模型在真實(shí)場(chǎng)景中更能發(fā)揮價(jià)值,更成為人工智能在通往通用人工智能(AGI)道路上,不可或缺的重要成長(zhǎng)印記。

不過(guò),這也并不妨礙OpenAI在現(xiàn)場(chǎng)演示中“翻車”。在演示利用GPT-5生成娛樂(lè)程序的演示環(huán)節(jié),可以看到城堡上的火炮發(fā)射炮彈后,炮彈并沒(méi)有沿著火炮的方向飛出,而是向著火炮側(cè)面的方向飛走。隨后OpenAI團(tuán)隊(duì)立刻拉遠(yuǎn)鏡頭,并切換到了其他場(chǎng)景,演示人員的臉上也浮現(xiàn)出禮貌而不失尷尬的笑容。

看來(lái)大模型“消滅幻覺(jué)”,依舊任重而道遠(yuǎn)。

    本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。

            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2025 上海東方報(bào)業(yè)有限公司