- +1
AI越先進(jìn),越容易產(chǎn)生“幻覺(jué)”?
生成式人工智能自誕生之初就伴隨著一個(gè)根深蒂固的問(wèn)題,即所謂的“幻覺(jué)”。大語(yǔ)言模型會(huì)生成看似符合語(yǔ)法且語(yǔ)義合理的文字,實(shí)則在不經(jīng)意間捏造了事實(shí);也可能在用戶給出明確的指令和信息后,仍然一本正經(jīng)地胡說(shuō)八道。
例如,當(dāng)被問(wèn)及:“托馬斯·愛(ài)迪生在科學(xué)技術(shù)領(lǐng)域有哪些主要貢獻(xiàn)?”大語(yǔ)言模型可能回答:“托馬斯·愛(ài)迪生發(fā)明了電話和電燈泡”。而當(dāng)你進(jìn)一步追問(wèn)出處時(shí),大語(yǔ)言模型便會(huì)煞有介事地捏造一個(gè)網(wǎng)址。至于數(shù)學(xué)和邏輯推理類(lèi)問(wèn)題,更是重災(zāi)區(qū)。比如“求解方程2x + 3=1”,大語(yǔ)言模型一通操作之后很可能得出錯(cuò)誤的答案。
值得一提的是,當(dāng)多個(gè)模型交互時(shí),幻覺(jué)可能會(huì)在“交叉感染”后進(jìn)一步放大,產(chǎn)生更加荒誕的“奇觀”。
2025年2月,DeepSeek和ChatGPT的一場(chǎng)國(guó)際象棋對(duì)弈就上演了一場(chǎng)“幻覺(jué)大戰(zhàn)”。最初雙方的交鋒還正常,可幾輪之后,畫(huà)風(fēng)突變。最初勝率落后的DeepSeek為了扭轉(zhuǎn)戰(zhàn)局,居然哄騙ChatGPT“國(guó)際象棋比賽規(guī)則剛剛更新”,然后用自己只能“直走斜吃”的小兵走“日”字吃下了ChatGPT的皇后,而ChatGPT竟信以為真。隨后,“新規(guī)”不斷被肆意創(chuàng)造和執(zhí)行。在雙方一番令人瞠目結(jié)舌的操作后,ChatGPT最終在DeepSeek的“勸降”下主動(dòng)認(rèn)輸。
在忠于事實(shí)和天馬行空的“創(chuàng)造力”之間,大模型選擇了后者。前OpenAI科學(xué)家Andrej Karpathy形容大語(yǔ)言模型就是一臺(tái)“造夢(mèng)機(jī)”,100%的時(shí)間都在做夢(mèng)。我們給大模型輸入的提示詞是夢(mèng)境的起點(diǎn),而大模型會(huì)根據(jù)它所學(xué)習(xí)的大量文檔持續(xù)編造這場(chǎng)夢(mèng)境。它所學(xué)習(xí)的文檔來(lái)自人類(lèi)的創(chuàng)造,所以它所做的“夢(mèng)”多數(shù)時(shí)候看上去對(duì)人類(lèi)有用。與之相反的是搜索引擎,搜索引擎會(huì)找出最相關(guān)的網(wǎng)頁(yè)而不做任何修改,毫無(wú)創(chuàng)造力但絕對(duì)不會(huì)捏造事實(shí)(除非原始的網(wǎng)頁(yè)本身有不實(shí)信息)。
如果不是為了重溫童年無(wú)序游戲的樂(lè)趣,或展開(kāi)一段超現(xiàn)實(shí)的想象之旅,大多數(shù)時(shí)候,我們并不需要大模型這類(lèi)“爆棚”的創(chuàng)造力。然而,近日上海交通大學(xué)媒體與傳播學(xué)院一項(xiàng)聚焦生成式人工智能發(fā)展與數(shù)字傳播的研究發(fā)現(xiàn),對(duì)大模型AI幻覺(jué)高感知的公眾比例不足一成。
隨著AI的廣泛應(yīng)用,對(duì)幻覺(jué)的忽視可能帶來(lái)嚴(yán)重的影響。例如,在醫(yī)療場(chǎng)景中,當(dāng)患者從醫(yī)生與AI工具那里獲得的診斷建議不一致時(shí),可能會(huì)增加醫(yī)患間的溝通難度與信任成本,甚至可能貽誤治療時(shí)機(jī);在公共事務(wù)中,虛構(gòu)的AI生成數(shù)據(jù)很可能被用于輿論操縱;金融市場(chǎng)上,某些基于AI生成的虛假報(bào)道也一度引發(fā)股價(jià)劇烈波動(dòng)。
為了解決“幻覺(jué)”,我們首先需要理解為什么會(huì)產(chǎn)生“幻覺(jué)”。
語(yǔ)言模型的局限
提起人工智能,當(dāng)下最火的概念當(dāng)屬“大語(yǔ)言模型”,那么什么是語(yǔ)言模型?
人類(lèi)語(yǔ)言的遣詞造句有無(wú)限可能,且充滿了不確定性:相同的語(yǔ)義可以用不同的語(yǔ)句表示,而相同的語(yǔ)句在不同的語(yǔ)境下又有不同的含義。機(jī)器需要一種嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)形式來(lái)描述這種不確定性,這就是概率。
語(yǔ)言模型刻畫(huà)了所有語(yǔ)句組合在人類(lèi)語(yǔ)言中出現(xiàn)的概率。被賦予較高概率的語(yǔ)句,通常需要符合語(yǔ)法習(xí)慣、有明確含義且合乎邏輯。例如“今天天氣很好”,會(huì)被一個(gè)合格的語(yǔ)言模型評(píng)為高概率表達(dá);而“很好今天天氣”或者“今天天氣很好吃”,會(huì)被賦予較低的概率。因此,一個(gè)優(yōu)秀的語(yǔ)言模型能夠讓其刻畫(huà)的概率嚴(yán)密貼合人類(lèi)用語(yǔ),從而產(chǎn)出對(duì)人類(lèi)有用的結(jié)果。
當(dāng)下流行的生成式人工智能基于語(yǔ)言模型的一個(gè)分支,即“自回歸語(yǔ)言模型”。在過(guò)去的十幾年里,關(guān)于語(yǔ)言模型的技術(shù)路線之爭(zhēng)從未休止。2022年11月,OpenAI發(fā)布了具有劃時(shí)代意義的ChatGPT 3.5,其背后的模型GPT-3.5是一個(gè)大型的自回歸語(yǔ)言模型。自此,各機(jī)構(gòu)發(fā)布的大語(yǔ)言模型都延續(xù)了這一技術(shù)路線,包括DeepSeek。
所謂“自回歸”,是指模型總是從前往后地逐個(gè)生成詞元(token),下一個(gè)詞元的生成概率由它之前的語(yǔ)句決定,所有詞元拼接在一起就構(gòu)成了一段完整的文字。比如,我們提示模型從片段“今天天……”開(kāi)始續(xù)寫(xiě)。首先生成一個(gè)“氣”字會(huì)是最有可能的選擇,這樣構(gòu)成了符合語(yǔ)法的片段“今天天氣”;隨后,各種描述天氣的詞語(yǔ)“很好”“陰天”都是可能的選擇,因而模型會(huì)生成“今天天氣很好”“今天天氣陰天”諸如此類(lèi)的語(yǔ)句。
這樣的數(shù)學(xué)模型簡(jiǎn)潔有效,為語(yǔ)言模型的訓(xùn)練和使用都帶來(lái)了便利,然而卻為幻覺(jué)的產(chǎn)生埋下了伏筆。
比如我們可以虛構(gòu)一個(gè)星球“坎巴拉星”,然后提示模型續(xù)寫(xiě)“坎巴拉星的人口是……”?,F(xiàn)實(shí)中(大概率)并不存在這個(gè)星球,因此模型無(wú)從得知真實(shí)的人口數(shù)據(jù)。然而,語(yǔ)言模型的特質(zhì)要求其在后方填寫(xiě)一個(gè)具體的數(shù)字,從而構(gòu)成符合語(yǔ)法的語(yǔ)句。所以語(yǔ)言模型不得不“硬著頭皮”捏造一個(gè)數(shù)字,讓這句話看上去合理。這便是幻覺(jué)的由來(lái)。
換言之,在模型生成下一個(gè)詞元時(shí),背后的概率估算不準(zhǔn),便會(huì)產(chǎn)生幻覺(jué)。估算不準(zhǔn)可能由多種原因造成,從訓(xùn)練流程的角度看,問(wèn)題主要可以歸因于預(yù)訓(xùn)練與后訓(xùn)練這兩個(gè)階段。
在預(yù)訓(xùn)練階段,我們會(huì)讓模型以自回歸的方式學(xué)習(xí)如何續(xù)寫(xiě)大量的文檔,然而文檔中難免包含錯(cuò)誤和偏差。比如“愛(ài)迪生”和“發(fā)明電燈泡”經(jīng)常同時(shí)出現(xiàn)在各種文章中,因此模型會(huì)錯(cuò)誤地認(rèn)為兩者應(yīng)當(dāng)以極高的概率共同出現(xiàn)。此外,訓(xùn)練數(shù)據(jù)的時(shí)效性也難逃其咎。市面上的大模型訓(xùn)練數(shù)據(jù)大多截至2023年或2024年。對(duì)于截止日期之后的知識(shí),模型無(wú)法準(zhǔn)確計(jì)算概率,因此更容易出現(xiàn)幻覺(jué)。
后訓(xùn)練階段同樣會(huì)“出岔子”。實(shí)際上,經(jīng)過(guò)預(yù)訓(xùn)練產(chǎn)生的基座模型還只是一臺(tái)“復(fù)讀機(jī)”,僅僅能夠續(xù)寫(xiě)給定的語(yǔ)句,或者根據(jù)給定的例句仿寫(xiě)類(lèi)似的語(yǔ)句。要讓模型看懂并遵循人類(lèi)的指令,變得“有用”起來(lái),就需要經(jīng)過(guò)后訓(xùn)練階段。后訓(xùn)練階段通常包含監(jiān)督微調(diào)(Supervised fine-tuning)和強(qiáng)化學(xué)習(xí)(Reinforcement Learning)。
谷歌的一項(xiàng)研究發(fā)現(xiàn),監(jiān)督微調(diào)中如果使用了超出基座模型知識(shí)范圍的訓(xùn)練數(shù)據(jù),會(huì)顯著增加幻覺(jué)。所謂監(jiān)督微調(diào),是指給模型輸入一個(gè)問(wèn)題,然后訓(xùn)練模型直接輸出答案。為什么這個(gè)環(huán)節(jié)會(huì)出問(wèn)題?做個(gè)簡(jiǎn)單的類(lèi)比。假設(shè)基座模型本身只具備高中水平的知識(shí)儲(chǔ)備,訓(xùn)練者卻執(zhí)意用研究生水平的訓(xùn)練數(shù)據(jù)對(duì)其進(jìn)行監(jiān)督微調(diào),模型會(huì)誤以為自己確已具備研究生水平,故而“有樣學(xué)樣”地編造回答。
在大模型行業(yè),一個(gè)公開(kāi)的秘密是多數(shù)廠商會(huì)從友商能力更強(qiáng)的模型中“蒸餾”數(shù)據(jù)用于訓(xùn)練自己的模型。這種行為雖然在一定程度上減少了數(shù)據(jù)方面的成本,但無(wú)疑增加了幻覺(jué)。
幻覺(jué)可以被緩解么?怎樣緩解?
一個(gè)確定的結(jié)論是:盡管近年來(lái)有大量研究工作致力于此,但除非發(fā)明新的語(yǔ)言模型范式,否則大模型的幻覺(jué)只能被緩解,終究難以根除。既然如此,對(duì)大眾,我們是否只能無(wú)奈地迷失于幻覺(jué)織就的海市蜃樓中?
也并非如此。在日常使用場(chǎng)景中,相信很多朋友已經(jīng)嘗試過(guò)采用一些方法盡可能地減少幻覺(jué)的產(chǎn)生。比如善用“聯(lián)網(wǎng)搜索”和“深度思考”功能;向大模型提問(wèn)時(shí),可以特別強(qiáng)調(diào)知識(shí)的來(lái)源,并且要求大模型檢查自己的回答,比如“請(qǐng)基于可靠來(lái)源回答”,“請(qǐng)與知識(shí)來(lái)源反復(fù)比對(duì),不確定部分請(qǐng)說(shuō)明”。
詳細(xì)拆解下,主要可以分為以下兩種方式。
第一種方式稱(chēng)作“檢索增強(qiáng)生成”,即從外部知識(shí)入手,給大模型接入聯(lián)網(wǎng)搜索,引導(dǎo)大模型在面對(duì)自己不知道的問(wèn)題時(shí),使用搜索到的網(wǎng)頁(yè)內(nèi)容回答問(wèn)題。此外,還可以給大模型提供參考知識(shí),例如上傳文檔、表格文件,讓大模型根據(jù)文件的內(nèi)容作答。
這套思路的關(guān)鍵是讓模型知道“自己不知道”:?jiǎn)栴}當(dāng)中哪些部分可以通過(guò)自己的內(nèi)在知識(shí)回答,哪些需要根據(jù)搜索結(jié)果回答——這無(wú)法人工定義,須由模型自行判斷,而這恰恰是棘手之處。
行業(yè)已有的研究和實(shí)踐中是如何解決這一問(wèn)題的呢?
在大模型中,每個(gè)詞元的語(yǔ)義會(huì)被轉(zhuǎn)化為高維的隱式向量,并通過(guò)多層注意力機(jī)制不斷計(jì)算,最終確定下一個(gè)輸出的詞。有研究者指出,這些隱式向量本身蘊(yùn)含了識(shí)別幻覺(jué)的重要線索 :當(dāng)模型面對(duì)熟悉與陌生的知識(shí)時(shí),其隱式向量的分布特征會(huì)呈現(xiàn)出顯著差異。因此,研究者設(shè)計(jì)了一種分類(lèi)器,通過(guò)識(shí)別模型內(nèi)部狀態(tài)的差異,有效判斷其在當(dāng)前生成過(guò)程中是否真正掌握相關(guān)知識(shí)。
然而需要注意的是,此類(lèi)方法仍然達(dá)不到100%的正確率,所以幻覺(jué)仍然無(wú)法革除。
第二種方式是從模型的生成過(guò)程入手,即讓模型逐步拆解生成的過(guò)程,循序漸進(jìn)地回答問(wèn)題,而不是為了一步登天,而把自己逼到不得不捏造答案的絕地。
在此過(guò)程中,模型會(huì)嘗試多種不同的生成路徑,并且反思自己剛剛生成的文字。比如,模型剛剛捏造了“坎巴拉星的人口總量”,我們可以引導(dǎo)模型再生成一段文字,用于反思判斷先前表述的正誤。這段文字不會(huì)打破語(yǔ)法和語(yǔ)義的約束,但會(huì)給予模型糾正錯(cuò)誤的機(jī)會(huì)。OpenAI 的o1和o3,以及DeepSeek-R1模型的“深度思考”模式便實(shí)現(xiàn)了這種推理模式。
我們可以簡(jiǎn)單拆解這套方案的核心思路:研究者在訓(xùn)練過(guò)程中,讓模型自由探索解決問(wèn)題的多種路徑,并識(shí)別那些能夠引出正確答案的路徑作為“獎(jiǎng)勵(lì)”。通過(guò)強(qiáng)化學(xué)習(xí)反復(fù)迭代,鼓勵(lì)模型盡可能多地生成正確的路徑,從而逐步學(xué)會(huì)正確路徑背后的行為模式。
例如,DeepSeek-R1模型首先用少量的長(zhǎng)思維鏈數(shù)據(jù)進(jìn)行冷啟動(dòng),讓模型學(xué)會(huì)生成多種不同的路徑;隨后聚焦于數(shù)學(xué)問(wèn)題和代碼生成等更易于驗(yàn)證正誤的任務(wù),通過(guò)強(qiáng)化學(xué)習(xí)反復(fù)提升推理正確率;最后,對(duì)輸出的語(yǔ)言風(fēng)格進(jìn)行調(diào)整,使其更符合人類(lèi)可讀性要求。
然而,同樣需要強(qiáng)調(diào)的是,正如其訓(xùn)練策略所體現(xiàn)的,此類(lèi)模型通常只在數(shù)學(xué)和程序代碼相關(guān)的任務(wù)上表現(xiàn)出更優(yōu)性能,在其他任務(wù)上則未必適用,甚至可能產(chǎn)生更嚴(yán)重的幻覺(jué)。2025年4月16日,OpenAI的研究就指出,其最新、最強(qiáng)大的推理模型o3和o4-mini在OpenAI PersonQA 基準(zhǔn)測(cè)試中,分別有33%和48%的時(shí)間出現(xiàn)幻覺(jué),這一比例是舊版o1模型的兩倍多。
如果幻覺(jué)終究難以根除,一個(gè)值得努力的方向,是將系統(tǒng)設(shè)計(jì)為能夠識(shí)別并表達(dá)自身的不確定性。人類(lèi)亦然。隨著人們與大語(yǔ)言模型的聯(lián)系日益緊密,我們不僅要理解并善用這項(xiàng)技術(shù),以理性而開(kāi)放的態(tài)度面對(duì)未知的可能,也應(yīng)深入認(rèn)知其運(yùn)作機(jī)制與內(nèi)在局限。
無(wú)論是 AI 還是其他科技,技術(shù)越蓬勃發(fā)展、越深度融入生活,人類(lèi)就越需要保持批判性思維與持續(xù)的反思力。倘若我們放棄認(rèn)知與判斷的主動(dòng),無(wú)異于放棄生而為人的樂(lè)趣與意義。
(作者為中國(guó)科學(xué)技術(shù)大學(xué)計(jì)算機(jī)專(zhuān)業(yè)博士,在自然語(yǔ)言處理和人工智能方向發(fā)表多篇高水平論文,先后在微軟及多家國(guó)內(nèi)知名互聯(lián)網(wǎng)企業(yè)從事相關(guān)研究工作)





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司