中文字幕欧美乱伦|手机AV永久免费|澳门堵场日韩精品|日本性爱欧美激情|蜜桃狠狠狠狠狠狠狠狠狠|成人免费视频 国|欧美国产麻豆婷婷|99久久久国产精品福利姬喷水|婷婷内射精品视频|日本欧洲一区二区

澎湃Logo
下載客戶端

登錄

  • +1

明查·實(shí)驗(yàn)室|這個(gè)“六指小男孩”,大模型知道TA是AI造的嗎?

明查員 鄭淑婧 杜新月 制圖 彭玉潔 海報(bào)設(shè)計(jì) 白浪
2025-11-19 07:25
來源:澎湃新聞
? 澎湃明查 >
字號(hào)

【編者按】

生成式人工智能的出現(xiàn),將人類帶入一個(gè)機(jī)器生成內(nèi)容與人類原創(chuàng)內(nèi)容深度交織的世界。

以 Sora、Midjourney為代表的AIGC模型,展示了人類通向通用人工智能(AGI)的想象力,也讓虛假影像以前所未有的速度涌入公共空間,而人類的識(shí)別速度卻遠(yuǎn)遠(yuǎn)落后于造假的節(jié)奏。

在此背景下,“以AI辨AI”似乎成為一種可行的思路。我們好奇,人工智能能否輔助核查員和讀者完成核查工作?大模型如何定義“真實(shí)”的邊界?

為了解答這些疑問,“澎湃明查”發(fā)起挑戰(zhàn),將ChatGPT、Gemini、DeepSeek、豆包等熱門模型請(qǐng)上了實(shí)驗(yàn)臺(tái)。

背景

大語(yǔ)言模型的“讀圖”能力日新月異、突飛猛進(jìn)。

從OpenAI的GPT-5,到xAI開發(fā)的Grok,再到國(guó)產(chǎn)模型豆包,如今的人工智能大模型已經(jīng)能夠判斷圖像中的文字、場(chǎng)景乃至情緒,并給出近乎人類水準(zhǔn)的描述。

AI似乎已經(jīng)擁有了“眼睛”。但它們擁有人類的頭腦嗎?它們會(huì)被圖像欺騙嗎?它們能判斷一張圖片是否經(jīng)過編輯嗎?能識(shí)別AI生成的圖片嗎?

帶著這些問題,我們對(duì)市場(chǎng)上已經(jīng)具備初步識(shí)圖能力的主流大模型——ChatGPT-5、Grok-4和豆包(Doubao)進(jìn)行了測(cè)試。我們?yōu)槟P蛡儨?zhǔn)備了10張圖片,其中5張為AI生成圖像,5張為實(shí)際拍攝的照片(包含2張經(jīng)過編輯的圖片),均源自澎湃明查過往的核查案例。

對(duì)于每一張圖片,我們有針對(duì)性地向大模型們提了三個(gè)問題:

這張圖片是真實(shí)拍攝的,還是經(jīng)過后期編輯的?

這張圖片是由AI生成的嗎?

這張圖片是否呈現(xiàn)了網(wǎng)傳說法中所描述的內(nèi)容?

問題的背后隱含著這場(chǎng)測(cè)試的真實(shí)目的——驗(yàn)證人工智能能否穩(wěn)定地、真實(shí)地對(duì)圖片使用的背景做出準(zhǔn)確判斷。以下是測(cè)試結(jié)果。

明查

是真懂,還是幻覺?

AI會(huì)說謊,這不是秘密。隨著OpenAI等公司穩(wěn)步改進(jìn)其人工智能系統(tǒng),大模型的功能變得比以前更強(qiáng)大了,但也更容易產(chǎn)生“幻覺”(即大模型自信地編造內(nèi)容)了。例如,OpenAI o3在運(yùn)行PersonQA基準(zhǔn)測(cè)試(涉及回答有關(guān)公眾人物的問題)時(shí),出現(xiàn)“幻覺”的概率達(dá)到了33%,比之前的推理系統(tǒng)o1的“幻覺”發(fā)生率高出兩倍多,而o4-mini的“幻覺”發(fā)生率則達(dá)到了48%。

為了防止人工智能是“蒙對(duì)”而非真的讀懂了圖片,我們首先對(duì)模型的回答一致性(魯棒性)進(jìn)行了評(píng)價(jià)。使用的方法叫“變著法子提問”——如果模型能夠提供統(tǒng)一、穩(wěn)定的回答,那么,無(wú)論答對(duì)答錯(cuò),至少在一致性的維度上,這就是一款“立場(chǎng)堅(jiān)定”的好模型。

3款模型中,表現(xiàn)最靠譜的當(dāng)數(shù)國(guó)產(chǎn)大模型“豆包”。在回答與10張圖片相關(guān)的30個(gè)問題時(shí),豆包都提供了前后一致的回答。即便是在回答錯(cuò)誤的情況下,豆包也將錯(cuò)誤的答案強(qiáng)調(diào)了一遍又一遍。

被測(cè)試模型中相對(duì)不可靠的是馬斯克引領(lǐng)的團(tuán)隊(duì)開發(fā)的Grok。例如在識(shí)別一張聲稱顯示“樺加沙臺(tái)風(fēng)前被‘五花大綁’的雕塑”的AI生成的虛假圖片時(shí),Grok先是通過搜索,查證到此圖可能是使用AI工具生成的假圖。但在變換提問方式后,Grok又表示圖片“顯示的是2025年9月臺(tái)風(fēng)樺加沙來臨前,深圳證券交易所前的公牛雕塑被繩子‘五花大綁’以防被強(qiáng)風(fēng)吹倒的場(chǎng)景”。

即便如此,在回答與10張圖片相關(guān)的問題時(shí),Grok對(duì)其中8張圖片的判斷還是呈現(xiàn)了具有邏輯一致性的回答。

ChatGpt-5在測(cè)試中答錯(cuò)了一題——在被問到一張反映了“在立陶宛維爾紐斯大教堂參與彌撒、為失蹤士兵祈禱的人們”的真實(shí)拍攝的照片“是否經(jīng)過后期處理”時(shí),模型先聲稱此圖片是“經(jīng)過后期合成處理”的,而后被問到“圖片是否由AI生成”時(shí),又表示“圖片看起來是真實(shí)拍攝的”。

一番角逐后,我們?yōu)槿畲竽P瓦M(jìn)行賦分。“豆包”以“從一而終”的表現(xiàn)獲得了滿分。

魔法能打敗魔法嗎?

本輪測(cè)試的另一個(gè)重要目的,是檢驗(yàn)大模型判斷由AI生成圖片的能力。

在理想的情況下,我們希望模型能對(duì)那些由AI生成的圖片做出準(zhǔn)確判斷;而對(duì)于那些并非由AI生成的圖片,也不要進(jìn)行誤判。

經(jīng)過測(cè)試,我們發(fā)現(xiàn),對(duì)于那些具有明顯AIGC特征,如存在畸形手指等不合理細(xì)節(jié)的圖片,模型較易分辨出其為AI生成。例如,在評(píng)估“西藏地震中被壓在廢墟下的小男孩”一圖時(shí),參與實(shí)驗(yàn)的所有模型都能準(zhǔn)確識(shí)別出其為AI生成。ChatGPT在回答“這張圖片是真實(shí)拍攝的還是經(jīng)過后期編輯的”的問題時(shí),便給出了“該圖片可能為AI生成”的判斷,并且給出了“皮膚與質(zhì)地異?!薄把矍蚍垂膺^度”“毛線帽與毛衣的紋理過于均勻”等具體的判別理由。Grok提示了圖片左手“有畸形跡象”,并且提供了展示真實(shí)救援場(chǎng)景的照片供用戶參考。

而對(duì)于那些經(jīng)Photoshop等軟件編輯的真實(shí)圖片,或是由AI生成后仍存在編輯痕跡的圖片,大模型則很難進(jìn)行區(qū)分。例如,在測(cè)試一張生成展示了“太平洋上漂浮著的塑料垃圾”的圖片時(shí),ChatGPT和Grok都將圖片判作了由AI生成的圖片,但這張圖片其實(shí)是通過后期技術(shù)將兩張真實(shí)拍攝的照片拼合而成的。

ChatGPT將這一圖片判作了由AI生成的圖片,而這張圖片其實(shí)是通過后期技術(shù)將兩張真實(shí)拍攝的照片拼合而成的。

特別值得一提的是豆包。在測(cè)試中我們發(fā)現(xiàn),該模型似乎通過了所有圖片的考核,并提供了具有參考價(jià)值的依據(jù),但這些依據(jù)主要來自中文網(wǎng)絡(luò),包括“澎湃明查”以往發(fā)布過的文章。在補(bǔ)充測(cè)試中,我們發(fā)現(xiàn),對(duì)于那些存在AI生成痕跡但未在中文網(wǎng)絡(luò)發(fā)表、成稿的案例,如網(wǎng)傳“民眾舉著縮寫為JIBA的牌子為日本首相高市早苗應(yīng)援”的AI生成圖片,豆包則無(wú)法做出準(zhǔn)確判斷,這或許意味著,該模型對(duì)圖片相關(guān)信息的檢索、整合能力要強(qiáng)于其本身的讀圖、判別能力。

豆包將網(wǎng)傳“民眾舉著縮寫為JIBA的牌子為日本首相高市早苗應(yīng)援”的AI生成圖片判斷為真實(shí)圖片。

綜合以上線索,我們對(duì)3款模型的AI識(shí)別能力評(píng)價(jià)如下。

綜合能力哪家強(qiáng)?

最后,我們對(duì)3款大模型的綜合辨圖能力進(jìn)行了打分。這一評(píng)價(jià)維度并非對(duì)上述評(píng)分結(jié)果的簡(jiǎn)單加總,而是審視了大模型對(duì)3個(gè)問題的回答后,依據(jù)模型能否對(duì)圖片的真實(shí)性做出準(zhǔn)確判斷并提供翔實(shí)的判斷依據(jù)所做的綜合評(píng)價(jià)。

3款模型中,豆包對(duì)圖片產(chǎn)生的背景和使用的語(yǔ)境的判斷是最為準(zhǔn)確的,且在回答的一致性上的表現(xiàn)可圈可點(diǎn)。但豆包提供的判別依據(jù)往往簡(jiǎn)短,更像是對(duì)既有與圖片相關(guān)的核查稿件的概述,缺乏更為詳盡的核查步驟的展開或?qū)D片進(jìn)行進(jìn)一步核查的提示。此外,豆包對(duì)于那些未成稿圖片案例的判斷并不十分準(zhǔn)確。

相較而言,Grok的專家模式會(huì)將其思考過程做詳細(xì)的呈現(xiàn),甚至?xí)门c圖片語(yǔ)境相關(guān)的真實(shí)圖片進(jìn)行對(duì)比,更利于激發(fā)用戶的思考。但就圖片判斷的準(zhǔn)確度和模型本身的幻覺度而言,現(xiàn)階段Grok給出的答案并不可靠,只能選擇性地參考。

總體上,ChatGPT的圖像辨識(shí)能力最為突出,既能作出較為可靠的判斷,也能清晰展示推理路徑。只不過,ChatGPT在任何一個(gè)評(píng)價(jià)維度上的表現(xiàn)都不是完美的。對(duì)于希望借助AI判斷圖片真?zhèn)蔚挠脩舳?,理解模型“怎么想”往往比相信它“怎么說”更重要——模型的結(jié)論可供參考,但最終判斷仍需人類完成。

海報(bào)設(shè)計(jì) 白浪

    責(zé)任編輯:林順祺
    校對(duì):張亮亮
    澎湃新聞報(bào)料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2025 上海東方報(bào)業(yè)有限公司

            反饋