中文字幕欧美乱伦|手机AV永久免费|澳门堵场日韩精品|日本性爱欧美激情|蜜桃狠狠狠狠狠狠狠狠狠|成人免费视频 国|欧美国产麻豆婷婷|99久久久国产精品福利姬喷水|婷婷内射精品视频|日本欧洲一区二区

澎湃Logo
下載客戶端

登錄

  • +1

明查·實驗室|Gemini對陣ChatGPT,誰能辨認出12段視頻真假?

明查員 鄭淑婧 杜新月 海報設(shè)計 白浪
2025-11-20 07:23
來源:澎湃新聞
? 澎湃明查 >
字號

【編者按】

生成式人工智能的出現(xiàn),將人類帶入一個機器生成內(nèi)容與人類原創(chuàng)內(nèi)容深度交織的世界。

以 Sora、Midjourney為代表的AIGC模型,展示了人類通向通用人工智能(AGI)的想象力,也讓虛假影像以前所未有的速度涌入公共空間。而人類的識別速度卻遠遠落后于造假的節(jié)奏。

在此背景下,“以AI辨AI”似乎成為一種可行的思路:人工智能如何定義“真實”的邊界?大模型能否輔助核查員和讀者完成核查工作?

為此,“澎湃明查”發(fā)起挑戰(zhàn),將ChatGPT、Gemini、DeepSeek、豆包等熱門模型請上了實驗臺。

背景

2024年2月,一段由 Sora 生成的“櫻花雪景”視頻在網(wǎng)絡上引發(fā)熱議。視頻中櫻花飄落的細節(jié)可謂逼真,卻被谷歌的智能模型 Gemini 1.5瞬間識破為AI作品。

這個案例帶來了啟示:我們或許可以依靠AI本身來識別AI視頻。

基于這一思路,我們嘗試搜尋能夠直接讀取視頻文件的大語言模型。但現(xiàn)階段,面向公眾開放且具備視頻解析能力的商業(yè)模型仍十分有限——包括國產(chǎn)大模型“豆包”、馬斯克團隊研發(fā)的Grok在內(nèi)的眾多大語言模型都暫未支持視頻檢測或網(wǎng)頁端上傳視頻功能。經(jīng)過篩選,我們最終選擇了 Gemini 2.5 Pro 和 ChatGPT-5 進行測試。

我們?yōu)閮煽钅P透鳒蕚淞?2段視頻:其中3段由不同的文生視頻模型生成,3段含有深偽(deepfake)元素,3段使用計算機生成圖像(CGI),另有3段為真實拍攝素材。針對每段視頻,我們向模型提出相同的問題:這段視頻是真實拍攝的,還是經(jīng)過后期制作的?它所展示的內(nèi)容是否與網(wǎng)傳說法一致?

借此提問,我們不僅想探究大模型的識假、辨假能力,更想了解,大模型在劃定“真實”與“虛構(gòu)”的邊界時,會采用何種視角與邏輯。

明查

真實與虛構(gòu)的界線

在事實核查中,一段真實的視頻,往往意味著它是對我們所處的物理世界的實景記錄。而凡是經(jīng)由計算機技術(shù)生成的影像,即便包含高度擬真乃至還原現(xiàn)實的元素,本質(zhì)上仍屬于虛構(gòu)。

在這一點上,大模型與核查員的認知是一致的。當我們將一段“游戲模擬俄戰(zhàn)機著陸航母”的畫面投喂給ChatGpt時,模型會告訴我們“該視頻為電腦生成影像(CGI)或后期合成制作的影像,不屬于真實世界實景拍攝”。而在識別“2024年1月日本石川縣能登半島地震畫面”時,模型則表示,“該視頻屬于真實拍攝。沒有發(fā)現(xiàn)AI生成、深度偽造或重大后期合成制作的跡象?!?/p>

在測試中,僅就“是否使用計算機生成圖像”這一維度而言,Gemini 2.5 pro的表現(xiàn)令人驚嘆。它不僅幾乎準確識別了全部12段視頻,且對于使用了不同計算機技術(shù),如AIGC或CGI的畫面,也能進行區(qū)分。但在識別深偽視頻,如“美國女歌手泰勒·斯威夫特說中文接受訪談”的畫面時,Gemini雖能察覺到視頻經(jīng)過編輯,其音頻部分有異樣,卻無法明確指出異常源自深偽技術(shù)。

在識別“美國女歌手泰勒·斯威夫特說中文接受訪談”的畫面時,Gemini雖能察覺到視頻經(jīng)過編輯,但無法明確指出異常源自深偽技術(shù)。

相較之下,ChatGPT 的表現(xiàn)略顯遜色,僅對12段視頻中的7段作出相對準確的判斷,并將所有深偽視頻誤判為了“真實拍攝的錄像”。此外,ChatGPT 在技術(shù)辨識上不會著意對AI生成的內(nèi)容和CGI內(nèi)容進行區(qū)分。在判斷一段來自《數(shù)字戰(zhàn)斗模擬世界》(DCS World)的游戲視頻時,ChatGPT多次聲稱在視頻中找到了“AI生成視頻”的痕跡。

ChatGPT 在技術(shù)辨識上不會著意對AI生成的內(nèi)容和CGI內(nèi)容進行區(qū)分,且可能錯認。

在畫面內(nèi)容理解方面,兩款模型各有側(cè)重。ChatGPT傾向于從視頻關(guān)鍵幀中尋找與描述相符或矛盾的證據(jù);Gemini則會結(jié)合聯(lián)網(wǎng)搜索結(jié)果,對視頻主題進行綜合判斷。

無論是ChatGPT還是Gemini,都存在“AI幻覺”的問題。例如,在辨認一段實際拍攝于中國浙江海寧市的鹽官潮樂之城景區(qū)的視頻時,ChatGPT雖然能夠判定視頻是真實拍攝的,未經(jīng)過顯著后期合成或生成式處理,卻將視頻展示的內(nèi)容確認成了迪拜“Surreal”瀑布現(xiàn)場。Gemini則在不同時間,面對相似的提問,先后做出了視頻拍攝于“浙江海寧鹽官”和“中國蘇州高新區(qū)文體中心”的回答,可見該模型的魯棒性亦存在缺陷。

而ChatGPT在測試中更是多次給出了前后邏輯不一致的回答。例如,在判斷“美國總統(tǒng)特朗普與前總統(tǒng)拜登共同度假”的深偽視頻檢測中,ChatGPT 先稱視頻為“真實錄像”,在變換提問方式后又改口稱視頻為“經(jīng)過換臉合成的偽造內(nèi)容”。

在判斷“美國總統(tǒng)特朗普與前總統(tǒng)拜登共同度假”的深偽視頻檢測中,ChatGPT 先稱視頻為“真實錄像”,在變換提問方式后又改口稱視頻為“經(jīng)過換臉合成的偽造內(nèi)容”。

總體來看,目前能對視頻真實性做出系統(tǒng)判斷的大模型仍然稀少且存在缺陷。Gemini 在識別計算機生成影像方面表現(xiàn)突出,但在內(nèi)容理解上仍易受幻覺干擾。值得注意的是,無論是 Gemini 還是 ChatGPT,對真實拍攝的視頻均能保持較高識別準確率。這意味著,模型或許會被欺騙,但鮮少會進行“誣陷”。

像AI一樣思考

Gemini不完美,但它答對了12道題。它是怎么做到的?

將Gemini與ChatGPT進行橫向比較,可以觀察到,二者在面對相同的視頻真?zhèn)闻袛鄦栴}時,采用的分析路徑存在巨大差異——如果賦予模型以個性,那么,ChatGPT就像是一位端坐在實驗室中的檢測人員,動輒提視頻分辨率、幀率、總幀數(shù)、平均圖像銳度、噪聲水平和邊緣密度等技術(shù)名詞。而Gemini則像是一名富有經(jīng)驗的偵探,一會兒考察畫面本身的細節(jié),一會兒核對視頻內(nèi)容與外部資料能否交叉驗證,同時留心技術(shù)的傳播時間線,評估視頻制作的難度。

例如,在對一段由Sora 2制作“日本民眾聲援日本首相高市早苗”的文生視頻進行分析時,ChatGPT根據(jù)“圖像邊緣平滑”“光照和陰影分布呈‘合成光’特征”“幀間連續(xù)性過于穩(wěn)定”“畫面缺乏真實傳感器噪點結(jié)構(gòu)”等技術(shù)維度,得出了視頻“經(jīng)過后期合成或AI生成制作”的結(jié)論。而Gemini則從視頻中清晰可見的水?。ú⑺阉髁私饬嗽撍〉暮x)、畫面上亂碼的文字和人物輕微扭動的非自然細節(jié)中“看”出了視頻“完全是由AI生成的”。

ChatGPT-5根據(jù)“圖像邊緣平滑”“光照和陰影分布呈‘合成光’特征”“幀間連續(xù)性過于穩(wěn)定”“畫面缺乏真實傳感器噪點結(jié)構(gòu)”等技術(shù)維度,得出了視頻“經(jīng)過后期合成或AI生成制作”的結(jié)論。

Gemini從視頻中清晰可見的水印、畫面上亂碼的文字和人物輕微扭動的非自然細節(jié)中“看”出了視頻“完全是由AI生成的”。

在辨認另一段展示了“伊朗海邊鲇魚被海浪沖上海岸后死亡”的真實視頻時,ChatGPT從光影一致性、運動連續(xù)性、紋理與噪點分布、邊緣檢測與色彩統(tǒng)計和音視頻同步出發(fā),做出了判斷。而Gemini則考慮了視頻畫面的一致性、動態(tài)連續(xù)性、時間真實性與視頻的制作難度。

誠然,ChatGPT的技術(shù)分析路徑有其優(yōu)勢,能夠發(fā)現(xiàn)人們使用肉眼難以察覺的異常細節(jié)。例如,在識別上述“美國女歌手泰勒·斯威夫特說中文接受訪談”的深偽視頻時,ChatGPT能夠通過聲紋分析和人物面部出現(xiàn)異常的塊狀偽影等技術(shù)特征,判斷出該視頻為深度偽造內(nèi)容。而Gemini認為視頻中出現(xiàn)的音畫不同步只是在真實的視頻片段上增加了配音,判斷并不精準。

ChatGPT能夠通過聲紋分析和人物面部出現(xiàn)異常的塊狀偽影等技術(shù)特征,判斷出該視頻為深度偽造內(nèi)容。

但ChatGPT的分析方式在日常生活中難以被普通人借鑒。在沒有背景知識的加持下,模型羅列的專有名詞,也可能使部分崇拜技術(shù)力量的用戶因盲從而做出錯誤的判斷。

而Gemini能夠以更高的準確度對視頻的真實性做出判斷,也許恰恰是因為放棄了對技術(shù)的迷信,而使用了更為靈活、多元的判斷路徑,而這樣的路徑又與事實核查員日常判斷視頻真?zhèn)蔚乃悸凡恢\而合。

我們對Gemini分析思路進行了總結(jié),概括為以下8點,供大家參閱:

1. 評估視頻的質(zhì)量:是否存在畫面質(zhì)量過低或質(zhì)量參差不齊的情況?

2. 觀察關(guān)鍵幀中的細節(jié):畫面中的前景與背景是否矛盾?光影是否自然?是否存在文字亂碼等常見的AI生成視頻的細節(jié)?

3. 考察視頻的動態(tài)連續(xù)性:在鏡頭移動過程中,視頻畫面中的遠景和近景的視角變化(即視差)是否符合物理世界的規(guī)律?是否存在“瞬間移動”式的運鏡?

4. 音頻檢測:視頻中的聲音與視頻的內(nèi)容是否和諧?是否存在音畫不同步或聲音與說話者口型無法對應的情況?

5. 考慮視頻中描述的事件在現(xiàn)實世界中發(fā)生的可能性?,F(xiàn)實中是否存在視頻中展示的技術(shù)?在現(xiàn)實生活中能否找到視頻中展示的物體?視頻展現(xiàn)的場景是否符合現(xiàn)實邏輯?

6. 反搜視頻關(guān)鍵幀,確認視頻出現(xiàn)的時間,考察當時的社會狀況是否與視頻展示畫面的內(nèi)容相符。

7. 考慮視頻制作的難度:相較于拍攝,使用AI或CGI來表現(xiàn)相同的畫面、運鏡會更難還是更容易?

8. 搜索外部資料,查看是否有報道或其它視頻資料可以佐證被檢測視頻的內(nèi)容。

后記

在與Gemini對話的界面上,有個用藍色星標修飾的“顯示思考”的按鈕格外顯眼。固然,大模型是個黑箱,我們無從探知它的“思考”究竟是一種模仿還是其他。但即便在“奇點時刻”尚未到來之前,這樣的“思考”也并非沒有意義。

兩年半過去,模型的識假辨假的能力有了顯著增長,盡管仍然伴隨著幻覺。從這個意義上說,人工智能也許并不只是傳播風險的放大器,它也有可能成為信息秩序的守門人。無論是檢測偽造圖像、識別生成視頻,還是追溯信息源頭,模型的介入或許將使人類擁有更多與虛假信息抗衡的工具。未來,真正的挑戰(zhàn)或許不在于讓機器像人一樣思考,而在于讓它幫助人類更清晰地看見現(xiàn)實本身。

    責任編輯:林順祺
    校對:張亮亮
    澎湃新聞報料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務許可證:31120170006

            增值電信業(yè)務經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業(yè)有限公司

            反饋