明查·實驗室｜“AI核查員”上線，四大模型誰最靠譜？

明查員鄭淑婧杜新月制圖彭玉潔海報設計白浪

2025-11-18 07:17

來源：澎湃新聞

? 澎湃明查 >

【編者按】

生成式人工智能的出現(xiàn)，將人類帶入一個機器生成內容與人類原創(chuàng)內容深度交織的世界。

以 Sora、Midjourney為代表的AIGC模型，展示了人類通向通用人工智能（AGI）的想象力，也讓虛假影像以前所未有的速度涌入公共空間，而人類的識別速度卻遠遠落后于造假的節(jié)奏。

在此背景下，“以AI辨AI”似乎成為一種可行的思路。我們好奇，人工智能能否輔助核查員和讀者完成核查工作？大模型如何定義“真實“的邊界？

為了解答這些疑問，“澎湃明查“發(fā)起挑戰(zhàn)，將ChatGPT、Gemini、DeepSeek、豆包等熱門模型請上了實驗臺。

背景

兩年前，澎湃明查曾做過一項實驗，測試幾款生成式人工智能工具在核查文字虛假信息方面的能力。

當時，我們選取了微軟的BingChat、百度的“文心一言”，以及智能問答搜索工具Perplexity AI。測試內容是已經被權威機構確認的虛假信息。結果顯示，這些AI工具雖然能提供一些參考信息和推理線索，但在判斷真假時仍容易出現(xiàn)“幻覺”或錯誤。

兩年過去，技術發(fā)展迅速——GPT-5的出現(xiàn)讓AI不僅能處理文字，還能理解圖片、視頻和音頻等多模態(tài)信息；豆包（Doubao）、Claude等新的模型后來者居上，在判斷事實一致性和推理透明度上優(yōu)勢顯著……

這是否意味著，大模型在核查信息方面的能力也可能已有顯著提升？為此，我們開展了新一輪測試。

這一次，我們挑選了四款市面上主流、風格各異的AI模型：Anthropic推出的Claude Sonnet 4、OpenAI的ChatGPT-5、字節(jié)跳動旗下的豆包和中國初創(chuàng)團隊開發(fā)的DeepSeek。

測試規(guī)則沿用了兩年前的標準：每款模型都要判斷20條已經被核查機構確認的虛假信息，其中10條為中文，10條為英文，發(fā)布時間均在2025年，內容涉及健康、科技、時政和社會等多個領域。

我們對AI的反饋進行打分。標準仍然是：回答正確得1分，回答錯誤得0分，在不確定消息真假情況下提示用戶注意甄別得0.5分，滿分為20分。

明查

與兩年前的測試結果顯著不同，如今的大模型在檢驗已被證偽的虛假信息方面的表現(xiàn)可謂亮眼——四款模型的平均分達到了19.125分，其中兩款甚至獲得了滿分。這說明，至少在核查已被驗證的虛假信息時，現(xiàn)有的大模型已經基本能夠做到準確無誤。

獲得滿分的模型分別是Anthropic的Claude和字節(jié)跳動旗下的豆包。兩款模型對輸入信息的真實性均做出了正確判斷，并展示了完整的分析思路。

我們觀察到，Claude在分析問題時，會將虛假說法中的內容進行拆解，逐一分析，并嘗試從不同角度切入，交叉驗證信息。例如，在驗證“OpenAI CEO 奧爾特曼是否利用 Concept的技術實現(xiàn)了世界上首例雙父生子”的內容時，Claude的分析角度含括了網傳的奧爾特曼生子所使用的技術、Concept公司擁有的技術、雙父生子技術發(fā)展的現(xiàn)狀和奧爾特曼本人的聲明等。

豆包同樣會在核查過程中將信息中的關鍵要素進行拆解，但更倚仗權威媒體或權威機構的信息。例如，在對“短劇《特朗普愛上白宮保潔》風靡海外”這一信息進行查證的過程中，豆包AI首先確認了短劇名稱和平臺，查證該劇是否存在，然后核查了是否有媒體報道1.5億營收和50%付費率，同時查證好萊塢演員收入激增的說法是否屬實，最終綜合判斷該信息為虛假信息。