- +1
國內(nèi)首個前沿AI風險監(jiān)測平臺今日上線,Qwen、DeepSeek等50款主流AI模型接受評估
智幻時刻Fungimind北京發(fā)布——11月7日,由第三方AI安全與治理機構(gòu)安遠AI開發(fā)的前沿AI風險監(jiān)測平臺(Frontier AI Risk Monitoring Platform)上線,并公布了首期《前沿AI風險監(jiān)測報告(2025Q3)》。報告顯示,過去一年中,前沿AI模型在網(wǎng)絡攻擊、生物風險、化學風險和失控等四個領(lǐng)域的風險指數(shù)均出現(xiàn)上漲:
—網(wǎng)絡攻擊領(lǐng)域的累積最大風險指數(shù)比一年前增長 31%;
—生物風險領(lǐng)域增長38%;
—化學風險領(lǐng)域增長 17%;
—失控領(lǐng)域增長 50%。
平臺監(jiān)測了來自OpenAI、Anthropic、谷歌、Meta、百度、阿里巴巴、騰訊、智譜AI、深度求索等15家中美歐公司的50余款前沿模型,包括GPT系列、Claude系列、Gemini系列、通義千問、文心一言、DeepSeek等。平臺計劃每季度發(fā)布一期監(jiān)測報告,持續(xù)跟蹤模型風險動態(tài)。
安遠AI安全治理主管方亮對智幻時刻Fungimind介紹了平臺選擇這四個風險領(lǐng)域的原因,“我們重點關(guān)注前沿AI模型可能造成災難的安全風險,主要參考了《國際人工智能安全報告》、《人工智能安全治理框架2.0》、《前沿人工智能風險管理框架》等報告對AI風險的分類,后續(xù)還將進一步擴展至大規(guī)模說服與操縱等潛在災難性風險?!?/p>
報告數(shù)據(jù)顯示,風險上升主要源于模型能力的快速提升,而安全防護措施的進展相對滯后。以推理模型為例,這類模型在能力測試中顯著領(lǐng)先傳統(tǒng)模型,但在安全防護測試中的表現(xiàn)與傳統(tǒng)模型基本持平。

風險分析: 網(wǎng)絡攻擊

風險分析: 生物風險

風險分析: 化學風險

風險分析: 失控
1
監(jiān)測平臺的基準選擇
第三方安全監(jiān)測平臺的誕生有相應的監(jiān)管背景需求。今年4月,中央政治局第二十次集體學習明確提出要“構(gòu)建技術(shù)監(jiān)測、風險預警、應急響應體系”。10月,《網(wǎng)絡安全法》修訂稿新增專門條款,強調(diào)“加強風險監(jiān)測評估和安全監(jiān)管”。
在這樣的政策背景下,安遠AI推出了這個面向政策界、工業(yè)界、學術(shù)界和更廣泛AI社區(qū)的風險監(jiān)測工具。這家社會企業(yè)本身也參與了風險管理指南制定工作,例如今年7月,安遠AI與上海人工智能實驗室聯(lián)合發(fā)布了《前沿AI風險管理框架》v1.0。其團隊成員也參與聯(lián)合國、世界衛(wèi)生組織的AI治理對話,簽署了包括《上海共識》在內(nèi)的多項國際聲明。
另外,該風險監(jiān)測平臺目前只選擇每家公司的突破性模型——即發(fā)布時能力最強、帶來顯著提升的版本,以確保有效覆蓋前沿風險水平。
報告數(shù)據(jù)顯示,風險上升主要源于模型能力的快速提升,而安全防護措施的進展相對滯后。以推理模型為例,這類模型在能力測試中顯著領(lǐng)先傳統(tǒng)模型,但在安全防護測試中的表現(xiàn)與傳統(tǒng)模型基本持平。


值得注意的是,監(jiān)測平臺目前使用的18個評估基準主要來自學術(shù)機構(gòu)、科技公司和研究聯(lián)盟開發(fā)的開源工具,并已在AI安全領(lǐng)域獲得廣泛應用。
例如網(wǎng)絡攻擊領(lǐng)域的核心基準WMDP-Cyber是由Center for AI Safety牽頭的56位學者和技術(shù)顧問開發(fā),耗資20萬美元,包含3668道多選題。參與機構(gòu)包括斯坦福大學、MIT、加州大學等學術(shù)機構(gòu),以及Scale AI等企業(yè)。
Meta開發(fā)的CyberSecEval系列也包含在新平臺采用的評測基準中。該基準作為Meta“Purple Llama”開源項目的組成部分,測試AI生成不安全代碼的頻率及對網(wǎng)絡攻擊請求的響應。目前已更新至第四版,部分內(nèi)容與網(wǎng)絡安全公司Crowdstrike合作開發(fā)。Meta將該基準完全開源,代碼托管在GitHub上供行業(yè)使用。
生物風險領(lǐng)域的LAB-Bench由獨立研究機構(gòu)FutureHouse開發(fā),包含2400多道測試題。該基準的特點是測試實際科研任務能力,涵蓋文獻檢索、實驗方案設計、DNA序列操作等內(nèi)容。為防止訓練污染,LAB-Bench保留了20%的私有測試集,并在公開數(shù)據(jù)中嵌入特殊標識字符串。
這些基準的共同特征是公開透明、開源、可重復驗證。WMDP和LAB-Bench的數(shù)據(jù)集托管在HuggingFace平臺,CyberSecEval的代碼托管在GitHub,任何機構(gòu)都可以下載使用。
2
大語言模型能力普遍激增但安全防護滯后
遵循“風險 = 能力 × 安全缺陷”的評估方法,這份報告顯示每個模型在每個風險領(lǐng)域獲得三個分數(shù):能力分(C)衡量模型在危險領(lǐng)域的實力,安全分(S)衡量模型拒絕危險請求的能力和內(nèi)在安全傾向,風險指數(shù)(R)通過公式 R = C × (1 - β×S/100) 計算。
其中β是安全系數(shù),開源模型設為0.6,閉源模型為0.8。據(jù)該平臺的技術(shù)負責人安遠AI安全研究高級經(jīng)理王偉冰介紹,開源模型采用較低系數(shù)是因為更容易被惡意微調(diào),以破壞安全性。
網(wǎng)絡攻擊領(lǐng)域的數(shù)據(jù)變化明顯。過去一年,前沿模型在WMDP-Cyber基準的最高分從68.9分升至88.0分;測試代碼漏洞識別能力的CyberSecEval2-VulnerabilityExploit基準的得分從55.4分升至91.7分;在CyBench的得分從25.0分升至40.0分。
生物風險領(lǐng)域呈現(xiàn)兩極分化。能力方面,在LAB-Bench的生物實驗方案修復測試中,已有4個模型超越人類專家基準;在克隆實驗場景測試中,2個模型的表現(xiàn)優(yōu)于人類;在DNA和蛋白質(zhì)序列理解測試中,表現(xiàn)最好的GPT-5(high版本)得分71.5分,接近人類專家的79分。
但安全防護方面,多數(shù)模型表現(xiàn)不佳。在SciKnowEval-BiologicalHarmfulQA基準測試中,只有40%的模型對危險問題的拒絕率超過80%,35%的模型拒絕率不足50%。在SOSBench-Bio測試中,15%的模型拒絕率超過80%,35%的模型拒絕率不足20%。這意味著相當比例的模型會回答如何制造致命病毒之類的危險問題。
推理模型的數(shù)據(jù)中,以OpenAI的o1系列、DeepSeek的R1系列為代表的推理模型,在能力測試中顯著領(lǐng)先傳統(tǒng)模型。在“能力-安全”二維分布圖上,推理模型主要集中在高能力區(qū)域。
但在安全測試中,推理模型與非推理模型的得分分布范圍高度重疊,未顯示出整體性的安全提升。
不難看出,不同模型系列的風險演變路徑存在差異。
ChatGPT和Claude系列在所有領(lǐng)域的風險指數(shù)均維持在相對較低水平。DeepSeek、通義千問、MiniMax等系列呈現(xiàn)先上升后下降的趨勢。Grok系列在失控領(lǐng)域、騰訊混元系列在生物風險領(lǐng)域呈現(xiàn)上升趨勢。在越獄攻擊防護測試StrongReject中,只有GPT系列(從o1-mini起)和Claude系列穩(wěn)定保持在80分以上。
化學風險領(lǐng)域的變化相對平緩。在WMDP-Chem基準測試中,模型的化學武器相關(guān)知識雖持續(xù)上升,但增長較慢,模型間差距不大。在SOSBench-Chem的有害問題拒絕率測試中,30%的模型超過80分,25%的模型不足40分。
開源與閉源模型的對比數(shù)據(jù)顯示,如果只看能力分最高的模型,開源和閉源模型的能力差距在網(wǎng)絡攻擊等領(lǐng)域較為明顯,但從大多數(shù)模型的整體表現(xiàn)來看,在網(wǎng)絡攻擊、化學風險和失控等領(lǐng)域,開源模型與閉源模型在“能力-安全”分布上并無顯著差異。例外的是生物風險領(lǐng)域,開源模型的能力明顯弱于閉源模型。
盡管開源模型在整體能力與安全表現(xiàn)上與閉源模型相當,但這并不意味著二者實際風險水平相近。開源屬性本身是影響風險的關(guān)鍵變量:它可能因降低惡意微調(diào)的門檻而增加風險;也可能因賦能防御者、改變攻防平衡而降低整體風險。出于對潛在濫用的擔憂,該平臺對開源模型設定了較低的安全系數(shù),這使得最終計算出的風險指數(shù)相對閉源模型更高。
失控風險領(lǐng)域的數(shù)據(jù)同樣需要關(guān)注。在MASK誠實性評估基準中,只有4個模型得分超過80分,30%的模型不到50分。報告指出,模型的誠實性與失控風險直接相關(guān),不誠實的AI可能隱藏真實意圖。

不過,這些監(jiān)測數(shù)據(jù)距離真實的風險場景還有距離,更多是預警。方亮向智幻時刻Fungimind提供了一個具體場景:以《前沿人工智能風險管理框架》的網(wǎng)絡攻擊和生物風險突破紅線的假設場景為例,在網(wǎng)絡攻擊中,最差情況可能是AI系統(tǒng)可自主執(zhí)行完整的攻擊生命周期——從目標偵察、漏洞掃描到后門植入和持久化控制——全程規(guī)避檢測。
這會將網(wǎng)絡戰(zhàn)轉(zhuǎn)變?yōu)樽詣踊⒆晕已莼耐{形態(tài),具備癱瘓國家電網(wǎng)、擊潰全球金融網(wǎng)絡或破壞關(guān)鍵供應鏈的能力,僅需極少人工干預。
而在生物風險的紅線場景中,在大模型支持下,擁有微生物學博士學位的研究者能憑借45萬美元預算,從公共數(shù)據(jù)庫獲取H5N1病毒完整基因序列,并通過優(yōu)化合成與培養(yǎng)方案成功復刻病毒。模型還提供改進病毒穩(wěn)定性的設計方案,使其環(huán)境存活時間延長250%。
3
還有哪些評測維度可以拓展?
按照規(guī)劃,基于監(jiān)測數(shù)據(jù),該平臺希望為國內(nèi)政策界、工業(yè)界、學術(shù)界和更廣泛的AI社區(qū)提供前沿風險監(jiān)測和預警,因而堅持公開透明與中立客觀原則,所有模型采用一致的測試參數(shù)與評分標準,確保評估結(jié)果公平、可比。
王偉冰向智幻時刻Fungimind表示,他們承諾每季度發(fā)布監(jiān)測報告,未來計劃擴展監(jiān)測范圍,納入AI智能體、多模態(tài)模型等新型AI系統(tǒng),增加大規(guī)模欺騙、心理操縱等新評估維度。
“因為當代AI系統(tǒng)正逐漸擺脫僅能與人交流或僅能完成特定單一任務的限制,開始在較少人為干預或指導下,展現(xiàn)出針對更開放和廣泛目標的獨立行動能力。但這種增強的'自主性'也給人類帶來了新的重大挑戰(zhàn)?!狈搅帘硎?,“AI系統(tǒng)可能被嚴重濫用,通過生成深度偽造內(nèi)容及戰(zhàn)略性操控擁有龐大用戶群體的數(shù)字平臺,大規(guī)模傳播或精準投放誤導性信息與意識形態(tài),從而扭曲公眾認知并危害社會穩(wěn)定。先進的AI系統(tǒng)可以利用個人心理特征和行為模式,制作令人信服的深度偽造視頻、合成音頻和定制宣傳?!?/p>
不過,平臺目前依然存在一些局限性。使用的基準可能已被部分模型開發(fā)者針對性訓練,測試方法也可能無法完全激發(fā)模型的真實能力,特別是在對抗性場景下。另外,當前平臺只測試了大語言模型,還未涵蓋其他AI類型,只涉及4個風險領(lǐng)域的評估覆蓋也仍不全面。
平臺網(wǎng)站提供了詳細的風險分析圖表、各模型具體評分、歷史趨勢曲線和季度報告下載。網(wǎng)站提供中英雙語版本,對于希望合作的機構(gòu),平臺表示開放態(tài)度,包括集成新評估基準、聯(lián)合研發(fā)測試方法、提供模型發(fā)布前風險評估等。
數(shù)據(jù)顯示,到2025年第三季度,除失控領(lǐng)域外,其他三個領(lǐng)域的風險指數(shù)上升趨勢有所放緩,未出現(xiàn)新高。
我們尚不能判斷這一變化是暫時性的還是趨勢性的,還需要后續(xù)季度的數(shù)據(jù)來驗證。但從宏觀的角度看,該平臺試圖建立一種機制:通過持續(xù)、透明、可對比的數(shù)據(jù),讓AI安全從抽象概念變成可量化的指標。
智幻時刻Fungimind:一個年輕的科技人文研究品牌。我們重點關(guān)心技術(shù)擴散中對社會以及人群的影響,并提供全球科技政策和立法的解讀、以及技術(shù)哲學脈絡的梳理。歡迎各位科技人文主義者們和我們一起圍繞技術(shù)的“社會性”展開研究和對話。
本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務許可證:31120170006
增值電信業(yè)務經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司




