Google DeepMind升級(jí)前沿AI安全框架，防范操控和抗關(guān)停風(fēng)險(xiǎn)

2025-09-24 10:48

來(lái)源：澎湃新聞·澎湃號(hào)·湃客

Alphabet旗下的Google DeepMind實(shí)驗(yàn)室今日發(fā)布了第三版前沿安全框架(Frontier Safety Framework)，旨在加強(qiáng)對(duì)強(qiáng)大人工智能系統(tǒng)的監(jiān)管，防止這些系統(tǒng)在失控時(shí)可能帶來(lái)的風(fēng)險(xiǎn)。

該框架第三版引入了對(duì)操控能力的新關(guān)注點(diǎn)，并將安全審查范圍擴(kuò)展到模型可能抵制人類關(guān)?；蚩刂频膱?chǎng)景。

更新內(nèi)容的首要亮點(diǎn)是增加了DeepMind所稱的"有害操控關(guān)鍵能力等級(jí)"。這一等級(jí)旨在應(yīng)對(duì)先進(jìn)模型可能在高風(fēng)險(xiǎn)情境下大規(guī)模影響或改變?nèi)祟愋拍詈托袨榈目赡苄?。該能力建立在多年?lái)對(duì)生成式AI中說(shuō)服和操控機(jī)制的研究基礎(chǔ)上，并正式確定了如何在模型達(dá)到關(guān)鍵閾值之前測(cè)量、監(jiān)控和緩解此類風(fēng)險(xiǎn)。

更新后的框架還對(duì)不對(duì)齊和控制挑戰(zhàn)給予了更嚴(yán)格的審查，即高能力系統(tǒng)在理論上可能抵制修改或關(guān)停的問(wèn)題。

DeepMind現(xiàn)在要求不僅在外部部署之前進(jìn)行安全案例審查，還要在模型達(dá)到特定關(guān)鍵能力等級(jí)閾值后的大規(guī)模內(nèi)部推廣中進(jìn)行審查。這些審查旨在強(qiáng)制團(tuán)隊(duì)在發(fā)布前證明潛在風(fēng)險(xiǎn)已被充分識(shí)別、緩解并判斷為可接受。

除了新的風(fēng)險(xiǎn)類別外，更新后的框架還完善了DeepMind定義和應(yīng)用能力等級(jí)的方式。這些改進(jìn)旨在清楚地區(qū)分常規(guī)運(yùn)營(yíng)關(guān)切與最嚴(yán)重的威脅，確保治理機(jī)制在正確的時(shí)間觸發(fā)。

前沿安全框架強(qiáng)調(diào)，緩解措施必須在系統(tǒng)跨越危險(xiǎn)邊界之前主動(dòng)應(yīng)用，而不是僅在問(wèn)題出現(xiàn)后被動(dòng)應(yīng)對(duì)。

Google DeepMind的Four Flynn、Helen King和Anca Dragan在博客文章中表示："我們前沿安全框架的最新更新體現(xiàn)了我們持續(xù)承諾，即采用科學(xué)和基于證據(jù)的方法來(lái)跟蹤并領(lǐng)先于AI風(fēng)險(xiǎn)，因?yàn)槟芰φㄓ萌斯ぶ悄馨l(fā)展。通過(guò)擴(kuò)展我們的風(fēng)險(xiǎn)領(lǐng)域和加強(qiáng)風(fēng)險(xiǎn)評(píng)估流程，我們旨在確保變革性AI造福人類，同時(shí)最大限度地減少潛在危害。"

作者補(bǔ)充說(shuō)，DeepMind預(yù)計(jì)前沿安全框架將隨著新研究、部署經(jīng)驗(yàn)和利益相關(guān)者反饋的積累而持續(xù)發(fā)展。

Q&A

Q1：Google DeepMind前沿安全框架第三版主要更新了什么？

A：第三版框架主要增加了對(duì)AI操控能力的關(guān)注，設(shè)立了"有害操控關(guān)鍵能力等級(jí)"，并擴(kuò)展了安全審查范圍，覆蓋模型可能抵制人類關(guān)停或控制的場(chǎng)景。同時(shí)完善了能力等級(jí)的定義和應(yīng)用方式。

Q2：什么是有害操控關(guān)鍵能力等級(jí)？

A：有害操控關(guān)鍵能力等級(jí)是DeepMind新增的安全評(píng)估標(biāo)準(zhǔn)，用于應(yīng)對(duì)先進(jìn)AI模型可能在高風(fēng)險(xiǎn)情境下大規(guī)模影響或改變?nèi)祟愋拍詈托袨榈娘L(fēng)險(xiǎn)。它建立在多年來(lái)對(duì)生成式AI中說(shuō)服和操控機(jī)制的研究基礎(chǔ)上。

Q3：前沿安全框架如何確保AI系統(tǒng)的安全性？

A：框架要求在模型外部部署前和達(dá)到特定能力閾值的大規(guī)模內(nèi)部推廣時(shí)都要進(jìn)行安全案例審查。強(qiáng)調(diào)必須在系統(tǒng)跨越危險(xiǎn)邊界之前主動(dòng)應(yīng)用緩解措施，而不是問(wèn)題出現(xiàn)后被動(dòng)應(yīng)對(duì)，確保潛在風(fēng)險(xiǎn)被充分識(shí)別和緩解。

特別聲明

本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點(diǎn)，不代表澎湃新聞的觀點(diǎn)或立場(chǎng)，澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。

我要舉報(bào)

#AI安全