中文字幕欧美乱伦|手机AV永久免费|澳门堵场日韩精品|日本性爱欧美激情|蜜桃狠狠狠狠狠狠狠狠狠|成人免费视频 国|欧美国产麻豆婷婷|99久久久国产精品福利姬喷水|婷婷内射精品视频|日本欧洲一区二区

  • +1

Google DeepMind升級(jí)前沿AI安全框架,防范操控和抗關(guān)停風(fēng)險(xiǎn)

2025-09-24 10:48
來(lái)源:澎湃新聞·澎湃號(hào)·湃客
字號(hào)

Alphabet旗下的Google DeepMind實(shí)驗(yàn)室今日發(fā)布了第三版前沿安全框架(Frontier Safety Framework),旨在加強(qiáng)對(duì)強(qiáng)大人工智能系統(tǒng)的監(jiān)管,防止這些系統(tǒng)在失控時(shí)可能帶來(lái)的風(fēng)險(xiǎn)。

該框架第三版引入了對(duì)操控能力的新關(guān)注點(diǎn),并將安全審查范圍擴(kuò)展到模型可能抵制人類關(guān)?;蚩刂频膱?chǎng)景。

更新內(nèi)容的首要亮點(diǎn)是增加了DeepMind所稱的"有害操控關(guān)鍵能力等級(jí)"。這一等級(jí)旨在應(yīng)對(duì)先進(jìn)模型可能在高風(fēng)險(xiǎn)情境下大規(guī)模影響或改變?nèi)祟愋拍詈托袨榈目赡苄?。該能力建立在多年?lái)對(duì)生成式AI中說(shuō)服和操控機(jī)制的研究基礎(chǔ)上,并正式確定了如何在模型達(dá)到關(guān)鍵閾值之前測(cè)量、監(jiān)控和緩解此類風(fēng)險(xiǎn)。

更新后的框架還對(duì)不對(duì)齊和控制挑戰(zhàn)給予了更嚴(yán)格的審查,即高能力系統(tǒng)在理論上可能抵制修改或關(guān)停的問(wèn)題。

DeepMind現(xiàn)在要求不僅在外部部署之前進(jìn)行安全案例審查,還要在模型達(dá)到特定關(guān)鍵能力等級(jí)閾值后的大規(guī)模內(nèi)部推廣中進(jìn)行審查。這些審查旨在強(qiáng)制團(tuán)隊(duì)在發(fā)布前證明潛在風(fēng)險(xiǎn)已被充分識(shí)別、緩解并判斷為可接受。

除了新的風(fēng)險(xiǎn)類別外,更新后的框架還完善了DeepMind定義和應(yīng)用能力等級(jí)的方式。這些改進(jìn)旨在清楚地區(qū)分常規(guī)運(yùn)營(yíng)關(guān)切與最嚴(yán)重的威脅,確保治理機(jī)制在正確的時(shí)間觸發(fā)。

前沿安全框架強(qiáng)調(diào),緩解措施必須在系統(tǒng)跨越危險(xiǎn)邊界之前主動(dòng)應(yīng)用,而不是僅在問(wèn)題出現(xiàn)后被動(dòng)應(yīng)對(duì)。

Google DeepMind的Four Flynn、Helen King和Anca Dragan在博客文章中表示:"我們前沿安全框架的最新更新體現(xiàn)了我們持續(xù)承諾,即采用科學(xué)和基于證據(jù)的方法來(lái)跟蹤并領(lǐng)先于AI風(fēng)險(xiǎn),因?yàn)槟芰φㄓ萌斯ぶ悄馨l(fā)展。通過(guò)擴(kuò)展我們的風(fēng)險(xiǎn)領(lǐng)域和加強(qiáng)風(fēng)險(xiǎn)評(píng)估流程,我們旨在確保變革性AI造福人類,同時(shí)最大限度地減少潛在危害。"

作者補(bǔ)充說(shuō),DeepMind預(yù)計(jì)前沿安全框架將隨著新研究、部署經(jīng)驗(yàn)和利益相關(guān)者反饋的積累而持續(xù)發(fā)展。

Q&A

Q1:Google DeepMind前沿安全框架第三版主要更新了什么?

A:第三版框架主要增加了對(duì)AI操控能力的關(guān)注,設(shè)立了"有害操控關(guān)鍵能力等級(jí)",并擴(kuò)展了安全審查范圍,覆蓋模型可能抵制人類關(guān)停或控制的場(chǎng)景。同時(shí)完善了能力等級(jí)的定義和應(yīng)用方式。

Q2:什么是有害操控關(guān)鍵能力等級(jí)?

A:有害操控關(guān)鍵能力等級(jí)是DeepMind新增的安全評(píng)估標(biāo)準(zhǔn),用于應(yīng)對(duì)先進(jìn)AI模型可能在高風(fēng)險(xiǎn)情境下大規(guī)模影響或改變?nèi)祟愋拍詈托袨榈娘L(fēng)險(xiǎn)。它建立在多年來(lái)對(duì)生成式AI中說(shuō)服和操控機(jī)制的研究基礎(chǔ)上。

Q3:前沿安全框架如何確保AI系統(tǒng)的安全性?

A:框架要求在模型外部部署前和達(dá)到特定能力閾值的大規(guī)模內(nèi)部推廣時(shí)都要進(jìn)行安全案例審查。強(qiáng)調(diào)必須在系統(tǒng)跨越危險(xiǎn)邊界之前主動(dòng)應(yīng)用緩解措施,而不是問(wèn)題出現(xiàn)后被動(dòng)應(yīng)對(duì),確保潛在風(fēng)險(xiǎn)被充分識(shí)別和緩解。

    本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。

            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2025 上海東方報(bào)業(yè)有限公司