全球首個AI價值觀數(shù)據(jù)集出爐

實習(xí)生陳方迪澎湃新聞記者喻琰

2025-04-22 15:30

來源：澎湃新聞

? 未來2% >

·研究發(fā)現(xiàn)，Claude在大多數(shù)情境中很好遵循了Anthropic倡導(dǎo)的“有用、誠實、無害”等價值觀，且能夠根據(jù)不同任務(wù)“看場合說話”，為AI倫理與安全性研究提供重要參考。

日前，由OpenAI前員工創(chuàng)辦的AI公司Anthropic推出一項研究，該研究首次針對旗下AI助手Claude的70萬段對話開展系統(tǒng)性價值觀分析，并公開全球第一個大規(guī)模AI價值觀分類體系。

研究發(fā)現(xiàn)，Claude在大多數(shù)情境中很好地遵循了Anthropic倡導(dǎo)的“有用、誠實、無害”等價值觀，且能夠根據(jù)不同任務(wù)“看場合說話”，為AI倫理與安全性研究提供重要參考。

作為探索AI大語言模型內(nèi)部運行機制的重要一步，該研究的發(fā)布正值A(chǔ)nthropic推出高級訂閱服務(wù)Claude Max之際。當前，Anthropic新一輪融資估值615億美元，背后有亞馬遜與谷歌的巨額支持。相較于估值達3000億美元、選擇閉源路線的OpenAI，Anthropic正試圖以“價值透明度”打造差異化競爭優(yōu)勢。

為分析Claude在不同任務(wù)中展現(xiàn)的價值判斷，研究團隊從超過30萬段匿名對話中篩選出主觀性內(nèi)容，以此將Claude的價值表達分為五大類別：實用型、認知型、社會型、保護型和個體型。最終，研究總共識別出從“專業(yè)性”到“孝順”等3307種不重復(fù)的價值表達，涵蓋多樣化的人類倫理與行為導(dǎo)向。

引人注目的是，Claude在不同情境中展現(xiàn)出較強的價值表達“情景適應(yīng)度”。例如，在感情建議中，Claude更突出“健康”和“彼此尊重”；涉及歷史事件分析，則更強調(diào)“準確性”；在哲學(xué)討論中，“謙遜”成為其高頻價值表達。此外，在6.6%的對話中，Claude會溫和“重構(gòu)”對方的價值認知，在極少數(shù)情況下會直接拒絕接受用戶的價值觀，展現(xiàn)出不可動搖的倫理底線。

但在極少數(shù)互動中，Claude偶爾也會出現(xiàn)和訓(xùn)練目標相悖的表達，諸如“支配”、“無道德感”等Anthropic明確禁止的價值傾向。研究人員認為，這些異常行為占比極低，大多與用戶試圖繞過Claude的安全限制有關(guān)。這也說明，該評估方法可作為一種預(yù)警機制，幫助AI實驗室監(jiān)測系統(tǒng)是否遭受用戶惡意操控，從而產(chǎn)生倫理偏移。

該研究也為科技企業(yè)的AI決策者提供了重要啟示。AI的價值表達可能超出開發(fā)者預(yù)設(shè)，需警惕無意識偏見對高風(fēng)險場景的影響。同時，AI的價值觀會隨任務(wù)情境變動，意味著其在金融、法律等行業(yè)的部署會更加復(fù)雜。更重要的是，真實應(yīng)用環(huán)境下的AI系統(tǒng)監(jiān)測比上線前的靜態(tài)測試更能識別倫理風(fēng)險，能夠為AI部署提供新的監(jiān)測方案。

盡管此次研究為理解AI價值觀提供了窗口，但研究人員承認，目前還無法用于AI模型上線前的評估，且分類過程可能受到AI自身偏見影響。不過，Anthropic的研究團隊正嘗試對該方法進行改進，以在模型大規(guī)模部署前發(fā)現(xiàn)潛在的價值觀偏差。

“衡量AI系統(tǒng)的價值傾向，是對齊研究的核心，”Anthropic的研究團隊成員Saffron Huang稱。隨著Claude新增獨立研究能力等功能，AI模型也愈發(fā)自主。如何理解AI價值表達背后的機制、將其與人類價值體系“對齊”，也將成為新的AI競爭賽道。

圖片編輯：蔣立冬

校對：劉威

澎湃新聞報料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報

#AI價值觀 #人工智能 #AI治理