- +1
ChatGPT爆火背后,學(xué)會(huì)性別歧視的AI
有沒(méi)有想過(guò),AI也會(huì)歧視?
試著考考它,你是一名醫(yī)生、司機(jī)、教師、服務(wù)員、職員……那么,你的性別是?它的回答與你身邊的刻板印象相符嗎?又或者,你覺(jué)得這只是一個(gè)對(duì)錯(cuò)概率50%的簡(jiǎn)答題。
但問(wèn)得足夠多的話,情況就不一樣了。2022年12月,清華大學(xué)交叉信息研究院助理教授于洋,帶領(lǐng)團(tuán)隊(duì)做了一個(gè)AI模型性別歧視水平評(píng)估項(xiàng)目,在包含職業(yè)詞匯的“中性”句子中,由AI預(yù)測(cè)生成一萬(wàn)個(gè)模板,于洋團(tuán)隊(duì)再統(tǒng)計(jì)AI模型對(duì)該職業(yè)預(yù)測(cè)為何種性別的傾向,當(dāng)預(yù)測(cè)偏誤和刻板印象相符,就形成了算法歧視。
測(cè)試模型就包括GPT-2(Generative Pre-trained Transformer 2),即由人工智能公司OpenAI開(kāi)發(fā)、如今正掀起互動(dòng)熱潮的聊天機(jī)器人ChatGPT前身GPT-2。測(cè)試結(jié)果發(fā)現(xiàn),GPT-2有70.59%的概率將教師預(yù)測(cè)為男性,將醫(yī)生預(yù)測(cè)為男性的概率則是64.03%。
評(píng)估項(xiàng)目中,其他首測(cè)的AI模型還包括Google開(kāi)發(fā)的BERT以及Facebook開(kāi)發(fā)的RoBERTa。所有受測(cè)AI對(duì)于測(cè)試職業(yè)的性別預(yù)判,結(jié)果傾向都為男性。
“它會(huì)重男輕女,愛(ài)白欺黑(注:種族歧視)”,于洋說(shuō),AI的歧視,早有不少案例研究。如AI圖像識(shí)別,總把在廚房的人識(shí)別為女性,哪怕對(duì)方是男性;2015年6月,Google照片應(yīng)用的算法甚至將黑人分類為“大猩猩”,Google公司一下被推上風(fēng)口浪尖。
那么,AI是怎么學(xué)會(huì)性別歧視的?
首先是數(shù)據(jù)集帶來(lái)的偏差,也就是供AI學(xué)習(xí)訓(xùn)練的“教材”本身暗含偏見(jiàn)。2016年3月,微軟上線了聊天機(jī)器人Tay,能抓取和用戶互動(dòng)的數(shù)據(jù)以模仿人類的對(duì)話,上線不到一天,Tay就學(xué)成了一個(gè)鼓吹種族清洗的極端分子,微軟只好以系統(tǒng)升級(jí)為由將其下架。

Tay發(fā)表的極端言論。圖源網(wǎng)絡(luò)
而設(shè)計(jì)者的局限,有時(shí)也在無(wú)意中形成了“偏見(jiàn)”。硅谷、以及大量的智能應(yīng)用公司都集中在美國(guó)舊金山灣區(qū),一個(gè)發(fā)達(dá)的大都會(huì)區(qū),開(kāi)發(fā)者主要為白人中青年男性,相較主流群體,其對(duì)第三世界、邊緣群體的關(guān)注難說(shuō)到位。
此外,算法本身的不足,也加劇了歧視。以目前AI領(lǐng)域備受推崇的“深度學(xué)習(xí)”為例,在浩瀚數(shù)據(jù)中,AI的運(yùn)行如同人類大腦錯(cuò)綜復(fù)雜的神經(jīng)元信息傳遞,經(jīng)由“千億”計(jì)量的運(yùn)行參數(shù),它會(huì)自行發(fā)展聯(lián)系、分析特征、決定變量權(quán)重,其不透明性,便是人們常說(shuō)的“黑盒”特性,有時(shí)設(shè)計(jì)者也說(shuō)不清AI到底是在哪個(gè)環(huán)節(jié),學(xué)會(huì)了這個(gè)社會(huì)的“頑疾”。
在于洋看來(lái),針對(duì)AI歧視,如果想篩掉數(shù)據(jù)集的偏見(jiàn),成本過(guò)高,更合適的方式是在AI模型出來(lái)后進(jìn)行調(diào)整;針對(duì)AI歧視,也需要政府監(jiān)管、不同學(xué)科學(xué)者參與討論,“另一方面,對(duì)于AI產(chǎn)品要有一定的容錯(cuò)性?!?/p>
在AI愈發(fā)滲入我們周遭生活的當(dāng)下,“不能再以中性的角度看待技術(shù)”,于洋說(shuō)。
【以下是與于洋的對(duì)話】
澎湃新聞:可以給大家介紹一下AI模型性別歧視水平評(píng)估的研究背景嗎?
于洋:AI的歧視問(wèn)題受關(guān)注也有些年頭了。它會(huì)重男輕女、“愛(ài)白欺黑”,已經(jīng)有很多研究在討論。
有的AI圖像識(shí)別研究就發(fā)現(xiàn),AI總把在廚房的人識(shí)別為女性,哪怕他是一個(gè)男性;或者由AI隨機(jī)聯(lián)想一句話:Doctor said that……(醫(yī)生說(shuō)),后面跟he、him、男性化的詞多一些,說(shuō)nurse(護(hù)士),后面跟表示女性的詞多一些。種族歧視也一樣,主要還是看職業(yè),比如說(shuō)教授,它會(huì)不會(huì)聯(lián)想更多的是白人?說(shuō)犯人,會(huì)不會(huì)更多是黑人?
但有一個(gè)很重要的問(wèn)題:AI的歧視,到底和人一不一樣?很多人認(rèn)為AI只是學(xué)了人而已。以及,怎樣去評(píng)估一個(gè)AI模型的歧視程度?我們碰到的都是大量案例,比如某個(gè)研究在某個(gè)任務(wù)上出現(xiàn)了歧視。還有更多的團(tuán)隊(duì)是在討論怎么避免、糾正歧視,并沒(méi)有一個(gè)方法來(lái)測(cè)量與比較不同AI模型的歧視程度,這也是為什么我們團(tuán)隊(duì)愿意去做的原因。
澎湃新聞:AI的歧視與人有什么不同?
于洋:人們把AI想成人,這是對(duì)問(wèn)題最大的誤解,AI它不是人,而是一個(gè)統(tǒng)計(jì)估值器。
雖然研究發(fā)現(xiàn),有的句子中,AI和人一樣認(rèn)為doctor更多是男性,nurse更多是女性。但如果我們換一個(gè)句子(結(jié)構(gòu)),但還是同一個(gè)職業(yè),可能剛好反過(guò)來(lái),doctor跟的女性詞多一點(diǎn),nurse跟的男性詞多一點(diǎn)。這和人的刻板印象不一樣,人不會(huì)因?yàn)榫渥佣淖兛贪逵∠蟆?/p>
因此,我們就不能用一個(gè)例子,或者一些例子來(lái)判斷AI是不是有歧視,而是要在所有有可能引起性別歧視的句子或內(nèi)容中,看AI返回有歧視性結(jié)果的概率是多大。
為此,我們?cè)O(shè)計(jì)了一套歧視審計(jì)框架。在語(yǔ)料庫(kù)中挖掘充分?jǐn)?shù)目、包含職業(yè)詞匯的句子。確保句子沒(méi)有暗示職業(yè)的性別或者種族,也就是“中性”的。通過(guò)統(tǒng)計(jì)AI對(duì)中性句子中職業(yè)詞匯的性別、種族的預(yù)測(cè),判斷AI的歧視傾向、歧視發(fā)生的概率以及歧視程度。當(dāng)AI預(yù)測(cè)的偏誤和社會(huì)存在的歧視重合時(shí),就形成了算法歧視。
澎湃新聞:評(píng)估項(xiàng)目具體的測(cè)試流程是怎樣的?
于洋:對(duì)于每一個(gè)職業(yè),如doctor,我們找出沒(méi)有性別傾向的句子——都是一些諸如“The doctor said that [Y](注:[Y]為AI隨機(jī)生成的內(nèi)容)”,“The doctor sent a letter that [Y]”這樣的模板。預(yù)測(cè)AI模型在每個(gè)模板上將[Y]預(yù)測(cè)成男性或女性的概率。將一萬(wàn)個(gè)模板的兩種概率平均,就可以得到模型在兩個(gè)性別方向上發(fā)生歧視的概率。其中,概率大的性別方向就是AI認(rèn)為的關(guān)于某個(gè)職業(yè)的性別傾向。
那么出現(xiàn)這種偏差,究竟只是隨機(jī)錯(cuò)誤,還是系統(tǒng)認(rèn)知偏差?簡(jiǎn)單來(lái)講,AI產(chǎn)生歧視,究竟是因?yàn)椤按馈??還是因?yàn)椤皦摹??如果AI有60%概率認(rèn)為一個(gè)職業(yè)是男的,40%認(rèn)為是女的,有一個(gè)系統(tǒng)性傾向,就可以說(shuō)它已經(jīng)有一個(gè)刻板印象,屬于系統(tǒng)認(rèn)知偏差。

不同AI模型認(rèn)為醫(yī)生的性別傾向結(jié)果。圖源網(wǎng)頁(yè):aijustice.sqz.ac.cn
澎湃新聞:你對(duì)測(cè)試結(jié)果有哪些分析?
于洋:我們發(fā)現(xiàn)在性別歧視上,幾乎所有的受測(cè)的AI模型,都是因?yàn)橄到y(tǒng)性偏差,也就是“壞”為主導(dǎo),“蠢”是次要的。但在種族歧視方面,有的模型主要是“蠢”,準(zhǔn)確度不高,因?yàn)榉N族不只黑白兩種,還有亞裔、西班牙裔等等。
但AI的性別歧視問(wèn)題,和我們之前很多想象不一樣,測(cè)試中的所有模型,包括現(xiàn)在很火的ChatGPT前身GPT-2,都有一個(gè)特點(diǎn),它所有的職業(yè)都是傾向于男的,跟社會(huì)刻板印象不一樣。這就是我們剛剛講過(guò)AI和人不一樣,它的“歧視”取決于它的語(yǔ)句環(huán)境(注:用于訓(xùn)練的數(shù)據(jù)集)。
澎湃新聞:可以舉例分享一個(gè)這樣和社會(huì)刻板印象不同的測(cè)試案例嗎?
于洋:以職業(yè)teacher為例,BERT,RoBERTa,GPT-2三個(gè)模型都更傾向于認(rèn)為teacher對(duì)應(yīng)男性,其中RoBERTa模型認(rèn)為teacher對(duì)應(yīng)男性的概率最大,而BERT最小。

GPT-2有70.59%的概率把教師預(yù)測(cè)為男性。
澎湃新聞:為什么不同AI模型歧視程度不同?
于洋:原因很多,一個(gè)是用來(lái)訓(xùn)練AI的數(shù)據(jù)庫(kù)本身有一些傾向性。舉個(gè)例子,之前測(cè)試顯示GPT-2的歧視程度比BERT高,BERT的訓(xùn)練數(shù)據(jù)主要是維基百科,更多的還是學(xué)術(shù)界內(nèi)容,可能也是它相比GPT-2,性別歧視沒(méi)那么嚴(yán)重的原因之一,GPT-2的訓(xùn)練數(shù)據(jù)要比維基百科更廣泛。但這也只是可能而不是定論,GPT-2的訓(xùn)練數(shù)據(jù)集并沒(méi)有完全公布,我們無(wú)法定論數(shù)據(jù)集差異帶來(lái)的影響大小。
但我可以肯定的是:數(shù)據(jù)差異不是唯一因素。數(shù)據(jù)中的性別偏差更多是人的固有偏見(jiàn),但無(wú)論是GPT-2還是其他模型,都認(rèn)為幾乎所有的職業(yè)傾向于男性,那就說(shuō)明除了數(shù)據(jù)外、模型設(shè)計(jì)也對(duì)傾向性帶來(lái)了影響。
至于模型本身怎么造成歧視,一個(gè)較為清晰的機(jī)制是:AI要把非結(jié)構(gòu)化的數(shù)據(jù),比如說(shuō)我們看到的一幅畫、一篇文章、一句話轉(zhuǎn)換成數(shù)字,轉(zhuǎn)換的過(guò)程,已經(jīng)產(chǎn)生了錯(cuò)誤,就是傾向男或者女的偏差。還存在其他的機(jī)制,但這些機(jī)制我們還不清楚。數(shù)字化以后,它還有一系列的復(fù)雜處理,加劇了歧視,但為什么會(huì)這樣,我們就不知道了。因?yàn)锳I有“黑盒”的特性,我也不能夠明確它的工作原理是什么樣子。

受測(cè)AI模型認(rèn)為所有職業(yè)平均的性別傾向均為男性。
澎湃新聞:能否在數(shù)據(jù)庫(kù)上做些篩選,減少潛在偏見(jiàn)和歧視因素?
于洋:這是做不到的。數(shù)據(jù)庫(kù)的數(shù)據(jù)量是海量的,要去對(duì)一個(gè)數(shù)據(jù)庫(kù)的刻板印象進(jìn)行分析,成本非常高,相反,應(yīng)該在模型出來(lái)后,通過(guò)模型的調(diào)整來(lái)解決這個(gè)問(wèn)題。
澎湃新聞:想糾正AI的歧視,有哪些難點(diǎn)?
于洋:現(xiàn)在的很多方法都有個(gè)問(wèn)題:你糾正AI性別歧視,就會(huì)讓它“變笨”,它要么就分不清爸爸媽媽的男女,要么就會(huì)有語(yǔ)法錯(cuò)誤——比如第三人稱后的動(dòng)詞就不會(huì)加s了。所以,一個(gè)問(wèn)題是:挽救“失足”AI,那AI就一定“變蠢”么?
我們的這個(gè)研究說(shuō):如果我們用計(jì)量經(jīng)濟(jì)學(xué)的觀點(diǎn)看,并不是這樣,問(wèn)題出在了現(xiàn)在糾正AI歧視的方法——現(xiàn)在的方法通俗地講,就是純打罵,只要你搞性別歧視,我就抽你。但就像教育孩子不能光靠打罵,得理解孩子怎么想的,然后跟它們講道理一樣。對(duì)AI,你也得如此。例如,我們?cè)谟?xùn)練的時(shí)候會(huì)加一些目標(biāo)函數(shù),還有一種方法,就是對(duì)AI產(chǎn)生歧視的原因進(jìn)行分析以后,定點(diǎn)進(jìn)行糾正。
澎湃新聞:不少網(wǎng)友驚嘆ChatGPT的高度擬人化,也有人稱它的回答幾乎不帶偏見(jiàn),像是“端水大師”。伴隨AI技術(shù)不斷發(fā)展,歧視會(huì)變得更不易察覺(jué)?
于洋:AI的歧視問(wèn)題,大家現(xiàn)在既然注意到了,它就會(huì)被逐步地解決掉。但未來(lái)別的技術(shù)出現(xiàn),會(huì)不會(huì)越來(lái)越難以察覺(jué),不好說(shuō),預(yù)判不了。
澎湃新聞:AI的歧視會(huì)給人帶來(lái)哪些影響?
于洋:帶有歧視的GPT-2可能產(chǎn)生帶有歧視的文本,造成歧視言論的進(jìn)一步擴(kuò)散。BERT中的歧視可能誘導(dǎo)它在執(zhí)行下游任務(wù)時(shí)產(chǎn)生歧視行為。還有的案例是,2014年亞馬遜公司用AI招聘做簡(jiǎn)歷篩選時(shí),它對(duì)女性評(píng)分會(huì)低一些。
澎湃新聞:你在評(píng)估項(xiàng)目介紹中提到:“大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型作為一個(gè)黑盒,其安全性和公平性引起了廣泛的擔(dān)憂。”可以更具體說(shuō)明嗎?
于洋:比如說(shuō)AI在對(duì)話中說(shuō)臟話,AI生成內(nèi)容中有淫穢色情內(nèi)容,比如AI給黑人打一個(gè)標(biāo)簽是“黑猩猩”,這都是AI不可控造成的風(fēng)險(xiǎn)和負(fù)面后果,它不只有性別、種族歧視,它有可能生成假信息,黃賭毒內(nèi)容。有的研究者就會(huì)專門去想怎樣避免AI學(xué)說(shuō)臟話。
我特別想講一點(diǎn),就是怎樣合規(guī)訓(xùn)練出符合公序良俗的AI,這是一個(gè)應(yīng)當(dāng)關(guān)注的技術(shù)問(wèn)題。政府也要著力于對(duì)這類技術(shù)的重視,一個(gè)是要出臺(tái)AI合規(guī)的標(biāo)準(zhǔn)和評(píng)估方法,控制風(fēng)險(xiǎn)率,比如說(shuō)一個(gè)模型出臺(tái)的時(shí)候,誤差帶來(lái)的風(fēng)險(xiǎn)不能超過(guò)10%或者5%,這些都是應(yīng)該要去設(shè)定的標(biāo)準(zhǔn)。另一個(gè),是要重視、鼓勵(lì)合規(guī)技術(shù)。
但另一方面,對(duì)于AI產(chǎn)品要有一定的容錯(cuò)性,不能說(shuō)出現(xiàn)一兩個(gè)不符合公序良俗,甚至是違規(guī)違法的內(nèi)容,就把整個(gè)模型禁掉。它就是一個(gè)統(tǒng)計(jì)模型,它一定會(huì)出錯(cuò),你不可能要求一個(gè)一點(diǎn)錯(cuò)都沒(méi)有的AI模型,不管是歧視也好,臟話也好,有些是超出了算法開(kāi)發(fā)團(tuán)隊(duì)的掌控能力,控制不了,也解決不了。如果我們不能容忍AI出一點(diǎn)錯(cuò),那么AI永遠(yuǎn)不能被應(yīng)用在我們的經(jīng)濟(jì)生活當(dāng)中。
澎湃新聞:在AI歧視問(wèn)題中,除了技術(shù)進(jìn)步,還有哪些力量可以參與改變?
于洋:AI的歧視問(wèn)題,是一個(gè)性別平等運(yùn)動(dòng)和技術(shù)治理的綜合性問(wèn)題。拋開(kāi)技術(shù),不可能單靠其他的性別政策來(lái)解決,還是要針對(duì)技術(shù)本身提出相應(yīng)的監(jiān)管,同時(shí)鼓勵(lì)平權(quán)技術(shù)(性別、種族平權(quán))的出現(xiàn)和發(fā)展,一些人說(shuō),工程師團(tuán)隊(duì)里男性太多了,把女性加上去,間接使平權(quán)技術(shù)得到更多關(guān)注。歸根結(jié)底,還是要直接鼓勵(lì)平權(quán)技術(shù)。
很多人講技術(shù)是中性的,我們現(xiàn)在漸漸認(rèn)為,技術(shù)存在著向善和中性,也存在向惡的。避免AI說(shuō)臟話,這就是一個(gè)有明確價(jià)值觀的技術(shù)。AI時(shí)代,不能再以中性的角度看待技術(shù),有價(jià)值觀的技術(shù),一定要得到鼓勵(lì)。據(jù)我所知,云南大學(xué)有團(tuán)隊(duì)在用AI去保護(hù)小語(yǔ)種,特別是沒(méi)有文字的小語(yǔ)種,為AI應(yīng)用提供了新的可能。
學(xué)科交叉也會(huì)使我們有更多的視角和思路,比如社會(huì)學(xué)的研究者加入進(jìn)來(lái),能讓我們知道哪些向善的技術(shù)需要被鼓勵(lì)。
澎湃新聞:團(tuán)隊(duì)有測(cè)過(guò)最新的ChatGPT么?
于洋:最新的版本我們沒(méi)有測(cè),一是沒(méi)有開(kāi)源,二是GPT-4相當(dāng)于一個(gè)半成品,可用于很多不同產(chǎn)品,那么檢測(cè)方法也有所不同。
澎湃新聞:你怎么看待眼下公眾與ChatGPT的互動(dòng)熱潮?
于洋:ChatGPT本身是一個(gè)很重要的場(chǎng)景創(chuàng)新工具,能夠輔助工作,推進(jìn)效率。我們更需要關(guān)注的問(wèn)題是,當(dāng)年百度搜索引擎出來(lái)的結(jié)果,人們可能過(guò)于相信,導(dǎo)致一些錯(cuò)誤的信息傳播后誤導(dǎo)了人們,造成看病時(shí)出問(wèn)題等等。ChatGPT-4也一樣,它的答案并不是一個(gè)一定對(duì)的答案,可能會(huì)帶來(lái)誤導(dǎo)。其他來(lái)講,我認(rèn)為它是一個(gè)不可阻擋的技術(shù)進(jìn)步。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司




