每天輸驗(yàn)證碼耗掉50萬(wàn)小時(shí)：一場(chǎng)人與AI正在升級(jí)的攻防戰(zhàn)

澎湃新聞?dòng)浾?杜海燕衛(wèi)瑤實(shí)習(xí)生張奕寧

2025-06-20 12:01

來(lái)源：澎湃新聞

人類發(fā)明來(lái)防AI的驗(yàn)證碼，復(fù)雜到連人類自己都招架不住。

“驗(yàn)證碼里點(diǎn)選畫面中的文字歪歪扭扭的，辨認(rèn)起來(lái)還挺費(fèi)勁的，如果這時(shí)后面的車還按喇叭或者閃燈催我，就更加著急不安了?！标愊樵谏虉?chǎng)停車場(chǎng)付費(fèi)準(zhǔn)備離開(kāi)時(shí)，跳出的驗(yàn)證碼讓他有點(diǎn)崩潰。

被驗(yàn)證碼逼瘋的用戶不是個(gè)例。

網(wǎng)友@_Kiku溫和的白開(kāi)水：“評(píng)論一次驗(yàn)證一次，我真的受夠了。”

網(wǎng)友@_吃一顆荔枝嗎_：“這個(gè)驗(yàn)證碼，真的生怕有人能點(diǎn)對(duì)了?！?/em>

我們嘗試測(cè)試了各大網(wǎng)站和APP，發(fā)現(xiàn)現(xiàn)在的驗(yàn)證碼變得越來(lái)越復(fù)雜了，考驗(yàn)的內(nèi)容也五花八門。

早在2010年，一項(xiàng)來(lái)自美國(guó)斯坦福大學(xué)的大規(guī)模用戶研究顯示，普通用戶平均需要9.8秒才能解決一個(gè)圖像驗(yàn)證碼，完成一個(gè)語(yǔ)音驗(yàn)證碼則要花上28.4秒。
到了2024年，一項(xiàng)關(guān)于用戶對(duì)驗(yàn)證碼的感知研究顯示，在近150位被調(diào)查的互聯(lián)網(wǎng)用戶中，只有35%的用戶總能一次性順利通過(guò)驗(yàn)證碼。而46%的用戶會(huì)在驗(yàn)證碼多次失敗后放棄使用網(wǎng)站。
攔截AI的驗(yàn)證碼，如今頻繁考倒了人類。驗(yàn)證碼為什么越來(lái)越復(fù)雜？
絕大多數(shù)驗(yàn)證碼，AI都能破解了
“驗(yàn)證碼底層的難度假設(shè)是基于一個(gè)人工智能問(wèn)題”，路易斯·馮·安說(shuō)道。
這位語(yǔ)言學(xué)習(xí)類APP多鄰國(guó)的創(chuàng)始人，在2000年，為了幫助雅虎擺脫垃圾郵件的攻擊，與團(tuán)隊(duì)一起設(shè)計(jì)出一套系統(tǒng)：通過(guò)扭曲字符來(lái)區(qū)分人類與機(jī)器。這，便是驗(yàn)證碼（CAPTCHA）的雛形。
恐怕連路易斯·馮·安也想不到，此后20年，驗(yàn)證碼與AI的“攻防戰(zhàn)”竟會(huì)如此焦灼。
從扭曲字符到點(diǎn)擊圖像、從簡(jiǎn)單算數(shù)題到滑塊拼圖，再到近幾年的行為驗(yàn)證....... 可無(wú)論驗(yàn)證碼怎么變，幾乎都沒(méi)扛過(guò)幾年就被破解了。
同時(shí)，在2023年的一項(xiàng)研究中指出：無(wú)論是文本驗(yàn)證碼、圖像識(shí)別、點(diǎn)擊任務(wù)，還是滑動(dòng)拼圖， AI在破解速度和準(zhǔn)確率上，都全面碾壓人類。例如，在處理文本類驗(yàn)證碼任務(wù)時(shí)，人類耗時(shí)15.3s，最高正確率為84%；而機(jī)器人僅需0.9s，最高正確率便達(dá)99.8%。
2024年7月一名網(wǎng)友在微博發(fā)帖感嘆：“隨著AI變得越來(lái)越聰明，未來(lái)的驗(yàn)證碼可能會(huì)復(fù)雜到大部分人類都答不出來(lái)?！?/p>
對(duì)此，當(dāng)前部分驗(yàn)證碼通過(guò)采用 “AI對(duì)抗AI” 的邏輯實(shí)現(xiàn)了技術(shù)升級(jí)；也有一部分驗(yàn)證碼的底層邏輯發(fā)生了轉(zhuǎn)變，從過(guò)去的“看你有幾分像機(jī)器”轉(zhuǎn)向如今的“看你有幾分像人”。
例如，Google于2018年推出無(wú)感驗(yàn)證，reCAPTCHA V3，相對(duì)于之前的版本，V3完全不用用戶接受測(cè)試，無(wú)需任何主動(dòng)操作，而是通過(guò)用戶上網(wǎng)的行為數(shù)據(jù)（如鼠標(biāo)移動(dòng)、滾動(dòng)、點(diǎn)擊、停留時(shí)間等）來(lái)判斷訪問(wèn)者是否為人類。但是，驗(yàn)證碼變得更加友好了，用戶卻讓渡了個(gè)人數(shù)據(jù)。
對(duì)抗AI的驗(yàn)證碼，也在無(wú)形中訓(xùn)練了AI
路易斯·馮·安曾算過(guò)一筆賬：全體人類每天約耗費(fèi)50萬(wàn)小時(shí)在輸驗(yàn)證碼上，而一個(gè)人80歲的人生總時(shí)長(zhǎng)也不過(guò)約70萬(wàn)小時(shí)。
為了讓這些時(shí)間變得有價(jià)值，路易斯·馮·安在2007年創(chuàng)建了reCAPTCHA。旨在借助驗(yàn)證碼形式來(lái)彌補(bǔ)光學(xué)字符識(shí)別（OCR）技術(shù)缺陷，并助力《紐約時(shí)報(bào)》完成了自1851年以來(lái)1300萬(wàn)篇文章的數(shù)字化。
2009年，谷歌以大約2780萬(wàn)美元的價(jià)格收購(gòu)了reCAPTCHA，開(kāi)始為Google圖書和Google新聞檔案搜索等大型文本掃描項(xiàng)目提供支持。
此后，谷歌進(jìn)一步拓展技術(shù)應(yīng)用場(chǎng)景：依托谷歌街景的圖像資源，讓用戶識(shí)別門牌號(hào)等標(biāo)識(shí)信息，相關(guān)數(shù)據(jù)也被用于訓(xùn)練Waymo自動(dòng)駕駛技術(shù)等AI模型。
法國(guó)《巴黎人報(bào)》報(bào)道稱，谷歌的算盤打得很精：既能借此增強(qiáng)其搜索引擎所收錄網(wǎng)站的安全性，又讓全球用戶免費(fèi)貢獻(xiàn)了“勞動(dòng)力”。
美國(guó)加州大學(xué)歐文分校的研究人員初步估算，在2009年之后的13年里，用戶在輸入谷歌驗(yàn)證碼上，共計(jì)消耗了8.19億小時(shí)。按美國(guó)聯(lián)邦最低工資7.5美元/時(shí)計(jì)算，這相當(dāng)于谷歌省下了至少61億美元的工資。而此次估算值，據(jù)研究人員稱，也僅僅是較為保守的下限。
不僅如此，還有一些公司和研究機(jī)構(gòu)公開(kāi)了帶有人工標(biāo)注的驗(yàn)證碼圖像數(shù)據(jù)集，專門供開(kāi)發(fā)者和研究人員訓(xùn)練、測(cè)試AI模型。
比如，GTS.AI提供了一個(gè)包含上萬(wàn)張Google reCAPTCHA V2圖像的數(shù)據(jù)集，其中超過(guò)500張經(jīng)過(guò)人工標(biāo)注，專門用于訓(xùn)練像YOLO這樣的物體檢測(cè)模型。
圖片來(lái)源：GTS.AI 官網(wǎng)
就國(guó)內(nèi)而言，也存在借助驗(yàn)證碼來(lái)訓(xùn)練AI的例子。
騰訊與深圳大學(xué)曾在2021年聯(lián)合推出"MedCAPTCHA醫(yī)學(xué)圖像驗(yàn)證碼"，通過(guò)驗(yàn)證碼形式將臨床上真實(shí)的脫敏醫(yī)學(xué)圖像開(kāi)放給公眾標(biāo)注。而這些被標(biāo)注的數(shù)據(jù)也成為機(jī)器學(xué)習(xí)的訓(xùn)練樣本，推動(dòng)AI在醫(yī)療領(lǐng)域的應(yīng)用發(fā)展。
圖片來(lái)源：深圳市科技創(chuàng)新委員會(huì)
20年前，路易斯·馮·安認(rèn)為，驗(yàn)證碼與AI的發(fā)展會(huì)是一種“雙贏”局面：如果驗(yàn)證碼沒(méi)有被攻破，則有效地保障了網(wǎng)站的安全；反之，則意味著人工智能領(lǐng)域取得了進(jìn)步。
但如今，在這場(chǎng)人與機(jī)器的博弈中，人的意愿在哪里體現(xiàn)？這真的是一舉多得的好事嗎？
澎湃新聞?dòng)浾呖准遗d對(duì)本文亦有貢獻(xiàn)。
參考文獻(xiàn)
1. Bursztein E等-How good are humans at solving CAPTCHAs?
2. Reddy A等-User Perception of CAPTCHAs: A Comparative Study between University and Internet Users.
3. Von Ahn L等-CAPTCHA: Using hard AI problems for security.
4. 36氪-41歲的天才數(shù)學(xué)教授，創(chuàng)造了“驗(yàn)證碼”和“多鄰國(guó)”，身家7億美元，https://36kr.com/p/752542343960065
5. Guerar M等-Gotta captcha’em all: A survey of 20 years of the human-or-computer dilemma.
6. 機(jī)器之心-AI 破解谷歌人機(jī)鑒別系統(tǒng)，文本驗(yàn)證碼或?qū)㈦x場(chǎng)，https://www.jiqizhixin.com/articles/2017-10-28-5
7. 謝卓瀟,蔡聰-人作為計(jì)算機(jī)的“他者”：驗(yàn)證碼人機(jī)互動(dòng)中的能力主義陷阱。
8. Searles A等-An empirical study & evaluation of modern {CAPTCHAs}.
9. 新智元-AI太強(qiáng)，驗(yàn)證碼全失效？新南威爾士全新設(shè)計(jì)：GPT傻傻認(rèn)不出，人類一致好評(píng)，https://mp.weixin.qq.com/s/zlKomrpvO-Tkkf2Umsx2Vw
10. Fast Company-Google's new reCAPTCHA has a dark side，https://www.fastcompany.com/90369697/googles-new-recaptcha-has-a-dark-side
11. GDPR Register-Is Google Recaptcha GDPR Compliant? https://www.gdprregister.eu/gdpr/google-recaptcha-cookies/
12. 每日電訊報(bào)-Google's acquisition of reCaptcha will boost book plans，https://www.telegraph.co.uk/technology/google/6201735/Googles-acquisition-of-reCaptcha-will-boost-book-plans.html?utm_source=chatgpt.com
13. Searles A等-Dazed & Confused: A Large-Scale Real-World User Study of reCAPTCHAv2.
14. 巴黎人報(bào)-C’est la solution de filtrage du pauvre? : pourquoi le CAPTCHA va continuer à nous rendre fous，https://www.leparisien.fr/high-tech/cest-la-solution-de-filtrage-du-pauvre-pourquoi-le-captcha-va-continuer-a-nous-rendre-fous-17-12-2022-JFG6HDBIO5GNVP5MZU3UQ5ZVHI.php
15. 澎湃新聞-說(shuō)起來(lái)你可能不信，大伙可能都被驗(yàn)證碼白嫖過(guò)了，https://m.thepaper.cn/baijiahao_8549633
16. 深圳市科技創(chuàng)新委員會(huì)-首個(gè)醫(yī)學(xué)圖像驗(yàn)證碼上線助力影像標(biāo)注及診斷，https://stic.sz.gov.cn/gzcy/msss/ztzlrkyjk/content/post_8590474.html
17. 卡茲克-騰訊把12億用戶，都變成了免費(fèi)的“標(biāo)注民工”，
http://www.dbgt.com.cn/newsDetail_forward_28395337
18. Plesner A等-Breaking recaptchav2.