把AI檢測(cè)當(dāng)畢業(yè)論文硬性指標(biāo)，是不是早了點(diǎn)？

澎湃新聞實(shí)習(xí)生鐘楚瀅記者王亞賽舒怡爾孔家興

2024-06-14 11:57

來(lái)源：澎湃新聞

? 對(duì)齊Lab >

“它（AIGC 檢測(cè)）真的不是為了賺學(xué)生的錢嗎？”

在提出這個(gè)疑惑之前，本科應(yīng)屆生易肖竹的畢業(yè)論文已經(jīng)提交了五次 AIGC 檢測(cè)。

四月底，在完成導(dǎo)師指導(dǎo)下的三輪修改后，她按照要求將論文提交至知網(wǎng)查重，AIGC 檢測(cè)結(jié)果顯示她的論文有一段 AIGC 低風(fēng)險(xiǎn)和一段高風(fēng)險(xiǎn)，“那段高風(fēng)險(xiǎn)內(nèi)容我是自己寫(xiě)的，這個(gè)結(jié)果讓我非常震驚”，那時(shí)的她還以為修改會(huì)比較簡(jiǎn)單，沒(méi)想到后來(lái)“降 AI”的拉鋸戰(zhàn)竟會(huì)持續(xù)十天。

第一次修改時(shí)，她學(xué)著小紅書(shū)教的方法，盡量多加介詞和連接詞，結(jié)果無(wú)效。于是，她改變策略，請(qǐng)朋友按照自己的寫(xiě)作習(xí)慣來(lái)改寫(xiě)高風(fēng)險(xiǎn)文段，但直至她檢測(cè)到了第四次，文段依舊保持高風(fēng)險(xiǎn)。

正一籌莫展時(shí)，她想起另一位和她吐槽過(guò)相同經(jīng)歷的同學(xué)，彼時(shí)同學(xué)已經(jīng)成功通關(guān)，同學(xué)給她支了個(gè)招——用 AI 改寫(xiě) AI，這一版 AI 輔助的修改文段最終通過(guò)了 AIGC 檢測(cè)。

這五次修改，易肖竹在 AI 檢測(cè)上用了 10 天，花費(fèi)了 171.5 元。但是，如何應(yīng)對(duì) AI 檢測(cè)，她仍然沒(méi)摸出什么門道。

今年年初，福州大學(xué)、中國(guó)傳媒大學(xué)等高校陸續(xù)發(fā)布了畢業(yè)論文（設(shè)計(jì)）AIGC 檢測(cè)的通知，2024 屆畢業(yè)生成為 AIGC 檢測(cè)元年的第一批探路者。

隨著 AI 技術(shù)的發(fā)展，國(guó)內(nèi)的論文檢測(cè)系統(tǒng)陸續(xù)上線 AIGC 檢測(cè)服務(wù)，為高校學(xué)術(shù)不端檢測(cè)提供了新選項(xiàng)。從部分高校公開(kāi)發(fā)布的畢業(yè)論文通知可以看出，高校對(duì) AIGC 檢測(cè)率的規(guī)范方式大致分為三種：影響考評(píng)、自主披露和限定占比。無(wú)論是高校公開(kāi)發(fā)布的通知，抑或是流傳在學(xué)生之間的學(xué)校文件，都可以感知到 AIGC 檢測(cè)是畢業(yè)論文學(xué)術(shù)不端檢測(cè)的大勢(shì)所趨。“學(xué)校雖然沒(méi)有明文規(guī)定 AIGC 檢測(cè)率，但學(xué)院要求需要小于 20%，我的導(dǎo)師要求我們降到 5%以下”，在湖南上大學(xué)的陳慧敏如是說(shuō)道。

在翟天臨學(xué)術(shù)不端事件后，高校加大了對(duì)學(xué)生論文重復(fù)率的檢查力度。然而，AI 檢測(cè)成為畢業(yè)論文的“新殺手”：從前，在“降重”時(shí)只需要將重復(fù)率高的文本替換寫(xiě)法，重復(fù)與否容易區(qū)分，降重目標(biāo)很明確；現(xiàn)在，“降 AI”卻如同面對(duì)黑箱，需要反復(fù)猜測(cè) AIGC 檢測(cè)的標(biāo)準(zhǔn)是什么，目標(biāo)變得抽象。

在“降 AI”這項(xiàng)工作中，劉鑫宇比易肖竹踩了更多的雷。她總共做了 9 次 AIGC 檢測(cè)，問(wèn)題五花八門：在格子達(dá)小程序里檢測(cè)出無(wú)風(fēng)險(xiǎn)的文段，到格子達(dá)網(wǎng)頁(yè)端又有風(fēng)險(xiǎn)了；本是“中風(fēng)險(xiǎn)”的論文，時(shí)隔九日重新提交檢測(cè)時(shí)，疑似片段居然從 16 段上升至 28 段，論文重新變成了“高風(fēng)險(xiǎn)”。

“可能是我的文風(fēng)太硬了吧，室友都說(shuō)我寫(xiě)的像新聞聯(lián)播”，被 AIGC 檢測(cè)折磨得心力交瘁的劉鑫宇無(wú)奈地說(shuō)道。

檢測(cè)結(jié)果差異大，“降 AI”更像玄學(xué)

AI 檢測(cè)到底有多玄學(xué)？為了體驗(yàn)易肖竹和劉鑫宇檢測(cè)過(guò)程中的同款迷惑，澎湃新聞?dòng)浾邔⒁黄耆?AI 生成的論文提交到四個(gè)高校常用的 AIGC 檢測(cè)系統(tǒng)進(jìn)行檢測(cè)，發(fā)現(xiàn)這些平臺(tái)由于模型差異，對(duì)于論文中 AI 生成占比的認(rèn)定差異較大。同一篇論文，AI 占比最多能相差 32%，盡管這四個(gè)結(jié)果放在高校的畢業(yè)論文要求里都是不合格的水平。

不同軟件之間的“AI 檢出率”差距大，是不是意味著 AIGC 檢測(cè)不靠譜？

這就要從檢測(cè)的原理談起。

根據(jù)國(guó)外一款 AI 檢測(cè)器 GPTZero 的創(chuàng)始人 Edward Tian 介紹，GPTZero 的檢測(cè)主要依靠于“困惑度”（Perplexity）和“爆發(fā)度”（Burstiness）兩項(xiàng)關(guān)鍵指標(biāo)。

困惑度可以理解為可預(yù)測(cè)性。當(dāng)檢測(cè)器可以準(zhǔn)確猜測(cè)出文本的下一個(gè)詞、下一句話時(shí)，文本的困惑度就越低，文章越可能被判定為 AI 生成。但這種判定方式也不一定準(zhǔn)確，比如“我想吃一個(gè)（睡覺(jué)）”與“我想吃一個(gè)（蘋果）”這種不合常理的胡言亂語(yǔ)，相比更有可能被判定人類所寫(xiě)，只因?yàn)?AI 也猜不出你接下來(lái)要說(shuō)什么。

爆發(fā)度可以理解為句子長(zhǎng)度與復(fù)雜性的變化。AI 生成的句子長(zhǎng)度與結(jié)構(gòu)趨向統(tǒng)一，而人類作文隨心所欲，動(dòng)態(tài)性更強(qiáng)，這也是“降 AI”教程中常提的加標(biāo)點(diǎn)符號(hào)、長(zhǎng)句變短句的意旨。

2023 年 7 月 20 日，OpenAI 低調(diào)關(guān)停僅上線半年的 AIGC 檢測(cè)器“AI Text Classifier”，原因是“準(zhǔn)確度較低”，但 AIGC 檢測(cè)的發(fā)展步伐并未放緩。

另一款 AI 檢測(cè)產(chǎn)品 GPTZero 在 2023 年初剛上線時(shí)，獲得了超乎意料的關(guān)注；同時(shí)，也受到了來(lái)自學(xué)生群體的攻擊。然而，用檢測(cè)結(jié)果來(lái)“為難”學(xué)生，并不是這款產(chǎn)品的初衷，創(chuàng)始人 Edward Tian 在推特中表示道，“任何學(xué)生都不應(yīng)該因?yàn)槭褂?AI 而受到老師的懲罰……直到政策得到全面制定前”。因此，在 GPTZero 的檢測(cè)結(jié)果頁(yè)面可以看到一行字，上面寫(xiě)道，“這個(gè)結(jié)果不應(yīng)該用來(lái)直接懲罰學(xué)生”。

AIGC 檢測(cè)率只是一個(gè)參考數(shù)值，這也是國(guó)際反剽竊巨頭 Turnitin 的認(rèn)識(shí)。

2023 年 3 月 16 日，Turnitin 在官網(wǎng)文章中提出，“鑒于我們的假陽(yáng)性率不是零，您作為講師需要應(yīng)用您的專業(yè)判斷、學(xué)生的知識(shí)以及圍繞作業(yè)的具體背景”，在 Turnitin 看來(lái)，檢測(cè)結(jié)果應(yīng)該被視為一種指示，而不是指控，“我們的工作是創(chuàng)造方向正確的信息，供老師開(kāi)啟對(duì)話”，Turnitin 的首席產(chǎn)品官 Annie Chechitelli 在接受華盛頓郵報(bào)的采訪時(shí)說(shuō)道。

在國(guó)內(nèi)，知網(wǎng)、維普、萬(wàn)方等服務(wù)于大部分高校的論文檢測(cè)系統(tǒng)，在 AI 的發(fā)展潮流下陸續(xù)上線 AIGC 檢測(cè)服務(wù)，并于 2024 年論文季開(kāi)始廣泛實(shí)踐。但無(wú)論是知網(wǎng)、維普、萬(wàn)方還是其它檢測(cè)系統(tǒng)，其官網(wǎng)都很難找到關(guān)于其 AIGC 檢測(cè)產(chǎn)品的詳細(xì)介紹。在 AIGC 檢測(cè)技術(shù)發(fā)展尚不成熟的階段，部分國(guó)內(nèi)高校將檢測(cè)結(jié)果作為畢業(yè)論文合格的硬性門檻，對(duì)檢測(cè)結(jié)果體感最強(qiáng)的學(xué)生被無(wú)奈地困在了迷茫的“降率”中。

規(guī)范 AI 使用，國(guó)內(nèi)外高校視角不同

除了類似“AI 檢測(cè)率”這樣的硬指標(biāo)劃定，國(guó)內(nèi)一些高校也在探索其他規(guī)范使用 AI 的方式，比如中國(guó)傳媒大學(xué)繼續(xù)教育學(xué)部設(shè)計(jì)了《本科畢業(yè)論文（設(shè)計(jì)）生成式人工智能使用情況說(shuō)明表》，由學(xué)生自主披露論文中的 AI 使用情況。

除了畢業(yè)論文之外，在更廣泛的課堂上如何使用 AI 的問(wèn)題，國(guó)外高校大多將決定權(quán)交給了任課教師。

例如，麻省理工學(xué)院邀請(qǐng)了四位對(duì) AIGC 使用有所研究的本校教師發(fā)表觀點(diǎn)，希望為其他教師提供參考。四位老師對(duì) AIGC 的態(tài)度整體分為了支持和限制兩個(gè)陣營(yíng)，在文章的開(kāi)頭，學(xué)校保守地表示“這并不代表麻省理工學(xué)院對(duì)此的官方看法”，麻省理工學(xué)院將選擇權(quán)交給了老師。

與麻省理工學(xué)院相似，杜克大學(xué)鼓勵(lì)教師起草自己的 AIGC 政策。除此之外，杜克大學(xué)在面向教師發(fā)表的《人工智能政策：指導(dǎo)方針和注意事項(xiàng)》中指出，AIGC 檢測(cè)軟件存在系統(tǒng)不可靠、對(duì)部分群體存在偏見(jiàn)、無(wú)法跟上人工智能發(fā)展腳步的弊端，因此學(xué)校明確表示“不建議教師將 AIGC 檢測(cè)器作為 AI 政策的一部分”，即使教師決定使用檢測(cè)軟件，也不應(yīng)將檢測(cè)結(jié)果作為衡量學(xué)生是否作弊的唯一標(biāo)準(zhǔn)。

相比于其他兩校，波士頓大學(xué)的 AIGC 使用政策內(nèi)容更為細(xì)致，該校政策認(rèn)為“誠(chéng)實(shí)和公平是在學(xué)業(yè)中使用人工智能的核心”，因此規(guī)定使用 AIGC 的學(xué)生需要提交一份附錄詳細(xì)說(shuō)明作業(yè)過(guò)程中與 AIGC 的完整交流，同時(shí)，政策也對(duì)不同程度使用人工智能的學(xué)生劃分了對(duì)等的賦分規(guī)范。值得提及的是，波士頓大學(xué)的 AIGC 使用政策由 47 名學(xué)生制定，政策在獲得批準(zhǔn)后應(yīng)用在了整個(gè)計(jì)算和數(shù)據(jù)科學(xué)系。

雖然各校針對(duì) AIGC 使用的政策內(nèi)容不一，但內(nèi)容背后折射出一個(gè)相似的價(jià)值觀：人工智能的使用不僅關(guān)乎學(xué)生，也關(guān)乎教師，同時(shí)，教師承擔(dān)著引導(dǎo)學(xué)生正確使用人工智能的角色。

所以，AI 寫(xiě)的論文怎么樣？

澎湃新聞?dòng)浾咭耘炫让罃?shù)課發(fā)布的稿件為樣本（《114 萬(wàn)條招聘數(shù)據(jù)：考研，真的能帶來(lái)好工作嗎？》），請(qǐng) AI 將其改寫(xiě)成一篇本科畢業(yè)論文。AI 擬定的標(biāo)題就很有論文的派頭：《考研與就業(yè)：基于招聘數(shù)據(jù)分析的研究生教育價(jià)值探究》，再往下，論文必要的引言、文獻(xiàn)綜述、研究方法等五臟俱全。難道，AI 寫(xiě)論文，沒(méi)問(wèn)題嗎？

雖然高校會(huì)為學(xué)生分配畢業(yè)論文指導(dǎo)老師，但是對(duì)于部分毫無(wú)論文寫(xiě)作經(jīng)驗(yàn)的本科生而言，基礎(chǔ)問(wèn)題不好意思提問(wèn)，專業(yè)的表達(dá)很難臨時(shí)抱佛腳。這時(shí)，永遠(yuǎn)在線，永遠(yuǎn)有問(wèn)有答的 AI，成為他們最好的指導(dǎo)老師。

在小紅書(shū)搜索“如何讓 AI 幫你寫(xiě)論文”，可以得到上至框架下至致謝的所有指令，靈感枯竭時(shí)，AI 可以分點(diǎn)分行快速給出回答；不會(huì)措辭？把思路丟給 AI 就能得到一段表述完整的文本——在 AI 的幫助下，學(xué)生可以大大提升寫(xiě)論文的效率。

從改寫(xiě)的論文來(lái)看，AI 確實(shí)非常了解論文的謀篇布局，它甚至掌握各個(gè)專業(yè)的術(shù)語(yǔ)和研究方法，這意味著研究目標(biāo)、研究方法這類可以依靠大數(shù)據(jù)“舊壺裝新酒”的內(nèi)容是 AI 的舒適區(qū)，同時(shí)也意味著 AI 很難提出新穎的思路和觀點(diǎn)。

在寫(xiě)論文的所有環(huán)節(jié)中，引用文獻(xiàn)是 AI“幻覺(jué)”頻發(fā)的重災(zāi)區(qū)。在這篇 AI 改寫(xiě)的論文中，引用文獻(xiàn)共五篇，但根據(jù)記者核實(shí)，其中有三篇論文并不存在。所以，如果想讓 AI 幫你搜索參考文獻(xiàn)，要小心有胡編亂造的風(fēng)險(xiǎn)。

AIGC 檢測(cè)，是指示還是“指控”？

鑒于人工智能的諸多局限性，一篇內(nèi)容單純依靠 AI 生成的論文，在答辯過(guò)程中也大概率難以過(guò)關(guān)，和論文相比，AI 寫(xiě)的論文更像一篇有“論文味”的文章。

但在部分國(guó)內(nèi)高校的實(shí)踐中，AIGC 檢測(cè)率卻成為比答辯還難應(yīng)對(duì)的合格門檻?！癆I 應(yīng)該作為輔助工具，為人類創(chuàng)作賦能”，這是人們提起 AI 時(shí)常提的立場(chǎng)，當(dāng)高校將 AIGC 檢測(cè)結(jié)果作為評(píng)估畢業(yè)論文的硬性指標(biāo)時(shí)，是否奪走了學(xué)生的解釋權(quán)？這種將數(shù)據(jù)簡(jiǎn)單化為標(biāo)準(zhǔn)的方式是否也是對(duì)工具的濫用？

目前人工智能的發(fā)展水平確實(shí)有造成學(xué)術(shù)不端的風(fēng)險(xiǎn)，但人工智能在校園的使用規(guī)范中，是否存在更彈性的空間，更軟性的方式呢？

責(zé)任編輯：呂妍

校對(duì)：丁曉

澎湃新聞報(bào)料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報(bào)