下載客戶端

登錄

DeepSeek的陽謀：在《自然》雜志公布論文，到底贏得了什么？

2025-09-20 20:11

來源：澎湃新聞·澎湃號·湃客

DeepSeek 叕贏了，這回它登上了《自然》雜志的封面！

畫面中的立方體代表著電子神經(jīng)元，也就是我們常說的“大模型參數(shù)”，每個神經(jīng)元都在向著深層次方向探索。紅色的線代表關(guān)鍵的核心信號，而白色的線則意味著發(fā)散的探索。最終，所有的探索都會變成電子神經(jīng)元之間的鏈接，最終完成對問題答案的探索。

下面的文字突出了一個關(guān)鍵詞：“SELF-HELP”，也就是“自學(xué)”，“Reinforcement learning teaches AI model to improve itself”的意思則是：強化學(xué)習(xí)教會人工智能模型自我提升。

不理解這句話沒關(guān)系，后文中有大白話的解讀。

DeepSeek經(jīng)歷了幾次爆火之后，已經(jīng)成了連老媽都熟悉的大眾詞匯。這回登上《自然》雜志的封面，大家的第一反應(yīng)就是：“遙遙領(lǐng)先”以及“厲害了我的國！”

不過別著急慶祝，如果你想知道DeepSeek為啥遙遙領(lǐng)先，以及領(lǐng)先在什么地方，那就把本文看完。全文大白話，包你一看看就懂。

DeepSeek填補行業(yè)空白

在《自然》雜志的官方評論里，有一個詞被反復(fù)強調(diào)了很多遍。這個詞不是“性能強大”，也不是“技術(shù)突破”，而是聽起來平平無奇的“同行評審”。

《自然》雜志說：目前所有主流的大模型都沒有經(jīng)過獨立的同行評審，而 DeepSeek 填補了這項行業(yè)空白。

Nature 發(fā)表 Editorial 文章《為何同行評審對 AI 模型有益》，來源：Nature

這就怪了。AI 領(lǐng)域日新月異，GPT 都更新到第 5 代了，同行評審就是讓你把成果拿給行業(yè)專家看看，怎么還能輪到后起之秀的 DeepSeek 來打破空白呢？難道，過去這些年，全世界的 AI 巨頭們，都是在王婆賣瓜的嗎？

嘿嘿，還真讓你說對了。

這個同行評審機(jī)制，就像是科學(xué)圈兒里的“質(zhì)監(jiān)局”。任何一項新的科學(xué)發(fā)現(xiàn)，想要獲得公認(rèn)，就必須把所有的實驗方法、數(shù)據(jù)、推導(dǎo)過程，毫無保留地交給同行去匿名審查。

來源：Nature

要知道，同行是冤家這話可不是白說的，這些同行專家可不想你輕松獲得榮譽，他們恨不得你翻車。所以，同行評審?fù)且粋€拿著顯微鏡挑刺的過程。實驗設(shè)計不嚴(yán)謹(jǐn)啊，實驗創(chuàng)新型不夠啊，實驗數(shù)據(jù)不完整啊……反正各種問題全能給你挑出來。

當(dāng)然，挑刺歸挑刺，但是科學(xué)家還是講究科學(xué)精神的，真正過硬的研究，也會因為嚴(yán)格的同行評審而獲得信任。

但是，人工智能大模型這個行業(yè)從一開始就被 ChatGPT-3 帶了個壞頭，ChatGPT-3 只開放了很少的一部分代碼，公開了一些類似于產(chǎn)品說明書的所謂技術(shù)細(xì)節(jié)。從此以后，黑箱發(fā)布就成了大模型產(chǎn)品發(fā)布的“江湖規(guī)矩”。新的大模型產(chǎn)品看起來根本不像是一項科學(xué)研究，更像是一個產(chǎn)品發(fā)布會。大家通常只能看到一個驚艷的結(jié)果，至于核心的訓(xùn)練方法和數(shù)據(jù)細(xì)節(jié)，往往以商業(yè)機(jī)密為由秘不示人。

DeepSeek 這次做的，就是選擇堂堂正正地接受科學(xué)界最嚴(yán)苛的質(zhì)檢。這就是《自然》雜志說 DeepSeek 填補了行業(yè)空白的原因。

“自學(xué)成才的DeepSeek

當(dāng)然，填補行業(yè)空白只能證明 DeepSeek 的擔(dān)當(dāng)和勇氣，這與技術(shù)和創(chuàng)新沒有關(guān)系。這篇論文讓科學(xué)界真正興奮的，是他們用另辟蹊徑的方法和扎實的實驗數(shù)據(jù)，狠狠打了其他大模型的臉。

之前科學(xué)家們一直以為，要想讓一個 AI 模型變得更聰明，唯一的辦法，就是把海量人類專家寫好的解題步驟“喂”給 AI，讓它去模仿學(xué)習(xí)。學(xué)得越多，能力也就越強。這與我們學(xué)校里推行的教育方式基本一致，我告訴你經(jīng)典例題和標(biāo)準(zhǔn)答案，你給我背下來。這種方法叫做監(jiān)督式微調(diào)（SFT）。

但 DeepSeek 的科學(xué)家們提出了一個大膽的假設(shè)：總是模仿人類的解題思路，會不會反而限制了 AI 的發(fā)展？就好像學(xué)生如果必須嚴(yán)格按照老師的思路學(xué)習(xí)，是不是就無法超越老師？有沒有可能，讓 AI 自己去發(fā)現(xiàn)規(guī)律，然后自學(xué)成才？

這個想法其實并不算石破天驚，但是絕對叛逆。因為如果允許學(xué)生自學(xué)，還允許他們發(fā)明老師都沒用過的解題思路，那么，一旦學(xué)生成功解出老師也無法解答的問題，那么老師就必須承認(rèn)，教學(xué)并不是學(xué)生成才的必經(jīng)之路。

DeepSeek 的科學(xué)家決定豪賭一把。他們繞過了用人類范例教學(xué)的傳統(tǒng)步驟，直接把一個名叫 DeepSeek-R1-Zero 的模型扔進(jìn)了試煉場里。

DeepSeek-R1-Zero 在訓(xùn)練過程中的 AIME 準(zhǔn)確率，基線是人類參與者在 AIME 競賽中取得的平均分?jǐn)?shù)。來源：Nature

試煉場的規(guī)則簡單且殘酷：

只給難題：給模型海量的、極難的推理問題，比如數(shù)學(xué)競賽（AIME）、編程競賽和 STEM 領(lǐng)域的難題。

只看結(jié)果：不提供任何人類的解題過程作為參考。AI 的每一次嘗試，只會得到一個最簡單的反饋信號：如果最終答案正確，就給獎勵；回答錯誤，啥也沒有。

這就像把一個沒上學(xué)的孩子，直接扔進(jìn)奧數(shù)賽場，沒有基礎(chǔ)知識，沒有公式和技巧，只告訴他：“答對了有糖吃，答錯了沒有。你自己想辦法吧?！?/p>

這種方法，就是論文里說到的“強化學(xué)習(xí)”，它的本質(zhì)就是純粹的激勵。DeepSeek 的科學(xué)家們想看看，在巨大的難題壓力和最純粹的獎懲激勵下，AI 的推理能力能否自發(fā)地涌現(xiàn)出來。

每個人都想知道，這個被扔進(jìn)奧數(shù)賽場的孩子，到底能不能一朝悟道。

真實的訓(xùn)練數(shù)據(jù)讓人極為驚喜。首先，它學(xué)會了如何深思熟慮。

科學(xué)家發(fā)現(xiàn)，隨著訓(xùn)練的進(jìn)行，模型生成的回答文本長度在持續(xù)、穩(wěn)定地暴漲。這說明，在沒有任何外部指令的情況下，AI 自己領(lǐng)悟了一件事：那就是簡單粗暴解決不了復(fù)雜問題，花更多的時間去推演和探索有助于獲得正確答案。于是，它不再追求一口吃個胖子，而是自發(fā)地選擇了深度思考這條路線。

其次，也是最令人震撼的，是它學(xué)會了反思和自我糾錯。

強化學(xué)習(xí)過程中 DeepSeek-R1-Zero 在訓(xùn)練集上的平均響應(yīng)長度。來源：Nature

在訓(xùn)練過程中，模型開始自發(fā)地使用一些代表反思的詞匯，比如“等等”、“不對”、“我要檢查一下”、“驗證”、“好像有錯”或者類似的話。

論文里給出了一個堪稱神來之筆的案例。在解決一個數(shù)學(xué)問題時，模型先是按照一個思路進(jìn)行推導(dǎo)，但寫著寫著，它突然停了下來，然后自己打出了一行字：

“Wait, wait. Wait. That's an aha moment I can flag here.” (等等，等等。等等。我在這里標(biāo)記一下，這是一個頓悟時刻。)

然后，它就真的像一個突然想通了什么的學(xué)生一樣，推翻了之前的思路，開始一步一步地重新對問題進(jìn)行評估，整個過程與那些突然發(fā)現(xiàn)了問題，然后從頭開始檢查的學(xué)生一模一樣。

這個頓悟時刻，讓見多識廣的科學(xué)家們都感到興奮?？茖W(xué)家在論文中寫道：“DeepSeek 的頓悟時刻，也是我們的頓悟時刻，讓我們見證了強化學(xué)習(xí)的強大力量”。

而且，這不是一個簡單的個案。數(shù)據(jù)顯示，在訓(xùn)練達(dá)到大約 8000 步之后，“wait”這個詞的使用頻率突然飆升，說明三思而后行已經(jīng)成了它刻入骨髓的思維習(xí)慣。因為必須拿出正確答案才有糖吃?！皩Α北取翱臁敝匾枚?。

最終，這個沒有人類老師手把手教的大模型，靠著自己在試煉場里的摸爬滾打，自發(fā)地進(jìn)化出了包括自我反思、過程驗證、動態(tài)調(diào)整策略等一系列高級的推理模式。

最終的結(jié)果是，在數(shù)學(xué)、編程等可驗證的嚴(yán)肅推理任務(wù)上，它的表現(xiàn)全面超越了那些接受傳統(tǒng)填鴨式教學(xué)的模型。在 AIME 數(shù)學(xué)競賽基準(zhǔn)測試上，它的最終成績甚至遠(yuǎn)超人類參賽者的平均水平。這個沒有老師全靠自學(xué)的孩子，向人類證明了自己的能力。

憑啥要開源？憑啥要透明？

讀到這里，你可能會產(chǎn)生一個非常自然的疑問：我們費了這么大勁，探索出了這么厲害的獨門秘籍，為什么要把它公之于眾？又是寫論文，又是開源模型，這不是讓競爭對手抄作業(yè)，自己吃虧嗎？

這個問題問得非常好，因為它已經(jīng)觸及了科學(xué)思維和商業(yè)直覺的沖突點。

從短期的、零和博弈的商業(yè)直覺來看，保密確實是最佳選擇。而且，除了 DeepSeek 以外，就算是其他開源的大模型，也沒有如此認(rèn)真地接受同行評審。但是，從長期的、更宏大的發(fā)展視角看，開放和透明，恰恰是所有競爭對手都無法破解的陽謀。

第一，開放是建立信任的唯一途徑。AI 正在成為社會的基礎(chǔ)設(shè)施，一個不透明的黑箱，是無法得到國際社會的真正信任的。

DeepSeek 通過《自然》雜志的同行評審，等于是在向全世界宣告：我的能力是經(jīng)得起最嚴(yán)格檢驗的，是可靠的。在一個人人都在談?wù)?AI 安全和 AI 倫理的時代，一個“可信”的標(biāo)簽，是花多少錢都買不來的無形資產(chǎn)。

第二，開放是加速自我進(jìn)化的最佳策略。科學(xué)的發(fā)展史一再證明，閉門造車永遠(yuǎn)比不上開放社區(qū)的集體智慧。當(dāng) DeepSeek 把自己的方法和模型公開后，全世界成千上萬的頂尖頭腦都會成為它的免費測試員和外部智囊。

他們會發(fā)現(xiàn)你沒注意到的漏洞，會提出你沒想到的優(yōu)化方向，甚至?xí)谀愕墓ぷ?，開發(fā)出讓你也備受啟發(fā)的新應(yīng)用。這種來自全球社區(qū)的反饋和激蕩，是任何一個封閉的公司靠內(nèi)部力量都無法企及的，它會極大地加速自身的迭代速度。

第三，開放是吸引頂尖人才的終極引力場。頂尖的科學(xué)家和工程師，最看重的是什么？是解決世界級難題的機(jī)會和獲得全球同行認(rèn)可的聲譽。一篇《自然》封面論文，就是向全球人才發(fā)出的最強招募令，它證明了這里是能夠做出世界級工作的頂級平臺。這種對人才的吸引力，遠(yuǎn)比保住一兩個技術(shù)秘密的價值要大得多。

所以你看，開放和透明，看似吃虧，實則是在下一盤更大的棋。它賭的不是用戶數(shù)或者會員費這些眼前得失，它通過建立信任、融入全球智慧網(wǎng)絡(luò)、吸引頂尖人才，來贏得整個 AI 時代的長期競爭。

DeepSeek贏了啥？

現(xiàn)在，我們可以回答標(biāo)題中的問題了：DeepSeek 到底贏得了什么？

如果說，選擇在《自然》上公開發(fā)表，是贏得了一種“安全可信”的科學(xué)信譽。那么，他們在論文中揭示的“AI 可以自學(xué)”的新規(guī)律，則贏得了對人工智能本質(zhì)的認(rèn)知優(yōu)勢。

DeepSeek 的科學(xué)家們用一場無可辯駁的漂亮實驗，證明了 AI 的推理能力，不一定需要學(xué)習(xí)人類的固有知識，它們完全可以像人類一樣，通過觀察世界而獨立發(fā)現(xiàn)規(guī)律。舊的規(guī)律如此，新的規(guī)律當(dāng)然也沒問題。

這個發(fā)現(xiàn)，極大地拓展了我們對人工智能潛力的想象。它把 AI 從一個只能模仿人類知識的學(xué)生，升級成了能獨立發(fā)現(xiàn)新規(guī)律的科學(xué)家。

這事兒甚至可以直接擴(kuò)展到教育界：一個孩子考上清北，學(xué)校、老師、家長都覺得是自己牛逼，其實你們都太自戀了，牛逼的是孩子自己。

信源：

[1] 論文鏈接：https://www.nature.com/articles/s41586-025-09422-z

特別聲明

本文為澎湃號作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報