首個接受同行評審的大語言模型！DeepSeek-R1論文登《自然》封面，作者包括梁文鋒

澎湃新聞記者范佳來

2025-09-18 08:58

來源：澎湃新聞

9月18日，梁文鋒帶著DeepSeek-R1的研究，登上最新一期國際頂級期刊《自然》（Nature）封面。

今年1月份，國產(chǎn)大模型公司深度求索（DeepSeek）在預印本平臺arxiv公布論文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》，創(chuàng)始人梁文鋒位于署名之列。

《自然》雜志指出，如此總結(jié)DeepSeek-R1帶來的進步：如果訓練出的大模型能夠規(guī)劃解決問題所需的步驟，那么它們往往能夠更好地解決問題。這種“推理”與人類處理更復雜問題的方式類似，但這對人工智能有極大挑戰(zhàn)，需要人工干預來添加標簽和注釋。

DeepSeek的研究人員揭示了他們?nèi)绾文軌蛟跇O少的人工輸入下訓練一個模型，并使其進行推理。DeepSeek-R1模型采用強化學習進行訓練。在這種學習中，模型正確解答數(shù)學問題時會獲得高分獎勵，答錯則會受到懲罰。

最終它學會了推理——逐步解決問題并揭示這些步驟——更有可能得出正確答案。這使得DeepSeek-R1能夠自我驗證和自我反思，在給出新問題的答案之前檢查其性能，從而提高其在編程和研究生水平科學問題上的表現(xiàn)。

值得注意的是，R1的增量訓練成本相當于29.4萬美元，DeepSeek團隊也首次對外回應(yīng)“蒸餾”相關(guān)質(zhì)疑。論文中表示，對于深度求索V3基礎(chǔ)版（DeepSeek-V3-Base）的訓練數(shù)據(jù)僅使用普通網(wǎng)頁和電子書，未納入任何合成數(shù)據(jù)，“不過，我們注意到部分網(wǎng)頁包含大量由OpenAI模型生成的答案，這可能會讓基礎(chǔ)模型間接地從其他強大模型獲取知識。但在預訓練冷卻階段，我們并未刻意加入由OpenAI生成的合成數(shù)據(jù)；該階段使用的所有數(shù)據(jù)都是通過網(wǎng)絡(luò)爬取自然獲取的。預訓練數(shù)據(jù)集包含大量與數(shù)學和代碼相關(guān)的內(nèi)容，這表明深度求索V3基礎(chǔ)版接觸到大量的推理軌跡數(shù)據(jù)?！?/p>

論文中介紹，這種廣泛的接觸使模型具備生成合理候選解決方案的能力，強化學習能夠從中有效識別并優(yōu)化高質(zhì)量的輸出，DeepSeek在預訓練過程中對數(shù)據(jù)污染問題進行了處理。

此前據(jù)外媒報道，OpenAI曾稱它發(fā)現(xiàn)DeepSeek使用OpenAI專有模型來訓練自己的開源模型的證據(jù)（也被理解為AI大模型行業(yè)的“蒸餾”），但拒絕進一步透露相關(guān)細節(jié)，DeepSeek相關(guān)表態(tài)，也是對這番質(zhì)疑的有力回擊。

在《自然》的Editorial（社論）指出，大型語言模型需要同行評審?！蹲匀弧氛J為，大型語言模型（LLMs）正在迅速顛覆人類獲取知識的方式，但最廣泛使用的這些模型尚未在研究期刊中接受獨立同行評審。同行評審有助于澄清LLMs的工作原理，并幫助評估它們是否真正實現(xiàn)了其宣稱的功能。“這一情況隨著自然雜志發(fā)表DeepSeek-R1模型細節(jié)而改變。”

《自然》指出，自1月在Hugging Face上發(fā)布R1以來，DeepSeek-R1已奪得該平臺復雜問題解決類模型下載量冠軍?，F(xiàn)在，該模型已由八位專家評審，以評估其工作的原創(chuàng)性、方法論和穩(wěn)健性。該論文將與審稿人報告和作者回應(yīng)一同發(fā)表。“這一切都是AI行業(yè)邁向透明度和可重復性的可喜一步”。

“依賴獨立研究者的同行評審是AI行業(yè)回擊炒作的一種方式。鑒于這項技術(shù)已變得如此普遍，無法驗證的聲明對社會構(gòu)成了真正的風險。我們希望，出于這個原因，更多AI公司將提交其模型接受評審?！薄蹲匀弧穼懙?。

論文摘要中表示，推理能力作為人類智能的基石，能夠支持從數(shù)學問題求解、邏輯演繹到程序編寫等復雜認知任務(wù)。人工智能領(lǐng)域的最新進展表明，當大型語言模型（LLMs）的規(guī)模達到足夠程度時，能夠展現(xiàn)出包括推理能力在內(nèi)的涌現(xiàn)性特征，然而，要在預訓練階段實現(xiàn)這類能力，通常需要耗費大量計算資源。

這項研究旨在探索大型語言模型在強化學習（RL）框架下通過自進化發(fā)展推理能力的潛力，同時最大限度減少對人工標注的依賴。

具體而言，以DeepSeek-V3Base模型為基礎(chǔ)，采用群體相對策略優(yōu)化（GRPO）作為強化學習框架。獎勵信號僅依據(jù)最終預測結(jié)果與真實答案的一致性來確定，不對推理過程本身施加任何約束。在解決推理問題時，該模型傾向于生成更長的響應(yīng)內(nèi)容，在每個響應(yīng)中融入驗證、反思以及對多種替代方法的探索。盡管并未明確教授模型如何進行推理，但它通過強化學習成功掌握更優(yōu)的推理策略。

今年1月20日，中國AI初創(chuàng)公司深度求索（DeepSeek）推出大模型DeepSeek-R1引爆AI行業(yè)，作為一款開源模型，R1在數(shù)學、代碼、自然語言推理等任務(wù)上的性能能夠比肩OpenAIo1模型正式版，并采用MIT許可協(xié)議，支持免費商用、任意修改和衍生開發(fā)等。春節(jié)假期后，國內(nèi)多個行業(yè)龍頭公司均宣布接入DeepSeek。

伴隨AI大模型行業(yè)的日新月異，DeepSeek已經(jīng)更新出R1以外的新版本，但萬眾期待的R2尚未面世。此前8月21日DeepSeek正式發(fā)布DeepSeek-V3.1，稱其為“邁向Agent（智能體）時代的第一步”。

據(jù)介紹，V3.1包含三大主要變化。首先，V3.1采用混合推理架構(gòu)，一個模型同時支持思考模式與非思考模式；其次，V3.1具有更高的思考效率，相比DeepSeek-R1-0528，DeepSeek-V3.1-Think能在更短時間內(nèi)給出答案；另外，V3.1具有更強的Agent能力，通過Post-Training優(yōu)化，新模型在工具使用與智能體任務(wù)中的表現(xiàn)有較大提升。

當時，DeepSeek表示，DeepSeek-V3.1使用UE8M0FP8Scale的參數(shù)精度。UE8M0FP8是針對即將發(fā)布的下一代國產(chǎn)芯片設(shè)計。這也表明未來基于DeepSeek模型的訓練與推理有望更多應(yīng)用國產(chǎn)AI芯片，助力國產(chǎn)算力生態(tài)加速建設(shè)。相關(guān)表態(tài)，一度帶動國產(chǎn)芯片算力股價迎來飆升。

9月5日，據(jù)外媒報道，DeepSeek被曝光正在開發(fā)具備更先進的AI智能體相關(guān)功能的人工智能模型，目的是與OpenAI等頭部科技公司在技術(shù)新前沿展開競爭。目前DeepSeek創(chuàng)始人梁文峰計劃在今年四季度發(fā)布相關(guān)智能體產(chǎn)品。

澎湃新聞記者向DeepSeek內(nèi)部人士詢問此事真實性，對方未給予明確回復，但并未否認此事。

據(jù)外媒援引相關(guān)消息稱，DeepSeek正在開發(fā)的智能體強調(diào)自主任務(wù)處理能力，與傳統(tǒng)聊天機器人不同，智能體能夠代表用戶在最少指令下完成多步驟復雜任務(wù)，并根據(jù)歷史操作持續(xù)學習和改進，減少人工干預需求。

2025年被業(yè)界稱為“AI智能體元年”。8月26日，國務(wù)院印發(fā)《關(guān)于深入實施“人工智能+”行動的意見》（以下簡稱《意見》）提出，到2027年，率先實現(xiàn)人工智能與6大重點領(lǐng)域廣泛深度融合，新一代智能終端、智能體等應(yīng)用普及率超70%；到2030年，中國人工智能全面賦能高質(zhì)量發(fā)展，新一代智能終端、智能體等應(yīng)用普及率超90%。

責任編輯：是冬冬

圖片編輯：樂浴峰

校對：劉威

澎湃新聞報料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報

#DeepSeeK #梁文鋒 #自然