- +1
首個(gè)接受同行評(píng)審的大語(yǔ)言模型!DeepSeek-R1論文登《自然》封面,作者包括梁文鋒
9月18日,梁文鋒帶著DeepSeek-R1的研究,登上最新一期國(guó)際頂級(jí)期刊《自然》(Nature)封面。
今年1月份,國(guó)產(chǎn)大模型公司深度求索(DeepSeek)在預(yù)印本平臺(tái)arxiv公布論文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》,創(chuàng)始人梁文鋒位于署名之列。

《自然》雜志指出,如此總結(jié)DeepSeek-R1帶來(lái)的進(jìn)步:如果訓(xùn)練出的大模型能夠規(guī)劃解決問(wèn)題所需的步驟,那么它們往往能夠更好地解決問(wèn)題。這種“推理”與人類(lèi)處理更復(fù)雜問(wèn)題的方式類(lèi)似,但這對(duì)人工智能有極大挑戰(zhàn),需要人工干預(yù)來(lái)添加標(biāo)簽和注釋。
DeepSeek的研究人員揭示了他們?nèi)绾文軌蛟跇O少的人工輸入下訓(xùn)練一個(gè)模型,并使其進(jìn)行推理。DeepSeek-R1模型采用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練。在這種學(xué)習(xí)中,模型正確解答數(shù)學(xué)問(wèn)題時(shí)會(huì)獲得高分獎(jiǎng)勵(lì),答錯(cuò)則會(huì)受到懲罰。
最終它學(xué)會(huì)了推理——逐步解決問(wèn)題并揭示這些步驟——更有可能得出正確答案。這使得DeepSeek-R1能夠自我驗(yàn)證和自我反思,在給出新問(wèn)題的答案之前檢查其性能,從而提高其在編程和研究生水平科學(xué)問(wèn)題上的表現(xiàn)。
值得注意的是,R1的增量訓(xùn)練成本相當(dāng)于29.4萬(wàn)美元,DeepSeek團(tuán)隊(duì)也首次對(duì)外回應(yīng)“蒸餾”相關(guān)質(zhì)疑。論文中表示,對(duì)于深度求索V3基礎(chǔ)版(DeepSeek-V3-Base)的訓(xùn)練數(shù)據(jù)僅使用普通網(wǎng)頁(yè)和電子書(shū),未納入任何合成數(shù)據(jù),“不過(guò),我們注意到部分網(wǎng)頁(yè)包含大量由OpenAI模型生成的答案,這可能會(huì)讓基礎(chǔ)模型間接地從其他強(qiáng)大模型獲取知識(shí)。但在預(yù)訓(xùn)練冷卻階段,我們并未刻意加入由OpenAI生成的合成數(shù)據(jù);該階段使用的所有數(shù)據(jù)都是通過(guò)網(wǎng)絡(luò)爬取自然獲取的。預(yù)訓(xùn)練數(shù)據(jù)集包含大量與數(shù)學(xué)和代碼相關(guān)的內(nèi)容,這表明深度求索V3基礎(chǔ)版接觸到大量的推理軌跡數(shù)據(jù)?!?/p>
論文中介紹,這種廣泛的接觸使模型具備生成合理候選解決方案的能力,強(qiáng)化學(xué)習(xí)能夠從中有效識(shí)別并優(yōu)化高質(zhì)量的輸出,DeepSeek在預(yù)訓(xùn)練過(guò)程中對(duì)數(shù)據(jù)污染問(wèn)題進(jìn)行了處理。
此前據(jù)外媒報(bào)道,OpenAI曾稱(chēng)它發(fā)現(xiàn)DeepSeek使用OpenAI專(zhuān)有模型來(lái)訓(xùn)練自己的開(kāi)源模型的證據(jù)(也被理解為AI大模型行業(yè)的“蒸餾”),但拒絕進(jìn)一步透露相關(guān)細(xì)節(jié),DeepSeek相關(guān)表態(tài),也是對(duì)這番質(zhì)疑的有力回?fù)簟?/p>
在《自然》的Editorial(社論)指出,大型語(yǔ)言模型需要同行評(píng)審。《自然》認(rèn)為,大型語(yǔ)言模型(LLMs)正在迅速顛覆人類(lèi)獲取知識(shí)的方式,但最廣泛使用的這些模型尚未在研究期刊中接受獨(dú)立同行評(píng)審。同行評(píng)審有助于澄清LLMs的工作原理,并幫助評(píng)估它們是否真正實(shí)現(xiàn)了其宣稱(chēng)的功能?!斑@一情況隨著自然雜志發(fā)表DeepSeek-R1模型細(xì)節(jié)而改變?!?/p>
《自然》指出,自1月在Hugging Face上發(fā)布R1以來(lái),DeepSeek-R1已奪得該平臺(tái)復(fù)雜問(wèn)題解決類(lèi)模型下載量冠軍?,F(xiàn)在,該模型已由八位專(zhuān)家評(píng)審,以評(píng)估其工作的原創(chuàng)性、方法論和穩(wěn)健性。該論文將與審稿人報(bào)告和作者回應(yīng)一同發(fā)表?!斑@一切都是AI行業(yè)邁向透明度和可重復(fù)性的可喜一步”。
“依賴獨(dú)立研究者的同行評(píng)審是AI行業(yè)回?fù)舫醋鞯囊环N方式。鑒于這項(xiàng)技術(shù)已變得如此普遍,無(wú)法驗(yàn)證的聲明對(duì)社會(huì)構(gòu)成了真正的風(fēng)險(xiǎn)。我們希望,出于這個(gè)原因,更多AI公司將提交其模型接受評(píng)審。”《自然》寫(xiě)道。
論文摘要中表示,推理能力作為人類(lèi)智能的基石,能夠支持從數(shù)學(xué)問(wèn)題求解、邏輯演繹到程序編寫(xiě)等復(fù)雜認(rèn)知任務(wù)。人工智能領(lǐng)域的最新進(jìn)展表明,當(dāng)大型語(yǔ)言模型(LLMs)的規(guī)模達(dá)到足夠程度時(shí),能夠展現(xiàn)出包括推理能力在內(nèi)的涌現(xiàn)性特征,然而,要在預(yù)訓(xùn)練階段實(shí)現(xiàn)這類(lèi)能力,通常需要耗費(fèi)大量計(jì)算資源。
這項(xiàng)研究旨在探索大型語(yǔ)言模型在強(qiáng)化學(xué)習(xí)(RL)框架下通過(guò)自進(jìn)化發(fā)展推理能力的潛力,同時(shí)最大限度減少對(duì)人工標(biāo)注的依賴。
具體而言,以DeepSeek-V3Base模型為基礎(chǔ),采用群體相對(duì)策略優(yōu)化(GRPO)作為強(qiáng)化學(xué)習(xí)框架。獎(jiǎng)勵(lì)信號(hào)僅依據(jù)最終預(yù)測(cè)結(jié)果與真實(shí)答案的一致性來(lái)確定,不對(duì)推理過(guò)程本身施加任何約束。在解決推理問(wèn)題時(shí),該模型傾向于生成更長(zhǎng)的響應(yīng)內(nèi)容,在每個(gè)響應(yīng)中融入驗(yàn)證、反思以及對(duì)多種替代方法的探索。盡管并未明確教授模型如何進(jìn)行推理,但它通過(guò)強(qiáng)化學(xué)習(xí)成功掌握更優(yōu)的推理策略。
今年1月20日,中國(guó)AI初創(chuàng)公司深度求索(DeepSeek)推出大模型DeepSeek-R1引爆AI行業(yè),作為一款開(kāi)源模型,R1在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上的性能能夠比肩OpenAIo1模型正式版,并采用MIT許可協(xié)議,支持免費(fèi)商用、任意修改和衍生開(kāi)發(fā)等。春節(jié)假期后,國(guó)內(nèi)多個(gè)行業(yè)龍頭公司均宣布接入DeepSeek。
伴隨AI大模型行業(yè)的日新月異,DeepSeek已經(jīng)更新出R1以外的新版本,但萬(wàn)眾期待的R2尚未面世。此前8月21日DeepSeek正式發(fā)布DeepSeek-V3.1,稱(chēng)其為“邁向Agent(智能體)時(shí)代的第一步”。
據(jù)介紹,V3.1包含三大主要變化。首先,V3.1采用混合推理架構(gòu),一個(gè)模型同時(shí)支持思考模式與非思考模式;其次,V3.1具有更高的思考效率,相比DeepSeek-R1-0528,DeepSeek-V3.1-Think能在更短時(shí)間內(nèi)給出答案;另外,V3.1具有更強(qiáng)的Agent能力,通過(guò)Post-Training優(yōu)化,新模型在工具使用與智能體任務(wù)中的表現(xiàn)有較大提升。
當(dāng)時(shí),DeepSeek表示,DeepSeek-V3.1使用UE8M0FP8Scale的參數(shù)精度。UE8M0FP8是針對(duì)即將發(fā)布的下一代國(guó)產(chǎn)芯片設(shè)計(jì)。這也表明未來(lái)基于DeepSeek模型的訓(xùn)練與推理有望更多應(yīng)用國(guó)產(chǎn)AI芯片,助力國(guó)產(chǎn)算力生態(tài)加速建設(shè)。相關(guān)表態(tài),一度帶動(dòng)國(guó)產(chǎn)芯片算力股價(jià)迎來(lái)飆升。
9月5日,據(jù)外媒報(bào)道,DeepSeek被曝光正在開(kāi)發(fā)具備更先進(jìn)的AI智能體相關(guān)功能的人工智能模型,目的是與OpenAI等頭部科技公司在技術(shù)新前沿展開(kāi)競(jìng)爭(zhēng)。目前DeepSeek創(chuàng)始人梁文峰計(jì)劃在今年四季度發(fā)布相關(guān)智能體產(chǎn)品。
澎湃新聞?dòng)浾呦駾eepSeek內(nèi)部人士詢問(wèn)此事真實(shí)性,對(duì)方未給予明確回復(fù),但并未否認(rèn)此事。
據(jù)外媒援引相關(guān)消息稱(chēng),DeepSeek正在開(kāi)發(fā)的智能體強(qiáng)調(diào)自主任務(wù)處理能力,與傳統(tǒng)聊天機(jī)器人不同,智能體能夠代表用戶在最少指令下完成多步驟復(fù)雜任務(wù),并根據(jù)歷史操作持續(xù)學(xué)習(xí)和改進(jìn),減少人工干預(yù)需求。
2025年被業(yè)界稱(chēng)為“AI智能體元年”。8月26日,國(guó)務(wù)院印發(fā)《關(guān)于深入實(shí)施“人工智能+”行動(dòng)的意見(jiàn)》(以下簡(jiǎn)稱(chēng)《意見(jiàn)》)提出,到2027年,率先實(shí)現(xiàn)人工智能與6大重點(diǎn)領(lǐng)域廣泛深度融合,新一代智能終端、智能體等應(yīng)用普及率超70%;到2030年,中國(guó)人工智能全面賦能高質(zhì)量發(fā)展,新一代智能終端、智能體等應(yīng)用普及率超90%。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司