阿里最新開源推理模型發(fā)布：性能比肩DeepSeek-R1

澎湃新聞記者胡含嫣

2025-03-06 12:54

來源：澎湃新聞

阿里通義發(fā)布最新開源推理模型，稱其性能比肩DeepSeek-R1。

3月6日凌晨，阿里巴巴正式發(fā)布最新的開源推理模型通義千問QwQ-32B。據(jù)介紹，通過大規(guī)模強化學習，千問QwQ-32B在數(shù)學、代碼及通用能力上實現(xiàn)質(zhì)的飛躍，整體性能比肩DeepSeek-R1，同時大幅降低了部署使用成本，在消費級顯卡上也能實現(xiàn)本地部署。QwQ-32B采用了Apache 2.0開源協(xié)議，目前，所有人都可免費下載及商用QwQ-32B模型，或通過網(wǎng)頁版Qwen Chat進行體驗，該模型也將免費上架通義APP。

阿里通義團隊表示，QwQ-32B模型擁有320億參數(shù)，其性能可與具備6710億參數(shù)（其中370億被激活）的DeepSeek-R1媲美。在冷啟動的基礎上，模型針對數(shù)學和編程任務、通用能力分別進行了兩輪大規(guī)模強化學習，在32B的模型尺寸上獲得了令人驚喜的推理能力提升，印證了大規(guī)模強化學習可顯著提高模型性能。

此外，QwQ-32B模型中還集成了與智能體（Agent）相關的能力，使其能夠在使用工具的同時進行批判性思考，并根據(jù)環(huán)境反饋調(diào)整推理過程。

千問QwQ-32B既能提供極強的推理能力，又能滿足更低的資源消耗需求，這背后的奧秘便在于強化學習（Reinforcement Learning）。阿里通義團隊表示：“我們希望，我們的一點努力能夠證明強大的基礎模型疊加大規(guī)模強化學習也許是一條通往通用人工智能（AGI）的可行之路。”

在一系列權威基準測試中，千問QwQ-32B模型都表現(xiàn)出色，幾乎完全超越了OpenAI去年9月發(fā)布的尺寸相近的o1-mini模型，比肩最強開源推理模型DeepSeek-R1：在測試數(shù)學能力的AIME24評測集上，以及評估代碼能力的LiveCodeBench中，千問QwQ-32B表現(xiàn)與DeepSeek-R1相當，遠勝于o1-mini及相同尺寸的R1蒸餾模型。

QwQ-32B模型和R1、OpenAI-o1-mini等知名模型的評分比較。來源：阿里通義

阿里通義團隊表示，未來將繼續(xù)探索將智能體與強化學習的集成，以實現(xiàn)長時推理，探索更高智能進而最終實現(xiàn)AGI的目標。

3月6日早盤，阿里巴巴集團（09988.HK）港股大幅高開漲超6%，截至午盤漲超7%。

此前，2月25日，阿里通義Qwen發(fā)布基于旗艦模型Qwen2.5-Max構(gòu)建的推理模型QwQ-Max-Preview預覽版，支持聯(lián)網(wǎng)搜索，會和DeepSeek以及Kimi的推理模型一樣展現(xiàn)思考過程，目前用戶可在通義千問網(wǎng)頁版進行體驗。

責任編輯：孫扶

圖片編輯：金潔

校對：丁曉

澎湃新聞報料：021-962866

澎湃新聞，未經(jīng)授權不得轉(zhuǎn)載

我要舉報

#通義千問 #阿里云 #AI #人工智能