量化巨頭幻方創(chuàng)始人梁文鋒參加總理座談會(huì)并發(fā)言，他還創(chuàng)辦了“AI界拼多多”

澎湃新聞?dòng)浾?孫銘蔚

2025-01-22 07:54

來(lái)源：澎湃新聞

國(guó)產(chǎn)大模型公司深度求索（DeepSeek）創(chuàng)始人梁文鋒參加了總理座談會(huì)。

據(jù)新華社報(bào)道，中共中央政治局常委、國(guó)務(wù)院總理李強(qiáng)1月20日下午主持召開(kāi)專家、企業(yè)家和教科文衛(wèi)體等領(lǐng)域代表座談會(huì)，聽(tīng)取對(duì)《政府工作報(bào)告（征求意見(jiàn)稿）》的意見(jiàn)建議。座談會(huì)上，張輝、任少波、劉珺、梁文鋒、魏洪興、陳學(xué)東、陳紅彥、杜斌、鄒敬園等先后發(fā)言。

其中，梁文鋒正是頭部量化私募幻方量化創(chuàng)始人、DeepSeek的創(chuàng)始人。

低調(diào)的“量化天王”

梁文鋒“發(fā)跡”于量化投資。

作為一名“80后”，梁文鋒本科、研究生都就讀于浙江大學(xué)，擁有信息與電子工程學(xué)系本科和碩士學(xué)位。

2008年起，梁文鋒就開(kāi)始帶領(lǐng)團(tuán)隊(duì)使用機(jī)器學(xué)習(xí)等技術(shù)探索全自動(dòng)量化交易。2015年，幻方量化正式成立，2019年，其資金管理規(guī)模就突破百億元。

2019年，梁文鋒在當(dāng)年的金牛獎(jiǎng)?lì)C獎(jiǎng)儀式上，發(fā)表主題演講《一名程序員眼里中國(guó)量化投資的未來(lái)》，這是他罕有的公開(kāi)發(fā)言。

在演講中，梁文鋒指出，量化與非量化的判定標(biāo)準(zhǔn)就是在投資決策的過(guò)程中，是用數(shù)量化方法進(jìn)行決策的，還是用人進(jìn)行決策的。量化公司是沒(méi)有基金經(jīng)理的，基金經(jīng)理就一堆服務(wù)器。

“作為私募，投資人對(duì)我們的期望是很高的，如果一年跑贏指數(shù)低于25%，投資人是不滿意的。”梁文鋒指出，量化投資已經(jīng)賺了技術(shù)面流派原來(lái)賺的錢，未來(lái)也要搶奪基本面流派原來(lái)賺的錢。

演講最后，梁文鋒說(shuō)，幻方量化的使命就是提高中國(guó)二級(jí)市場(chǎng)的有效性。

2021年，幻方量化成為國(guó)內(nèi)首家突破千億規(guī)模的的量化私募大廠，被稱為國(guó)內(nèi)量化私募“四大天王”之一。不過(guò)，就在這一年，由于業(yè)績(jī)波動(dòng)，幻方量化關(guān)閉了全部募集通道，并在12月底發(fā)布致投資者公開(kāi)信，致歉稱“幻方業(yè)績(jī)的回撤達(dá)到歷史最大值，我們對(duì)此深感愧疚”，究其原因，主要是AI的投資決策在買賣時(shí)點(diǎn)上沒(méi)有做好，市場(chǎng)風(fēng)格劇烈切換的時(shí)候，AI會(huì)傾向于冒更大的風(fēng)險(xiǎn)來(lái)博取更多收益，進(jìn)一步加大了回撤。

此后，幻方量化逐漸降低其資金管理規(guī)模。2024年10月，幻方量化還向投資者發(fā)布公告稱，計(jì)劃逐步對(duì)沖產(chǎn)品投資倉(cāng)位降低至零。

“短期內(nèi)沒(méi)有融資計(jì)劃”

梁文鋒對(duì)于AI的興趣早就有跡可循。

2016年10月21日，幻方量化推出第一個(gè)AI模型，第一份由深度學(xué)習(xí)生成的交易倉(cāng)位上線執(zhí)行，使用GPU進(jìn)行計(jì)算。2017年，幻方量化宣稱實(shí)現(xiàn)投資策略全面AI化。

幻方量化官網(wǎng)顯示，其在2018年就確立以AI為公司的主要發(fā)展方向。

2020年開(kāi)始，幻方累計(jì)投資超億元、占地面積相當(dāng)于一個(gè)籃球場(chǎng)的AI超級(jí)計(jì)算機(jī)“螢火一號(hào)”正式投入運(yùn)作，號(hào)稱可以匹敵4萬(wàn)臺(tái)個(gè)人電腦的超級(jí)算力。2021年，幻方投入十億建設(shè)“螢火二號(hào)”，以“任務(wù)級(jí)分時(shí)共享”為核心理念，調(diào)度系統(tǒng)秒級(jí)響應(yīng)，平臺(tái)配備強(qiáng)大的軟件層支持：高性能算子庫(kù)（hfai.nn）、分布式訓(xùn)練通訊框架（hfreduce）、專為AI開(kāi)發(fā)而生的大容量高帶寬文件系統(tǒng)（3FS），讓AI模型能自如拓展到多節(jié)點(diǎn)之上，進(jìn)行大規(guī)模并行訓(xùn)練，算力擴(kuò)容翻倍，集群連續(xù)滿載運(yùn)行，平均占用率達(dá)到96%以上。

2021年，在梁文鋒參與的論文中提到，他們正在部署的螢火二號(hào)系統(tǒng)，“配備了1萬(wàn)張A100GPU芯片”，在性能上接近DGX-A100（英偉達(dá)推出的人工智能專用超級(jí)計(jì)算機(jī)），但成本降低了一半，同時(shí)能耗減少了40%。

當(dāng)時(shí)國(guó)內(nèi)超過(guò)1萬(wàn)枚GPU的企業(yè)不超過(guò)5家，而且除了幻方量化之外，其他4家公司都是互聯(lián)網(wǎng)大廠。

這背后需要極其雄厚的財(cái)力支持。

2023年初，幻方量化表示，過(guò)去的幾年，幻方量化及員工每年拿出收入的一部分投入公益，回饋社會(huì)，累計(jì)捐贈(zèng)超過(guò)5.8億元。其中，2022年，員工“一只平凡的小豬”個(gè)人就向慈善機(jī)構(gòu)捐贈(zèng)1.38億元，當(dāng)時(shí)的消息指出，這個(gè)人就是梁文鋒。這從一個(gè)側(cè)面反映出了幻方量化和梁文鋒本人的“不差錢”。

幻方量化曾表示，多年以來(lái)，該公司堅(jiān)持把營(yíng)收的大部分投入人工智能領(lǐng)域，建設(shè)領(lǐng)先的AI硬件基礎(chǔ)設(shè)施，進(jìn)行大規(guī)模的研究，探索人類未知的奧秘，“我們相信幾乎所有的創(chuàng)新都是從大膽嘗試和點(diǎn)滴積累中孕育而來(lái)。”

梁文鋒在為數(shù)不多的對(duì)外發(fā)聲中同樣也提到“短期內(nèi)沒(méi)有融資計(jì)劃”，并認(rèn)為當(dāng)下面臨的問(wèn)題“從來(lái)不是錢，而是高端芯片（短缺）”。

“AI界拼多多”

2023年7月，幻方量化宣布成立大模型公司DeepSeek，正式進(jìn)軍通用人工智能領(lǐng)域。據(jù)報(bào)道，DeepSeek包括創(chuàng)始人梁文鋒在內(nèi)，僅有139名工程師和研究人員。與之對(duì)比，OpenAI有1200名研究人員，Anthropic則有500多名研究人員。

僅僅不到一年的2024年5月，DeepSeek就發(fā)布了DeepSeekV2，因?yàn)閯?chuàng)新的模型架構(gòu)和史無(wú)前例的性價(jià)比，火爆出圈。DeepSeek-V2的API定價(jià)為每百萬(wàn)tokens輸入1元、輸出2元，價(jià)格僅為GPT-4 Turbo的百分之一。

對(duì)于為何能做到如此高的性價(jià)比，DeepSeek官方解釋稱，DeepSeek-V2采用了創(chuàng)新的架構(gòu)，例如注意力機(jī)制方面的MLA（多頭潛在注意力）和前饋網(wǎng)絡(luò)方面的DeepSeekMoE架構(gòu)等，以實(shí)現(xiàn)具有更高經(jīng)濟(jì)性的訓(xùn)練效果和更高效的推理。

因此， DeepSeek被稱為“AI界的拼多多”，引發(fā)了字節(jié)、阿里、百度等大廠的大模型價(jià)格戰(zhàn)，紛紛宣布大模型產(chǎn)品降價(jià)。彼時(shí)，梁文鋒在接受媒體采訪時(shí)稱，DeepSeek無(wú)意成為行業(yè)鲇魚(yú)，低價(jià)背后是希望算力普惠。

2024年12月27日，DeepSeek-V3更是橫空出世，火爆全球。據(jù)DeepSeek官網(wǎng)顯示，其評(píng)測(cè)成績(jī)不僅超越了Qwen2.5-72B（阿里自研大模型）和Llama 3.1-405B（Meta自研大模型）等頂級(jí)開(kāi)源模型，甚至能和GPT-4o、Claude 3.5-Sonnet（Anthropic自研大模型）等頂級(jí)閉源模型一較高下。

DeepSeek宣布上線并同步開(kāi)源DeepSeek-V3模型之外，還公布了長(zhǎng)達(dá)53頁(yè)的訓(xùn)練和技術(shù)細(xì)節(jié)。得到大幅升級(jí)的V3模型是在一個(gè)“難以想象”的預(yù)算下訓(xùn)練完成的：整個(gè)訓(xùn)練僅花費(fèi)了557.6萬(wàn)美元，在2048塊英偉達(dá)H800 GPU（針對(duì)中國(guó)市場(chǎng)的低配版 GPU）集群上運(yùn)行55天完成，僅是OpenAI GPT-4o模型訓(xùn)練成本的不到十分之一。

“中國(guó)也要逐步成為貢獻(xiàn)者，而不是一直搭便車?！绷何匿h在接受媒體采訪時(shí)說(shuō)，“我們已經(jīng)習(xí)慣摩爾定律從天而降，躺在家里18個(gè)月就會(huì)出來(lái)更好的硬件和軟件，Scaling Law（規(guī)模定律）也在被如此對(duì)待。但其實(shí)，這是西方主導(dǎo)的技術(shù)社區(qū)一代代孜孜不倦創(chuàng)造出來(lái)的，只因?yàn)橹拔覀儧](méi)有參與這個(gè)過(guò)程，以至于忽視了它的存在。很多國(guó)產(chǎn)芯片發(fā)展不起來(lái)，也是因?yàn)槿狈ε涮椎募夹g(shù)社區(qū)，只有第二手消息，中國(guó)必然需要有人站到技術(shù)的前沿?！?/p>

梁文鋒和他的DeepSeek還在繼續(xù)求索。

就在1月20日， DeepSeek正式發(fā)布DeepSeek-R1模型。該模型在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上，性能比肩OpenAI o1正式版。DeepSeek稱，R1在后訓(xùn)練階段大規(guī)模使用了強(qiáng)化學(xué)習(xí)技術(shù)，在僅有極少標(biāo)注數(shù)據(jù)的情況下，極大提升了模型推理能力。DeepSeek不僅將R1訓(xùn)練技術(shù)全部公開(kāi)，還蒸餾了6個(gè)小模型開(kāi)源給社區(qū)，允許用戶借此訓(xùn)練其他模型。

“投身于探索AGI的本質(zhì)，不做中庸的事，帶著好奇心，用最長(zhǎng)期的眼光去回答最大的問(wèn)題?！盌eepSeek的公眾號(hào)這樣寫道。

責(zé)任編輯：葛佳

圖片編輯：沈軻

校對(duì)：丁曉

澎湃新聞報(bào)料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報(bào)

#DeepSeeK #幻方量化 #量化 #大模型