- +1
量化巨頭幻方創(chuàng)始人梁文鋒參加總理座談會(huì)并發(fā)言,他還創(chuàng)辦了“AI界拼多多”
國(guó)產(chǎn)大模型公司深度求索(DeepSeek)創(chuàng)始人梁文鋒參加了總理座談會(huì)。
據(jù)新華社報(bào)道,中共中央政治局常委、國(guó)務(wù)院總理李強(qiáng)1月20日下午主持召開(kāi)專家、企業(yè)家和教科文衛(wèi)體等領(lǐng)域代表座談會(huì),聽(tīng)取對(duì)《政府工作報(bào)告(征求意見(jiàn)稿)》的意見(jiàn)建議。座談會(huì)上,張輝、任少波、劉珺、梁文鋒、魏洪興、陳學(xué)東、陳紅彥、杜斌、鄒敬園等先后發(fā)言。
其中,梁文鋒正是頭部量化私募幻方量化創(chuàng)始人、DeepSeek的創(chuàng)始人。

低調(diào)的“量化天王”
梁文鋒“發(fā)跡”于量化投資。
作為一名“80后”,梁文鋒本科、研究生都就讀于浙江大學(xué),擁有信息與電子工程學(xué)系本科和碩士學(xué)位。
2008年起,梁文鋒就開(kāi)始帶領(lǐng)團(tuán)隊(duì)使用機(jī)器學(xué)習(xí)等技術(shù)探索全自動(dòng)量化交易。2015年,幻方量化正式成立,2019年,其資金管理規(guī)模就突破百億元。
2019年,梁文鋒在當(dāng)年的金牛獎(jiǎng)?lì)C獎(jiǎng)儀式上,發(fā)表主題演講《一名程序員眼里中國(guó)量化投資的未來(lái)》,這是他罕有的公開(kāi)發(fā)言。
在演講中,梁文鋒指出,量化與非量化的判定標(biāo)準(zhǔn)就是在投資決策的過(guò)程中,是用數(shù)量化方法進(jìn)行決策的,還是用人進(jìn)行決策的。量化公司是沒(méi)有基金經(jīng)理的,基金經(jīng)理就一堆服務(wù)器。
“作為私募,投資人對(duì)我們的期望是很高的,如果一年跑贏指數(shù)低于25%,投資人是不滿意的。”梁文鋒指出,量化投資已經(jīng)賺了技術(shù)面流派原來(lái)賺的錢,未來(lái)也要搶奪基本面流派原來(lái)賺的錢。
演講最后,梁文鋒說(shuō),幻方量化的使命就是提高中國(guó)二級(jí)市場(chǎng)的有效性。
2021年,幻方量化成為國(guó)內(nèi)首家突破千億規(guī)模的的量化私募大廠,被稱為國(guó)內(nèi)量化私募“四大天王”之一。不過(guò),就在這一年,由于業(yè)績(jī)波動(dòng),幻方量化關(guān)閉了全部募集通道,并在12月底發(fā)布致投資者公開(kāi)信,致歉稱“幻方業(yè)績(jī)的回撤達(dá)到歷史最大值,我們對(duì)此深感愧疚”,究其原因,主要是AI的投資決策在買賣時(shí)點(diǎn)上沒(méi)有做好,市場(chǎng)風(fēng)格劇烈切換的時(shí)候,AI會(huì)傾向于冒更大的風(fēng)險(xiǎn)來(lái)博取更多收益,進(jìn)一步加大了回撤。
此后,幻方量化逐漸降低其資金管理規(guī)模。2024年10月,幻方量化還向投資者發(fā)布公告稱,計(jì)劃逐步對(duì)沖產(chǎn)品投資倉(cāng)位降低至零。
“短期內(nèi)沒(méi)有融資計(jì)劃”
梁文鋒對(duì)于AI的興趣早就有跡可循。
2016年10月21日,幻方量化推出第一個(gè)AI模型,第一份由深度學(xué)習(xí)生成的交易倉(cāng)位上線執(zhí)行,使用GPU進(jìn)行計(jì)算。2017年,幻方量化宣稱實(shí)現(xiàn)投資策略全面AI化。
幻方量化官網(wǎng)顯示,其在2018年就確立以AI為公司的主要發(fā)展方向。
2020年開(kāi)始,幻方累計(jì)投資超億元、占地面積相當(dāng)于一個(gè)籃球場(chǎng)的AI超級(jí)計(jì)算機(jī)“螢火一號(hào)”正式投入運(yùn)作,號(hào)稱可以匹敵4萬(wàn)臺(tái)個(gè)人電腦的超級(jí)算力。2021年,幻方投入十億建設(shè)“螢火二號(hào)”,以“任務(wù)級(jí)分時(shí)共享”為核心理念,調(diào)度系統(tǒng)秒級(jí)響應(yīng),平臺(tái)配備強(qiáng)大的軟件層支持:高性能算子庫(kù)(hfai.nn)、分布式訓(xùn)練通訊框架(hfreduce)、專為AI開(kāi)發(fā)而生的大容量高帶寬文件系統(tǒng)(3FS),讓AI模型能自如拓展到多節(jié)點(diǎn)之上,進(jìn)行大規(guī)模并行訓(xùn)練,算力擴(kuò)容翻倍,集群連續(xù)滿載運(yùn)行,平均占用率達(dá)到96%以上。
2021年,在梁文鋒參與的論文中提到,他們正在部署的螢火二號(hào)系統(tǒng),“配備了1萬(wàn)張A100GPU芯片”,在性能上接近DGX-A100(英偉達(dá)推出的人工智能專用超級(jí)計(jì)算機(jī)),但成本降低了一半,同時(shí)能耗減少了40%。
當(dāng)時(shí)國(guó)內(nèi)超過(guò)1萬(wàn)枚GPU的企業(yè)不超過(guò)5家,而且除了幻方量化之外,其他4家公司都是互聯(lián)網(wǎng)大廠。
這背后需要極其雄厚的財(cái)力支持。
2023年初,幻方量化表示,過(guò)去的幾年,幻方量化及員工每年拿出收入的一部分投入公益,回饋社會(huì),累計(jì)捐贈(zèng)超過(guò)5.8億元。其中,2022年,員工“一只平凡的小豬”個(gè)人就向慈善機(jī)構(gòu)捐贈(zèng)1.38億元,當(dāng)時(shí)的消息指出,這個(gè)人就是梁文鋒。這從一個(gè)側(cè)面反映出了幻方量化和梁文鋒本人的“不差錢”。
幻方量化曾表示,多年以來(lái),該公司堅(jiān)持把營(yíng)收的大部分投入人工智能領(lǐng)域,建設(shè)領(lǐng)先的AI硬件基礎(chǔ)設(shè)施,進(jìn)行大規(guī)模的研究,探索人類未知的奧秘,“我們相信幾乎所有的創(chuàng)新都是從大膽嘗試和點(diǎn)滴積累中孕育而來(lái)。”
梁文鋒在為數(shù)不多的對(duì)外發(fā)聲中同樣也提到“短期內(nèi)沒(méi)有融資計(jì)劃”,并認(rèn)為當(dāng)下面臨的問(wèn)題“從來(lái)不是錢,而是高端芯片(短缺)”。
“AI界拼多多”
2023年7月,幻方量化宣布成立大模型公司DeepSeek,正式進(jìn)軍通用人工智能領(lǐng)域。據(jù)報(bào)道,DeepSeek包括創(chuàng)始人梁文鋒在內(nèi),僅有139名工程師和研究人員。與之對(duì)比,OpenAI有1200名研究人員,Anthropic則有500多名研究人員。
僅僅不到一年的2024年5月,DeepSeek就發(fā)布了DeepSeekV2,因?yàn)閯?chuàng)新的模型架構(gòu)和史無(wú)前例的性價(jià)比,火爆出圈。DeepSeek-V2的API定價(jià)為每百萬(wàn)tokens輸入1元、輸出2元,價(jià)格僅為GPT-4 Turbo的百分之一。
對(duì)于為何能做到如此高的性價(jià)比,DeepSeek官方解釋稱,DeepSeek-V2采用了創(chuàng)新的架構(gòu),例如注意力機(jī)制方面的MLA(多頭潛在注意力)和前饋網(wǎng)絡(luò)方面的DeepSeekMoE架構(gòu)等,以實(shí)現(xiàn)具有更高經(jīng)濟(jì)性的訓(xùn)練效果和更高效的推理。
因此, DeepSeek被稱為“AI界的拼多多”,引發(fā)了字節(jié)、阿里、百度等大廠的大模型價(jià)格戰(zhàn),紛紛宣布大模型產(chǎn)品降價(jià)。彼時(shí),梁文鋒在接受媒體采訪時(shí)稱,DeepSeek無(wú)意成為行業(yè)鲇魚(yú),低價(jià)背后是希望算力普惠。
2024年12月27日,DeepSeek-V3更是橫空出世,火爆全球。據(jù)DeepSeek官網(wǎng)顯示,其評(píng)測(cè)成績(jī)不僅超越了Qwen2.5-72B(阿里自研大模型)和Llama 3.1-405B(Meta自研大模型)等頂級(jí)開(kāi)源模型,甚至能和GPT-4o、Claude 3.5-Sonnet(Anthropic自研大模型)等頂級(jí)閉源模型一較高下。
DeepSeek宣布上線并同步開(kāi)源DeepSeek-V3模型之外,還公布了長(zhǎng)達(dá)53頁(yè)的訓(xùn)練和技術(shù)細(xì)節(jié)。得到大幅升級(jí)的V3模型是在一個(gè)“難以想象”的預(yù)算下訓(xùn)練完成的:整個(gè)訓(xùn)練僅花費(fèi)了557.6萬(wàn)美元,在2048塊英偉達(dá)H800 GPU(針對(duì)中國(guó)市場(chǎng)的低配版 GPU)集群上運(yùn)行55天完成,僅是OpenAI GPT-4o模型訓(xùn)練成本的不到十分之一。
“中國(guó)也要逐步成為貢獻(xiàn)者,而不是一直搭便車?!绷何匿h在接受媒體采訪時(shí)說(shuō),“我們已經(jīng)習(xí)慣摩爾定律從天而降,躺在家里18個(gè)月就會(huì)出來(lái)更好的硬件和軟件,Scaling Law(規(guī)模定律)也在被如此對(duì)待。但其實(shí),這是西方主導(dǎo)的技術(shù)社區(qū)一代代孜孜不倦創(chuàng)造出來(lái)的,只因?yàn)橹拔覀儧](méi)有參與這個(gè)過(guò)程,以至于忽視了它的存在。很多國(guó)產(chǎn)芯片發(fā)展不起來(lái),也是因?yàn)槿狈ε涮椎募夹g(shù)社區(qū),只有第二手消息,中國(guó)必然需要有人站到技術(shù)的前沿?!?/p>
梁文鋒和他的DeepSeek還在繼續(xù)求索。
就在1月20日, DeepSeek正式發(fā)布DeepSeek-R1模型。該模型在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上,性能比肩OpenAI o1正式版。DeepSeek稱,R1在后訓(xùn)練階段大規(guī)模使用了強(qiáng)化學(xué)習(xí)技術(shù),在僅有極少標(biāo)注數(shù)據(jù)的情況下,極大提升了模型推理能力。DeepSeek不僅將R1訓(xùn)練技術(shù)全部公開(kāi),還蒸餾了6個(gè)小模型開(kāi)源給社區(qū),允許用戶借此訓(xùn)練其他模型。
“投身于探索AGI的本質(zhì),不做中庸的事,帶著好奇心,用最長(zhǎng)期的眼光去回答最大的問(wèn)題?!盌eepSeek的公眾號(hào)這樣寫道。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司