- +1
Nvidia表示其Blackwell 片在訓(xùn)練AI 語言模型基準(zhǔn)測(cè)試中領(lǐng)跑
Nvidia 正在向全球的數(shù)據(jù)中心以及其稱為 AI 工廠的區(qū)域推出其 AI 芯片,今日該公司宣布其 Blackwell 芯片在 AI 基準(zhǔn)測(cè)試中表現(xiàn)領(lǐng)先。
Nvidia 與其合作伙伴正加速利用最新的訓(xùn)練和推理進(jìn)展,推動(dòng)下一代 AI 應(yīng)用的訓(xùn)練和部署。
Nvidia 的 Blackwell 架構(gòu)旨在滿足這些新型應(yīng)用對(duì)性能日益增長(zhǎng)的要求。在最新一輪的 MLPerf Training 基準(zhǔn)測(cè)試(自 2018 年該基準(zhǔn)測(cè)試推出以來的第 12 輪)中,Nvidia 的 AI 平臺(tái)在所有基準(zhǔn)測(cè)試中均在大規(guī)模場(chǎng)景下展現(xiàn)出最高性能,并且在針對(duì)大語言模型(LLM)的最苛刻測(cè)試 —— Llama 3.1 405B 預(yù)訓(xùn)練 —— 中為提交的每一項(xiàng)結(jié)果提供了支持。
Nvidia 在 MLPerf 訓(xùn)練基準(zhǔn)測(cè)試上大力宣傳了其優(yōu)異的性能。
Nvidia 平臺(tái)是唯一一個(gè)在所有 MLPerf Training v5.0 基準(zhǔn)測(cè)試上均提交結(jié)果的平臺(tái) —— 這突顯了其在包括大語言模型、推薦系統(tǒng)、多模態(tài)大語言模型、目標(biāo)檢測(cè)以及圖神經(jīng)網(wǎng)絡(luò)在內(nèi)的多樣化 AI 工作負(fù)載中的卓越性能和多功能性。
本輪大規(guī)模提交測(cè)試使用了兩臺(tái)由 Nvidia Blackwell 平臺(tái)驅(qū)動(dòng)的 AI 超級(jí)計(jì)算機(jī):Tyche,基于 Nvidia GB200 NVL72 機(jī)架級(jí)系統(tǒng)構(gòu)建;以及 Nyx,基于 Nvidia DGX B200 系統(tǒng)。此外,Nvidia 還與 CoreWeave 及 IBM 合作,利用總共 2,496 個(gè) Blackwell GPU 和 1,248 個(gè) Nvidia Grace CPU 提交了 GB200 NVL72 的測(cè)試結(jié)果。
在全新的 Llama 3.1 405B 預(yù)訓(xùn)練基準(zhǔn)測(cè)試中,Blackwell 在相同規(guī)模下的性能比上一代架構(gòu)提高了 2.2 倍。
Nvidia Blackwell 正在驅(qū)動(dòng) AI 工廠的發(fā)展。
在 Llama 2 70B LoRA 微調(diào)基準(zhǔn)測(cè)試中,采用八個(gè) Blackwell GPU 驅(qū)動(dòng)的 Nvidia DGX B200 系統(tǒng),其性能比前一輪使用相同數(shù)量 GPU 的提交提升了 2.5 倍。
這些性能的躍升突顯了 Blackwell 架構(gòu)的創(chuàng)新進(jìn)展,包括高密度液冷機(jī)架、每個(gè)機(jī)架 13.4TB 的一致性內(nèi)存、第五代 Nvidia NVLink 與 Nvidia NVLink Switch 互連技術(shù)以實(shí)現(xiàn)規(guī)模擴(kuò)展,以及 Nvidia Quantum-2 InfiniBand 網(wǎng)絡(luò)技術(shù)以實(shí)現(xiàn)橫向擴(kuò)展。此外,Nvidia NeMo 框架軟件棧的創(chuàng)新進(jìn)一步提升了新一代多模態(tài)大語言模型訓(xùn)練的水平,這對(duì)將具備自主決策能力的 AI 應(yīng)用推向市場(chǎng)至關(guān)重要。
這些具備自主決策能力的 AI 應(yīng)用未來將運(yùn)行于所謂的 AI 工廠 —— 自主 AI 經(jīng)濟(jì)的引擎。這些新應(yīng)用將生成 Tokens 以及可以應(yīng)用于幾乎每個(gè)行業(yè)和學(xué)術(shù)領(lǐng)域的有價(jià)值的智能信息。
Nvidia 數(shù)據(jù)中心平臺(tái)涵蓋了 GPU、CPU、高速互連以及網(wǎng)絡(luò),同時(shí)還包括眾多軟件,如 Nvidia CUDA-X 庫、NeMo 框架、Nvidia TensorRT-LLM 及 Nvidia Dynamo。這個(gè)高度優(yōu)化的軟硬件系統(tǒng)組合使各組織能夠更加迅速地訓(xùn)練和部署模型,從而顯著縮短實(shí)現(xiàn)價(jià)值的時(shí)間。
Blackwell 在 AI 訓(xùn)練中輕松超越了其前代產(chǎn)品 Hopper。
Nvidia 的合作生態(tài)系統(tǒng)在本輪 MLPerf 測(cè)試中廣泛參與。除了與 CoreWeave 和 IBM 合作提交的測(cè)試之外,ASUS、Cisco、Giga Computing、Lambda、Lenovo、Quanta Cloud Technology 和 Supermicro 等公司也提交了令人矚目的測(cè)試結(jié)果。
首批使用 GB200 進(jìn)行 MLPerf Training 測(cè)試的項(xiàng)目由 MLCommons Association 及其 125 多個(gè)成員和附屬機(jī)構(gòu)開發(fā)。其“訓(xùn)練時(shí)間”指標(biāo)確保訓(xùn)練過程能夠產(chǎn)出達(dá)到預(yù)定精度的模型,而其標(biāo)準(zhǔn)化的基準(zhǔn)測(cè)試規(guī)則則確保了不同測(cè)試之間的公平比較。所有結(jié)果在發(fā)布前均經(jīng)過同行評(píng)審。
—— 關(guān)于訓(xùn)練基準(zhǔn)測(cè)試的基礎(chǔ)
Nvidia 的最新 AI 處理器展現(xiàn)出了優(yōu)秀的擴(kuò)展性。
Dave Salvator,曾是科技媒體的一員,現(xiàn)在擔(dān)任 Nvidia 加速計(jì)算集團(tuán)的加速計(jì)算產(chǎn)品總監(jiān)。在一次新聞發(fā)布會(huì)上,Salvator 指出,Nvidia 首席執(zhí)行官 Jensen Huang 談及 AI 擴(kuò)展定律的概念,其中包括預(yù)訓(xùn)練階段,也就是從零開始教授 AI 模型知識(shí)。Salvator 表示,這一重型計(jì)算過程構(gòu)成了 AI 的骨干。
之后,Nvidia 進(jìn)入了后訓(xùn)練擴(kuò)展階段。這一階段相當(dāng)于模型上學(xué),例如通過微調(diào),將不同的數(shù)據(jù)集引入已訓(xùn)練到一定程度的預(yù)訓(xùn)練模型中,以賦予其針對(duì)特定數(shù)據(jù)集的額外領(lǐng)域知識(shí)。
Nvidia 已經(jīng)從單純制造芯片轉(zhuǎn)型為構(gòu)建 AI 基礎(chǔ)設(shè)施的企業(yè)。
最后,還有測(cè)試時(shí)擴(kuò)展或推理能力,也有時(shí)稱為長(zhǎng)時(shí)間思考。另一說法為自主決策 AI,即具備實(shí)際思考、推理和解決問題能力的 AI,通過提出問題,能夠得到相對(duì)簡(jiǎn)單的答案。測(cè)試時(shí)擴(kuò)展和推理技術(shù)實(shí)際上可處理更復(fù)雜的任務(wù),并提供豐富的分析。
此外,還有生成式 AI,可按需生成內(nèi)容,該內(nèi)容可能包括文本摘要、翻譯,同時(shí)也覆蓋視覺內(nèi)容甚至音頻內(nèi)容。AI 領(lǐng)域中涉及多種擴(kuò)展模式。在本輪測(cè)試中,Nvidia 重點(diǎn)關(guān)注了預(yù)訓(xùn)練和后訓(xùn)練的測(cè)試結(jié)果。
Salvator 表示:“這正是 AI 進(jìn)入我們所說的投資階段之處。而當(dāng)你進(jìn)入推理并部署這些模型,開始生成 Tokens 時(shí),你就開始從 AI 投資中獲得回報(bào)?!?/p>
MLPerf 基準(zhǔn)測(cè)試現(xiàn)已進(jìn)行到第 12 輪,其歷史可追溯至 2018 年。支撐該測(cè)試的聯(lián)盟擁有超過 125 個(gè)成員,并且該基準(zhǔn)測(cè)試既用于推理也用于訓(xùn)練測(cè)試。業(yè)界普遍認(rèn)為這些基準(zhǔn)測(cè)試十分嚴(yán)謹(jǐn)。
Salvator 補(bǔ)充道:“我相信大家已經(jīng)注意到,AI 領(lǐng)域的性能宣稱有時(shí)可能有些不盡如人意,而 MLPerf 則試圖將這種混亂局面理順。每個(gè)參與者都需完成相同的工作量,所有人都必須達(dá)到相同的收斂標(biāo)準(zhǔn)。一旦提交結(jié)果,這些結(jié)果便由其他提交者進(jìn)行審核和驗(yàn)證,大家也可以提問甚至質(zhì)疑結(jié)果?!?/p>
訓(xùn)練方面最直觀的指標(biāo)是訓(xùn)練一個(gè)達(dá)到收斂狀態(tài)的 AI 模型所花費(fèi)的時(shí)間,也就是達(dá)到規(guī)定精度所需的時(shí)間。Salvator 表示,這是一個(gè)“同尺度下”的比較,同時(shí)考慮到了不斷變化的工作負(fù)載。
今年,基準(zhǔn)測(cè)試中新增了 Llama 3.140 5b 工作負(fù)載,用以替代此前測(cè)試中的 ChatGPT 170 5b 工作負(fù)載。Salvator 指出,在這些測(cè)試中,Nvidia 創(chuàng)下了多項(xiàng)記錄。Nvidia GB200 NVL72 驅(qū)動(dòng)的 AI 工廠剛剛下線,從 Hopper 到 Blackwell 這一代芯片,Nvidia 在圖像生成測(cè)試中實(shí)現(xiàn)了 2.5 倍的性能提升。
Salvator 說:“我們?nèi)蕴幱?Blackwell 產(chǎn)品生命周期的較早階段,因此預(yù)計(jì)隨著軟件優(yōu)化的不斷完善以及市場(chǎng)上出現(xiàn)更新、計(jì)算量更大的工作負(fù)載,Blackwell 架構(gòu)的性能將持續(xù)提升?!?/p>
他指出,Nvidia 是唯一在所有基準(zhǔn)測(cè)試中均提交了測(cè)試結(jié)果的公司。
Salvator 還表示:“我們能取得如此卓越的性能,歸功于多種因素。包括我們的第五代 NVLink 和 NVSwitch 技術(shù)使性能提升高達(dá) 2.66 倍,再加上 Blackwell 架構(gòu)本身的優(yōu)異設(shè)計(jì),以及我們持續(xù)不斷的軟件優(yōu)化,使得這一性能成為可能。”
他補(bǔ)充道:“由于 Nvidia 的歷史積淀,我們長(zhǎng)期以來被稱為 GPU 先驅(qū)。我們固然生產(chǎn)出色的 GPU,但公司已從單純的芯片制造商轉(zhuǎn)型為系統(tǒng)解決方案提供商,如我們的 DGX 服務(wù)器;再到如今構(gòu)建整機(jī)架和數(shù)據(jù)中心(例如我們的機(jī)架設(shè)計(jì)已成為參考設(shè)計(jì),幫助合作伙伴更快進(jìn)入市場(chǎng)),乃至構(gòu)建整個(gè)數(shù)據(jù)中心,最終形成所謂的 AI 工廠。整個(gè)過程真是一段極具趣味的歷程。”
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司




