DeepSeek展示企業(yè)模型蒸餾技術(shù)應(yīng)用機(jī)遇

2025-08-09 17:22

來(lái)源：澎湃新聞·澎湃號(hào)·湃客

模型蒸餾是Gartner 2025年人工智能技術(shù)成熟度曲線中已達(dá)到"啟發(fā)階段"成熟度水平的技術(shù)趨勢(shì)之一。

雖然今年年初中國(guó)的DeepSeek展示了如何使用模型蒸餾來(lái)訓(xùn)練能夠與OpenAI模型競(jìng)爭(zhēng)的大語(yǔ)言模型，使這項(xiàng)技術(shù)重新受到關(guān)注，但這并非新技術(shù)發(fā)展。Gartner高級(jí)總監(jiān)分析師Haritha Khandabattu表示："我實(shí)際上在2017年就在研究模型蒸餾了。"

事實(shí)上，這項(xiàng)技術(shù)可以追溯到2006年康奈爾大學(xué)Cristian Bucila、Rich Caruana和Alexandru Niculescu-Mizil發(fā)表的模型壓縮論文。九年后的2015年，康奈爾大學(xué)的Geoffery Hinton、Oriol Vinyals和Jeff Dean在《神經(jīng)網(wǎng)絡(luò)知識(shí)蒸餾》論文中使用"蒸餾"一詞來(lái)描述提升AI模型性能的技術(shù)。

盡管Gartner不認(rèn)為這是新的技術(shù)發(fā)展，但Khandabattu表示："模型蒸餾技術(shù)得到了重新強(qiáng)調(diào)?；A(chǔ)模型需要大量計(jì)算資源且運(yùn)行成本極其昂貴，企業(yè)開(kāi)始詢(xún)問(wèn)如何以10%的成本獲得80%的性能。"

她表示，DeepSeek在過(guò)去6到12個(gè)月中引發(fā)了定價(jià)下降趨勢(shì)。但Khandabattu建議CIO們不要只是適應(yīng)這些價(jià)格變化，而應(yīng)該"規(guī)劃用例并優(yōu)先考慮，預(yù)期訓(xùn)練和推理成本將繼續(xù)下降"。

Khandabattu指出，即使是大型AI技術(shù)提供商也認(rèn)識(shí)到模型蒸餾在實(shí)現(xiàn)更可部署、更可調(diào)節(jié)和更可治理的AI方面的用處，她補(bǔ)充說(shuō)："模型蒸餾終于獲得了商業(yè)吸引力。"

她將模型蒸餾描述為創(chuàng)新與可擴(kuò)展性之間的橋梁："模型蒸餾釋放了技術(shù)價(jià)值和可訪問(wèn)性。它提供更低的推理成本，IT基礎(chǔ)設(shè)施費(fèi)用也相對(duì)較低，這使得模型蒸餾對(duì)某些AI部署具有成本效益。"

但Khandabattu也指出，IT領(lǐng)導(dǎo)者需要考慮運(yùn)行推理工作負(fù)載所需IT基礎(chǔ)設(shè)施之外的其他成本。"CIO需要極其謹(jǐn)慎，認(rèn)識(shí)到部署生成式AI應(yīng)用的總成本不僅限于模型成本。"

她表示，還有工程成本和將AI系統(tǒng)與企業(yè)IT集成相關(guān)的成本，并補(bǔ)充說(shuō)："微調(diào)AI模型成本很高。如果模型提供商決定更改模型，那么你必須將基于舊模型構(gòu)建的所有內(nèi)容更改為新模型，這非常昂貴。"

除了模型蒸餾之外，她說(shuō)："隨著今年AI投資保持強(qiáng)勁，人們更加強(qiáng)調(diào)使用AI實(shí)現(xiàn)運(yùn)營(yíng)可擴(kuò)展性和實(shí)時(shí)智能。"

據(jù)Gartner稱(chēng)，這導(dǎo)致了從以生成式AI為中心焦點(diǎn)的逐步轉(zhuǎn)向支持可持續(xù)AI交付的基礎(chǔ)推動(dòng)者，如AI就緒數(shù)據(jù)和AI智能體。

"盡管AI具有巨大的潛在商業(yè)價(jià)值，但它不會(huì)自發(fā)實(shí)現(xiàn)，"Khandabattu說(shuō)。"成功將取決于與業(yè)務(wù)緊密結(jié)合的試點(diǎn)項(xiàng)目、主動(dòng)的基礎(chǔ)設(shè)施基準(zhǔn)測(cè)試，以及AI團(tuán)隊(duì)與業(yè)務(wù)團(tuán)隊(duì)之間的協(xié)調(diào)，以創(chuàng)造切實(shí)的商業(yè)價(jià)值。"

在Gartner預(yù)測(cè)將在未來(lái)五年內(nèi)實(shí)現(xiàn)主流采用的AI創(chuàng)新中，包括多模態(tài)AI和AI信任、風(fēng)險(xiǎn)與安全管理(TRiSM)。

多模態(tài)AI模型同時(shí)使用多種類(lèi)型的數(shù)據(jù)進(jìn)行訓(xùn)練，如圖像、視頻、音頻和文本。TRiSM專(zhuān)注于支持企業(yè)所有AI用例政策的技術(shù)能力層，并幫助確保AI治理、可信性、公平性、安全性、可靠性、安全、隱私和數(shù)據(jù)保護(hù)。Gartner預(yù)測(cè)，這些發(fā)展的結(jié)合將實(shí)現(xiàn)更強(qiáng)大、創(chuàng)新和負(fù)責(zé)任的AI應(yīng)用，改變企業(yè)和組織的運(yùn)營(yíng)方式。

Gartner還預(yù)計(jì)AI智能體距離成為主流至少還需要2到5年時(shí)間。

"要獲得AI智能體的好處，組織需要確定最相關(guān)的業(yè)務(wù)環(huán)境和用例，這很有挑戰(zhàn)性，因?yàn)闆](méi)有兩個(gè)AI智能體是相同的，每種情況都不同，"Khandabattu說(shuō)。"盡管AI智能體將繼續(xù)變得更加強(qiáng)大，但它們不能在每種情況下使用，因此使用很大程度上取決于當(dāng)前情況的要求。"

Q&A

Q1：模型蒸餾技術(shù)是什么時(shí)候出現(xiàn)的？

A：模型蒸餾技術(shù)可以追溯到2006年康奈爾大學(xué)發(fā)表的模型壓縮論文，2015年Geoffery Hinton等人正式使用"蒸餾"一詞來(lái)描述這種提升AI模型性能的技術(shù)。雖然不是新技術(shù)，但最近因?yàn)镈eepSeek的成功應(yīng)用而重新受到關(guān)注。

Q2：企業(yè)為什么要使用模型蒸餾技術(shù)？

A：企業(yè)使用模型蒸餾技術(shù)主要是為了降低成本?；A(chǔ)模型需要大量計(jì)算資源且運(yùn)行成本極其昂貴，而模型蒸餾可以幫助企業(yè)以10%的成本獲得80%的性能，提供更低的推理成本和IT基礎(chǔ)設(shè)施費(fèi)用。

Q3：部署生成式AI應(yīng)用除了模型成本還有哪些費(fèi)用？

A：除了模型成本外，還包括工程成本、將AI系統(tǒng)與企業(yè)IT集成的成本、微調(diào)AI模型的成本等。特別是如果模型提供商更改模型，企業(yè)需要將基于舊模型構(gòu)建的所有內(nèi)容遷移到新模型，這會(huì)產(chǎn)生很高的費(fèi)用。

特別聲明

本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點(diǎn)，不代表澎湃新聞的觀點(diǎn)或立場(chǎng)，澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。

我要舉報(bào)

#DeepSeek