中文字幕欧美乱伦|手机AV永久免费|澳门堵场日韩精品|日本性爱欧美激情|蜜桃狠狠狠狠狠狠狠狠狠|成人免费视频 国|欧美国产麻豆婷婷|99久久久国产精品福利姬喷水|婷婷内射精品视频|日本欧洲一区二区

澎湃Logo
下載客戶端

登錄

  • +1

模型、數(shù)據(jù)、落地之爭(zhēng):具身智能來(lái)到“破曉”時(shí)刻

2025-11-20 15:22
來(lái)源:澎湃新聞·澎湃號(hào)·湃客
字號(hào)

文|魏琳華 

編|王一粟

“具身智能,究竟發(fā)展到了哪個(gè)節(jié)點(diǎn)?”對(duì)于這個(gè)火爆但早期的產(chǎn)業(yè),不少人都有這個(gè)疑問(wèn)。

一方面,是資本用真金白銀投出的繁盛。據(jù)不完全統(tǒng)計(jì),中國(guó)具身智能相關(guān)企業(yè)數(shù)量已接近百萬(wàn)家。今年下半年,包括宇樹(shù)科技、智元機(jī)器人在內(nèi)的多家公司拿到過(guò)億融資、頭部企業(yè)籌劃上市。熱錢(qián)涌動(dòng),創(chuàng)業(yè)者云集,仿佛下一個(gè)萬(wàn)億級(jí)產(chǎn)業(yè)的黎明已然到來(lái)。

而另一方面,卻是大量籠罩在行業(yè)上空懸而未決的陰霾,具身智能行業(yè)充滿了基礎(chǔ)性的路線之爭(zhēng)。

“具身智能目前來(lái)看有三座大山:第一,數(shù)據(jù)稀缺性。第二,數(shù)據(jù)泛化性。第三,產(chǎn)品落地?!比A為云中國(guó)區(qū)云原生企業(yè)業(yè)務(wù)部部長(zhǎng)李鵬程說(shuō)。

華為云中國(guó)區(qū)云原生企業(yè)業(yè)務(wù)部部長(zhǎng)李鵬程

深入到產(chǎn)業(yè)腹地,不難發(fā)現(xiàn),下階段無(wú)論是模型路線、數(shù)據(jù)策略還是落地效果,整個(gè)行業(yè)都遠(yuǎn)未形成共識(shí)。參與者們仿佛站在一個(gè)巨大的十字路口,行業(yè)正在“兩條腿走路”,在未確定范式之前,朝著不同的方向先展開(kāi)探索。

從模型上來(lái)說(shuō),行業(yè)的討論主要聚焦在VLA、世界模型等不同架構(gòu)上,目前使用VLA存在的問(wèn)題是,它的泛化性有限,難以解決跨本體、跨任務(wù)的情況;從數(shù)據(jù)上來(lái)說(shuō),是使用真機(jī)數(shù)據(jù)還是合成數(shù)據(jù)為主,兩條路線各有優(yōu)劣勢(shì),而沒(méi)有人確認(rèn)哪條路徑更優(yōu)。

在不確定的路徑中,具身智能行業(yè)的玩家們正在通過(guò)不同路線的探索,合力向著“智能”的方向前進(jìn)。

11月14日,由華為云主辦的《具身智能產(chǎn)業(yè)實(shí)踐高峰論壇》上,來(lái)自學(xué)術(shù)、產(chǎn)業(yè)、企業(yè)界的嘉賓共同探討具身智能行業(yè)的發(fā)展和實(shí)踐經(jīng)驗(yàn)。

模型路線之爭(zhēng):從VLA到世界模型

“具身智能目前還處在非常初級(jí)的階段?!痹跁?huì)議現(xiàn)場(chǎng),多位嘉賓給出了相同的判斷。

“現(xiàn)在到處都是問(wèn)題,不管是機(jī)器人本體、可靠性、核心零部件成本、性能,到軟件、大腦、小腦,或者大小腦本身是一個(gè)不明確的定義,這些都是要攻克的問(wèn)題?!碧岬骄呱碇悄墚?dāng)前發(fā)展的情況,華為云物理智能創(chuàng)新實(shí)驗(yàn)室負(fù)責(zé)人周順波說(shuō)。

其中,模型架構(gòu)和數(shù)據(jù)來(lái)源,成為頻頻提起的兩個(gè)問(wèn)題。

極佳科技合伙人、副總裁毛繼明指出,目前最大的瓶頸在于“通用模型”本身不夠通用。

極佳科技合伙人、副總裁毛繼明

行業(yè)所面臨的,是具身智能的第一重,也是最根本的挑戰(zhàn):如何讓模型跨越從“認(rèn)知”到“物理”的鴻溝,真正獲得人類(lèi)與生俱來(lái)的通識(shí)能力。

當(dāng)數(shù)據(jù)來(lái)源塵埃未定,通往智能巔峰的模型路徑是一片迷霧。目前,VLA(視覺(jué)-語(yǔ)言-動(dòng)作)模型和世界模型(World Model)是兩條最受關(guān)注,也最具爭(zhēng)議的技術(shù)路線。

VLA模型是當(dāng)下的主流選擇,它更像一個(gè)“翻譯官”,將人類(lèi)的語(yǔ)言指令直接翻譯成機(jī)器人的動(dòng)作序列。它的優(yōu)勢(shì)在于路徑更短,更容易在特定任務(wù)上看到效果。

然而在真實(shí)使用中, VLA模型遇到了很多問(wèn)題。華為技術(shù)專(zhuān)家表示,目前VLA模型在通用化、自主化操作以及長(zhǎng)程精細(xì)化操作幾個(gè)維度上難以做到兼容和平衡。模型本身對(duì)物理世界缺乏深層次的理解和預(yù)判能力,這讓它難以解決更多固定場(chǎng)景之外的復(fù)雜問(wèn)題。

首先是數(shù)據(jù)依賴的嚴(yán)重性。VLA模型本質(zhì)上仍然是通過(guò)大量特定任務(wù)的數(shù)據(jù)進(jìn)行訓(xùn)練,但這種泛化仍然是建立在海量數(shù)據(jù)訓(xùn)練基礎(chǔ)上的。當(dāng)面對(duì)一個(gè)全新任務(wù)時(shí),如果訓(xùn)練數(shù)據(jù)中缺乏足夠相似的場(chǎng)景,模型很可能無(wú)法直接處理。

“現(xiàn)在通用模型這塊確實(shí)還很不通用,這種局限性在面對(duì)新環(huán)境、新任務(wù)時(shí)尤為明顯?!币晃患钨e直言不諱:“現(xiàn)在很多demo是挑了最好的給大家看,真正上線用的時(shí)候很多工廠良率控制要求很高,但凡只有90%成功率都不行?!?/p>

更關(guān)鍵的是架構(gòu)本身的固有問(wèn)題。VLA模型需要同時(shí)處理視覺(jué)輸入、語(yǔ)言理解和動(dòng)作輸出三個(gè)不同模態(tài)的信息,這種復(fù)雜性導(dǎo)致計(jì)算開(kāi)銷(xiāo)巨大,推理速度緩慢。

在工廠的實(shí)際應(yīng)用中,機(jī)器人需要滿足嚴(yán)格的時(shí)間節(jié)拍要求,而VLA模型的思考和規(guī)劃周期比較長(zhǎng),往往無(wú)法滿足實(shí)時(shí)性的需求。

面對(duì)VLA模型的困境,世界模型路線正在成為一個(gè)重要的技術(shù)方向。

與VLA不同,世界模型試圖讓機(jī)器人建立對(duì)物理世界的底層理解,就如同人類(lèi)基于對(duì)世界的通識(shí)認(rèn)知來(lái)理解和執(zhí)行任務(wù)。它的核心是通過(guò)構(gòu)建機(jī)器人對(duì)物理規(guī)律、物體屬性、動(dòng)作結(jié)果的深層理解,解決機(jī)器人在跨本體、跨任務(wù)場(chǎng)景的泛化能力。

世界模型的另一個(gè)重要優(yōu)勢(shì)是其在數(shù)據(jù)生成方面的潛力。通過(guò)對(duì)物理世界的理解,模型可以生成大量高質(zhì)量的合成數(shù)據(jù),這恰好解決了當(dāng)前機(jī)器人訓(xùn)練數(shù)據(jù)稀缺的問(wèn)題。

“VLA跟世界模型現(xiàn)在都處在GPT2的時(shí)刻,它們還有很大的潛力可以挖,但距離真正的通用型還有比較長(zhǎng)的路要走。但是我們覺(jué)得這個(gè)時(shí)間并不會(huì)很長(zhǎng),兩年內(nèi)可能就會(huì)迎來(lái)這樣的時(shí)刻?!泵^明說(shuō)。

真機(jī)采集、仿真生成,具身企業(yè)怎么選?

除了模型路線的變化,數(shù)據(jù)問(wèn)題也成為制約行業(yè)發(fā)展的另一大瓶頸。是使用真機(jī)數(shù)據(jù)還是合成數(shù)據(jù)?對(duì)于兩條路徑的可能性,多位嘉賓表示,目前還沒(méi)有探索出一條確切的路徑。

但不可否認(rèn)的是,在算法還有待優(yōu)化的現(xiàn)階段,研發(fā)企業(yè)需要真機(jī)數(shù)據(jù)驗(yàn)證算法的準(zhǔn)確性。

周順波一針見(jiàn)血地指出了問(wèn)題所在:“根據(jù)我們的研發(fā)實(shí)踐,現(xiàn)在沒(méi)有任何一個(gè)場(chǎng)景可以用100%合成數(shù)據(jù)完成物理世界的落地。所以真機(jī)數(shù)據(jù)確實(shí)是很重要的一個(gè)數(shù)據(jù)來(lái)源?!?/p>

怎么采集真機(jī)數(shù)據(jù),也是一門(mén)學(xué)問(wèn)。

“我們也踩了很多坑,前期做數(shù)據(jù)標(biāo)注、數(shù)據(jù)采集的時(shí)候很多數(shù)據(jù)是廢掉的。因?yàn)樽寯?shù)據(jù)標(biāo)注人員做數(shù)據(jù)采集的時(shí)候發(fā)現(xiàn)并沒(méi)有一個(gè)很好的標(biāo)準(zhǔn),這個(gè)標(biāo)準(zhǔn)是通過(guò)不斷優(yōu)化模型,反向做數(shù)據(jù)采集的設(shè)計(jì),這樣能夠采集到更高質(zhì)量的數(shù)據(jù),喂給模型,讓模型更泛化?!瘪鰟?dòng)通用聯(lián)合創(chuàng)始人兼市場(chǎng)副總裁、訊飛創(chuàng)投投資顧問(wèn)周甲甲說(shuō)。

聆動(dòng)通用聯(lián)合創(chuàng)始人兼市場(chǎng)副總裁、訊飛創(chuàng)投投資顧問(wèn) 周甲甲 

為了解決數(shù)據(jù)標(biāo)準(zhǔn)化和共享問(wèn)題,一些企業(yè)開(kāi)始構(gòu)建數(shù)據(jù)服務(wù)平臺(tái),先去確立標(biāo)準(zhǔn)。

周順波介紹了華為云的相關(guān)實(shí)踐:“構(gòu)建具身生態(tài)我們?cè)诜e極推進(jìn),但是我覺(jué)得更重要的點(diǎn)是現(xiàn)在行業(yè)里面并沒(méi)有對(duì)于數(shù)據(jù)的認(rèn)知,不知道應(yīng)該采集什么樣的數(shù)據(jù),所以需要先建立標(biāo)準(zhǔn)?!?/p>

他表示,華為云正在構(gòu)建一套端到端的工具鏈,放在了自家平臺(tái)CloudRobo中。該工具鏈不僅可以對(duì)接數(shù)采廠、穿戴式數(shù)采,也可以對(duì)真機(jī)數(shù)據(jù)做數(shù)據(jù)增廣,或者是基于仿真平臺(tái)做數(shù)據(jù)合成。

真機(jī)數(shù)據(jù)的最大優(yōu)勢(shì)是其可信度和真實(shí)性。但真機(jī)數(shù)據(jù)采集的成本極其高昂,超高質(zhì)量數(shù)據(jù)有限,這成為制約行業(yè)發(fā)展的一大瓶頸。

面對(duì)真機(jī)數(shù)據(jù)的高成本、質(zhì)量低問(wèn)題,仿真數(shù)據(jù)也成為當(dāng)下具身智能企業(yè)嘗試的重點(diǎn)路徑之一。

它不僅具備成本優(yōu)勢(shì),在后期提升泛化性上,起到至關(guān)重要的作用:當(dāng)現(xiàn)有階段的真機(jī)數(shù)據(jù)種類(lèi)、場(chǎng)景范圍覆蓋有限的情況下,使用針對(duì)性生成的合成數(shù)據(jù),能夠幫助模型有效提升泛化能力。

毛繼明拋出了一個(gè)問(wèn)題:“真正的通用怎么可能通過(guò)采集能夠達(dá)到那么大的通用?這是不可能的。”

也就是說(shuō),要讓機(jī)器人學(xué)會(huì)處理一萬(wàn)種不同的場(chǎng)景,不可能要求企業(yè)真的去采集到對(duì)應(yīng)的所有數(shù)據(jù),唯一的出路,是在世界模型中合成數(shù)據(jù),提供給模型訓(xùn)練。

不過(guò),相比于真機(jī)數(shù)據(jù),仿真數(shù)據(jù)目前的效果有限,實(shí)際訓(xùn)練效果距離真機(jī)數(shù)據(jù)還有一定差距。

“合成數(shù)據(jù)可能有上限,尤其現(xiàn)在基于仿真引擎合成數(shù)據(jù)?!敝茼槻ㄕf(shuō),“現(xiàn)在剛體的物理仿真可能還行,但是如果上升到流體柔體,其實(shí)合成數(shù)據(jù)的性能會(huì)被仿真性能給鎖死,這也是大家關(guān)注世界模型價(jià)值的原因。”

因此,行業(yè)正處在一個(gè)“真機(jī)”與“合成”混用的階段,真機(jī)數(shù)據(jù)是“種子”,用來(lái)錨定真實(shí)情況,合成數(shù)據(jù)則被用來(lái)實(shí)現(xiàn)規(guī)?;头夯?。

且根據(jù)不同的場(chǎng)景,真機(jī)和仿真數(shù)據(jù)的混合比例也會(huì)動(dòng)態(tài)調(diào)整。毛繼明透露,在“疊衣服”任務(wù)上,合成數(shù)據(jù)的最佳比例高達(dá)90%;而在“收拾桌子”這種剛體操作上,則是70%左右。

產(chǎn)業(yè)落地:工廠、娛樂(lè)場(chǎng)景探索可能性

在模型和數(shù)據(jù)這兩座大山之下,具身智能的產(chǎn)業(yè)化落地,目前還有一段漫長(zhǎng)的路要走。

“哪怕只是打螺絲,現(xiàn)在交給機(jī)器人還是不太能做得好?!币黄>哐邪l(fā)負(fù)責(zé)人王瀚霄說(shuō)。從實(shí)際應(yīng)用的效果來(lái)看,當(dāng)前大多數(shù)機(jī)器人系統(tǒng)在工廠環(huán)境中的表現(xiàn)遠(yuǎn)未達(dá)到商用要求。面對(duì)基礎(chǔ)的裝配操作,實(shí)際上涉及到復(fù)雜的感知、規(guī)劃和控制流程,需要各個(gè)層面的技術(shù)協(xié)調(diào)配合。

更關(guān)鍵的是成功率的嚴(yán)格要求。上述嘉賓表示,在現(xiàn)實(shí)中,工業(yè)場(chǎng)景要求至少90%的成功率,而目前大多數(shù)系統(tǒng)只能達(dá)到10%左右的水平。此外,在操作靈活性和工作效率上,當(dāng)前機(jī)器人表現(xiàn)出的水平也遠(yuǎn)未滿足要求。

談及人形機(jī)器人產(chǎn)業(yè)化落地條件,也同樣存著大量亟待解決的問(wèn)題。

北京人形機(jī)器人創(chuàng)新中心具身大模型負(fù)責(zé)人鞠笑竹表示,需要能夠做到四種能力:多本體、多任務(wù)協(xié)同工作能力、自主學(xué)習(xí)能力、跨本體泛化操作能力和全自主導(dǎo)航能力。

“我們要解決真正的問(wèn)題是,未來(lái)1-2年時(shí)間之內(nèi),現(xiàn)在采集的數(shù)據(jù)訓(xùn)練模型能不能高效復(fù)用到下一步技術(shù)上?跨本體問(wèn)題不解決,那可能采的數(shù)據(jù)作用都會(huì)大打折扣?!本闲χ裾f(shuō),“此外,未來(lái)機(jī)器人進(jìn)入到場(chǎng)景之后,除了采集數(shù)據(jù)、訓(xùn)練部署給到廠家之外,還能做到干中學(xué)的效果,包括解決當(dāng)下被人詬病的自主導(dǎo)航能力——機(jī)器人后面老有一個(gè)遙控器推著?!?/p>

北京人形機(jī)器人創(chuàng)新中心具身大模型負(fù)責(zé)人鞠笑竹

躍入產(chǎn)業(yè)端,企業(yè)需要解決的不單單是技術(shù)問(wèn)題,還存在大量圍繞機(jī)器人運(yùn)行本身需要考慮的供應(yīng)問(wèn)題。在這個(gè)過(guò)程中,產(chǎn)業(yè)端需要一套更加清晰的標(biāo)準(zhǔn)和工具支撐能力。

扎根產(chǎn)業(yè)端,不做機(jī)器人本體,只做“賣(mài)鏟人”,華為云通過(guò)實(shí)踐和探索,給出了一套自己的答案:

“基于華為工具鏈平臺(tái),它圍繞著數(shù)據(jù)生產(chǎn)、具身智能模型訓(xùn)推、評(píng)測(cè),是數(shù)據(jù)閉環(huán)的平臺(tái)。”周順波說(shuō),“這個(gè)閉環(huán)就會(huì)涉及到運(yùn)行態(tài),運(yùn)行態(tài)會(huì)涉及到一些華為傳統(tǒng)的優(yōu)勢(shì),比如多模態(tài)數(shù)據(jù)2D、3D的甚至包括觸覺(jué)的,這些數(shù)據(jù)怎么做無(wú)損壓縮?以及到底計(jì)算是發(fā)生在端側(cè)還是云上,還是邊側(cè),算力怎么自適應(yīng)的卸載等等。”

而在更多資金涌入具身智能行業(yè)的情況下,未來(lái)行業(yè)可能會(huì)率先在哪些領(lǐng)域取得落地成果?

對(duì)此,勢(shì)乘資本合伙人劉英航表示,目前頭部具身智能企業(yè)正在聯(lián)合企業(yè)場(chǎng)景完成一些復(fù)雜挑戰(zhàn),比如進(jìn)工廠擰螺絲。此外,一些人形機(jī)器人的銷(xiāo)售大單去往了商業(yè)表演、導(dǎo)覽、教育科研等行業(yè)。

“我們最近看了一些新項(xiàng)目,大家做的是偏應(yīng)用類(lèi)的,跟具身、AI硬件結(jié)合的項(xiàng)目,他們做的往往都是基于物理世界模型、運(yùn)控能力做了陪伴、戶外、攝影這些能力,其實(shí)這些也回避了交互能力現(xiàn)在不足的點(diǎn)?!眲⒂⒑秸f(shuō),“這塊可能有下一個(gè)大疆的可能性。”

毛繼明則表示,極佳看到了世界模型更適合對(duì)通用性要求更高的泛服務(wù)和家庭場(chǎng)景,所以這兩方面是極佳當(dāng)前的主攻方向。不過(guò)客觀來(lái)講,具身智能確實(shí)更有可能會(huì)在工業(yè)場(chǎng)景和娛樂(lè)場(chǎng)景兩個(gè)領(lǐng)域率先商業(yè)化落地。

“商業(yè)化落地的原則是優(yōu)先選擇其中約束條件明確、技術(shù)難度相對(duì)較低的場(chǎng)景進(jìn)行突破?!?毛繼明表示。工業(yè)場(chǎng)景因?yàn)橛泻芏嗉s束條件在,可以使得企業(yè)有些辦法走捷徑,繞開(kāi)一些通用性、泛化性問(wèn)題,所以被認(rèn)為是最有可能率先實(shí)現(xiàn)突破的領(lǐng)域。

同時(shí),娛樂(lè)場(chǎng)景也被視為一個(gè)快速的突破口?!皧蕵?lè)方向我的判斷它需要像商業(yè)化場(chǎng)景那么嚴(yán)肅,所以有可能通過(guò)其他的點(diǎn)打動(dòng)消費(fèi)者,進(jìn)而形成商業(yè)化的閉環(huán)?!?毛繼明說(shuō)。

回顧過(guò)去三年的投資演進(jìn),從“看人投團(tuán)隊(duì)”到“看demo投項(xiàng)目”再到“看落地”,資本的理性回歸正在推動(dòng)行業(yè)回歸技術(shù)本質(zhì)。

雖然當(dāng)前的融資繁榮與實(shí)際能力之間存在巨大差距,但正如大語(yǔ)言模型經(jīng)歷了從GPT-1到GPT-3的跨越式發(fā)展,具身智能也必將在解決技術(shù)路線過(guò)程中,逐步接近“通用”時(shí)刻。

    本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。

            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2025 上海東方報(bào)業(yè)有限公司

            反饋