下載客戶端

登錄

人形機器人等待ChatGPT時刻

2025-11-06 20:03

來源：澎湃新聞·澎湃號·湃客

離量產(chǎn)已更近一步。

文丨海克財經(jīng) 許俊浩

AI浪潮持續(xù)高漲。

機器人領(lǐng)域頗為典型。由中國機械工業(yè)聯(lián)合會等單位主辦的2025中國機器人產(chǎn)業(yè)發(fā)展大會，近日召開了新聞發(fā)布會。發(fā)布會數(shù)據(jù)顯示，國內(nèi)機器人產(chǎn)業(yè)規(guī)模高速增長，營收已由2020年的1061億元增長到了2024年的2378.9億元；2025年前三季度，國內(nèi)機器人產(chǎn)業(yè)營收同比增長29.5%，工業(yè)機器人產(chǎn)量達59.5萬臺，服務(wù)機器人產(chǎn)量達1350萬套，工業(yè)機器人和服務(wù)機器人產(chǎn)量均已超2024年全年。

作為AI的關(guān)鍵載體與核心落地方向，機器人正為產(chǎn)業(yè)變革注入全新動能。這一趨勢更流行的表述是“具身智能”，后者指具有物理載體的智能體，能夠通過感知、決策與交互能力在現(xiàn)實世界中執(zhí)行任務(wù)，并在與環(huán)境互動中持續(xù)進化。具身智能已在推動技術(shù)從算法模型邁向現(xiàn)實世界，進而拓展AI應(yīng)用邊界，為實現(xiàn)通用AI探索更多可能。

從定義看，具身智能不止包括人形或其他形態(tài)的機器人，也包括搭載AI模型的無人機、智能汽車等。具身智能中，人形機器人賽道尤為引人注目。從海外的Figure AI、特斯拉到國內(nèi)的宇樹科技、智元機器人等，全球創(chuàng)新力量帶動行業(yè)疾步向前，不斷刷新。

2025年10月29日，挪威科技公司1X發(fā)布家用人形機器人NEO，以約2萬美元（約合人民幣14.2萬元）的售價或每月499美元（約合人民幣3500元）的月度訂閱費用開放預(yù)訂，計劃于2026年交付。宇樹科技則將人形機器人帶入“雙十一”大促活動，以2.99萬元的價格在京東平臺售賣。

自2022年11月ChatGPT點燃全球AI熱潮，AI迅速進入大眾視野，從遙不可及的高端科技變成人人皆可使用的工具。CNNIC即中國互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的《生成式人工智能應(yīng)用發(fā)展報告（2025）》顯示，截至2025年6月，國內(nèi)生成式人工智能用戶規(guī)模已達5.15億人，普及率為36.5%。

生成式人工智能或稱生成式AI、AIGC的發(fā)展促進了相關(guān)領(lǐng)域，特別是具身智能行業(yè)的發(fā)展，使《我，機器人》《機器人總動員》等科幻作品中的人與機器人共處的場景離現(xiàn)實越來越近。于是，科技巨頭重金押注，創(chuàng)業(yè)公司爭相入場。在這場關(guān)乎科技未來的競爭中，玩家們竭力挖掘護城河，試圖率先創(chuàng)造人形機器人的“ChatGPT時刻”。

求解動作難題

如今人形機器人的迭代可謂日新月異。

機器人表演就頗為顯眼。在2025年1月的央視春晚上，宇樹科技機器人H1表演的《秧Bot》僅是根據(jù)節(jié)奏扭動身體和轉(zhuǎn)動手帕，動作相對簡單。到了2025年10月，在舞劇《天工開物》的謝幕環(huán)節(jié)中，宇樹科技機器人已能精準復(fù)現(xiàn)舞者姿態(tài)，以流暢的側(cè)翻、后空翻等完成“人機共舞”。

宇樹科技機器人相關(guān)表演視頻在抖音、快手等平臺迅速傳播，目前視頻點贊量已累計超過130萬。有用戶在評論區(qū)發(fā)出感慨說，機器人動作年初看起來還不協(xié)調(diào)，沒幾個月已經(jīng)協(xié)調(diào)到這種地步，像是“輸入武功秘籍”了。

機器人的突破性進展是科技發(fā)展數(shù)十年持續(xù)積累的結(jié)果。

要知道，AI奠基者艾倫·圖靈在1950年的論文中就提出過智能必須依托物理實體與外界動態(tài)交互才能形成。只是受限于科技水平，半個多世紀以來，機器人都與真正意義上的具身智能相去甚遠。

在2011年福島核電站事故中，救援現(xiàn)場找不到具備實際作業(yè)能力的成熟機器人，有限的設(shè)備在復(fù)雜輻射環(huán)境中頻頻受困，甚至被散落電纜絆倒，難以執(zhí)行關(guān)鍵任務(wù)。在此之后，DARPA，即美國國防部高級研究計劃局宣布舉辦機器人挑戰(zhàn)賽，旨在推動災(zāi)難救援機器人技術(shù)研發(fā)。

第一屆美國國防部高級研究計劃局機器人挑戰(zhàn)賽2012年10月啟動，直到2015年6月才決出勝者。決賽需要機器人進行抵達任務(wù)區(qū)、自主下車、打開房門、關(guān)閉閘門、借助工具開洞等操作，參賽機器人大多步履蹣跚，頻頻跌倒，多數(shù)都無法完整完成所有操作。獲得冠軍的是韓國KAIST研發(fā)的機器人HuBo，行進時并不是依靠雙足，而是以萬向輪保證機器人的速度和平衡。亞軍則是由波士頓動力研發(fā)的機器人Atlas。

彼時該決賽視頻引發(fā)了公眾熱議——機器人行動遲緩，錯漏百出，與公眾期待的靈敏、智能的助手形象毫不相干。

作為全球頭部人形機器人公司，成立于1992年的波士頓動力曾是行業(yè)先驅(qū)。早在2017年，波士頓動力的Atlas就展示過后空翻。然而，Atlas原先采用的是液壓驅(qū)動系統(tǒng)，高強度、高精度的同時還有高能耗、高噪音和高成本的問題，難以商業(yè)化。波士頓動力2013年被谷歌收購、2017年轉(zhuǎn)至軟銀，2021年又被韓國現(xiàn)代收購。軟銀時期，波士頓動力曾以約7.5萬美元（約合人民幣53萬元）的價格將機器狗Spot推向市場，僅售出約400臺。

空翻動作之所以被視為機器人技術(shù)發(fā)展的關(guān)鍵里程碑，在于它系統(tǒng)性融合并推動了機器人硬件設(shè)計、動態(tài)控制與實時決策等多個核心領(lǐng)域的進步。

據(jù)?？素斀?jīng)了解，要完成空翻動作，機器人的驅(qū)動系統(tǒng)要瞬間釋放足量功率密度，且高負載持續(xù)時間極短；系統(tǒng)需實時解算包含前后、左右、上下平移及繞三軸旋轉(zhuǎn)的六自由度運動方程，超過0.5度的角度偏差就可能導致落地失衡；機器人腳踝、膝蓋與髖關(guān)節(jié)需要減震緩沖，要求腳掌力傳感器在0.01秒內(nèi)感知地面反作用力并作出響應(yīng)。

以宇樹科技為代表的新玩家舍棄了液壓驅(qū)動方案，選擇純電驅(qū)動技術(shù)路線，克服了原先電力驅(qū)動功率不如液壓驅(qū)動的問題，通過自研高扭矩電機與輕量化結(jié)構(gòu)設(shè)計來保證動作完成性與成本的平衡。比如宇樹G1，用23-43個關(guān)節(jié)電機設(shè)計，最大關(guān)節(jié)扭矩達120N·m，使其即使在側(cè)空翻這類對橫向慣性控制要求極高的動作中仍能維持整體穩(wěn)定。

波士頓動力亦于2024年4月推出了電驅(qū)版Atlas，標志著電驅(qū)技術(shù)路徑獲得更廣泛認可。到了2025年2月，國內(nèi)企業(yè)眾擎機器人成功完成全球首次機器人前空翻，實現(xiàn)了技術(shù)上的重要突破。與前階段常見的后空翻相比，前空翻對機器人的動態(tài)平衡能力、瞬間爆發(fā)力與精準落地控制提出了更高要求。

智能從何而來

空翻等高難度動作的突破，意義遠不止于技術(shù)展示。

這些動作能夠系統(tǒng)驗證整機控制系統(tǒng)與關(guān)鍵零部件的成熟度，為機器人在復(fù)雜現(xiàn)實環(huán)境中的應(yīng)用奠定了基礎(chǔ)。在2025年9月的公開演示中，宇樹機器人G1面對連續(xù)推搡與踢打，能夠很快反應(yīng)，恢復(fù)至站立狀態(tài)，展現(xiàn)出了相當?shù)倪\動智能。

這標志著機器人從實驗室走向復(fù)雜現(xiàn)實世界的進程再度加速。

自2022年AIGC的突破及特斯拉推出機器人Optimus原型機以來，全球人形機器人產(chǎn)業(yè)進入快速發(fā)展期。國泰海通證券2025年11月發(fā)布的一份研報綜合多方數(shù)據(jù)顯示，2024年國內(nèi)人形機器人企業(yè)注冊量為104家，同比增速104%；人形機器人亦是投融資熱點，2025年1-7月，國內(nèi)人形機器人行業(yè)融資達101起，融資額超過260億元，已超過2024年全年融資額；2024年以前，人形機器人行業(yè)處于實驗測試階段，產(chǎn)品性質(zhì)為原型機，規(guī)模多在10臺以內(nèi)，2024-2025年，行業(yè)進入試制階段，部分頭部企業(yè)開啟數(shù)十臺至數(shù)百臺的試點交付，2025年以后行業(yè)將進入規(guī)模量產(chǎn)階段。

需要說明的是，機器人行業(yè)玩家根據(jù)業(yè)務(wù)重心可劃分為硬件型與軟件型兩大發(fā)展路徑。硬件型企業(yè)以機器人本體為核心切入點，聚焦關(guān)節(jié)模組、電機、減速器、控制器等關(guān)鍵零部件的自主研發(fā)，并重點突破運動控制算法。這類似于人類的“小腦”，其產(chǎn)品通常以載重、速度與運動性能作為主要衡量指標，比如波士頓動力、宇樹科技等。

軟件型企業(yè)則更多從具身智能技術(shù)出發(fā)，以前沿的視覺語言大模型、世界模型、仿真合成數(shù)據(jù)等大腦能力作為研發(fā)起點，通常通過外采零部件進行本體集成，重點強調(diào)機器人的認知與決策智能，比如銀河通用。而像特斯拉這樣具備規(guī)?；圃旎A(chǔ)的車企，能夠憑借深厚的硬件制造基因與來自智能駕駛的軟件積累，在機器人領(lǐng)域展現(xiàn)出軟硬一體的全棧能力。

在人工智能技術(shù)尚未成熟階段，機器人完全依賴工程師編寫的精確軌跡代碼執(zhí)行任務(wù)，本質(zhì)與傳統(tǒng)的生產(chǎn)設(shè)備并無差異。正如波士頓動力Atlas在2017年展示的后空翻動作，本質(zhì)上仍是預(yù)設(shè)程序的精確執(zhí)行。

之后，機器人學習進入數(shù)據(jù)驅(qū)動階段，通過觀察模仿與反復(fù)試錯自主學習技能。更進一步以后，智能系統(tǒng)與自主學習深度融合，機器人開始能理解抽象指令，在陌生環(huán)境中主動嘗試解決方案，逐步向能應(yīng)對復(fù)雜現(xiàn)實的自主智能體進化。由此，全球玩家在算法上各展所長。

海外頭部玩家Figure AI在2025年2月宣布終止與OpenAI的合作后，轉(zhuǎn)向自研端到端AI模型，據(jù)稱其AI大模型Helix已取得重大技術(shù)突破。Helix首次將雙系統(tǒng)思維引入VLA模型（視覺語言動作模型），系統(tǒng)1專注于實時動作控制，能夠以極高響應(yīng)速度處理視覺信息；系統(tǒng)2擁有強大場景理解和語言解析能力，負責解讀復(fù)雜指令、識別環(huán)境要素，并制定行動規(guī)劃。雙系統(tǒng)架構(gòu)還在模塊化迭代能力方面頗具優(yōu)勢。二者可獨立優(yōu)化，無需重新調(diào)整整體模型。

國內(nèi)玩家智元機器人則于2025年9月宣布全面開源其通用具身基座大模型GO-1，該模型采用了創(chuàng)新的ViLLA架構(gòu)，是全球首個采用該架構(gòu)并開源的通用具身智能模型。ViLLA架構(gòu)的全稱為Vision-Language-Latent-Action，能夠通過引入隱式動作標記，有效彌合圖像、文本輸入與機器人最終動作執(zhí)行之間的語義鴻溝，使機器人能夠更準確地理解人類指令并轉(zhuǎn)化為精細動作。

此外還有美國的Physical Intelligence和Skild AI等新玩家，正對世界模型這一前沿領(lǐng)域進行探索，旨在讓機器人構(gòu)建一個內(nèi)在的物理世界模型，從而能夠預(yù)測自己行動的結(jié)果。

挑戰(zhàn)依舊頗多

機器人行業(yè)已開始構(gòu)建系統(tǒng)化的技術(shù)發(fā)展框架。

類比L1至L5的自動駕駛分級體系，智元機器人提出了G1至G5的具身智能技術(shù)路線圖。據(jù)?？素斀?jīng)了解，G1級針對特定場景定制，缺乏跨場景遷移能力；G2級則能洞察多場景任務(wù)，結(jié)合大語言模型實現(xiàn)有限泛化；G3級轉(zhuǎn)向端到端數(shù)據(jù)驅(qū)動，在架構(gòu)層面實現(xiàn)范式轉(zhuǎn)換；G4級引入通用操作大模型與仿真數(shù)據(jù)，顯著提升復(fù)雜任務(wù)表現(xiàn)；而G5級作為長期目標，將實現(xiàn)從感知到執(zhí)行的完全端到端自主操作。

在機器人技術(shù)邁向更高水平的過程中，泛化是極為重要的挑戰(zhàn)。

所謂泛化，指機器人能夠在不同場景中靈活執(zhí)行多種任務(wù)，無需針對每個新場景重新訓練或調(diào)整。就目前來看，機器人在特定環(huán)境下熟練掌握的技能，難以有效遷移到新場景、新任務(wù)或新對象上。它或許可以在實驗室環(huán)境中精準完成抓取動作，但只要更換一個不同形狀的杯子，或改變光照條件，其性能就會顯著下降甚至完全失效。

這一挑戰(zhàn)的根源在于現(xiàn)實世界的無限復(fù)雜性。真實環(huán)境是開放且動態(tài)變化的，物體的形狀、材質(zhì)、擺放角度，以及光線、背景干擾等因素的組合幾乎是無窮盡的。人類無法為所有可能性預(yù)先編程，也難以收集覆蓋所有邊緣情況的訓練數(shù)據(jù)。面對一個反光強烈的桌面、突然出現(xiàn)的寵物，或是形狀特異的日常物品，機器人操作的準確性便會大幅度降低。這意味著真正意義上的自主智能還為時尚早。

被很多網(wǎng)友揶揄的北京亦莊機器人馬拉松賽事即是一例。2025年4月，該人形機器人馬拉松賽事聚集了知名機器人及智能制造生態(tài)企業(yè)超過300家，參賽機器人需要工程師團隊全程跟隨，負責更換電池、處理失衡等突發(fā)狀況。比賽視頻顯示，有的機器人跑著跑著平地摔倒；有的機器人顫顫巍巍，走不出直線；有的機器人甚至直接把頭部摔掉了。

而1X公司Neo機器人的相關(guān)視頻展示了所謂家用機器人的現(xiàn)有水平。Neo完成從3米外冰箱取水的基本操作耗時超過1分鐘，人類完成同樣任務(wù)僅需十幾秒。用戶無法通過“請幫我收拾房間”這樣的自然指令讓機器人理解并執(zhí)行這套復(fù)合任務(wù)。1X公司坦誠展示了遠程操作員的存在，說明當前機器人尚未突破自主應(yīng)對開放環(huán)境的核心技術(shù)瓶頸。

機器人訓練數(shù)據(jù)的獲取與使用也是亟待解決的重點問題。

如果采用虛擬仿真環(huán)境生成訓練數(shù)據(jù)，機器人就必須面對Sim-to-Real Gap（仿真與現(xiàn)實差距）的問題。虛擬世界中的物理參數(shù)、傳感器噪聲與環(huán)境交互難以完全還原真實場景的復(fù)雜性，導致在仿真中表現(xiàn)優(yōu)異的算法遷移至實體機器人時出現(xiàn)明顯性能衰減。

如果完全依賴在真實環(huán)境中采集數(shù)據(jù)，則面臨高昂的時間成本與硬件損耗，規(guī)?；七M存在現(xiàn)實阻力。比如特斯拉，就選擇整合自有的Dojo訓練中心，讓Optimus人形機器人團隊放棄傳統(tǒng)的動作捕捉技術(shù)，轉(zhuǎn)而采用純視頻學習方法，通過讓機器人觀察人類執(zhí)行任務(wù)的視頻錄像，自主提煉行為模式并生成操作策略。

盡管機器人技術(shù)仍面臨諸多挑戰(zhàn)，但具身智能作為科技前沿的核心方向，發(fā)展浪潮已不可阻擋。在這一新興賽道，國內(nèi)企業(yè)積極布局并已取得顯著進展，展現(xiàn)出快速跟進的態(tài)勢。

政策層面同樣已釋放出明確支持信號。2025年3月，國務(wù)院發(fā)布的政府工作報告中明確提出，國家將以培育壯大新興產(chǎn)業(yè)、未來產(chǎn)業(yè)作為重點工作方向。報告首次將具身智能與生物制造、量子科技、6G等并列納入未來產(chǎn)業(yè)培育范疇，具身智能發(fā)展由此上升至國家戰(zhàn)略層面。北京、杭州等地也都圍繞具身智能及機器人產(chǎn)業(yè)發(fā)布了針對性政策文件，旨在加速技術(shù)突破和產(chǎn)業(yè)集聚。

就目前來看，機器人演進與智能手機產(chǎn)業(yè)的發(fā)展路徑極為相似。早期各家廠商各自為戰(zhàn)，技術(shù)處于路線分化的探索階段，逐步走向關(guān)鍵突破點。正如智能手機的“iPhone時刻”重新定義了移動終端的形態(tài)與生態(tài)，機器人領(lǐng)域也將在未來迎來屬于自己的臨界點——當某項技術(shù)或產(chǎn)品以超越用戶預(yù)期的體驗出現(xiàn)時，將迅速推動行業(yè)標準的統(tǒng)一與生態(tài)的成型。

這一突破將不僅僅是技術(shù)參數(shù)的提升，更是用戶體驗的根本性變革。在AI領(lǐng)域，這更像橫空出世的ChatGPT，將AI從實驗室概念轉(zhuǎn)化為生活的日常。量產(chǎn)只是漫長征程的第一步，技術(shù)的加速度已露端倪，科幻作品中的智能機器人走進尋常百姓家的那一天，離我們或已不遠。

特別聲明

本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機構(gòu)觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#具身智能 #AI大模型 #AI #人形機器人