- +1
人形機器人等待ChatGPT時刻

離量產(chǎn)已更近一步。
文丨海克財經(jīng) 許俊浩
AI浪潮持續(xù)高漲。
機器人領(lǐng)域頗為典型。由中國機械工業(yè)聯(lián)合會等單位主辦的2025中國機器人產(chǎn)業(yè)發(fā)展大會,近日召開了新聞發(fā)布會。發(fā)布會數(shù)據(jù)顯示,國內(nèi)機器人產(chǎn)業(yè)規(guī)模高速增長,營收已由2020年的1061億元增長到了2024年的2378.9億元;2025年前三季度,國內(nèi)機器人產(chǎn)業(yè)營收同比增長29.5%,工業(yè)機器人產(chǎn)量達59.5萬臺,服務(wù)機器人產(chǎn)量達1350萬套,工業(yè)機器人和服務(wù)機器人產(chǎn)量均已超2024年全年。
作為AI的關(guān)鍵載體與核心落地方向,機器人正為產(chǎn)業(yè)變革注入全新動能。這一趨勢更流行的表述是“具身智能”,后者指具有物理載體的智能體,能夠通過感知、決策與交互能力在現(xiàn)實世界中執(zhí)行任務(wù),并在與環(huán)境互動中持續(xù)進化。具身智能已在推動技術(shù)從算法模型邁向現(xiàn)實世界,進而拓展AI應(yīng)用邊界,為實現(xiàn)通用AI探索更多可能。
從定義看,具身智能不止包括人形或其他形態(tài)的機器人,也包括搭載AI模型的無人機、智能汽車等。具身智能中,人形機器人賽道尤為引人注目。從海外的Figure AI、特斯拉到國內(nèi)的宇樹科技、智元機器人等,全球創(chuàng)新力量帶動行業(yè)疾步向前,不斷刷新。
2025年10月29日,挪威科技公司1X發(fā)布家用人形機器人NEO,以約2萬美元(約合人民幣14.2萬元)的售價或每月499美元(約合人民幣3500元)的月度訂閱費用開放預(yù)訂,計劃于2026年交付。宇樹科技則將人形機器人帶入“雙十一”大促活動,以2.99萬元的價格在京東平臺售賣。
自2022年11月ChatGPT點燃全球AI熱潮,AI迅速進入大眾視野,從遙不可及的高端科技變成人人皆可使用的工具。CNNIC即中國互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的《生成式人工智能應(yīng)用發(fā)展報告(2025)》顯示,截至2025年6月,國內(nèi)生成式人工智能用戶規(guī)模已達5.15億人,普及率為36.5%。

生成式人工智能或稱生成式AI、AIGC的發(fā)展促進了相關(guān)領(lǐng)域,特別是具身智能行業(yè)的發(fā)展,使《我,機器人》《機器人總動員》等科幻作品中的人與機器人共處的場景離現(xiàn)實越來越近。于是,科技巨頭重金押注,創(chuàng)業(yè)公司爭相入場。在這場關(guān)乎科技未來的競爭中,玩家們竭力挖掘護城河,試圖率先創(chuàng)造人形機器人的“ChatGPT時刻”。
01
求解動作難題
如今人形機器人的迭代可謂日新月異。
機器人表演就頗為顯眼。在2025年1月的央視春晚上,宇樹科技機器人H1表演的《秧Bot》僅是根據(jù)節(jié)奏扭動身體和轉(zhuǎn)動手帕,動作相對簡單。到了2025年10月,在舞劇《天工開物》的謝幕環(huán)節(jié)中,宇樹科技機器人已能精準復(fù)現(xiàn)舞者姿態(tài),以流暢的側(cè)翻、后空翻等完成“人機共舞”。
宇樹科技機器人相關(guān)表演視頻在抖音、快手等平臺迅速傳播,目前視頻點贊量已累計超過130萬。有用戶在評論區(qū)發(fā)出感慨說,機器人動作年初看起來還不協(xié)調(diào),沒幾個月已經(jīng)協(xié)調(diào)到這種地步,像是“輸入武功秘籍”了。

機器人的突破性進展是科技發(fā)展數(shù)十年持續(xù)積累的結(jié)果。
要知道,AI奠基者艾倫·圖靈在1950年的論文中就提出過智能必須依托物理實體與外界動態(tài)交互才能形成。只是受限于科技水平,半個多世紀以來,機器人都與真正意義上的具身智能相去甚遠。
在2011年福島核電站事故中,救援現(xiàn)場找不到具備實際作業(yè)能力的成熟機器人,有限的設(shè)備在復(fù)雜輻射環(huán)境中頻頻受困,甚至被散落電纜絆倒,難以執(zhí)行關(guān)鍵任務(wù)。在此之后,DARPA,即美國國防部高級研究計劃局宣布舉辦機器人挑戰(zhàn)賽,旨在推動災(zāi)難救援機器人技術(shù)研發(fā)。
第一屆美國國防部高級研究計劃局機器人挑戰(zhàn)賽2012年10月啟動,直到2015年6月才決出勝者。決賽需要機器人進行抵達任務(wù)區(qū)、自主下車、打開房門、關(guān)閉閘門、借助工具開洞等操作,參賽機器人大多步履蹣跚,頻頻跌倒,多數(shù)都無法完整完成所有操作。獲得冠軍的是韓國KAIST研發(fā)的機器人HuBo,行進時并不是依靠雙足,而是以萬向輪保證機器人的速度和平衡。亞軍則是由波士頓動力研發(fā)的機器人Atlas。
彼時該決賽視頻引發(fā)了公眾熱議——機器人行動遲緩,錯漏百出,與公眾期待的靈敏、智能的助手形象毫不相干。
作為全球頭部人形機器人公司,成立于1992年的波士頓動力曾是行業(yè)先驅(qū)。早在2017年,波士頓動力的Atlas就展示過后空翻。然而,Atlas原先采用的是液壓驅(qū)動系統(tǒng),高強度、高精度的同時還有高能耗、高噪音和高成本的問題,難以商業(yè)化。波士頓動力2013年被谷歌收購、2017年轉(zhuǎn)至軟銀,2021年又被韓國現(xiàn)代收購。軟銀時期,波士頓動力曾以約7.5萬美元(約合人民幣53萬元)的價格將機器狗Spot推向市場,僅售出約400臺。

空翻動作之所以被視為機器人技術(shù)發(fā)展的關(guān)鍵里程碑,在于它系統(tǒng)性融合并推動了機器人硬件設(shè)計、動態(tài)控制與實時決策等多個核心領(lǐng)域的進步。
據(jù)??素斀?jīng)了解,要完成空翻動作,機器人的驅(qū)動系統(tǒng)要瞬間釋放足量功率密度,且高負載持續(xù)時間極短;系統(tǒng)需實時解算包含前后、左右、上下平移及繞三軸旋轉(zhuǎn)的六自由度運動方程,超過0.5度的角度偏差就可能導致落地失衡;機器人腳踝、膝蓋與髖關(guān)節(jié)需要減震緩沖,要求腳掌力傳感器在0.01秒內(nèi)感知地面反作用力并作出響應(yīng)。
以宇樹科技為代表的新玩家舍棄了液壓驅(qū)動方案,選擇純電驅(qū)動技術(shù)路線,克服了原先電力驅(qū)動功率不如液壓驅(qū)動的問題,通過自研高扭矩電機與輕量化結(jié)構(gòu)設(shè)計來保證動作完成性與成本的平衡。比如宇樹G1,用23-43個關(guān)節(jié)電機設(shè)計,最大關(guān)節(jié)扭矩達120N·m,使其即使在側(cè)空翻這類對橫向慣性控制要求極高的動作中仍能維持整體穩(wěn)定。
波士頓動力亦于2024年4月推出了電驅(qū)版Atlas,標志著電驅(qū)技術(shù)路徑獲得更廣泛認可。到了2025年2月,國內(nèi)企業(yè)眾擎機器人成功完成全球首次機器人前空翻,實現(xiàn)了技術(shù)上的重要突破。與前階段常見的后空翻相比,前空翻對機器人的動態(tài)平衡能力、瞬間爆發(fā)力與精準落地控制提出了更高要求。
02
智能從何而來
空翻等高難度動作的突破,意義遠不止于技術(shù)展示。
這些動作能夠系統(tǒng)驗證整機控制系統(tǒng)與關(guān)鍵零部件的成熟度,為機器人在復(fù)雜現(xiàn)實環(huán)境中的應(yīng)用奠定了基礎(chǔ)。在2025年9月的公開演示中,宇樹機器人G1面對連續(xù)推搡與踢打,能夠很快反應(yīng),恢復(fù)至站立狀態(tài),展現(xiàn)出了相當?shù)倪\動智能。
這標志著機器人從實驗室走向復(fù)雜現(xiàn)實世界的進程再度加速。
自2022年AIGC的突破及特斯拉推出機器人Optimus原型機以來,全球人形機器人產(chǎn)業(yè)進入快速發(fā)展期。國泰海通證券2025年11月發(fā)布的一份研報綜合多方數(shù)據(jù)顯示,2024年國內(nèi)人形機器人企業(yè)注冊量為104家,同比增速104%;人形機器人亦是投融資熱點,2025年1-7月,國內(nèi)人形機器人行業(yè)融資達101起,融資額超過260億元,已超過2024年全年融資額;2024年以前,人形機器人行業(yè)處于實驗測試階段,產(chǎn)品性質(zhì)為原型機,規(guī)模多在10臺以內(nèi),2024-2025年,行業(yè)進入試制階段,部分頭部企業(yè)開啟數(shù)十臺至數(shù)百臺的試點交付,2025年以后行業(yè)將進入規(guī)模量產(chǎn)階段。
需要說明的是,機器人行業(yè)玩家根據(jù)業(yè)務(wù)重心可劃分為硬件型與軟件型兩大發(fā)展路徑。硬件型企業(yè)以機器人本體為核心切入點,聚焦關(guān)節(jié)模組、電機、減速器、控制器等關(guān)鍵零部件的自主研發(fā),并重點突破運動控制算法。這類似于人類的“小腦”,其產(chǎn)品通常以載重、速度與運動性能作為主要衡量指標,比如波士頓動力、宇樹科技等。
軟件型企業(yè)則更多從具身智能技術(shù)出發(fā),以前沿的視覺語言大模型、世界模型、仿真合成數(shù)據(jù)等大腦能力作為研發(fā)起點,通常通過外采零部件進行本體集成,重點強調(diào)機器人的認知與決策智能,比如銀河通用。而像特斯拉這樣具備規(guī)?;圃旎A(chǔ)的車企,能夠憑借深厚的硬件制造基因與來自智能駕駛的軟件積累,在機器人領(lǐng)域展現(xiàn)出軟硬一體的全棧能力。

在人工智能技術(shù)尚未成熟階段,機器人完全依賴工程師編寫的精確軌跡代碼執(zhí)行任務(wù),本質(zhì)與傳統(tǒng)的生產(chǎn)設(shè)備并無差異。正如波士頓動力Atlas在2017年展示的后空翻動作,本質(zhì)上仍是預(yù)設(shè)程序的精確執(zhí)行。
之后,機器人學習進入數(shù)據(jù)驅(qū)動階段,通過觀察模仿與反復(fù)試錯自主學習技能。更進一步以后,智能系統(tǒng)與自主學習深度融合,機器人開始能理解抽象指令,在陌生環(huán)境中主動嘗試解決方案,逐步向能應(yīng)對復(fù)雜現(xiàn)實的自主智能體進化。由此,全球玩家在算法上各展所長。
海外頭部玩家Figure AI在2025年2月宣布終止與OpenAI的合作后,轉(zhuǎn)向自研端到端AI模型,據(jù)稱其AI大模型Helix已取得重大技術(shù)突破。Helix首次將雙系統(tǒng)思維引入VLA模型(視覺語言動作模型),系統(tǒng)1專注于實時動作控制,能夠以極高響應(yīng)速度處理視覺信息;系統(tǒng)2擁有強大場景理解和語言解析能力,負責解讀復(fù)雜指令、識別環(huán)境要素,并制定行動規(guī)劃。雙系統(tǒng)架構(gòu)還在模塊化迭代能力方面頗具優(yōu)勢。二者可獨立優(yōu)化,無需重新調(diào)整整體模型。

國內(nèi)玩家智元機器人則于2025年9月宣布全面開源其通用具身基座大模型GO-1,該模型采用了創(chuàng)新的ViLLA架構(gòu),是全球首個采用該架構(gòu)并開源的通用具身智能模型。ViLLA架構(gòu)的全稱為Vision-Language-Latent-Action,能夠通過引入隱式動作標記,有效彌合圖像、文本輸入與機器人最終動作執(zhí)行之間的語義鴻溝,使機器人能夠更準確地理解人類指令并轉(zhuǎn)化為精細動作。
此外還有美國的Physical Intelligence和Skild AI等新玩家,正對世界模型這一前沿領(lǐng)域進行探索,旨在讓機器人構(gòu)建一個內(nèi)在的物理世界模型,從而能夠預(yù)測自己行動的結(jié)果。
03
挑戰(zhàn)依舊頗多
機器人行業(yè)已開始構(gòu)建系統(tǒng)化的技術(shù)發(fā)展框架。
類比L1至L5的自動駕駛分級體系,智元機器人提出了G1至G5的具身智能技術(shù)路線圖。據(jù)??素斀?jīng)了解,G1級針對特定場景定制,缺乏跨場景遷移能力;G2級則能洞察多場景任務(wù),結(jié)合大語言模型實現(xiàn)有限泛化;G3級轉(zhuǎn)向端到端數(shù)據(jù)驅(qū)動,在架構(gòu)層面實現(xiàn)范式轉(zhuǎn)換;G4級引入通用操作大模型與仿真數(shù)據(jù),顯著提升復(fù)雜任務(wù)表現(xiàn);而G5級作為長期目標,將實現(xiàn)從感知到執(zhí)行的完全端到端自主操作。
在機器人技術(shù)邁向更高水平的過程中,泛化是極為重要的挑戰(zhàn)。
所謂泛化,指機器人能夠在不同場景中靈活執(zhí)行多種任務(wù),無需針對每個新場景重新訓練或調(diào)整。就目前來看,機器人在特定環(huán)境下熟練掌握的技能,難以有效遷移到新場景、新任務(wù)或新對象上。它或許可以在實驗室環(huán)境中精準完成抓取動作,但只要更換一個不同形狀的杯子,或改變光照條件,其性能就會顯著下降甚至完全失效。
這一挑戰(zhàn)的根源在于現(xiàn)實世界的無限復(fù)雜性。真實環(huán)境是開放且動態(tài)變化的,物體的形狀、材質(zhì)、擺放角度,以及光線、背景干擾等因素的組合幾乎是無窮盡的。人類無法為所有可能性預(yù)先編程,也難以收集覆蓋所有邊緣情況的訓練數(shù)據(jù)。面對一個反光強烈的桌面、突然出現(xiàn)的寵物,或是形狀特異的日常物品,機器人操作的準確性便會大幅度降低。這意味著真正意義上的自主智能還為時尚早。
被很多網(wǎng)友揶揄的北京亦莊機器人馬拉松賽事即是一例。2025年4月,該人形機器人馬拉松賽事聚集了知名機器人及智能制造生態(tài)企業(yè)超過300家,參賽機器人需要工程師團隊全程跟隨,負責更換電池、處理失衡等突發(fā)狀況。比賽視頻顯示,有的機器人跑著跑著平地摔倒;有的機器人顫顫巍巍,走不出直線;有的機器人甚至直接把頭部摔掉了。

而1X公司Neo機器人的相關(guān)視頻展示了所謂家用機器人的現(xiàn)有水平。Neo完成從3米外冰箱取水的基本操作耗時超過1分鐘,人類完成同樣任務(wù)僅需十幾秒。用戶無法通過“請幫我收拾房間”這樣的自然指令讓機器人理解并執(zhí)行這套復(fù)合任務(wù)。1X公司坦誠展示了遠程操作員的存在,說明當前機器人尚未突破自主應(yīng)對開放環(huán)境的核心技術(shù)瓶頸。
機器人訓練數(shù)據(jù)的獲取與使用也是亟待解決的重點問題。
如果采用虛擬仿真環(huán)境生成訓練數(shù)據(jù),機器人就必須面對Sim-to-Real Gap(仿真與現(xiàn)實差距)的問題。虛擬世界中的物理參數(shù)、傳感器噪聲與環(huán)境交互難以完全還原真實場景的復(fù)雜性,導致在仿真中表現(xiàn)優(yōu)異的算法遷移至實體機器人時出現(xiàn)明顯性能衰減。
如果完全依賴在真實環(huán)境中采集數(shù)據(jù),則面臨高昂的時間成本與硬件損耗,規(guī)?;七M存在現(xiàn)實阻力。比如特斯拉,就選擇整合自有的Dojo訓練中心,讓Optimus人形機器人團隊放棄傳統(tǒng)的動作捕捉技術(shù),轉(zhuǎn)而采用純視頻學習方法,通過讓機器人觀察人類執(zhí)行任務(wù)的視頻錄像,自主提煉行為模式并生成操作策略。

盡管機器人技術(shù)仍面臨諸多挑戰(zhàn),但具身智能作為科技前沿的核心方向,發(fā)展浪潮已不可阻擋。在這一新興賽道,國內(nèi)企業(yè)積極布局并已取得顯著進展,展現(xiàn)出快速跟進的態(tài)勢。
政策層面同樣已釋放出明確支持信號。2025年3月,國務(wù)院發(fā)布的政府工作報告中明確提出,國家將以培育壯大新興產(chǎn)業(yè)、未來產(chǎn)業(yè)作為重點工作方向。報告首次將具身智能與生物制造、量子科技、6G等并列納入未來產(chǎn)業(yè)培育范疇,具身智能發(fā)展由此上升至國家戰(zhàn)略層面。北京、杭州等地也都圍繞具身智能及機器人產(chǎn)業(yè)發(fā)布了針對性政策文件,旨在加速技術(shù)突破和產(chǎn)業(yè)集聚。
就目前來看,機器人演進與智能手機產(chǎn)業(yè)的發(fā)展路徑極為相似。早期各家廠商各自為戰(zhàn),技術(shù)處于路線分化的探索階段,逐步走向關(guān)鍵突破點。正如智能手機的“iPhone時刻”重新定義了移動終端的形態(tài)與生態(tài),機器人領(lǐng)域也將在未來迎來屬于自己的臨界點——當某項技術(shù)或產(chǎn)品以超越用戶預(yù)期的體驗出現(xiàn)時,將迅速推動行業(yè)標準的統(tǒng)一與生態(tài)的成型。
這一突破將不僅僅是技術(shù)參數(shù)的提升,更是用戶體驗的根本性變革。在AI領(lǐng)域,這更像橫空出世的ChatGPT,將AI從實驗室概念轉(zhuǎn)化為生活的日常。量產(chǎn)只是漫長征程的第一步,技術(shù)的加速度已露端倪,科幻作品中的智能機器人走進尋常百姓家的那一天,離我們或已不遠。
本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司




