中文字幕欧美乱伦|手机AV永久免费|澳门堵场日韩精品|日本性爱欧美激情|蜜桃狠狠狠狠狠狠狠狠狠|成人免费视频 国|欧美国产麻豆婷婷|99久久久国产精品福利姬喷水|婷婷内射精品视频|日本欧洲一区二区

澎湃Logo
下載客戶端

登錄

  • +1

具身智能機器人,如何才能活出個“人樣”?

2025-08-04 11:45
來源:澎湃新聞·澎湃號·湃客
字號

1950年,圖靈在其論文《計算機器與智能》中,首次提出具身智能維形,為后來具身智能發(fā)展奠定了理論基礎,同時他還預見了兩條可能的發(fā)展路徑。

一條是“做題家”路線——專注抽象計算,比如下棋、解數(shù)學題,現(xiàn)在的ChatGPT、AlphaGo都是這條路上的“學霸”;另一條是“實干派”路線——讓機器像嬰兒一樣,靠看、聽、摸感知世界,在互動中學習,這就是今天的“具身智能”。

70多年過去,“做題家”們靠著大語言模型火出了圈,但輪到“實干派”機器人上場時,問題來了:讓ChatGPT寫篇文案不難,可讓機器人在你家客廳避開拖鞋、準確撿起遙控器,難如登天。

這就陷入了“莫拉維克悖論”,實現(xiàn)邏輯推理等人類高級智慧的能力對計算機來說只需要相對較少的計算資源,而實現(xiàn)感知、運動等低等級智慧卻需要巨大的計算資源。

畢竟,真實世界從來沒有“標準答案”——地板可能滑、光線會變化,連你隨手放的水杯都可能讓機器人“卡殼”。

具身智能必須跨越“三道關口”

具身智能的終極目標,是讓機器人像人一樣在真實世界“生存”。但這條路,比想象中難太多。特別是在理解力、聯(lián)想力和交互能力等方面,仍然未能完全滿足公眾的期望。

綜合來看,具身智能在其發(fā)展過程中面臨著多項挑戰(zhàn),這些挑戰(zhàn)源自于其發(fā)展過程中的復雜性和不斷變化的需求。

首先,是要搞定亂糟糟的真實世界,適應非結構化真實環(huán)境。傳統(tǒng)人工智能習慣了“按劇本演戲”,比如工廠流水線上,只要零件位置固定,機械臂就能精準操作。可具身智能機器人要面對的是“無劇本現(xiàn)場”,比如家里的貓突然跑過、超市貨架被顧客碰歪、工地上突然刮風等等。

具身智能在這種環(huán)境中,信息的稀缺和場景的多變性,要求人工智能系統(tǒng)具備更加先進和靈活的計算能力,以便能夠適應環(huán)境的不斷變化和不確定性。這不僅是一個數(shù)據(jù)處理的問題,更是對人工智能系統(tǒng)感知和適應能力的全面考驗。

其次,要發(fā)展更高級的認知策略,學會多感官聯(lián)動。人類之所以厲害,是因為能同時用眼睛看、耳朵聽、手觸摸,把信息“揉”在一起理解世界。比如看到一杯水,摸一下就知道燙不燙,不用先去查“水溫標準”。

具身智能同樣需要模仿這種高效的多模態(tài)融合過程,以更全面地理解和適應其所處的環(huán)境。這包括但不限于對三維空間中物體的精確識別和定位,以及對環(huán)境變化和內在聯(lián)系的動態(tài)捕捉。

此外,具身智能還需要超越傳統(tǒng)的計算模型對靜態(tài)數(shù)據(jù)處理,發(fā)展出對事物的動態(tài)變化和相互關系的深層次理解。這不僅關系到對時間和空間信息的處理,還涉及到理解其他生物(尤其是人類)的意圖和行為動機,從而實現(xiàn)更自然、更智能的人機協(xié)同。

第三,要補上人類同款的思考力。現(xiàn)在的機器人,更像高級工具——你說“掃地”,它就掃;你沒說,它不會主動想到“今天該擦窗了”,問題出在元認知能力上——即對信息處理過程本身的監(jiān)控和反思能力。簡單說,就是反思自己在做什么。人類會想“剛才記的事對不對”“這個方法好不好用”,但機器人還不會。比如你讓它“把紅色杯子放桌上”,它可能把粉色杯子當成紅色遞過來,還自信滿滿。

更關鍵的是終身學習的能力。人類小時候學過走路,長大后學騎自行車一點不費勁,可機器人換個場景就可能失憶。在工廠學會擰螺絲,到家里擰瓶蓋可能就傻眼了。想讓機器人真能獨當一面,還得讓它們像人一樣,越用越聰明。

目前,具身智能在靈活性和應變能力方面,尤其是在多變的實際應用環(huán)境中,仍處于初級探索階段。要實現(xiàn)這一目標,具身智能不僅需要具備強大的決策和控制能力,還需對各種任務有深入的理解和精準的規(guī)劃。

當前的人工智能系統(tǒng)主要依賴于算法和數(shù)據(jù)驅動的學習方法,但在實時學習和處理大量數(shù)據(jù)方面存在局限。因此,為了更好地適應復雜環(huán)境,具身智能需要突破這些限制,向生物體那樣的自然和連續(xù)學習模式邁進。

撕掉“機械執(zhí)行”標簽

如果說,具身智能是機器人的“靈魂”,那感知層就是它連接現(xiàn)實的“第一道門”。這一層的核心任務,是把雜亂無章的物理世界轉化為機器能理解的數(shù)字信號,就像人類用眼睛看、耳朵聽、皮膚感知溫度一樣,它的秘訣在于多模態(tài)傳感器融合和動態(tài)環(huán)境建模兩項關鍵技術。

多模態(tài)傳感器融合讓機器人“五感全開”。人類通過視覺、聽覺、觸覺等多種感官認識世界,機器人則靠“傳感器軍團”實現(xiàn)這一點。

視覺上,雙目攝像頭和3D激光雷達能捕捉物體的形狀、位置甚至紋理;觸覺上,柔性電子皮膚能感知壓力和溫度,就像機器人的“指尖神經(jīng)”;力覺傳感器則能精準測量關節(jié)受力,避免動作過大損壞物體。

比如特斯拉Optimus機器人,其搭載了28個關節(jié)傳感器,這些傳感器能夠精確感知機器人關節(jié)的運動狀態(tài)和受力情況。同時,配合先進的視覺神經(jīng)網(wǎng)絡,0ptimus機器人能夠對周圍環(huán)境中的物體進行識別和定位,實現(xiàn)毫米級的物體定位精度,從而使其在復雜的環(huán)境中能夠準確地執(zhí)行各種任務,如抓取特定物體、避開障礙物等。

動態(tài)環(huán)境建模讓機器人“畫”出實時地圖。真實世界永遠在變化:倉庫里的貨架會被移動,客廳里的拖鞋可能被踢到新位置,馬路上的行人更是隨時改變路線。這就需要機器人能“邊走邊畫地圖”,并預測障礙物的動向——這正是SLAM(同步定位與地圖構建)技術的功勞。

比如物流倉庫的配送機器人,它能通過SLAM實時構建三維空間模型,結合強化學習算法預測其他機器人或工人的行走軌跡。這項技術讓機器人在復雜場景中的路徑規(guī)劃成功率從75%飆升到92%,再也不會像無頭蒼蠅一樣在貨架間打轉,大大提升了配送效率。

光有“感知”還不夠,機器人還得學會“思考”,這就是認知層的任務。它接收來自感知層的原始數(shù)據(jù),經(jīng)過分析、決策,最終生成行動指令,相當于給機器人裝上了“會推理的大腦”,它主要包括分層決策架構和世界模型構建兩個關鍵部分。

分層決策架構把復雜任務拆成“積木”。面對“整理桌面”這樣的指令,人類會自然拆解為“識別物品→規(guī)劃擺放順序→動手整理”,機器人也需要類似的邏輯。以OpenAI的Figure 01為例,采用了一種高效的策略控制系統(tǒng)、環(huán)境交互系統(tǒng)和行為控制系統(tǒng)的分層設計。

策略控制系統(tǒng)先“讀懂”指令,“整理桌面”意味著要把散亂的文件、杯子分類歸位。

環(huán)境交互系統(tǒng)結合感知層的數(shù)據(jù)“制定步驟”,先撿離自己最近的杯子,再疊好文件,避開桌上的筆記本電腦。

行為控制系統(tǒng)最后“翻譯”成動作,控制機械臂彎曲角度、調整移動軌跡,確保每個動作精準執(zhí)行。

這種“拆解-執(zhí)行”模式,讓機器人能應對多步驟復雜任務,而不是只會做單一指令的工具人。

世界模型讓機器人像孩子一樣“積累經(jīng)驗”。人類的智慧來自于“經(jīng)驗歸納”——小時候摸過熱水杯,就知道燙的東西不能碰;機器人也需要通過互動建立自己的知識庫,這就是世界模型的作用。

通過模擬人類認知發(fā)展過程,機器人在與環(huán)境的不斷交互中,逐步建立起“物體屬性-空間關系-因果邏輯”的知識庫。

就像兒童在成長過程中通過觸碰不同溫度的物體,逐漸感知到“熱”與“冷”的概念。機器人在反復抓取不同物體后,會自主總結出規(guī)律:表面光滑的玻璃杯子要輕握,棱角分明的積木可以稍用力;溫度超過70℃的物體需要戴“隔熱手套”。這種“物體屬性→行動策略”的映射,讓機器人越來越“懂”世界,遇到新物體時也能快速找到應對方法,就像人類觸類旁通的能力。

認知層的決策最終要靠行動落地,行動層就是機器人的“執(zhí)行終端”——它既要讓機器人動得靈活,又要保證和人類協(xié)作時的安全,它主要涉及仿生驅動技術和人機共融安全設計兩個方面。

想讓機器人像人類一樣跑跳、抓取,就得模仿生物的運動機制。波士頓動力的Atlas機器人用液壓伺服系統(tǒng)提供強大動力,能完成2.5米高跳,在崎嶇地面上健步如飛;越疆Dobot的靈巧手更厲害,12個自由度的設計讓它能擰螺絲、疊紙船,操作誤差小于0.1毫米,能夠讓其在精密制造和手術領域大顯身手。

當機器人走進家庭、醫(yī)院,“不傷人”是底線。行動層的安全設計暗藏玄機:力控傳感器能實時監(jiān)測接觸力度,一旦超過5N(大約相當于拿起一個蘋果的力氣),緊急停機算法會在0.2秒內讓機器人“凍住”;柔性外殼則像給機器人套上“防撞墊”,就算不小心碰到老人或孩子,也不會造成傷害。

從感知層的“捕捉世界”,到認知層的“理解世界”,再到行動層的“改造世界”,這三層架構讓機器人逐漸擺脫“機械執(zhí)行”的標簽,向“能感知、會思考、善行動”的智能體進化。

具身智能遭遇“成長的煩惱”

“在實驗室是學霸,到了現(xiàn)實就變學渣”,這是當前具身智能最突出的痛點。

研究數(shù)據(jù)顯示,現(xiàn)有模型在非訓練場景中的任務完成率僅為65%。以機器人抓取任務為例,經(jīng)過大量訓練的機器人,面對未在訓練集中出現(xiàn)過的物體擺放角度時,抓取成功率會大幅下降。

根源在于,模型難以將特定場景下學到的知識和技能,有效遷移到全新的、多樣化的場景中,就像學生只會做例題,換個題型就束手無策。

為了打破這一困局,研究人員將希望寄托于小樣本學習與元學習技術。小樣本學習讓模型在少量樣本中快速適應新任務,元學習則專注于“學習如何學習”,幫助模型掌握新任務的學習策略。兩種技術雙管齊下,正逐步提升機器人在不同場景中的“舉一反三”能力。

即便解決了泛化問題,能耗與成本仍是橫亙在具身智能大規(guī)模應用前的兩座大山。

當前主流人形機器人的續(xù)航普遍不足2小時,這在物流配送等需要長時間作業(yè)的場景中,意味著頻繁充電會嚴重拖慢效率。

而成本問題更讓人卻步:核心部件如伺服電機、精密減速機等大多依賴進口,單臺機器人成本超過50萬元,讓許多企業(yè)和個人望而卻步。

破局之道已在探索中。能耗優(yōu)化方面,新型電池技術和高效能源管理系統(tǒng)的研發(fā),正致力于延長機器人續(xù)航;成本控制方面,一方面加大核心部件自主研發(fā),推動國產化替代,另一方面通過優(yōu)化生產工藝和供應鏈,從源頭降低成本。

隨著具身智能在醫(yī)療、交通等關鍵領域的滲透,倫理與安全問題日益凸顯。

人機協(xié)作中的權責劃分至今模糊:醫(yī)療手術中若機器人誤操作致患者受傷,責任該歸制造商、醫(yī)生還是醫(yī)院?更復雜的是道德困境——自動駕駛汽車面臨緊急情況時,該如何做出符合倫理的決策?

這些問題的答案,藏在技術標準與法規(guī)體系的完善中。明確人機協(xié)作的權責關系,規(guī)范機器人設計、生產和使用的全流程,才能確保技術創(chuàng)新始終走在安全與倫理的軌道上。

三大方向改變具身智能成長軌跡

技術的突破從不因困境而止步,具身智能的未來正呈現(xiàn)三大清晰方向。

多模態(tài)大模型融合是具身智能未來發(fā)展的重要方向。以Google RT-2等端到端模型為代表,通過在互聯(lián)網(wǎng)上的海量數(shù)據(jù)進行預訓練,這些模型能夠學習到豐富的通用概念,并將其轉化為機器人的動作指令。

RT-2模型可以讓機器人理解“把紅色杯子放到桌子上”這樣的自然語言指令,并通過視覺識別找到對應的物體,完成抓取和放置動作,大大提高了機器人與人類交互的效率和靈活性。

在面對新任務時,它們僅需少量樣本即可快速適配,展現(xiàn)出強大的泛化能力和語義理解能力。這種融合模式推動具身智能從“專用”走向“通用”,使機器人能夠處理更加復雜多樣的任務。

其次,輕量化硬件創(chuàng)新對于提升具身智能的性能和降低成本具有重要意義。

仿生肌肉驅動技術模仿生物肌肉的工作原理,為機器人提供更加靈活和高效的動力輸出,同時降低能耗。神經(jīng)形態(tài)林片則模擬人類大腦的神經(jīng)元結構和工作方式,具有低功耗、高并行性的特點,能夠顯著提高機器人的計算效率和響應速度。

預計到2028年,隨著這些技術的不斷成熟和應用,人形機器人的續(xù)航能力將突破6小時,成本有望降至20萬元以下。這將為人形機器人在家庭、服務等領域的大規(guī)模應用奠定基礎,使其能夠更加廣泛地融入人們的日常生活。

虛實協(xié)同進化是具身智能發(fā)展的又一重要趨勢。通過數(shù)字孿生技術,在虛擬環(huán)境中構建與現(xiàn)實世界1:1映射的虛擬模型,機器人可以在虛擬環(huán)境中進行百萬次的訓練,快速學習和優(yōu)化各種技能。

之后,結合現(xiàn)實場景中的實際數(shù)據(jù)進行微調,進一步提高機器人在真實環(huán)境中的任務執(zhí)行能力。這種虛實結合的訓練方式使機器人習得技能的效率提升10倍以上。

例如,在工業(yè)制造中,機器人可以先在虛擬環(huán)境中進行復雜裝配任務的模擬訓練,優(yōu)化操作流程和動作路徑,然后在實際生產中準確高效地完成任務,減少試錯成本,提高生產效率和產品質量。

具身智能不僅是人工智能技術邁入物理世界的重要形態(tài),更是人工智能從“云端”走向“實體”的關鍵跨越。當智能體具備感知溫度、理解意圖、靈活應變的能力,其角色將從“工具”轉變?yōu)椤皡f(xié)作伙伴”。

在這場重塑人機關系的技術革命中,具身智能正掀開“智能體物理化”的新篇章,預示著一個機器能“理解、適應、共創(chuàng)”的未來即將到來。當每一個深處其中的人,都從“炫技亢奮”回歸到“問題敬畏”,或許才是未來的真正起點。

    本文為澎湃號作者或機構在澎湃新聞上傳并發(fā)布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務許可證:31120170006

            增值電信業(yè)務經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業(yè)有限公司

            反饋