![]()
作者:呂鑫燚
出品:具身研習社
春晚聚光燈照亮了具身智能一個顯性的變化。
2025年,宇樹H1的亮相尚處于技術驗證階段。彼時,其僅能完成基礎舞蹈動作,運動控制能力缺乏集中化展示,整機動態軌跡的流暢度不足,且在自主移動與地面適應性上存在不足之處,表明人形機器人從實驗室技術向實用化產品轉型的階段性瓶頸。
進入2026年馬年春晚,宇樹攜G1與H2兩款人形機器人重磅登場,以全球首次全自主人形機器人集群武術表演刷新行業認知。16臺機器人組成的集群實現了快速跑位,完成醉拳、雙截棍、舞劍等高難度武術動作,手持長棍與武術表演者精準配合,并實現道具的快速更換與穩定抓持。
![]()
短短一年間,無論是運動控制還是操作軌跡絲滑度和群體協同,具身智能都展現了質的飛躍。
舞臺之外,具身智能的作業智能也邁過涌現時刻,核心突破在于長序列任務執行與柔性物體操控兩大技術難點的規模化落地。尤其是已經出色完成行業公認的高難度任務動作“疊衣服”。該動作涉及柔性形變感知、時序動作規劃、精細力控反饋等全鏈路挑戰,是具身智能從結構化場景走向非結構化場景的關鍵壁壘。
在我們驚嘆于機器人高難度動作時,更值得穿透“炫技”表象,探究其背后的產業范式革命。最核心的疑問在于:機器人的能力躍升,僅僅是技術參數的堆砌嗎?
答案顯然是否定的。
無論是通過umi等方式緩解“數據饑渴”,還是借助閉環反饋填平“虛實鴻溝”,這些技術迭代都只是具身智能躍遷的“表層切面”。真正推動行業質變的,是底層思考邏輯的根本性重構。機器人正在告別“照貓畫虎”的模仿學習路徑,轉向“理解世界、預判未來”的模式。
用一個通俗的熱梗形容,人形機器人乃至整個具身智能領域,正在集體“開智”。
不過,這場“開智”革命并非單一路徑的勝利。當下,支撐這一范式轉變的技術路線已分化為幾大核心派系,不同技術邏輯的碰撞與融合,正共同定義著具身智能的產業走向。
![]()
“開智”的核心錨點在于其智能基座——模型。作為控制感知、決策與執行的“神經中樞”,模型的架構設計直接決定機器人理解物理世界、適配復雜任務的能力邊界,而這場關于“如何讓機器人真正開智”的產業競賽,正圍繞VLA架構的演進與爭議進入深水區。
行業曾形成明確共識:人形機器人的能力突破離不開端到端VLA(Vision-Language-Action,視覺-語言-動作)架構的核心驅動。這種通過融合視覺感知、語言理解與動作生成三大模態,打破了傳統“感知-規劃-控制”分層架構的信息損耗難題,實現端到端閉環。
![]()
谷歌DeepMind、智元機器人等中外企業的技術落地,印證了其在結構化場景中適配準確率,也逐步成為人形機器人從實驗室走向商業化的核心技術底座。
但隨著需求側向非結構化場景、長序列復雜任務的延伸,VLA架構的“萬金油”屬性逐漸失效。
例如,王興興就曾評價行業常見的VLA模型,屬于“傻瓜式架構”,對這類模型持懷疑態度。此外,多個業內人士也開始討論VLA模型究竟是具身智能的終局,還是一種階段性的過渡方案。
其實這些爭議看起來是“口水戰”,但其焦點最終匯聚于一個核心命題:“VLA中的L(語言)是否必要?”這場行業思辨的蔓延,本質是對具身智能底層邏輯的重新審視。
此前業內過度關注語言的必要性,是從LLM中吸取的成功經驗,但具身智能需要和物理世界進行真正的交互,而這種交互的骨架是否依舊為語言,目前尚不得知。李飛飛在a16z播客訪談中曾提到,“語言從根本上來說是一種純粹生成的信號,世界上本沒有語言”
![]()
星海圖CTO趙行表示,具身智能需要平行于大語言模型的“Large Action Model”,這類模型要以“動作”為核心,而非語言。他解釋道,人類智能的進化是“先有動作、再有視覺、最后有語言”,機器人要適應物理世界,也應該遵循類似邏輯。
這場架構之爭的本質,無關單一技術路線的優劣,而指向一個更根本的產業命題:機器人到底該以何種方式理解世界?是通過人類語言這一“間接符號”,還是通過動作與環境的 “直接交互”構建認知?或者是以世界模型為核心,讓機器人在自己世界里“腦補”動作流,進而更絲滑的在真實世界執行?
業內逐漸形成的共識是,具身智能的終局架構,必然是對物理世界認知邏輯的精準抽象。它可能保留VLA架構的跨模態融合優勢,也可能剝離冗余的語言中介,但其核心必須適配機器人作為物理實體的交互本質,實現“感知-決策-執行”與物理世界規律的深度對齊。
![]()
由此可見,當業內在尋找下一個模型架構時,模型的打開方式成為重中之重。即我們該如何知道機器人究竟需要什么樣的模型架構?
答案早已藏在機器人落地的底層邏輯中:那些真正轉化為生產力的人形機器人,無不是聽懂了場景訴求、從真實交互中生長而來;模型架構的進化,同樣需要回歸機器人與世界對話的原生方式。
說白了,機器人到底該如何理解世界,這個事機器人自己已經給出答案了。
機器人在真實工作場景中,無論是疊衣服還是擰螺絲,其本質都是要具備“長時序記憶與實時反饋能力”“動態場景的隨機應變能力”。這兩大能力的核心,絕非簡單的“記住過往數據”,而是“預判未來狀態”。
舉個例子,人類執行疊衣服、裝配零件等任務時,不會逐幀依賴視覺反饋,而是會基于物理常識預判下一步動作的結果:疊襯衫時提前預判布料的褶皺走向,擰螺絲時預判扭矩達到閾值后的狀態。機器人要實現同樣的“絲滑操作”,關鍵便在于將“記憶”升級為“預測”,通過模型推演未來多幀的場景變化與動作后果。
這些重點不在于“記住”而是“預測”。
誰能捏準這個邏輯,誰才是真正把機器人模型架構這個事玩明白了。螞蟻靈波開源的具身世界模型LingBot-VA,就是將“先預測、再動作”的架構邏輯推向極致。
該模型創新性地提出自回歸視頻-動作世界建模框架,核心突破在于將“預測世界狀態”與“生成動作序列”深度綁定,實現了“邊預測,邊動作”。簡單來說就是,該模型不再是機械地執行預設指令,而是在每一步操作時,大腦都在實時推演接下來的畫面。
![]()
想象一下你在干精細活之前,是不是腦海里已經知道每一個步驟該怎么做,也知道這個動作完事后物體會有什么樣的變化。
LingBot-VA不止和人類思維模式相同。其工作中的特性,也和人類高度重合。能記住自己剛剛干了什么,還能真正擁有泛化,和人類一樣學會了洗盤子,就會洗碗,做到舉一反三。就連清洗細小的透明試管的高精度任務,LingBot-VA加持下機器人已經是可以輕松拿捏。
英偉達的DreamGen,也是同樣的路子,先生成視頻,再反推動作。它把基礎模型架構分為上下兩個部分,上半部分是一個視頻模型,負責預測未來;下半部分負責看著預測出來的視頻,反推并輸出動作。
插個題外話,英偉達DreamGen推出時,有業內人士曾評價這是一條被寄予厚望的技術路線。不過從當下的視角來看,其也沒有跑通閉環。
問題出在哪?現實世界是充滿變量的,一旦機器人在執行中出現微小的物理偏差(比如手滑了一下),由于視頻是提前生成好的,模型無法實時修正畫面,機器人只能硬著頭皮按原計劃走,導致“腦子想的和手做的”徹底脫節。
不過,這并不代表DreamGen是一次失敗的嘗試。相反,它的出現從產業層面印證了一個關鍵判斷:世界模型是機器人在真實物理世界作業的核心支撐,只是在當時尚未抵達產業臨界點。而LingBot-VA的問世,才真正補齊了最后一塊短板,成為具身世界模型完整閉環跑通的標志性拐點。
歸根結底,“用機器人的視角打開世界”,本質是讓模型架構回歸物理世界的本質規律,機器人不需要像人類一樣通過語言理解“重力”“摩擦力”,但需要通過預測能力感知這些物理規則;不需要記住每一個場景的操作參數,但需要能推演不同場景下的動作后果。
這種以“預測”為核心的架構邏輯,恰好契合了機器人與物理世界交互的原生需求:擺脫對人類認知中介(語言)的依賴,直接通過“預測-行動”的閉環,建立與世界的直接連接。
而這,正是具身智能走向“適配世界”的重要跨越。
![]()
從現在的視角來看,我們該思考的并不囿于LingBot-VA架構,而是這條架構跑通后,具身智能將迎來什么樣的革新。
一個清晰的變化是,具身世界模型有望成為具身智能關鍵能力,也是具身智能的重要基座。
支撐這一轉變的是其融合了“世界模型”與 “物理動作反饋閉環”。這并非簡單的技術疊加,而是深度融合。世界模型為機器人搭建起可預判、可推演的虛擬世界,提前模擬動作后果與環境變化;物理動作反饋則將現實交互中的數據實時回灌模型,持續校準虛擬與現實的偏差,形成自進化閉環。
它不僅從根源上重構了機器人理解物理世界的底層邏輯,讓機器人擺脫對人工指令、標注數據與固定軌跡的依賴,更成為破解非結構化場景適配難、長時序任務穩定性差、柔性操作精度不足等行業落地瓶頸的核心能力支柱。
站在產業視角審視,我們不應該否認VLA的貢獻,也不能盲目推崇VA的未來。而是站在機器人的視角來看世界,聽機器人自己說需要什么樣的模型架構。
這場模型架構變革,是產業更清醒的信號之一,也是具身智能走向規模化商用的關鍵一躍。模型架構的底層突破,直接決定了機器人的泛化能力、作業精度與落地成本,將推動行業從舞臺化的技術展示,走向工業、家政、特種作業等真實場景的生產力釋放;也將為整機研發、場景方案、商業化落地劃定清晰的技術主線。具身智能集體 “開智”,春晚只是開始
原創呂鑫燚具身研習社2026年2月18日 09:39吉林
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.