夢瑤 發自 凹非寺
量子位 | 公眾號 QbitAI
問:老了以后誰給你養老?答:機器人啊!!!
原本,這只是網友們拿來應對家長催婚的擺爛式回答,誰成想,這下真·魔幻照進現實了……
因為嘛——能在真實家庭場景24小時在崗,持續理解世界并不斷自我進化的機器人大腦,這回真的來了。(驚呆.jpg)
就在剛剛,自變量機器人發布了全球首個世界統一模型架構的具身智能基礎模型:WALL-B。
![]()
AI生成
基于世界統一模型,WALL-B解決了傳統VLA架構在模塊間數據搬運上的bug點——
在極低數據消耗下,把視覺、聽覺、語言、觸覺模塊全面打通,讓機器人不僅具備原生多模態能力,也開始真正理解物理世界的規律。
不僅如此,WALL-B還讓機器人擁有了更強的自主預測、零樣本泛化以及在真實環境中持續生存的能力——
很多過去在家庭場景里需要人反復示范、手把手教的活兒,如今機器人已經可以《干中學》,真·越干越聰明。
這下好了,機器人成為家庭成員這事兒,這回真指日可待了???
首個世界統一模型,來了!
鏡頭前面耍大刀,左腳雞毛腿,右手出硬拳!
這兩年,鏡頭里的小機器人一個比一個會整活兒,隨便拎出來一個,都挺像那么回事???
而這一波「機器人突然變能干了」的背后,靠的正是過去兩年行業最主流的一條技術路線——VLA架構。
也就是把視覺、語言和動作連起來,讓機器人從過去只會執行單一動作,進化到能看、能聽、能跟著指令干活。
但,熱鬧歸熱鬧,一個行業里越來越藏不住的現實也擺在眼前——
VLA確實很擅長讓機器人學會照著做,但一旦涉及對物理世界的理解,尤其是在家庭這種充滿隨機和未知情況的環境中執行任務時,就不太ok了…
![]()
更麻煩的是,傳統VLA內部很多時候還是「分頭干活」的路子。
視覺管看,語言管理解,動作管執行,模塊之間數據來回倒騰,每傳一次就損耗一次,信息越傳越少,以至于機器人在執行時的判斷也來越不準確……
而WALL-B走的,恰恰是另一條相反的路徑——
基于世界統一模型,把視覺、聽覺、語言、觸覺模塊全面打通,讓機器人擁有一套具備「原生多模態」「世界觀」「與世界交互」能力的大腦。
從看見到理解再到行動,機器人這下也真正懂得物理世界,可以成為家庭的一員了。
世界統一模型:機器人也開始像人一樣理解世界了
大家有沒有思考過一個問題——為啥機器人很難像人一樣在真實世界里自然干活?
一層是對外部世界的預測能力,另一層是身體本身具備多模態協同能力,語言、聽覺、視覺、動作可以同時運轉、彼此聯動。
機器人難就難在這里。
它缺的從來不只是某一個單點能力,真正卡住它的,是感知、理解、預測、執行這些環節很難像人一樣順暢連起來。
而世界統一模型要解決的,正是機器人大腦里長期存在的大bug:那就是解決「模塊間數據搬運」這個根本問題。
這個思路和蘋果M1芯片的演變過程很類似。
在M1芯片前,CPU、NPU、GPU都是分開的,三個芯片之間每搬一次就有一次延遲,每搬一次就有很多損耗。
后來蘋果干脆直接用統一內存架構,把不同計算單元放進同一套共享體系里,數據流轉路徑大幅縮短,整機性能也因此上了一個level~
![]()
△AI生成
而在WALL-B身上,M1芯片這種打通模塊壁壘的能力,也被真正沉到了模型底層——
基于世界統一模型,WALL-B將機器人的視覺、聽覺、語言、觸覺等能力放進同一個網絡里進行同步訓練,讓各模塊分別工作走向整套系統協同運轉。
而這套架構為小機器人們帶來的第一個關鍵能力,就是「原生多模態」。
簡單理解就是,解決「看見」和「行動」之間的信息折損問題,把視覺、語言、動作、觸覺直接打通。
讓機器人能夠根據看到的畫面進行直接反應,哪怕面對門把手,它也能知道推門時應該用多大的力度去推~
而這背后體現的,正是架構本身的多模態輸入、多模態輸出能力,將感知與執行真正連在一起,讓小機器人們能直接理解環境,也能直接生成行動。
![]()
△AI生成
但是話又說話來,小機器人們光是能看見、能動作,其實還遠遠不夠。
事實上,到了真實家庭場景中,機器人要面對的從來都不是標準題,而是一堆隨時會冒出來的《臨場狀況》。
比如地上有一灘剛灑出來的水,但很多傳統基于VLA架構的機器人面對這個場景,往往只能停留在看到了地面顏色不一樣。
即便識別出地上有水,也未必明白「滑」意味著風險,更不會主動把這件事和繞行、清理、避險這些動作聯系起來。
而這也是世界統一模型賦予小機器人們的第二個能力,那就是讓機器人擁有自己的「世界觀」。
不只讓機器人看到世界,更開始讓機器人讀懂世界,建立起對現實規律的判斷,理解物體背后的狀態、關系和后果。
![]()
△AI生成
但這還遠遠不夠。
因為要讓真正機器人理解世界,除了理解世界和原生多模態能力外,還有另一件事:經驗會不會被留下來。
但,這恰恰也是當下很多VLA系統的一道檻——
它們可以完成任務,卻很難像人一樣在真實環境里邊做邊學、越做越熟,任務一失敗,小機器人就舉手投降……
而基于世界統一模型,WALL-B進一步往前走了一步——它讓機器人擁有了「與世界交互」的能力。
也就是從實踐中不斷學習的能力,并且把成功的經驗更新到自己的模型參數里,下次遇到同樣的處境問題時就知道怎么解決了,這樣模型就完成了一次進化。
更關鍵的是,這種進化并不依賴工程師反復回收數據、重新訓練、重新部署,機器人直接就能在真實世界里通過不斷嘗試、不斷反饋、不斷修正,完成自我迭代。
(不是,怎么突然感覺好勵志啊??)
能力躍遷:機器人也有“眼力見”了
其實說到這兒,大家也確實感覺出基于世界統一模型的WALL-B模型,確實有「億點點」不一樣。
但是吧,在具體的任務執行能力上,WALL-B能做的,還不止這億點點。
大家都知道,機器人想在物理世界里自主干活,首先得有一雙真正看得懂世界的眼睛。
對于傳統命令式或遙控式機器人來說,它認一個杯子,很多時候更像是在對答案,數據庫里見過這個,就知道這是杯子;換個樣子、換個擺法,它可能就有點懵了。
而WALL-B為機器人大腦補上的,是一套更接近人類認知方式的「部件級理解」能力——
讓機器人不僅認得這是杯子,還認得它是什么材質、把手朝哪邊、現在是什么狀態、應該從哪里下手更合適。
讓機器人真正具備所見即所認、觸類旁通的視覺理解的真本領。
![]()
△AI生成
不僅如此,這套架構帶來的價值,還讓WALL-B第一次具備了更接近生物體的「原生本體感」。
給友友簡單解釋一下,就是機器人不用依賴大量外部傳感器反復確認位置,就能知道自己的身體邊界和動作范圍。
它天生就清楚自己有多高、多寬,手臂能伸到哪里,轉身會不會碰到東西,動作該留出多少余量~
有朋友該說了,讓機器人知道這些有啥用啊?(好問題.jpg)
事實上,機器人要想在家庭這類復雜空間里穩定工作,前提就是先對自己有足夠了解。
只有知道自己的身體結構、運動極限和空間占位,它在拿取、移動、轉身、避障時,動作才會更自然也更穩定!!
![]()
△AI生成
與此同時,基于世界統一模型,WALL-B還具備強大的「零樣本泛化能力」。
大白話說就是,哪怕面對從沒見過的物體、場景和任務,機器人也不一定非要見過同款才能上手。
通過對物理世界的理解,機器人學到的已經不只是某個具體案例,而是更底層的結構關系、交互邏輯和操作規律。
既能理解環境,也能理解自己;既能執行當前任務,也能在與世界持續互動中不斷調整和進化。
作為中國首個基于世界統一模型的具身基礎模型,WALL-B打破了命令式機器人、遙控式機器人在真實家庭場景中依賴預設指令、難以應對變化、缺乏自主處理能力的局限。
既為行業提供了可量化、可復制的系統能力參考,也為家庭服務和工業應用場景的模型部署樹立了新的行業樣本。
從進入家庭到自我進化,數據飛輪開始自轉
在具身智能行業,一個很難不承認的事實是:最核心的資源并非算法本身,而是支撐算法持續進化的高質量訓練數據。
其實這也是為啥很多看起來動作很酷炫的機器人,一到真實場景里就容易《露怯》。
而問題就出在數據源頭,當前大多數機器人訓練的數據都是「實驗室數據」——
環境、任務都是可控且固定的,機器人幾乎也是在蜜罐里長大的,糖水雖然甜,但并不會增強孩子本身的抵抗力。
自變量機器人為這類實驗室數據起了一個非常有意思的名字,叫「糖水數據」。
對應到機器人訓練里,就是數據量大、足夠干凈、采集成本相對可控,模型也更容易快速學出一套標準動作。
![]()
△AI生成
可問題也很直接:機器人最終要面對的,從來都不是一間永遠整齊、永遠明亮、永遠按腳本運行的房間。
也正因如此,自變量還提出了另一組相對的概念,叫「牛奶數據」——也就是真實家庭場景里產生的數據。
牛奶數據更像是真正有營養的日常飯,家庭環境雖然復雜、嘈雜、充滿變化,但訓練價值也更高。
就比如同一個「拿杯子」的任務,放到100個家庭里,幾乎就會遇到100種擺放方式、100種干擾條件,對于機器人來說每一次伸手,幾乎都像在面對一道新題……
當然,牛奶數據也有一個行業都清楚的難點:太難采。
它沒法靠搭幾個標準場景批量復制,也沒法在封閉實驗室里低成本生成,團隊得把機器人真正帶進家庭,一家一家去跑,一次一次去試,在真實使用中記錄動作、失敗、修正和反饋。
但恰恰是這條最難走的路,才更接近做出「零樣本泛化」模型的答案。
![]()
△AI生成
結果您猜怎么著——自變量團隊,真就把機器人帶進了100個家庭里了。(好家伙.jpg)
當機器人持續進入真實家庭運行之后,整個系統會逐步形成一個不斷自我強化的正向循環:
機器人在家庭里執行任務,積累日常交互數據,這些數據反過來推動模型繼續迭代,模型能力提升后,又能進入更多家庭、承擔更多任務、采回更多高價值數據。
當這個循環真正跑起來,數據就已經不只是訓練階段的一次性投入,而會變成模型持續成長的燃料,變成系統能力不斷外溢的源頭,最終形成一個越轉越快、越轉越強的數據飛輪。
實驗室數據幫機器人打基礎,真實家庭數據讓機器人開始長出「見過世面」的能力,而這也讓WALL-B構建起難以復刻的最高壁壘。
![]()
△AI生成
其實放眼整個具身智能賽道,行業最缺的從來都不是一兩個會翻跟頭、會做展示動作的機器人。
真正稀缺的,是能夠在真實世界里持續學習、持續適應、持續進化的系統能力。
從這個意義上看,WALL-B的價值并不只是在于進了100個家庭,也不只是在于采到了多少條真實數據,而是在于它率先驗證了一條更接近終局的路徑——
讓機器人從實驗室里學會動作,再到真實家庭里學會生活;讓模型從被動接受訓練,逐步走向在真實世界中主動完成進化。
讓機器人真正融入家庭,這一次,想象成真了
說實話,這兩年我們看到了太多在視頻里花樣演示的機器人——
翻跟頭、打拳跑跳,一個比一個熱鬧,但熱鬧歸熱鬧,很多能力依然停留在demo演示層面。
一旦離開預設環境進入真實世界,泛化能力、主動性,以及對周圍環境的理解能力,往往還是差了一截。
這其實也解釋了,為什么很多人一提到家庭機器人,第一反應往往還是有點模糊:它到底還能幫我們做什么?
我們習慣了它掃地、拖地,卻很少認真想過,機器人有沒有可能進一步接手那些生活里很細碎、很日常、甚至已經被我們默只能自己做的小事。
![]()
△AI生成
理由很簡單——家庭場景幾乎是機器人最難應付、也最難偽裝的考場。
也正因如此,自變量選擇讓機器人真正入駐家庭這一步,才顯得格外有分量。
讓機器人真正走進家庭、直接面對用戶,需要的從來不只是技術能力,還有把產品交給真實世界檢驗的勇氣。
在與家庭成員持續交互的過程中,WALL-B能夠讓機器人逐漸理解生活節奏、習慣偏好,并把這些經驗沉淀為自己的能力。
這樣一來,機器人承擔的角色也在變,它開始從一個執行指令的設備,慢慢進入家庭日常運轉的內部,成為更貼近生活的人力補充。
或許呢,我們可以把想象力再往外擴展那么億點點——
沒準過不了多久,在家政和養老這事兒上也能隨處可見小機器人的身影了~
隨著這些能力在真實場景中不斷沉淀,自變量機器人大腦也已然進入全新階段。
而在這過程中,自變量機器人也讓整個行業第一次更清晰地看到,家庭場景并不是一個停留在想象里的終點,而是具身智能真正能夠訓練能力、驗證能力、放大能力的關鍵現場。
WALL-B帶著它那顆聰明的腦子在驗證一種更接近未來的路徑,而自變量機器人也給整個具身智能行業提供了一個可參考、可觀察、也更有現實感的發展樣本。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.