具身智能公司自變量4月21日發(fā)布世界統(tǒng)一模型WALL-B WorldUnified Model,WUM。
當(dāng)天發(fā)布會(huì)上,自變量宣布推出全球首個(gè)基于世界統(tǒng)一模型架構(gòu)的具身智能基礎(chǔ)模型WALL-B,并宣布35天后搭載該模型的新一代機(jī)器人將首批入駐真實(shí)家庭。
自變量創(chuàng)始人兼CEO王潛以日常場(chǎng)景開(kāi)場(chǎng):“拖鞋不知踢到哪里,廚房的碗還沒(méi)洗,孩子的書(shū)包扔在地上,貓打翻了一杯水。”這幅畫(huà)面揭示了家庭環(huán)境的隨機(jī)與碎片,目前全球沒(méi)有任何一臺(tái)機(jī)器人可以在無(wú)遙控操作的情況下獨(dú)立完成上述場(chǎng)景中的綜合整理任務(wù)。王潛表示,機(jī)器人進(jìn)入家庭被視為這個(gè)時(shí)代最難的技術(shù)問(wèn)題之一。
2024年底,公司發(fā)布基于VLA (Vision-Language-Action)架構(gòu)的第一代具身基礎(chǔ)模型WALL-A,隨后,輕量化模型版本W(wǎng)ALL-OSS開(kāi)源。應(yīng)用方面,自變量與58同城合作,將搭載WALL-AS模型的機(jī)器人送入真實(shí)家庭,與保潔阿姨協(xié)同作業(yè),實(shí)現(xiàn)全球首次機(jī)器人在C端復(fù)雜環(huán)境的大規(guī)模落地。
正是這些真實(shí)家庭的部署,讓團(tuán)隊(duì)看到了VLA架構(gòu)的“天花板”。聯(lián)合創(chuàng)始人兼CTO王昊解釋道,VLA架構(gòu)本質(zhì)上是視覺(jué)(Vision)、語(yǔ)言(Language)、動(dòng)作(Action)三個(gè)獨(dú)立模塊。數(shù)據(jù)每經(jīng)一次模塊邊界就產(chǎn)生信息損耗和延遲。模型只能模仿軌跡,無(wú)法理解物理世界的規(guī)律。
WALL-B 正是對(duì)這一困局的回應(yīng)。它不是WALL-A的下一個(gè)版本,而是一次從底層架構(gòu)到訓(xùn)練范式的全面重寫(xiě)。
從“VLA”到“統(tǒng)一整體”
WALL-B真正區(qū)別于行業(yè)其他方案的核心,是從VLA到WUM的架構(gòu)革命。
在機(jī)器人領(lǐng)域,VLA面臨困境。視覺(jué)、語(yǔ)言、動(dòng)作模塊各自為政,數(shù)據(jù)搬運(yùn)產(chǎn)生的延遲和損耗成為性能瓶頸。視覺(jué)學(xué)到的信息傳到動(dòng)作模塊時(shí),只剩下一個(gè)模糊的摘要。
WALL-B的WUM架構(gòu)將視覺(jué)、語(yǔ)言、動(dòng)作、物理預(yù)測(cè)等能力放在同一個(gè)網(wǎng)絡(luò)從零開(kāi)始訓(xùn)練,消除模塊間的邊界和數(shù)據(jù)搬運(yùn)損耗。
王昊介紹,WALL-B具備三個(gè)核心技術(shù)特點(diǎn),能夠讓機(jī)器人更適配家庭場(chǎng)景。一是原生多模態(tài),模型不需要通過(guò)“傳話(huà)”的方式在不同模塊間轉(zhuǎn)譯信息,比如看到杯子的同時(shí)就能準(zhǔn)備伸手;二是具備物理世界“世界觀”,能夠感知并預(yù)測(cè)重力、慣性、摩擦力、速度等基本物理規(guī)律,利用對(duì)基本物理常識(shí)的理解來(lái)應(yīng)對(duì)新場(chǎng)景,不需要針對(duì)每個(gè)家庭重新訓(xùn)練;三是與世界交互并自我進(jìn)化,這種機(jī)制使模型在真實(shí)環(huán)境中完成自我迭代,無(wú)需工程師重新訓(xùn)練,無(wú)需人工注入新數(shù)據(jù),無(wú)需返回實(shí)驗(yàn)室。
王昊將其類(lèi)比為人類(lèi)學(xué)習(xí)使用筷子的過(guò)程,筷子掉了無(wú)數(shù)次,但每一次失敗都在調(diào)整手上的控制,最終形成穩(wěn)定的技能。WALL-B克服了Transformer 架構(gòu)難以進(jìn)行長(zhǎng)期內(nèi)化記憶的問(wèn)題,所有經(jīng)驗(yàn)以原生多模態(tài)記憶的方式,通過(guò)類(lèi)似人腦記憶的機(jī)制實(shí)現(xiàn)自我更新。
從“糖水”到“牛奶”
目前,行業(yè)內(nèi)大多數(shù)訓(xùn)練模型的數(shù)據(jù)來(lái)自實(shí)驗(yàn)室中的固定、無(wú)干擾環(huán)境。王昊將這類(lèi)實(shí)驗(yàn)室數(shù)據(jù)比喻為“糖水?dāng)?shù)據(jù)”,在真實(shí)環(huán)境中會(huì)迅速失效。與之相對(duì),自變量團(tuán)隊(duì)將進(jìn)入數(shù)百個(gè)志愿者的真實(shí)家庭采集的數(shù)據(jù)比喻為“牛奶數(shù)據(jù)”,嘈雜、多變、充滿(mǎn)隨機(jī)性。自變量的策略為實(shí)驗(yàn)數(shù)據(jù)打底,真實(shí)場(chǎng)景提質(zhì),讓模型學(xué)會(huì)在不確定環(huán)境中生存。真實(shí)隨機(jī)、不可預(yù)測(cè)的現(xiàn)實(shí)數(shù)據(jù)所驅(qū)動(dòng)的數(shù)據(jù)飛輪,才是真正的壁壘。
在商業(yè)化落地方面,自變量的時(shí)間表也已經(jīng)明確。35天后,新一代搭載WALL-B,并根據(jù)家居環(huán)境進(jìn)行硬件升級(jí)的新一代機(jī)器人將入駐首批用戶(hù)的家庭。針對(duì)隱私問(wèn)題,自變量團(tuán)隊(duì)明確給出承諾,機(jī)器視覺(jué)脫敏、用戶(hù)主動(dòng)授權(quán)、用途限定不共享第三方。王潛指出,當(dāng)前模型仍處于“實(shí)習(xí)生”階段,會(huì)犯錯(cuò),需要遠(yuǎn)程協(xié)助,但其能夠?qū)崿F(xiàn)24小時(shí)不間斷工作,且每工作一天都會(huì)因新數(shù)據(jù)的產(chǎn)生而變得更“聰明”。
即日起,自變量開(kāi)始招募首進(jìn)家庭機(jī)器人的家長(zhǎng),用戶(hù)可通過(guò)官方渠道提交申請(qǐng)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.