本文來源:消費者報道 作者:馮戀閣
近日,自變量機器人舉行了一場發布會,推出新一代機器人進家庭計劃。據介紹,一個月后(5月25日),自變量將推出搭載新一代自研具身智能基礎模型WALL-B的機器人,進入家庭提供服務。簡單來說,WALL-B是一個升級版的機器人大腦,可以讓機器人能真正看懂、理解、搞定真實場景的復雜任務。
![]()
(圖源:《消費者報道》攝)
此前,這家公司已經和58同城合作,用戶通過58同城APP即可預約由人類保潔+機器人提供的智能保潔服務。
近幾年,具身智能市場已經跑出了多家知名行業獨角獸,自變量是其中之一。這家公司在今年1月宣布完成了由字節跳動領投的10億元A++輪融資。除字節外,自變量此前先后獲得美團、阿里的投資。而在日前的發布會上,王潛確認,公司前不久已經完成了B輪融資,由小米戰投領投。
當前,機器人廠商們有的面向表演、有的面向科研,還有的轉向工廠。為什么自變量會選擇押注家庭場景?
機器人住家,倒計時一個月
在這場大會上,最受關注的是自變量機器人即將嘗試常駐家庭服務。自變量表示,自發布會當日起,用戶可通過官方渠道提交申請。
![]()
(圖源:企業供圖)
背后的技術,則是其基于世界統一模型架構(WorldUnifiedModel,WUM)的具身智能基礎模型WALL-B。
由于訓練時使用了大量真實世界數據,WALL-B能夠基本理解重力、慣性等物理常識,可以做到預測物體狀態、零樣本適應新環境。除此之外,WALL-B還能實現長期記憶與自進化。“機器人實際運行中,在推理和執行任務時,會持續進行數據回流、在線運行模型,因此沒有固定迭代周期,而是實時更新自身參數。”自變量創始人兼CEO王潛在接受《消費者報道》等媒體采訪時表示。
但機器人要走進家里,除了高效,更重要的是隱私。
據自變量介紹,搭載了WALL-B的機器人在設備端對原始圖像進行實時打碼處理,原始圖像不離開設備,機器人將處理去除個人特征的場景數據;透明授權,用戶主動按下同意鍵后方可開機;此外,公司也保證做到數據不向第三方共享。
不過王潛也坦言,機器人并不是全然“獨立”地完成任務。目前機器人的每一次清潔任務由公司的綜合智能系統統籌完成。“現階段,受限于技術的發展,機器人的動作相比于人來說依然有差別。”王潛坦言,當前模型仍處于“實習生”階段,會犯錯,需要遠程協助,有時可能把拖鞋放到廚房、擦桌子擦到一半停下來“思考”。但其能夠實現24小時不間斷工作,且每工作一天都會因新數據的產生而變得更“聰明”。
家庭,是自變量今年在應用領域嘗試的重要方向。
此前自變量已經和58同城合作,在深圳推出了智能保潔家庭服務。具體而言,自變量的家務機器人會和保潔阿姨配合提供3小時左右的家庭清潔服務。阿姨和機器人分工明確:機器人主要負責客廳區域的收納和基礎清潔,保潔阿姨承擔與客戶溝通、現場判斷以及更復雜的深度保潔工作。
發布會同日,自變量該項限時智能保潔服務也正式在北京上線,用戶通過58同城APP或微信小程序即可在線預約。
《消費者報道》嘗試在58同城APP上預約智能保潔服務。定位深圳時的預約價格為149元3小時,和該APP上3個小時的人類獨立完成的日常保潔價格接近。
![]()
(圖源:網絡截圖)
據《消費者報道》了解,在去年年底,自變量與招商積余醫養公司(招商觀頤)、深圳技術大學聯合申報的“面向生活照料的智能機器人研發與應用驗證”項目,入選工業和信息化部、民政部聯合發布的《智能養老服務機器人結對攻關與場景應用試點項目公示名單》。
這一項目對失能、半失能老人的日常照料提出六大解決方案,包括基礎護理、監測預警、差異化照護、情感陪伴、健康管理、環境清潔等。
家庭,最好的機器人大腦試煉場?
一個機器人的能力,由“手(運動控制)、眼(視覺)、腦(感知決策)”等共同決定。
自變量自成立以來重點關注的方向,是大腦。
在具身智能大腦領域,一直存在VLA(Vision-Language-Action,視覺-語言-行動)模型、WMA(World-Model–Action,“世界模型+動作策略”)模型等技術路線的討論。
VLA一度被業界視為具身智能的主流技術路徑。2024年底,自變量發布基于VLA架構的第一代具身基礎模型WALL-A,2025年9月,將同樣思路架構下的輕量化模型版本WALL-OSS開源。
在這條技術路徑下,機器人根據視覺輸入和語言指令,執行動作完成任務。
“VLA架構本質上是三個獨立模塊的拼接:視覺模塊負責識別物體,語言模塊理解指令,動作模塊生成軌跡。”自變量聯合創始人兼CTO王昊指出。換言之,VLA技術路徑下,機器人要做的就是讀懂指令,并做出指令對應的動作。
這條路徑相對清晰,但是隨著機器人面對的任務場景逐漸復雜,痛點也開始顯現。
VLA模型只能模仿訓練數據中的軌跡,無法真正理解物理世界的規律。換言之,機器人只能重復被訓練過的動作,并不真正理解自己需要解決的問題。
現實世界是復雜的,機器人要真正投入實用場景,“隨機應變”的能力非常關鍵。這也是自變量研發WALL-B的初心。
在訓練數據層面,WALL-B在預訓練階段同步學習視覺、聽覺、語言、觸覺、動作,多模態輸入,進而能夠實現多模態輸出。
![]()
(圖源:《消費者報道》攝)
自變量拋出了一組相對的概念,“糖水數據”和“牛奶數據”。
行業內大多數訓練模型的數據是前者:來自實驗室,固定光照、固定物體位置、無干擾環境。干凈、可控、量大,但與真實世界差距顯著。
但是對機器人來說后者則更為重要。牛奶數據是采集自真實的現實物理環境,比如家庭的數據。其中有自然光、有隨意擺放的物品,家庭中人類、寵物的移動也相當隨機。復雜度高,而且會有大量的不可控的情況發生。
“工廠環境下,一個動作可以重復一萬次且每次條件相同;而在家庭中,一萬個動作每個可能只做一次,每次的環境條件都不一樣。”王潛表示,家庭環境具有極高的復雜性和非標準化特征,家庭產生的真實世界數據用以訓練,能夠滿足對機器人泛化性的要求。
因此,自變量認為,家庭是具身智能真正的考場。
同時,市場上也客觀存在需求。
去年世界人工智能大會上,王潛在接受媒體采訪時曾表示,自己最關注的不是上市或融資,而是能否給客戶創造價值。當時他表示,還沒發現真正能在實用場景中算出投資回報率(ROI)的商業化落地場景。
今年,王潛在接受《消費者報道》等媒體采訪時透露,自變量整體的主線是要保持基模不斷向前迭代,通過家庭這類最復雜的場景,能夠極大提升模型的通用能力。當具身基模能在家庭中處理各類復雜任務時,本質上就已對其他垂類場景構成降維打擊。反過來看,如果選擇一個一個垂直場景逐步去覆蓋,做大量不同的模型系統,短期內的確可以加速落地,但長期來看,對基模能力的提升作用比較有限。
![]()
(圖源:企業供圖)
他認為,家庭勞動市場背后,有一個規模不小的市場。
單就進入家庭這一場景來看,家務勞動在GDP中的占比約為20%。“人類每天大約會花費1-2小時用于家務,對應職場8小時工作時間,占比接近1/4到1/5,理論上這就是一個體量相當于20%GDP的市場。”王潛表示。
不過他亦透露,目前公司并未設置具體的業績目標。“我們比較關心如何成為首個實現具身智能“Aha Moment(頓悟時刻)的團隊,而非具體的業績節點或研究目標。”王潛認為,家庭只是公司目前技術探索進程上比較適合的落地方向。
在更遠的未來,自變量錨定的是通用機器人市場。在他看來,這一市場未來的對應著難以用數量級衡量的市場價值。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.