家庭具身智能最大訂單與 99% 真機成功率同時落地，真機交付時代

2026-05-22 20:39:13　來源: 機器人大講堂

安徽舉報

分享至

臥安機器人CEO李志晨在談及具身智能下一階段競爭時說，核心在于“高質(zhì)量真實世界數(shù)據(jù)的獲取和利用效率”。

這句話看似老生常談，但如果將它放在臥安切入的家庭具身智能場景以及技術(shù)架構(gòu)里審視，背后或許是一條與主流VLA路線截然不同的邏輯。

具身智能行業(yè)正在經(jīng)歷一次認知分層。站在2026年中點往回看，過去十八個月里，全球涌現(xiàn)了數(shù)十家人形機器人公司，融資總額突破百億美元，演示視頻的精度和流暢度每隔幾個月就會刷新一次公眾預(yù)期。但真正能拿到客戶訂單、能在非結(jié)構(gòu)化真實場景持續(xù)部署、能把數(shù)據(jù)閉環(huán)跑通的，屈指可數(shù)。

如果說，熱鬧的上半場，考驗的是PPT和原型機；冷靜的下半場，考驗的是數(shù)據(jù)工程能力、場景積累深度，以及能把兩者轉(zhuǎn)化為模型迭代速度的組織能力。

聚焦家庭場景的臥安機器人，在五月連續(xù)打出的兩張牌，罕見兼顧了落地和模型的突破。其近日以4495.32萬元中標深圳市“AI生態(tài)創(chuàng)新社區(qū)設(shè)備購置與場地搭建項目”，為目前公開可查的家庭家務(wù)場景中最大規(guī)模的具身智能數(shù)據(jù)基礎(chǔ)設(shè)施訂單。

兩天后，公司發(fā)布自研世界動作模型OneModel1.7 FrontoStria-RL，在標準評測基準LIBERO上以99%的平均成功率超越π0.5、GR00T-N1.5等主流模型，日常操作任務(wù)真機成功率同樣達到99%。

當整個具身智能行業(yè)仍在爭論VLA模型與世界模型誰更優(yōu)越時，臥安已經(jīng)建立一條從數(shù)據(jù)基礎(chǔ)設(shè)施到模型訓練的閉環(huán)，而4500萬訂單的本質(zhì)，是它為自己鋪設(shè)的家庭場景“數(shù)據(jù)飛輪”，也在累高這家企業(yè)的真正護城河。

01.

從商業(yè)化先行到基礎(chǔ)設(shè)施延伸

家庭場景是具身智能最性感的敘事，也是最殘酷的考場。為什么家庭場景如此之難？不是機械臂不夠靈活，而是環(huán)境太不“規(guī)矩”。實驗室里的桌面永遠是干凈的，燈光永遠充足，物體位置永遠固定。但在真實的家庭中，沒有兩間完全相同的廚房，沒有兩個擺放一致的桌面，每天的任務(wù)組合也在不斷變化。機器人不僅需要精確完成開門、疊衣、端碗、收納等具體動作，還需要面對陌生物品、變化光照、不同戶型時仍然能夠理解任務(wù)并做出合理行動。

這正是家庭場景數(shù)據(jù)采集難度遠高于工業(yè)場景的本質(zhì)原因。工業(yè)場景的變量是可控的，數(shù)據(jù)邊際成本隨著規(guī)模擴張快速下降。而家庭場景中，每多一個戶型、一種光照、一件家具、一項任務(wù)組合，都可能引入全新的數(shù)據(jù)維度。據(jù)行業(yè)測算，全球機器人行業(yè)擁有的具身智能交互數(shù)據(jù)僅幾百萬條，而實際商業(yè)化所需的數(shù)據(jù)規(guī)模可能達到數(shù)千萬甚至上億條。家庭場景的數(shù)據(jù)缺口，在其中占據(jù)了相當?shù)谋壤?/p>

臥安此次中標項目的核心價值，尤其體現(xiàn)在家庭服務(wù)場景的數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)上。家庭場景的搭建包含標準家庭單元和主題功能單元，覆蓋客餐廚、臥室、衛(wèi)生間、陽臺等空間，圍繞收納、整理、取放、開合等高頻真實生活任務(wù)采集數(shù)據(jù)。臥室里被子的疊法、廚房里鍋鏟的握持角度、陽臺上的晾衣手勢，這些在工業(yè)機器人的世界里不存在的“瑣碎任務(wù)”，恰恰是家庭具身智能必須攻克的核心。

這也可以解釋為什么家庭場景的數(shù)據(jù)資產(chǎn)有著獨特的戰(zhàn)略價值。工業(yè)場景的數(shù)據(jù)結(jié)構(gòu)性強、可仿真度高，合成數(shù)據(jù)能夠以較低成本覆蓋大部分訓練需求。但家庭場景的非結(jié)構(gòu)化程度遠高于工業(yè)場景，真正高質(zhì)量的家庭操作數(shù)據(jù)，目前幾乎只能通過真機在真實環(huán)境中采集。這種數(shù)據(jù)稀缺性本身就是一道天然的競爭壁壘。

臥安切入家庭具身智能這道難題的方式，不是通過燒錢堆硬件，而是試圖利用商業(yè)化領(lǐng)先優(yōu)勢，把真實世界的部署規(guī)模轉(zhuǎn)化為數(shù)據(jù)積累速度。公開信息顯示，臥安機器人產(chǎn)品目前已覆蓋全球90余個國家和地區(qū)。這個數(shù)字背后，是持續(xù)運轉(zhuǎn)的真實場景數(shù)據(jù)采集通道，每一次成功的任務(wù)執(zhí)行都是一條有效軌跡，每一次失敗的嘗試都是一個有價值的邊界樣本。這正是實驗室數(shù)據(jù)無法替代的東西，其能獲得更多真實物理接觸的噪聲、真實光照條件的變化、真實用戶行為的隨機性。

在這樣的背景下，此次中標的深圳項目，是臥安在這條路徑上的一次主動放大。因為該中標項目，本質(zhì)上是一套具身智能數(shù)據(jù)工廠的系統(tǒng)集成工程。項目將配置臥安自研的onero H1移動雙臂具身機器人、UMI數(shù)據(jù)采集終端、穿戴式遙操作數(shù)據(jù)采集系統(tǒng)，并同步建設(shè)覆蓋多類真實應(yīng)用場景的物理環(huán)境。

這意味著其不是一個展示用的樣板間，而是一個可以規(guī)模化、可復(fù)現(xiàn)地產(chǎn)出訓練數(shù)據(jù)的物理工廠。這套基礎(chǔ)設(shè)施一旦運轉(zhuǎn)，產(chǎn)出的將是覆蓋真實家庭場景、經(jīng)過系統(tǒng)化標注、可直接用于具身模型訓練的高質(zhì)量數(shù)據(jù)集。而這類數(shù)據(jù)，正是當前整個行業(yè)最稀缺的生產(chǎn)資料。

02.

數(shù)據(jù)荒漠里的“賣鏟人”有多貴

具身智能的數(shù)據(jù)窘境已經(jīng)不是什么秘密。大語言模型GPT-5的訓練語料折合約100億小時，而全行業(yè)匯聚的高質(zhì)量具身數(shù)據(jù)僅約50萬小時，差距以萬倍計。人形機器人單條數(shù)據(jù)采集加工成本達50至500元，日均僅能產(chǎn)出200至1000條，而傳統(tǒng)工業(yè)機器人單條成本不到1元，日均產(chǎn)出超過10萬條。這就是整個行業(yè)正在經(jīng)歷的“數(shù)據(jù)荒漠”。

在此基礎(chǔ)上，數(shù)據(jù)采集訓練場卻正在成為全國性“新基建”。據(jù)不完全統(tǒng)計，北京、天津、上海、鄭州、無錫、蘇州、成都等十余座城市均在2025年后啟動或建成了具身智能數(shù)據(jù)采集訓練場。QYResearch數(shù)據(jù)顯示，2024年全球具身智能數(shù)據(jù)采集工廠市場規(guī)模約為7.53億美元，預(yù)計到2031年將達67.52億美元，年復(fù)合增長率36.8%。例如臥安不僅拿下了國內(nèi)基礎(chǔ)4500萬的標桿大單，旨在建設(shè)一套家庭場景的訓練場，更基于期在海外C端家庭市場的深耕，在海外悄然跑通了另一條更大規(guī)模的“商業(yè)化數(shù)據(jù)暗線”，形成了更大的數(shù)據(jù)飛輪。

為什么要做數(shù)據(jù)？自動駕駛給了具身智能行業(yè)一個足夠清晰的參照系。Waymo自2009年開始積累路測里程，到2023年才在舊金山和鳳凰城實現(xiàn)商業(yè)化運營。這十四年間，它積累了超過3200萬英里的真實道路數(shù)據(jù)，以及遠超這個量級的模擬數(shù)據(jù)。即便如此，仍有分析師指出，Waymo的核心壁壘不在于算法，而在于那套幾乎無法被快速復(fù)制的數(shù)據(jù)采集、標注、訓練和部署一體化體系。

但具身機器人的數(shù)據(jù)難度，在某些維度上高于自動駕駛。駕駛場景的狀態(tài)空間相對有限：車道、路口、行人、信號燈，物理交互以感知為主。而臥安選擇的家庭具身機器人面對的更是一個幾乎無窮維的操作空間：每一間廚房的櫥柜高度不同，每一只杯子的抓取位姿不同，柔性物體的形變幾乎無法窮舉，更不用說雙臂協(xié)同、多步驟任務(wù)中的誤差累積和容錯需求，其難度更大，數(shù)據(jù)采集和飛輪更難。

斯坦福大學2024年的一項研究估算，訓練一個能夠在5類典型家庭場景中泛化執(zhí)行的具身策略，至少需要跨越50個不同物理環(huán)境、覆蓋超過10萬條真實操作軌跡的高質(zhì)量數(shù)據(jù)。這還是在場景設(shè)置相對標準化的前提下，一旦引入真實家庭的非結(jié)構(gòu)化變量，數(shù)據(jù)需求量級將繼續(xù)上升。數(shù)據(jù)的稀缺，從根本上制約了模型的泛化能力。這正是臥安布局家庭數(shù)據(jù)采集訓練場的根本原因。

03.

OneModel 1.7：打通世界理解到動作執(zhí)行的隱式通路

為了提高數(shù)據(jù)競爭力，除了搭建數(shù)據(jù)訓練場，背后還需要具備把數(shù)據(jù)轉(zhuǎn)化為模型能力的架構(gòu)設(shè)計，這也是臥安真正讓數(shù)據(jù)飛輪轉(zhuǎn)起來的鑰匙。

當前具身智能的主流模型范式，大體分為兩條路線。一條是VLA（視覺-語言-動作）端到端模型，另一條是World Model路線。但臥安OneModel 1.7 FrontoStria-RL的RL-LWAM架構(gòu)（RL-Latent World Action Model），則不同于兩條路線，而是在于提出Predictive Policy Latent機制。

（OneModel 1.7 FrontoStria-RL 完整架構(gòu)；Predictive Policy Latent 作為核心傳導機制，連接 World Model、Understand Expert 與 Action Expert）

這是一種以面向動作策略的隱式表征，在高層世界理解和底層動作策略之間建立連接通道，取代傳統(tǒng)方案對顯式未來圖像或目標坐標的依賴。這個設(shè)計消除了顯式中間表征帶來的生成誤差和信息冗余，也解決了World Model與Action Policy之間長期存在的理解-執(zhí)行斷層。這樣的設(shè)計有助于減少顯式中間表征帶來的生成誤差和信息冗余，也在一定程度上解決了 World Model 與 Action Policy 之間長期存在的“理解—執(zhí)行”斷層問題。

RL-LWAM架構(gòu)由三大模塊構(gòu)成。World Model負責跨場景泛化，Understand Expert負責任務(wù)理解與Skill調(diào)度，Action Expert負責精準執(zhí)行，三者通過Predictive Policy Latent隱式連通。

在機器人大講堂看來，OneModel 1.7 的技術(shù)價值主要體現(xiàn)在四個方面：

（OneModel 1.7 FrontoStria-RL 四大核心技術(shù)創(chuàng)新點）

首先，Predictive Policy Latent。以面向動作策略的隱式表征傳遞World Model的高層理解，取代傳統(tǒng)方案對顯式未來圖像或目標點的依賴。這一設(shè)計消除了生成誤差的累積，也避免了信息在轉(zhuǎn)換過程中的冗余。

其次，Understand Expert + Skill系統(tǒng)。將復(fù)雜任務(wù)拆解為可執(zhí)行步驟，并調(diào)度可復(fù)用的Skill模塊。每個Skill是一個針對特定動作的專業(yè)能力，抓取、放置、旋轉(zhuǎn)、推拉各有專長。簡單來說，Understand Expert 負責告訴機器人“這件事應(yīng)該怎么分步驟完成”，Skill 則負責把每一步具體做出來。

MCF-Proto。圍繞門軸、滑軌、孔位、折疊線等局部運動結(jié)構(gòu)組織動作表示，使策略對視角變化、初始位姿偏差和場景擾動保持更強的魯棒性。家庭場景中，機器人的物理接觸對象有規(guī)律可循，動作表示圍繞這些規(guī)律組織，比圍繞原始像素組織更具泛化能力。換句話說，MCF-Proto 讓機器人不再依賴對固定坐標的“死記硬背”，而是學會理解物體背后的運動結(jié)構(gòu)。抽屜怎么滑、柜門怎么轉(zhuǎn)、衣物沿哪條線折疊，這些動作規(guī)律一旦被抽象出來，機器人就能在不同戶型、不同擺放和不同視角下，更穩(wěn)定地完成推拉、開合、折疊等家庭操作任務(wù)。

RL閉環(huán) + Success Memory。這就是將強化學習與成功經(jīng)驗復(fù)用接入真實部署反饋，突破了“離線訓練模型訓完即用”的局限。意味著機器人每完成一次真實任務(wù)，無論成功與否，反饋信號都會回傳給模型，能力隨部署規(guī)模不斷增強。

最后一項，其實就是理解前文中，臥安數(shù)據(jù)戰(zhàn)略與模型戰(zhàn)略為何構(gòu)成協(xié)同閉環(huán)的關(guān)鍵。大規(guī)模真實場景部署積累的數(shù)據(jù)，通過RL閉環(huán)持續(xù)回流到模型訓練，模型能力的提升進一步增強部署穩(wěn)定性，更穩(wěn)定的部署產(chǎn)出更高質(zhì)量的數(shù)據(jù)。

簡單說，這套架構(gòu)試圖避免“先理解再執(zhí)行”的兩段式割裂，而是讓世界理解通過隱式通道直接作用于動作策略。這是一個正向循環(huán)，而啟動這個循環(huán)的前提，恰恰又是真實商業(yè)化部署的規(guī)模和深度。

臥安的真機實測數(shù)據(jù)已經(jīng)印證了這套邏輯的有效性，在具身智能標準評測基準LIBERO上，OneModel 1.7平均成功率達到99%，對比π0.5、GR00T-N1.5、OpenVLA-OFT等主流公開模型均領(lǐng)先。在真機實測中，日常操作任務(wù)（洗衣、疊衣，洗碗機操作、傳送帶拿取）成功率達99%，高精度任務(wù)（拔插試管、疊紙杯、倒咖啡豆）成功率達97%。

（標準 LIBERO 平均成功率對比）

（日常操作與高精度任務(wù)真機驗證）

數(shù)字說明了一定問題，而真正值得注意的是，這些數(shù)字對應(yīng)的任務(wù)類型：柔性物體、多階段流程、精細對準、真實接觸反饋。這類任務(wù)正是家庭場景中最常見、也最難被機器人掌握的類別。

此外，機器人大講堂注意到，臥安還在真人對打乒乓球的場景中驗證了模型的高動態(tài)交互能力。乒乓球?qū)崟r感知、軌跡預(yù)測和快速動作生成的要求遠高于日常操作，是具身智能系統(tǒng)綜合能力的高強度測試。

(真人對打乒乓球動態(tài)場景驗證)

benchmark領(lǐng)先不等于真實場景可用，這是行業(yè)長期存在的數(shù)據(jù)可信度問題。很多模型在評測中表現(xiàn)優(yōu)異，但在真實家庭環(huán)境中難以復(fù)現(xiàn)，原因是benchmark的任務(wù)邊界相對固定，而真實家庭的干擾項更多、更隨機。臥安這次選擇直接上柔性物體和真實接觸反饋，正是在彌合這個差距。

從行業(yè)角度看，OneModel 1.7 的意義不只是一次模型性能提升，而是指向具身智能從“專用任務(wù)模型”走向“通用世界動作模型”的趨勢。只有當機器人能夠把真實場景中的感知、規(guī)劃、動作和反饋經(jīng)驗沉淀為可遷移能力，具身智能才有可能從實驗室演示走向規(guī)模化部署。臥安這套“數(shù)據(jù)—模型—場景”閉環(huán)，本質(zhì)上是在為家庭機器人構(gòu)建可持續(xù)進化的底層系統(tǒng)能力。

04.

從模型競賽到基礎(chǔ)設(shè)施競賽的行業(yè)拐點

具身智能行業(yè)有一個被反復(fù)低估的規(guī)律：技術(shù)代差很少靠單點突破建立，更多靠體系能力的持續(xù)積累兌現(xiàn)。

OpenAI在GPT-4之后并非因為某次模型架構(gòu)創(chuàng)新而保持領(lǐng)先，而是因為其RLHF數(shù)據(jù)標注體系、人類反饋收集管道和安全迭代機制共同構(gòu)成了其他玩家難以快速復(fù)制的系統(tǒng)。特斯拉FSD的核心競爭力，同樣不在于單次算法突破，而在于數(shù)百萬輛量產(chǎn)車形成的影子模式數(shù)據(jù)采集網(wǎng)絡(luò)，以及把這些數(shù)據(jù)轉(zhuǎn)化為模型迭代速度的自動標注和訓練流水線。

具身智能行業(yè)正在走向同一個競爭邏輯，不少人發(fā)現(xiàn)，真正的門檻，是數(shù)據(jù)基礎(chǔ)設(shè)施和模型訓練體系的深度綁定。機器人大講堂認為，在這個框架下，臥安的兩步棋其實具有超出單一事件的戰(zhàn)略意義。近4500萬元的數(shù)據(jù)基礎(chǔ)設(shè)施項目，既是一筆可見的商業(yè)收入，也是一套將在未來持續(xù)產(chǎn)出數(shù)據(jù)資產(chǎn)的物理網(wǎng)絡(luò)節(jié)點。OneModel 1.7的技術(shù)發(fā)布，證明臥安有能力把數(shù)據(jù)優(yōu)勢轉(zhuǎn)化為模型代差，而不只是停留在數(shù)據(jù)層面的積累，并把真實數(shù)據(jù)進一步轉(zhuǎn)化為模型泛化、任務(wù)規(guī)劃和動作執(zhí)行能力。

兩者疊加，勾勒出的是一家公司從“具身機器人制造商”向“具身智能數(shù)據(jù)-模型-場景一體化平臺”演進的軌跡。這個演進方向，與整個行業(yè)從硬件驅(qū)動向軟件和數(shù)據(jù)驅(qū)動的重心遷移高度同頻。

05.

結(jié)語與未來

家庭具身機器人距離真正的大規(guī)模普及，仍有相當距離。但行業(yè)格局的雛形，正在被每一個數(shù)據(jù)基礎(chǔ)設(shè)施節(jié)點、每一次真機部署反饋、每一輪模型迭代靜靜塑造。

技術(shù)演示可以在短時間內(nèi)被復(fù)制，數(shù)據(jù)積累和場景工程能力的差距，需要以年為單位來彌補。

這或許才是臥安真正想說的事。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.