![]()
家用電器是家庭服務機器人最難啃的一類任務對象。與桌面物體操作相比,家電操作不僅涉及按鈕、旋鈕、門體等多種異構部件,還受到模式切換、狀態約束和程序邏輯的共同支配。真正完成一次家電任務,機器人往往既要「看得見」,也要「讀得懂」,還要「按說明書做對」。
因此,基于說明書的家電操作規劃,正在成為具身智能走向真實家庭場景必須補上的關鍵能力。
但恰恰是這類能力,最難在真實環境中被系統評測。微波爐、烤箱、攪拌機等設備一旦發生誤操作,輕則損壞設備,重則帶來現實安全風險;與此同時,真實家電價格高、品類多、維護復雜,也很難支撐大規模、標準化和可重復的實驗。
更關鍵的是,說明書驅動的操作規劃評測,不只要求模型讀懂文檔,還要求測試對象在外形、部件功能和程序邏輯上盡可能貼近真實設備,而這正是現有仿真資源最缺失的一環。
針對這一瓶頸,高玉正、龍宇星在北京大學長聘副教授和上緯啟元首席科學家董豪指導下,提出了RealAppliance 數據集與 RealAppliance-Bench 評測基準。此前,董豪團隊已在 CVPR 2025 Highlight 工作 CheckManual 中首次提出基于說明書的家電操作研究方向;而在本工作中,團隊進一步把評測對象從「手冊理解」推進到「說明書、設備外形、交互功能與程序狀態」共同構成的完整操作系統。
RealAppliance 收錄 100 個精細建模的家電資產,覆蓋 14 類常見電器,并在真實說明書、外觀結構、交互機制和程序邏輯四個層面與真實產品系統對齊;基于此構建的 RealAppliance-Bench 則圍繞手冊檢索、開環規劃、部件定位、閉環調整和全過程推理五個任務,系統評估模型在基于說明書的家電操作規劃中的關鍵能力。
實驗表明,即便是當前主流多模態大模型和具身規劃模型,在這一更接近真實世界的評測設定下仍面臨顯著挑戰。
![]()
- 論文地址:https://arxiv.org/abs/2512.00287
- 項目主頁:https://realappliance.github.io/
- 數據集地址:https://github.com/gaoyz1235/RealAppliance
![]()
Figure 1: RealAppliance 數據集概覽。該數據集包含 100 個高保真家電資產,覆蓋 14 個類別,并為每個資產配套真實說明書。
RealAppliance 數據集覆蓋 14 類常見家用電器,手冊語言涵蓋中文、俄語、法語、德語等多種語言。每個資產均配套真實說明書,并在外觀尺寸、關鍵部件功能和程序狀態轉移上與真實家電保持一致,從而為基于說明書的操作規劃評測提供可重復、可擴展的仿真實驗對象。
與僅提供可動結構的傳統資產集合不同,RealAppliance 更強調「說明書 - 資產 - 程序邏輯」的系統對應關系。正因如此,它不僅能夠復現設備外形,還能夠支持對操作順序、狀態約束和反饋修正過程的評測,這也是基于說明書的家電操作研究走向標準化評估的關鍵基礎。
![]()
Figure 2: RealAppliance 與現有數據集的對比:傳統數據集普遍缺乏手冊對齊與程序邏輯,而 RealAppliance 實現了說明書、資產與交互邏輯的系統對齊。
RealAppliance 資產構建與方法框架
如圖 3 所示,RealAppliance 的構建遵循「數據采集、資產建模、機制配置、程序設計」四個階段,目標是在外觀、結構、交互和狀態邏輯四個層面同時逼近真實電器。
![]()
Figure 3: RealAppliance 資產構建流程:收集手冊與照片、完成高保真建模、配置交互機制,并依據說明書設計程序邏輯。
1.收集說明書與真實照片
研究團隊從多個國家和地區系統收集家用電器及其對應的用戶手冊和實物照片。為保證資產既適用于仿真建模,也適用于機器人操作研究,樣本篩選遵循四項標準:
- 可操作性:按鈕、旋鈕等部件尺寸適合機械臂操作;
- 篇幅適中:手冊長度符合當前多模態大模型的上下文處理能力;
- 描述清晰:部件名稱和操作步驟有明確說明;
- 信息完整:包含準確的尺寸數據和高分辨率產品照片。
上述標準確保了資產來源真實、信息充分、結構清晰,也為后續部件命名、機制設計和任務標注提供了統一依據。
2.電器數字資產建模
電器數字資產建模的難點,不僅在于復刻真實外觀,更在于如何在保持真實感的同時,將關鍵操作部件拆解為可計算、可交互、可控制的結構單元。
電器建模:基于手冊、照片和實測尺寸,研究團隊在 Autodesk 3ds Max 中對每個電器進行精細建模。所有功能部件均作為獨立組件處理,并通過 TurboSmooth 增加多邊形密度以提升視覺質量。隨后,團隊使用 Unfold3D 展開 UV 貼圖,并在 Adobe Photoshop 中基于 UV 布局繪制彩色紋理,以較高精度還原表面顏色、圖標、Logo 等關鍵細節。
資產設置:研究團隊將組裝完成的模型與紋理導入 NVIDIA Isaac Sim,生成 USD 格式數字資產。所有資產統一采用右手坐標系,并以幾何中心為原點;部件命名嚴格遵循說明書術語,以便后續檢索、標注與任務定義;同時通過材質參數調節,準確呈現玻璃、塑料、金屬等不同表面效果。
關節設計:在 Isaac Sim 中,團隊為不同部件配置與其交互方式相對應的關節參數。旋轉關節用于旋鈕、鉸鏈門和翻蓋等轉動部件;棱柱關節用于機械按鈕、滑塊和推拉門等線性運動部件;固定關節則分配給觸摸按鈕、屏幕等不可動界面。
3.配置電器機制
為使仿真資產具備與真實電器一致的交互響應,該工作構建了一套模塊化機制體系。
各項機制均被封裝為獨立類并遵循統一接口規范,可根據不同電器的工作方式進行靈活組合。
物理機制(5 種):
- 內部彈簧:模擬壓縮或拉伸彈簧的力,使部件自動復位或輔助運動(如烤面包機杠桿);
- 磁吸:利用磁力實現部件間的吸附或緊密閉合(如洗衣機門);
- 機械觸發:通過因果邏輯實現部件間的聯動(如微波爐開門按鈕彈出門);
- 旋鈕倒計驅動:通過旋鈕機械旋轉實現倒計時功能(如空氣炸鍋定時旋鈕);
- 安全鎖:鎖定狀態下阻止物理操作(如攪拌機機頭鎖)。
電子機制(5 種):
- 屏幕顯示:實時更新屏幕區域紋理,顯示當前狀態(如烤箱溫度顯示);
- 觸摸感應:綁定虛擬接觸傳感器,檢測觸摸操作并觸發相應動作;
- 照明:根據狀態變化控制內部照明(如微波爐工作燈);
- 指示燈:同步更新面板指示燈,傳達工作狀態(如洗衣機完成提示);
- 旋轉馬達:驅動部件關節模擬電機運轉(如微波爐轉盤)。
這一機制體系使電器資產不再只是「可見」的三維模型,而成為具備可操作反饋與狀態變化能力的仿真實體。
4.設計電器程序邏輯
基于上述機制,研究團隊進一步為每個電器編寫了與真實說明書一致的程序腳本。腳本首先定義電源、溫度、時間、模式等核心狀態變量及其取值范圍,再為各功能部件綁定相應機制,最后依據說明書中的操作順序、條件約束和狀態轉移關系設計整體程序邏輯。由此,資產在參數變化后能夠觸發屏幕顯示、電機啟停、照明變化等聯動效果,從而較完整地復現真實電器的工作流程。
RealAppliance-Bench 評測基準
如圖 4 所示,RealAppliance-Bench 圍繞機器人完成一次完整電器操作所需的核心鏈路,設計了五個遞進任務。
這些任務覆蓋從文檔理解到執行糾錯的關鍵環節,用于系統評估模型在電器操作規劃各階段的能力:
![]()
Figure 4: RealAppliance-Bench 的五個任務:手冊檢索、開環規劃、部件定位、閉環調整與全過程推理。
- Task 1:手冊頁面檢索
電器手冊通常包含部件說明、操作步驟、安全須知等多類信息,其中部件說明與操作步驟對任務規劃尤為關鍵。
本任務要求模型根據給定手冊及目標頁面類別(如「操作步驟」),從完整文檔中準確檢索出相關頁面,以驗證其文檔理解與信息篩選能力。
- Task 2:開環操作規劃
給定任務指令(如「制作爆米花」)、電器手冊和初始觀測圖像后,模型需要規劃出一系列原子動作序列。該基準基于真實電器操作需求定義了 9 種電器操作動作(如按下、旋轉、打開等)和 4 種物體操作動作(如拾取、放置等),要求模型從候選動作中選擇正確類型并補全相應參數。
- Task 3:電器部件定位
在開環規劃階段,模型可能只輸出目標部件名稱,但真實機器人執行仍需要該部件的精確空間位置。
因此,本任務要求模型結合手冊內容與目標部件名稱,在當前觀測圖像中預測對應邊界框,以評估其跨模態部件對齊能力。
- Task 4:閉環規劃調整
真實執行過程中往往會出現門體被意外打開、旋鈕被外部擾動等情況,模型需要依據實時視覺反饋及時修正后續動作。該基準預設了固定的擾動類型和位置,要求模型在給定歷史執行記錄、初始計劃和實時觀測后,預測下一個正確的原子動作。
- Task 5:全過程推理
在全過程推理任務中,模型需依次完成手冊檢索、開環規劃、部件定位,并在執行過程中應對外部干擾。
任一步驟失敗(如部件定位 IoU < 0.5 或動作預測錯誤)都將導致整體任務判定失敗,因此該任務能夠直接反映模型的端到端魯棒性。
![]()
Figure 5: RealAppliance-Bench 的統計信息
模型性能評估
基于 RealAppliance-Bench,該工作對多類主流模型進行了系統評測,包括專有多模態模型(GPT-5/GPT-5 Mini、Gemini 2.5 Pro/Flash)、開源多模態模型(Qwen3-VL 系列、GLM 系列)以及具身規劃模型(Robobrain 2.0、ManualPlan、ApBot)。
結果顯示,盡管不同模型在局部任務上各有優勢,但面對真實說明書驅動、且與真實家電程序邏輯對齊的操作規劃鏈路時,整體表現仍與可靠應用水平存在明顯距離。
![]()
Figure 6: 模型在 RealAppliance-Bench 上的表現概覽
手冊頁面檢索:專有模型整體表現最優,開源模型次之,具身規劃模型相對較弱。
這說明具身模型在當前訓練范式下尚未形成穩定的文檔理解能力,相關能力甚至可能在任務特化過程中被削弱。
開環任務規劃:所有模型均未表現出令人滿意的穩定性,常見錯誤包括動作類型誤用、目標部件選擇錯誤和關鍵步驟缺失。
這表明模型尚未真正掌握說明書驅動的操作邏輯,尤其缺乏對條件依賴與步驟順序的深層理解。
部件定位:模型預測的邊界框 IoU 普遍偏低,多數結果僅在 0 到 0.05 之間。
其根本難點在于,模型需要將手冊中的示意圖或符號化部件描述,與真實觀測圖像中的跨視角視覺線索進行對齊,這對空間理解與視覺指向能力都提出了更高要求。
閉環調整:模型普遍難以根據狀態變化及時修正計劃。
其中,參數預測錯誤(如旋轉角度不準確)是僅次于動作類型錯誤的第二大失敗來源,這說明模型既欠缺對細粒度視覺變化的穩定感知,也缺乏將感知結果轉化為后續決策的能力。
全過程推理:幾乎所有模型的端到端成功率均為 0。誤差在多任務鏈路上的級聯放大,凸顯出當前系統在真實電器操作場景中仍然缺乏足夠的魯棒性與閉環執行能力。
詳細評測數據請參見論文表 2。
總結與展望
總體來看,RealAppliance 首次在家用電器場景中實現了「真實說明書、高保真資產與操作邏輯」的系統對齊,并將基于說明書的家電操作規劃評測推進到更接近真實世界的設定中。
基于該數據集構建的 RealAppliance-Bench,為研究者提供了一條從文檔理解、動作規劃到閉環修正的完整測試鏈路,也更清晰地揭示了當前模型在關鍵環節上的能力邊界。
展望未來,RealAppliance 不僅可繼續作為說明書驅動家電操作評測的標準化平臺,也有潛力支持低層家電操作策略與高層家電操作模型的后續研究。隨著這類高保真資產與評測體系不斷完善,家庭服務機器人在復雜家電場景中的可靠部署將獲得更加堅實的基礎。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.