![]()
機(jī)器人操作正在從結(jié)構(gòu)化工業(yè)場(chǎng)景走向更開放的真實(shí)環(huán)境。相比完成單個(gè)預(yù)設(shè)動(dòng)作,真實(shí)任務(wù)往往包含更長(zhǎng)的執(zhí)行鏈條、更復(fù)雜的物體交互,以及更多不可控的外部擾動(dòng)。一次抓取沒有完全夾穩(wěn)、目標(biāo)物體被輕微碰偏、雙臂交接時(shí)姿態(tài)出現(xiàn)偏差,都可能讓后續(xù)步驟偏離原本計(jì)劃。
因此,可靠的機(jī)器人操作系統(tǒng)不能只會(huì)規(guī)劃一條「正常路線」,還需要在執(zhí)行過程中處理各種意外。
現(xiàn)有方法通常在失敗發(fā)生后再檢測(cè)、分析并重新規(guī)劃恢復(fù)動(dòng)作;但在長(zhǎng)程任務(wù)中,這種事后補(bǔ)救往往會(huì)帶來額外延遲,也容易讓機(jī)器人陷入重復(fù)回退和重新執(zhí)行。
近期,香港中文大學(xué)(深圳)、跨維智能與深圳河套學(xué)院的研究者提出了 AgentChord,一種面向機(jī)器人操作失敗恢復(fù)的智能體系統(tǒng)。該工作已被機(jī)器人領(lǐng)域旗艦會(huì)議Robotics: Science and Systems (RSS) 2026接收,并已開源代碼。
AgentChord 想解決的問題很直接:機(jī)器人能不能像人一樣,在動(dòng)手之前就想好「如果出問題該怎么救」?它不把失敗恢復(fù)留到執(zhí)行中臨時(shí)重規(guī)劃,而是提前預(yù)測(cè)可能發(fā)生的失敗,把對(duì)應(yīng)的恢復(fù)動(dòng)作寫進(jìn)任務(wù)圖。
這樣,一旦在線監(jiān)控發(fā)現(xiàn)異常,機(jī)器人可以立即切換到已經(jīng)編譯好的恢復(fù)分支,糾正當(dāng)前狀態(tài)后繼續(xù)完成任務(wù)。
![]()
- 論文標(biāo)題:From Reaction to Anticipation: Proactive Failure Recovery through Agentic Task Graph for Robotic Manipulation
- 論文地址:https://arxiv.org/abs/2605.11951
- 項(xiàng)目主頁:https://edem-ai.github.io/AgentChord/
- 項(xiàng)目代碼:https://github.com/EDEM-AI/AgentChord
為什么不能等失敗后再想辦法?
人做操作任務(wù)時(shí),很少真的從零開始「重新規(guī)劃」。倒水時(shí)杯子歪了,我們會(huì)順手扶正;瓶子快滑了,我們會(huì)立刻調(diào)整握姿;兩只手交接物體沒對(duì)準(zhǔn),一只手會(huì)退一點(diǎn),另一只手再靠近。這個(gè)過程通常很快,也不會(huì)打斷整個(gè)任務(wù)。
現(xiàn)在很多機(jī)器人系統(tǒng)采用的是另一套流程:執(zhí)行動(dòng)作,檢測(cè)失敗,調(diào)用多模態(tài)大模型分析原因,再生成恢復(fù)動(dòng)作。這個(gè)思路在簡(jiǎn)單任務(wù)里可行,但一到長(zhǎng)程任務(wù),問題就會(huì)變得明顯。
一方面,多次調(diào)用大模型會(huì)帶來延遲。等系統(tǒng)完成觀察、推理和重新規(guī)劃時(shí),錯(cuò)誤可能已經(jīng)擴(kuò)大,比如水瓶已經(jīng)倒下,或者物體已經(jīng)滾到難以抓取的位置。
另一方面,如果不重新調(diào)用大模型,只是簡(jiǎn)單回退到上一個(gè)節(jié)點(diǎn)再執(zhí)行一遍,也不一定有效。杯子倒了需要扶正,不是重復(fù)「接近杯子」;交接失敗需要重新組織兩只手的位置,也不是簡(jiǎn)單退回上一幀。
AgentChord 的出發(fā)點(diǎn),就是把「失敗恢復(fù)」從事后補(bǔ)救,變成執(zhí)行前的一部分。
AgentChord:把任務(wù)、失敗和恢復(fù)放進(jìn)同一張圖
AgentChord 將一個(gè)機(jī)器人操作任務(wù)表示為有向任務(wù)圖。圖中的節(jié)點(diǎn)是語義子目標(biāo),比如「抓住瓶子」「移動(dòng)到杯子上方」「完成傾倒」;邊則表示從一個(gè)子目標(biāo)到下一個(gè)子目標(biāo)的動(dòng)作轉(zhuǎn)換。
![]()
在這張圖上,AgentChord 組織了三個(gè)智能體角色。
任務(wù)結(jié)構(gòu)化智能體負(fù)責(zé)讀懂語言指令和初始場(chǎng)景,先搭出一條正常完成任務(wù)的主線。可以把它理解為先寫出「應(yīng)該怎么做」的任務(wù)骨架。
恢復(fù)編排智能體會(huì)沿著這條主線檢查每個(gè)關(guān)鍵步驟,提前想象可能出錯(cuò)的情況:物體滑落、目標(biāo)位置被挪動(dòng)、夾爪沒有真正夾緊、物體傾斜、雙臂相對(duì)位置失準(zhǔn)等。對(duì)于這些失敗,它會(huì)插入對(duì)應(yīng)的恢復(fù)節(jié)點(diǎn)和恢復(fù)邊,并指定恢復(fù)后應(yīng)該回到任務(wù)圖中的哪個(gè)后續(xù)位置。
執(zhí)行編譯智能體則把這些名義動(dòng)作和恢復(fù)動(dòng)作都編譯成機(jī)器人可以執(zhí)行的程序,同時(shí)生成低延遲監(jiān)控函數(shù)。執(zhí)行時(shí),系統(tǒng)不需要反復(fù)詢問大模型,而是持續(xù)讀取物體位姿、點(diǎn)云幾何、夾爪開合、關(guān)節(jié)狀態(tài)等信號(hào)。一旦監(jiān)控函數(shù)觸發(fā),機(jī)器人就直接進(jìn)入對(duì)應(yīng)的恢復(fù)分支。
這里最關(guān)鍵的一點(diǎn)是「前向恢復(fù)」。AgentChord 并不是鼓勵(lì)機(jī)器人一失敗就倒退重來,而是盡量讓恢復(fù)動(dòng)作繼續(xù)朝最終目標(biāo)推進(jìn)。恢復(fù)完成后,機(jī)器人會(huì)重新匯入后續(xù)任務(wù)節(jié)點(diǎn),避免重復(fù)執(zhí)行已經(jīng)完成的部分。
這讓 AgentChord 更像是在任務(wù)開始前寫好一份帶應(yīng)急段落的「執(zhí)行樂譜」:正常動(dòng)作是一條主旋律,恢復(fù)動(dòng)作是提前準(zhǔn)備好的變奏。什么時(shí)候切換,由在線監(jiān)控來決定。
仿真和真實(shí)機(jī)器人實(shí)驗(yàn)
研究團(tuán)隊(duì)在 EmbodiChain 仿真環(huán)境和真實(shí) CobotMagic 雙臂機(jī)器人上進(jìn)行了評(píng)測(cè)。任務(wù)覆蓋單臂倒水、雙臂倒水、餐桌整理、方塊交接、折疊毛巾、咖啡托盤擺放六類場(chǎng)景,其中既有剛體物體,也有薄物體和柔性物體;既有單臂操作,也有異步和同步雙臂協(xié)作。
![]()
在仿真實(shí)驗(yàn)中,團(tuán)隊(duì)選取單臂倒水、雙臂倒水和餐桌整理三類任務(wù),并以不同概率注入物體掉落等擾動(dòng)。AgentChord 在所有設(shè)置下取得最高平均成功率,達(dá)到99.2%;平均執(zhí)行時(shí)間為41.5 秒,也優(yōu)于 Inner Monologue、DoReMi、ReKep 和 Code-as-Monitor 等基線方法。
這個(gè)差距并不只是來自「檢測(cè)更準(zhǔn)」。更重要的是,AgentChord 在失敗發(fā)生前就已經(jīng)準(zhǔn)備好了恢復(fù)分支,因此不用在現(xiàn)場(chǎng)重新走完整的大模型推理和規(guī)劃流程,也不需要反復(fù)回退執(zhí)行。
![]()
真實(shí)機(jī)器人實(shí)驗(yàn)更接近實(shí)際部署環(huán)境:感知有噪聲,抓取會(huì)失敗,人為擾動(dòng)也更難完全控制。在六個(gè)真實(shí)任務(wù)上,AgentChord 取得77.5%的平均成功率和92.2 秒的平均執(zhí)行時(shí)間。作為對(duì)比,Code-as-Monitor 的平均成功率為 72.5%,平均執(zhí)行時(shí)間為 130.9 秒。
在雙臂倒水、方塊交接這類需要精細(xì)協(xié)作的任務(wù)中,提前編譯恢復(fù)分支的優(yōu)勢(shì)尤其明顯。物體被挪動(dòng)、掉落或姿態(tài)異常后,機(jī)器人可以快速進(jìn)入對(duì)應(yīng)恢復(fù)動(dòng)作,而不是等待一次新的完整推理。
![]()
論文進(jìn)一步給出了六類真實(shí)任務(wù)的多組試驗(yàn)對(duì)比:每一行對(duì)應(yīng)一次獨(dú)立試驗(yàn),左側(cè)是初始場(chǎng)景,右側(cè)是任務(wù)完成后的結(jié)果。不同試驗(yàn)中,物體實(shí)例、位置、朝向以及外部擾動(dòng)配置都會(huì)變化,但這些變化仍保持在機(jī)器人運(yùn)動(dòng)學(xué)可執(zhí)行的范圍內(nèi)。
AgentChord 在這些不完全相同的場(chǎng)景中都能完成任務(wù),在真實(shí)環(huán)境變化和執(zhí)行不確定性下保持了穩(wěn)定的恢復(fù)與繼續(xù)執(zhí)行能力。
![]()
下方兩段執(zhí)行視頻展示了 AgentChord 在真實(shí)長(zhǎng)程操作中的恢復(fù)能力。
在 Handover 任務(wù)中,機(jī)器人需要先由一側(cè)機(jī)械臂抓取方塊并送至交接位置,再由另一側(cè)機(jī)械臂接手并完成放置。不同于失敗發(fā)生后再臨時(shí)重規(guī)劃,AgentChord 在任務(wù)開始前就會(huì)預(yù)判可能出現(xiàn)的異常,例如交接過程中方塊被外力移走,并提前生成對(duì)應(yīng)的恢復(fù)分支。
實(shí)際執(zhí)行時(shí),一旦方塊在交接前后受到擾動(dòng),系統(tǒng)不會(huì)重啟整條任務(wù)流程,而是根據(jù)當(dāng)前所處的任務(wù)節(jié)點(diǎn)觸發(fā)相應(yīng)恢復(fù)動(dòng)作,重新調(diào)整雙臂位置、夾爪狀態(tài)和交接關(guān)系,再繼續(xù)完成后續(xù)放置步驟。
雙臂倒水任務(wù)則進(jìn)一步考驗(yàn)系統(tǒng)的協(xié)作能力:一只機(jī)械臂需要穩(wěn)定接水容器,另一只機(jī)械臂負(fù)責(zé)抓取水瓶、移動(dòng)、對(duì)準(zhǔn)并完成傾倒。當(dāng)杯子或水瓶的位置發(fā)生變化時(shí),AgentChord 通過在線監(jiān)控及時(shí)發(fā)現(xiàn)偏差,并觸發(fā)預(yù)先寫入任務(wù)圖的恢復(fù)動(dòng)作,例如重新抓取、重新對(duì)準(zhǔn)或調(diào)整雙臂相對(duì)位置,使任務(wù)繼續(xù)向目標(biāo)推進(jìn)。
這兩段視頻直觀體現(xiàn)了 AgentChord 的核心思路:失敗恢復(fù)不是事后重新規(guī)劃,而是提前準(zhǔn)備好的可執(zhí)行分支。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/Bb2A51JmiuyBX8ufeS08wg?click_id=91
恢復(fù)軌跡也能用來訓(xùn)練策略
AgentChord 的作用不只是在執(zhí)行時(shí)把任務(wù)救回來。它生成的失敗恢復(fù)軌跡,也可以成為有價(jià)值的訓(xùn)練數(shù)據(jù)。
論文在單臂倒水任務(wù)中做了一個(gè)驗(yàn)證:在微調(diào)數(shù)據(jù)總量不變的情況下,把一半普通成功軌跡替換成 AgentChord 生成的可恢復(fù)失敗軌跡。
結(jié)果顯示,Sim2Real-VLA 策略在 50 次擾動(dòng)測(cè)試中的成功次數(shù),從 26/50 提升到 39/50。
這說明,機(jī)器人策略不應(yīng)該只學(xué)習(xí)「順利完成任務(wù)」的樣子,也應(yīng)該看到「出錯(cuò)后如何繼續(xù)完成任務(wù)」。真實(shí)世界里的失敗不可避免,而高質(zhì)量恢復(fù)軌跡正好能補(bǔ)上這部分經(jīng)驗(yàn)。
意義與展望
AgentChord 給機(jī)器人操作恢復(fù)提供了一種很清晰的組織方式:任務(wù)怎么做、哪里可能失敗、失敗后怎么恢復(fù)、恢復(fù)后接著往哪里走,都放在同一張可解釋的任務(wù)圖里。
當(dāng)然,系統(tǒng)還不是萬能的。它仍然依賴大模型提前預(yù)判常見失敗模式。遇到罕見、復(fù)合或者完全沒有被覆蓋的失敗時(shí),仍可能需要額外診斷和動(dòng)態(tài)補(bǔ)充分支。感知噪聲、點(diǎn)云質(zhì)量、逆運(yùn)動(dòng)學(xué)可行性,也會(huì)影響最終恢復(fù)效果。但這個(gè)框架的好處在于,它是模塊化的。未來更強(qiáng)的視覺語言模型、更穩(wěn)健的三維感知模塊、更豐富的機(jī)器人技能庫(kù),都可以接入這張恢復(fù)增強(qiáng)的任務(wù)圖。
從家庭服務(wù)到實(shí)驗(yàn)室自動(dòng)化,從整理餐桌到復(fù)雜雙臂裝配,機(jī)器人遲早要面對(duì)各種意外。AgentChord 的意義在于,讓機(jī)器人不再只是失敗后的被動(dòng)補(bǔ)救者,而是在行動(dòng)開始前,就為可能發(fā)生的失敗留好路。
作者介紹
第一作者:徐圣,香港中文大學(xué)(深圳)博士生,研究方向?yàn)閺?qiáng)化學(xué)習(xí)及其在具身智能中的應(yīng)用,曾在 RSS、ICLR、ICML、NeurIPS 等會(huì)議以第一作者發(fā)表論文。
通訊作者:劉桂良,香港中文大學(xué)(深圳)助理教授,研究方向聚焦具身智能決策與強(qiáng)化學(xué)習(xí)。在 NeurIPS、ICML、ICLR、RSS、ICRA、TPAMI 等國(guó)際機(jī)器學(xué)習(xí)會(huì)議和期刊上發(fā)表論文 50 余篇,擔(dān)任 NeurIPS、ICLR 領(lǐng)域主席。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.