无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

讓離線強化學習從「局部描摹」變「全局布局」丨ICLR'26

0
分享至

面對復雜連續任務的長程規劃,現有的生成式離線強化學習方法往往會暴露短板。

它們生成的軌跡經常陷入局部合理但全局偏航的窘境。

它們太關注眼前的每一步,卻忘了最終的目的地。



針對這一痛點,廈門大學和香港科技大學提出一種名為MAGE(魔法師,Multi-scale Autoregressive Generation)的離線強化學習新算法。

MAGE與現有序列生成方法不同,MAGE采用自頂向下的“由粗到細”生成策略,先建模軌跡的宏觀規劃,再逐步細化微觀細節。

MAGE的核心思路非常符合人類的直覺:“自頂向下、由粗到細”。

這就好比畫一幅素描,你不會一上來就描繪眼睛的睫毛,而是先畫出整體的身體輪廓(宏觀規劃),再逐步細化五官和表情

(微觀動作)



△MAGE的思考過程

從一場”迷宮尋寶“揭示AI規劃的盲區

為了直觀展示現有模型的缺陷,研究團隊設計了一個迷宮吃金幣小實驗。智能體需要從隨機起點出發,依靠對環境的長程空間理解,先吃銀幣,再吃金幣,最后抵達終點。



△各個算法在迷宮環境的表現

然而,面對這種需要全局規劃的場景,現有的模型紛紛暴露了缺陷。

  • Decision Transformer受限于單向自回歸特性帶來的全局上下文缺失,它在長程規劃中完全迷失方向,最終連終點都未能抵達。
  • Decision Diffuser則由于擴散模型固有的局部生成偏差,生成的軌跡往往只能保證局部合理;雖然智能體抵達了終點,卻遺漏了關鍵的一枚金幣,全局連貫性較差。
  • Hierarchical Diffuser雖然嘗試通過分層結構建模全局軌跡,但由于其固定的雙層結構過于僵硬高低層策略之間缺乏有效協同,生成的軌跡甚至出現了物理違規的“穿墻”現象,全局規劃與局部動作嚴重脫節。

相比之下,MAGE則通過多尺度“從粗到細”的生成架構成功完成了任務。它首先在最粗的時間尺度上勾勒出包含所有關鍵節點的宏觀全局輪廓,隨后利用多尺度Transformer在更細的時間尺度上逐層細化,順利規劃出完整的路徑。

MAGE的核心思路:從畫大綱到扣細節

MAGE采用“自頂向下、由粗到細”的生成方式。MAGE包含兩大核心模塊,并輔以精確的控制機制:



△MAGE的架構圖

MTAE多尺度軌跡自編碼器:MAGE將長序列軌跡轉化為從粗到細的多尺度離散Token。粗尺度的Token負責掌控全局長程結構,最細尺度的Token則詳細建模短期的動態細節。

多尺度條件引導自回歸生成:模型使用Transformer序列化地生成這些多尺度Token。在生成每層時,都會嚴格以“目標回報”和“初始狀態”作為條件進行約束,確保智能體的每一步都在朝著最終目標前進。

條件引導細化與動作決策:因為把連續世界變成離散Token會丟失信息,普通的生成過程容易讓軌跡起點偏離現實。為此,MAGE在解碼器中集成了輕量級的適配器(adapter)模塊,并引入了條件引導損失函數Lcond,強制解碼出的初始狀態與真實環境是精確對齊的。最后,通過潛在逆動力學模型決定最終的動作。

實驗表現:長序列任務全面超越,推理速度滿足實時控制

研究團隊在包含Adroit、Franka Kitchen、AntMaze等5個離線RL基準測試中,將MAGE與15種具有代表性的基線算法進行了廣泛的評估。

多任務表現出色



在極具挑戰的高維連續控制Adroit機械臂任務中,面對極其稀疏的獎勵,MAGE實現了顯著的性能提升,大幅優于對比方法。在強調子目標執行順序的Franka Kitchen組合任務中,MAGE憑借捕獲全局結構和局部細節的能力,以相當大的優勢超越了所有競爭算法。



迷宮導航任務中,MAGE在所有數據集上均取得了最佳性能,證明了其處理長序列導航任務的卓越能力。

極高的推理效率與部署潛力



MAGE在保持高性能的同時,實現了出色的計算效率平衡。實驗數據表明,MAGE的運行速度比Hierarchical Diffuser快約50倍,比Decision Diffuser快80倍。其每步推理時間保持在27毫秒,完美滿足了真實機器人控制所要求的20 Hz實時運行門檻

結語

MAGE成功地將多尺度軌跡建模與條件引導相結合,通過“從粗到細”的自回歸框架生成連貫且可控的高回報軌跡。當有一天,機器人不再需要人類一口一口地“喂”獎勵,而是能夠自主審視全局,制定長遠計劃并流暢執行時,也許具身智能的下一個奇點就真正到來了。

論文鏈接:
https://arxiv.org/abs/2602.23770
開源代碼:
https://github.com/xmu-rl-3dv/MAGE
實驗室主頁:
https://asc.xmu.edu.cn/

作者介紹:
本文第一作者來自廈門大學空間感知與計算實驗室(ASC Lab)2024級碩士生林晨興、2025級碩士生高鑫輝,通訊作者為廈門大學沈思淇副教授,并由張海鵬、李欣然(香港科技大學)、王海濤、梅松竹副研究員、劉偉權副教授(集美大學)、王程教授共同合作完成。研究團隊長期聚焦于強化學習,多智能體系統以及大模型智能體。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中方接到日媒消息,高市已找上巴基斯坦,要跟中國主張打擂臺

中方接到日媒消息,高市已找上巴基斯坦,要跟中國主張打擂臺

狗子的快樂
2026-06-13 06:31:17
廣西興安突發爆炸致7死17傷,后續現場曝光,內幕被知情人曝光

廣西興安突發爆炸致7死17傷,后續現場曝光,內幕被知情人曝光

奇思妙想草葉君
2026-06-11 23:57:44
世界上最揭露人心的十句話,第一句我就信了

世界上最揭露人心的十句話,第一句我就信了

詩詞世界
2026-05-18 06:05:48
德國工程師在中國工廠待了7天,走時說:你們的工作方式太可怕了

德國工程師在中國工廠待了7天,走時說:你們的工作方式太可怕了

千秋文化
2026-06-12 20:37:03
姜偉澤帶女友三亞度假,顏值身材無可挑剔,年薪600萬陷離隊風波

姜偉澤帶女友三亞度假,顏值身材無可挑剔,年薪600萬陷離隊風波

大西體育
2026-06-13 08:41:05
“你洗洗腳吧!”寶媽精心打扮接孩子,用力過猛被嘲諷

“你洗洗腳吧!”寶媽精心打扮接孩子,用力過猛被嘲諷

蝴蝶花雨話教育
2026-06-05 00:05:19
武漢通報昌盛泡花堿廠有關問題調查處理情況

武漢通報昌盛泡花堿廠有關問題調查處理情況

界面新聞
2026-06-12 17:32:40
克里米亞被轟炸,俄軍損失嚴重,烏司令嘲諷普京:來接收你的禮物

克里米亞被轟炸,俄軍損失嚴重,烏司令嘲諷普京:來接收你的禮物

關系新篇章
2026-06-13 07:59:53
我國最大遺憾!1994年將領土劃給俄羅斯,如今還能再收回來嗎?

我國最大遺憾!1994年將領土劃給俄羅斯,如今還能再收回來嗎?

談古論今歷史有道
2026-06-10 09:30:09
孤女遭親舅舅燒書阻止參加高考?實為劇本賣慘蹭流量丨真探隊

孤女遭親舅舅燒書阻止參加高考?實為劇本賣慘蹭流量丨真探隊

封面新聞
2026-06-12 12:54:21
鄭緒嵐被老外玩膩后回國,67歲模樣大變認不出

鄭緒嵐被老外玩膩后回國,67歲模樣大變認不出

絢麗的畫卷
2026-06-11 18:25:59
厄爾尼諾已在太平洋形成,滯后效應或使2027超越2024成最熱一年

厄爾尼諾已在太平洋形成,滯后效應或使2027超越2024成最熱一年

紅星新聞
2026-06-12 16:15:26
離婚15年后再看謝暉,他的選擇有多正確

離婚15年后再看謝暉,他的選擇有多正確

小柨拍客在北漂
2026-06-09 12:55:49
余承東:要帶領盤古大模型走向世界第一

余承東:要帶領盤古大模型走向世界第一

界面新聞
2026-06-12 16:27:16
18萬開全新路虎,我勸你別買

18萬開全新路虎,我勸你別買

圍觀商業
2026-06-12 11:24:37
33歲孫興慜快哭了 浪射6腳+離譜踢丟單刀 換下他的奇兵助韓國逆轉

33歲孫興慜快哭了 浪射6腳+離譜踢丟單刀 換下他的奇兵助韓國逆轉

我愛英超
2026-06-12 12:05:29
情懷喂了狗!天涯社區重啟收費1999元陷入爭議,網友:吃相難看啊

情懷喂了狗!天涯社區重啟收費1999元陷入爭議,網友:吃相難看啊

火山詩話
2026-06-13 05:54:20
“鵝腿阿姨”塌房:CBD不相信人設

“鵝腿阿姨”塌房:CBD不相信人設

一刻talks丨硬科技趣思想
2026-06-12 21:00:47
悲痛!甘肅一特警大隊長執行任務過程中不幸因公犧牲,年僅44歲

悲痛!甘肅一特警大隊長執行任務過程中不幸因公犧牲,年僅44歲

紅星新聞
2026-06-12 23:41:10
湖南農村學霸高考只考239,班主任不相信查監控,看到真相他哭了

湖南農村學霸高考只考239,班主任不相信查監控,看到真相他哭了

二十一號故事鋪
2024-09-28 06:30:02
2026-06-13 09:23:00
量子位 incentive-icons
量子位
追蹤人工智能動態
12784文章數 176492關注度
往期回顧 全部

科技要聞

剛剛,人類歷史上首位萬億美元富豪誕生!

頭條要聞

47歲泰國長公主去世 70多歲泰王現繼承危機

頭條要聞

47歲泰國長公主去世 70多歲泰王現繼承危機

體育要聞

歐洲恐韓?肉德維德?

娛樂要聞

一天4個瓜,肖戰熱巴最意外

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

態度原創

藝術
家居
親子
公開課
軍事航空

藝術要聞

砸了640億,再賠160億!沙特“The Line”項目徹底涼了?

家居要聞

空間微調 移形換境

親子要聞

俗話說興趣就要從小開始培養!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊外長披露伊美諒解備忘錄草案部分內容

無障礙瀏覽 進入關懷版