亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

讓離線強化學習從「局部描摹」變「全局布局」丨ICLR'26

0
分享至

面對復雜連續(xù)任務(wù)的長程規(guī)劃,現(xiàn)有的生成式離線強化學習方法往往會暴露短板。

它們生成的軌跡經(jīng)常陷入局部合理但全局偏航的窘境。

它們太關(guān)注眼前的每一步,卻忘了最終的目的地。



針對這一痛點,廈門大學和香港科技大學提出一種名為MAGE(魔法師,Multi-scale Autoregressive Generation)的離線強化學習新算法。

MAGE與現(xiàn)有序列生成方法不同,MAGE采用自頂向下的“由粗到細”生成策略,先建模軌跡的宏觀規(guī)劃,再逐步細化微觀細節(jié)。

MAGE的核心思路非常符合人類的直覺:“自頂向下、由粗到細”

這就好比畫一幅素描,你不會一上來就描繪眼睛的睫毛,而是先畫出整體的身體輪廓(宏觀規(guī)劃),再逐步細化五官和表情

(微觀動作)



△MAGE的思考過程

從一場”迷宮尋寶“揭示AI規(guī)劃的盲區(qū)

為了直觀展示現(xiàn)有模型的缺陷,研究團隊設(shè)計了一個迷宮吃金幣小實驗。智能體需要從隨機起點出發(fā),依靠對環(huán)境的長程空間理解,先吃銀幣,再吃金幣,最后抵達終點。



△各個算法在迷宮環(huán)境的表現(xiàn)

然而,面對這種需要全局規(guī)劃的場景,現(xiàn)有的模型紛紛暴露了缺陷。

  • Decision Transformer受限于單向自回歸特性帶來的全局上下文缺失,它在長程規(guī)劃中完全迷失方向,最終連終點都未能抵達。
  • Decision Diffuser則由于擴散模型固有的局部生成偏差,生成的軌跡往往只能保證局部合理;雖然智能體抵達了終點,卻遺漏了關(guān)鍵的一枚金幣,全局連貫性較差。
  • Hierarchical Diffuser雖然嘗試通過分層結(jié)構(gòu)建模全局軌跡,但由于其固定的雙層結(jié)構(gòu)過于僵硬高低層策略之間缺乏有效協(xié)同,生成的軌跡甚至出現(xiàn)了物理違規(guī)的“穿墻”現(xiàn)象,全局規(guī)劃與局部動作嚴重脫節(jié)。

相比之下,MAGE則通過多尺度“從粗到細”的生成架構(gòu)成功完成了任務(wù)。它首先在最粗的時間尺度上勾勒出包含所有關(guān)鍵節(jié)點的宏觀全局輪廓,隨后利用多尺度Transformer在更細的時間尺度上逐層細化,順利規(guī)劃出完整的路徑。

MAGE的核心思路:從畫大綱到扣細節(jié)

MAGE采用“自頂向下、由粗到細”的生成方式。MAGE包含兩大核心模塊,并輔以精確的控制機制:



△MAGE的架構(gòu)圖

MTAE多尺度軌跡自編碼器:MAGE將長序列軌跡轉(zhuǎn)化為從粗到細的多尺度離散Token。粗尺度的Token負責掌控全局長程結(jié)構(gòu),最細尺度的Token則詳細建模短期的動態(tài)細節(jié)

多尺度條件引導自回歸生成:模型使用Transformer序列化地生成這些多尺度Token。在生成每層時,都會嚴格以“目標回報”和“初始狀態(tài)”作為條件進行約束,確保智能體的每一步都在朝著最終目標前進。

條件引導細化與動作決策:因為把連續(xù)世界變成離散Token會丟失信息,普通的生成過程容易讓軌跡起點偏離現(xiàn)實。為此,MAGE在解碼器中集成了輕量級的適配器(adapter)模塊,并引入了條件引導損失函數(shù)Lcond,強制解碼出的初始狀態(tài)與真實環(huán)境是精確對齊的。最后,通過潛在逆動力學模型決定最終的動作。

實驗表現(xiàn):長序列任務(wù)全面超越,推理速度滿足實時控制

研究團隊在包含Adroit、Franka Kitchen、AntMaze等5個離線RL基準測試中,將MAGE與15種具有代表性的基線算法進行了廣泛的評估。

多任務(wù)表現(xiàn)出色



在極具挑戰(zhàn)的高維連續(xù)控制Adroit機械臂任務(wù)中,面對極其稀疏的獎勵,MAGE實現(xiàn)了顯著的性能提升,大幅優(yōu)于對比方法。在強調(diào)子目標執(zhí)行順序的Franka Kitchen組合任務(wù)中,MAGE憑借捕獲全局結(jié)構(gòu)和局部細節(jié)的能力,以相當大的優(yōu)勢超越了所有競爭算法。



迷宮導航任務(wù)中,MAGE在所有數(shù)據(jù)集上均取得了最佳性能,證明了其處理長序列導航任務(wù)的卓越能力。

極高的推理效率與部署潛力



MAGE在保持高性能的同時,實現(xiàn)了出色的計算效率平衡。實驗數(shù)據(jù)表明,MAGE的運行速度比Hierarchical Diffuser快約50倍,比Decision Diffuser快80倍。其每步推理時間保持在27毫秒,完美滿足了真實機器人控制所要求的20 Hz實時運行門檻

結(jié)語

MAGE成功地將多尺度軌跡建模與條件引導相結(jié)合,通過“從粗到細”的自回歸框架生成連貫且可控的高回報軌跡。當有一天,機器人不再需要人類一口一口地“喂”獎勵,而是能夠自主審視全局,制定長遠計劃并流暢執(zhí)行時,也許具身智能的下一個奇點就真正到來了。

論文鏈接:
https://arxiv.org/abs/2602.23770
開源代碼:
https://github.com/xmu-rl-3dv/MAGE
實驗室主頁:
https://asc.xmu.edu.cn/

作者介紹:
本文第一作者來自廈門大學空間感知與計算實驗室(ASC Lab)2024級碩士生林晨興、2025級碩士生高鑫輝,通訊作者為廈門大學沈思淇副教授,并由張海鵬、李欣然(香港科技大學)、王海濤、梅松竹副研究員、劉偉權(quán)副教授(集美大學)、王程教授共同合作完成。研究團隊長期聚焦于強化學習,多智能體系統(tǒng)以及大模型智能體。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
CBA奇葩!新疆主場大雨漏水,比賽中斷,上海36-30暫時領(lǐng)先新疆!

CBA奇葩!新疆主場大雨漏水,比賽中斷,上海36-30暫時領(lǐng)先新疆!

行舟問茶
2026-04-18 02:41:16
通富微電2025年營收、凈利雙創(chuàng)歷史新高 凈利潤同比增長近八成!

通富微電2025年營收、凈利雙創(chuàng)歷史新高 凈利潤同比增長近八成!

證券時報
2026-04-17 22:12:06
特朗普稱“可能會去伊斯蘭堡”簽署和平協(xié)議,若成行,將是美國總統(tǒng)時隔20年訪問巴基斯坦;布什和克林頓訪巴前夕,都曾發(fā)生爆炸事件

特朗普稱“可能會去伊斯蘭堡”簽署和平協(xié)議,若成行,將是美國總統(tǒng)時隔20年訪問巴基斯坦;布什和克林頓訪巴前夕,都曾發(fā)生爆炸事件

極目新聞
2026-04-17 10:26:33
2026金球榜更新!姆巴佩降至第五,法國妖星進前三,凱恩機會來了

2026金球榜更新!姆巴佩降至第五,法國妖星進前三,凱恩機會來了

籃球圈里的那些事
2026-04-17 19:36:04
皇馬歐冠出局,卡馬文加剃光頭致歉:這鍋我背了!我對不起大家!

皇馬歐冠出局,卡馬文加剃光頭致歉:這鍋我背了!我對不起大家!

仰臥撐FTUer
2026-04-17 08:15:06
總部被賣,集團徹底垮了

總部被賣,集團徹底垮了

新浪財經(jīng)
2026-04-15 12:40:29
云南鴕鳥肉案兇手被判死刑,當?shù)卦嗳速徺I,這些人后來怎樣了

云南鴕鳥肉案兇手被判死刑,當?shù)卦嗳速徺I,這些人后來怎樣了

林林故事揭秘
2025-01-03 17:30:21
嚴月霞生平簡介

嚴月霞生平簡介

奇思妙想生活家
2026-04-16 15:55:11
Wi-Fi 7的隱藏真相:速度沒快,但斷網(wǎng)焦慮沒了

Wi-Fi 7的隱藏真相:速度沒快,但斷網(wǎng)焦慮沒了

全棧遛狗員
2026-04-17 01:50:37
四部臺灣影片“登陸”,兩岸光影共御“文化臺獨”

四部臺灣影片“登陸”,兩岸光影共御“文化臺獨”

京彩臺灣
2026-04-17 19:48:05
云南省佛教協(xié)會副會長祜巴瑪哈香圓寂,享年59歲

云南省佛教協(xié)會副會長祜巴瑪哈香圓寂,享年59歲

澎湃新聞
2026-04-17 10:34:30
隨著蓉城1-0,津門虎3-0,銅梁龍2-0,泰山1-1,中超最新積分榜出爐

隨著蓉城1-0,津門虎3-0,銅梁龍2-0,泰山1-1,中超最新積分榜出爐

俯身沖頂
2026-04-17 22:17:14
上海勝新疆發(fā)布會!盧偉遭遇感冒,再度點出健康重要性!

上海勝新疆發(fā)布會!盧偉遭遇感冒,再度點出健康重要性!

籃球資訊達人
2026-04-18 00:50:38
發(fā)射場排隊三年?NASA終于動手了

發(fā)射場排隊三年?NASA終于動手了

像素與芯片
2026-04-17 02:10:56
特斯拉 Optimus 人形機器人首批量產(chǎn)機型在上海超級工廠正式交付

特斯拉 Optimus 人形機器人首批量產(chǎn)機型在上海超級工廠正式交付

新浪財經(jīng)
2026-04-17 17:41:19
“美國本周或針對古巴采取軍事行動”,中國不僅口頭上聲援古巴,還為古巴提供諸多支持,外交部回應(yīng)

“美國本周或針對古巴采取軍事行動”,中國不僅口頭上聲援古巴,還為古巴提供諸多支持,外交部回應(yīng)

魯中晨報
2026-04-17 16:56:03
皇馬重建序幕拉開,今夏離隊第一人產(chǎn)生

皇馬重建序幕拉開,今夏離隊第一人產(chǎn)生

星耀國際足壇
2026-04-18 02:19:06
錢賺夠了,名聲沒了,謝娜開演唱會迎來全網(wǎng)罵潮,劉燁當初沒說謊

錢賺夠了,名聲沒了,謝娜開演唱會迎來全網(wǎng)罵潮,劉燁當初沒說謊

洲洲影視娛評
2026-04-15 23:09:10
拖了6年,新《尋龍訣》首播差評一片,觀眾的差評理由出奇一致

拖了6年,新《尋龍訣》首播差評一片,觀眾的差評理由出奇一致

白公子探劇
2026-04-17 18:52:11
越南國家主席夫人身邊的中國女保鏢火了!近距離保護,又美又颯!

越南國家主席夫人身邊的中國女保鏢火了!近距離保護,又美又颯!

大象新聞
2026-04-17 17:51:04
2026-04-18 04:23:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12488文章數(shù) 176453關(guān)注度
往期回顧 全部

科技要聞

7家頭部平臺被罰沒35.97億元

頭條要聞

知情人:伊朗為霍爾木茲海峽通行設(shè)定三個條件

頭條要聞

知情人:伊朗為霍爾木茲海峽通行設(shè)定三個條件

體育要聞

中超-泰山1-1海港 楊希處子球克雷桑任意球扳平

娛樂要聞

劉德華摯友潘宏彬離世 曾一起租房住

財經(jīng)要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

又快又穩(wěn)的開掛動力! 阿維塔06T全系搭分布式電驅(qū)

態(tài)度原創(chuàng)

時尚
旅游
房產(chǎn)
本地
藝術(shù)

今日熱點:許光漢否認和周子瑜戀情;郝熠然與誠實一口終止合作……

旅游要聞

三月三登泰山!蟠桃會+古風巡游驚艷出圈

房產(chǎn)要聞

重磅利好!2500個學位,海口濱江片區(qū),要建九年一貫制學校!

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

藝術(shù)要聞

你絕對想不到!文森特的色粉作品竟如此驚艷!

無障礙瀏覽 進入關(guān)懷版