亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

重構(gòu)跨域RL框架!理論驅(qū)動「雙重對齊」讓跨域遷移「質(zhì)變」

0
分享至



本文作者來自香港城市大學(xué)、伊利諾伊大學(xué)厄巴納 - 香檳分校、騰訊、中國電信人工智能研究院、清華大學(xué)等機(jī)構(gòu)。作者包括喬鐘健、楊瑞、呂加飛、白辰甲、李秀、高思陽、邱爽。其中,第一作者為香港城市大學(xué)喬鐘健,通訊作者為香港城市大學(xué)邱爽。



  • 論文標(biāo)題:Efficient Cross-Domain Offline Reinforcement Learning with Dynamics- and Value-Aligned Data Filtering
  • 文章鏈接:https://arxiv.org/pdf/2512.02435

在現(xiàn)實(shí)世界中通過強(qiáng)化學(xué)習(xí)訓(xùn)練智能體,往往需要大量在線試錯與環(huán)境探索,這不僅成本高昂,還可能帶來顯著安全風(fēng)險:機(jī)器人可能因試錯而損壞,自動駕駛的在線探索可能危及行車安全,而持續(xù)采集交互數(shù)據(jù)本身也代價巨大。因此,離線強(qiáng)化學(xué)習(xí)(offline RL)通過直接利用歷史靜態(tài)數(shù)據(jù)進(jìn)行策略學(xué)習(xí),規(guī)避了持續(xù)在線交互需求,為在高成本、高風(fēng)險場景中應(yīng)用強(qiáng)化學(xué)習(xí)提供了更可行的路徑,成為推動強(qiáng)化學(xué)習(xí)走向真實(shí)世界的關(guān)鍵方向。

然而,當(dāng)目標(biāo)環(huán)境數(shù)據(jù)稀缺時(例如,新部署的機(jī)器人僅擁有少量演示數(shù)據(jù)),僅憑目標(biāo)域數(shù)據(jù)難以支撐高性能策略的學(xué)習(xí)。這一困境催生了跨域離線強(qiáng)化學(xué)習(xí)(Cross-Domain Offline RL)這一范式 —— 它致力于借助源域(如動力學(xué)存在差異但數(shù)據(jù)豐富的仿真環(huán)境)中的知識,彌補(bǔ)目標(biāo)域數(shù)據(jù)不足,為數(shù)據(jù)匱乏的目標(biāo)域注入學(xué)習(xí)動能,促進(jìn)目標(biāo)域完成策略學(xué)習(xí)。

雖然跨領(lǐng)域離線強(qiáng)化學(xué)習(xí)的出發(fā)點(diǎn)很好,但源域與目標(biāo)域之間往往存在動力學(xué)偏移(Dynamics Misalignment),即狀態(tài)轉(zhuǎn)移動力學(xué)規(guī)律不一致。在這種情況下,直接合并源域和目標(biāo)域數(shù)據(jù)進(jìn)行訓(xùn)練會引發(fā)嚴(yán)重的分布外動力學(xué) (OOD Dynamics)問題:模型學(xué)習(xí)到的轉(zhuǎn)移規(guī)律難以在目標(biāo)域成立,因而性能往往會迅速退化,最終令訓(xùn)練崩潰。目前解決這一問題的主流范式是動力學(xué)對齊驅(qū)動的數(shù)據(jù)過濾:首先通過對比學(xué)習(xí)或最優(yōu)傳輸?shù)确绞蕉攘吭从驑颖竞湍繕?biāo)域的動力學(xué)偏移程度,然后過濾掉部分動力學(xué)明顯不一致的源域數(shù)據(jù),只保留那些動力學(xué)行為更接近目標(biāo)域的樣本參與訓(xùn)練。

然而,這一范式在邏輯上依賴于一個極強(qiáng)的隱藏假設(shè):動力學(xué)相似性足以刻畫源域數(shù)據(jù)的可遷移性,只要源域樣本在轉(zhuǎn)移動力學(xué)上與目標(biāo)域的 “足夠接近”,源域數(shù)據(jù)便一定值得保留并用于訓(xùn)練。但這一假設(shè)忽略了源域數(shù)據(jù)的另一項(xiàng)關(guān)鍵屬性 —— 數(shù)據(jù)質(zhì)量。在現(xiàn)實(shí)問題中,源域不僅僅與目標(biāo)域存在動力學(xué)偏移,更重要的是源域數(shù)據(jù)所含學(xué)習(xí)信號也未必同等有效,進(jìn)而影響其對目標(biāo)域策略學(xué)習(xí)的實(shí)際貢獻(xiàn)。如果一組源域數(shù)據(jù)在動力學(xué)上與目標(biāo)域完全一致,卻是從環(huán)境中隨機(jī)收集的低質(zhì)量數(shù)據(jù),它對學(xué)習(xí)目標(biāo)域策略的貢獻(xiàn)真的大嗎?

研究動機(jī):動力學(xué)對齊真的充分嗎?



為了探究上述問題,作者們設(shè)計了一個啟發(fā)性實(shí)驗(yàn):在 Hopper 機(jī)器人控制任務(wù)中,源域數(shù)據(jù)由兩種類別構(gòu)成:動力學(xué)對齊,但低質(zhì)量的隨機(jī)樣本;以及存在動力學(xué)偏差,但高質(zhì)量的專家樣本。按照現(xiàn)有的 IGDF 等方法,由于專家樣本存在動力學(xué)偏差,它們會被立刻過濾掉,最終只會保留隨機(jī)樣本進(jìn)行策略訓(xùn)練。然而,隨機(jī)樣本對策略性能的提升是相當(dāng)有限的,這導(dǎo)致最終策略僅僅收斂到次優(yōu)性能。這表明,低質(zhì)量源域數(shù)據(jù)提供的有效信息較少,進(jìn)而削弱其對目標(biāo)域策略學(xué)習(xí)的貢獻(xiàn)。

針對現(xiàn)有方法所存在的問題,論文首先從理論層面定位了其根源所在:現(xiàn)有跨域離線強(qiáng)化學(xué)習(xí)的主流分析框架與其真正的學(xué)習(xí)目標(biāo)并不匹配。這一錯位直接導(dǎo)致現(xiàn)有方法只聚焦于動力學(xué)對齊,系統(tǒng)性忽視了源域數(shù)據(jù)質(zhì)量。為此,論文進(jìn)一步重構(gòu)理論框架,通過直接推導(dǎo)目標(biāo)域策略學(xué)習(xí)的次優(yōu)性差距(sub-optimality gap)上界,從理論上明確:高效的跨域離線強(qiáng)化學(xué)習(xí)必須兼顧動力學(xué)偏移與價值偏差。在該理論結(jié)論驅(qū)動下,論文提出DVDF 方法:設(shè)計統(tǒng)一的數(shù)據(jù)過濾框架同時實(shí)現(xiàn)源域樣本的動力學(xué)對齊與價值對齊,選擇 “既像又值” 的源域數(shù)據(jù)用于訓(xùn)練。DVDF 可作為插件(plug-in)模塊無縫集成到現(xiàn)有的方法中(如 IGDF、OTDF 等),并帶來穩(wěn)定的性能提升。

理論重構(gòu):修正跨域離線強(qiáng)化學(xué)習(xí)的優(yōu)化目標(biāo)

















動力學(xué)和價值雙對齊的數(shù)據(jù)過濾框架

基于以上分析,我們需要同時度量價值對齊和動力學(xué)對齊程度。對于動力學(xué)對齊,我們可采用現(xiàn)有工作中成熟的方案,如對比學(xué)習(xí)和最優(yōu)傳輸?shù)取N恼滦枰鉀Q的關(guān)鍵問題在于價值對齊程度的度量。為了解決這個問題,文章首先推導(dǎo)出了價值對齊項(xiàng)的上界:







值得注意的是,預(yù)訓(xùn)練得到的優(yōu)勢函數(shù)的近似誤差不可忽視。為了進(jìn)一步降低近似誤差的影響,文章首先推導(dǎo)出了優(yōu)勢近似誤差的具體形式:





然而,IQL 學(xué)習(xí)價值函數(shù)時,易受數(shù)據(jù)集中次優(yōu)動作的影響,導(dǎo)致價值函數(shù)常被低估,從而導(dǎo)致優(yōu)勢函數(shù)被高估。進(jìn)一步,為了解決該問題,我們選用了 Sparse Q-learning (SQL) 算法進(jìn)行預(yù)訓(xùn)練。SQL 通過在價值函數(shù)訓(xùn)練中顯式引入稀疏性,從而降低了次優(yōu)動作對價值估計的影響,能夠估計出更準(zhǔn)確的優(yōu)勢函數(shù)。











實(shí)驗(yàn)驗(yàn)證

1. 動力學(xué)偏移場景下的性能對比

論文中設(shè)計了多個動力學(xué)偏移場景以驗(yàn)證 DVDF 的有效性。論文通過在四種機(jī)器人控制任務(wù)中(halfcheetah, hopper, walker2d, ant)引入兩種動力學(xué)偏移:關(guān)節(jié)偏移(kinematic shifts)和形體偏移(morphology shifts)以構(gòu)建源域環(huán)境,并在相應(yīng)環(huán)境中收集不同質(zhì)量的離線數(shù)據(jù)以構(gòu)建源域數(shù)據(jù)集。同時,論文直接從標(biāo)準(zhǔn)的 D4RL 數(shù)據(jù)集中進(jìn)行采樣以構(gòu)建目標(biāo)域數(shù)據(jù)集。下表展示了在動態(tài)偏移場景下 DVDF 和多個基線方法的標(biāo)準(zhǔn)化得分(Normalized Score)對比。可以看出,DVDF 在絕大多數(shù)數(shù)據(jù)集中的性能都優(yōu)于基線方法,這是因?yàn)?DVDF 利用了源域數(shù)據(jù)集中的數(shù)據(jù)質(zhì)量的信息,能夠篩選出更具有價值的高質(zhì)量樣本。

具體而言,在關(guān)節(jié)偏移場景下,DVDF 與多個基線方法的標(biāo)準(zhǔn)化得分對比。DVDF 為基礎(chǔ)算法 IGDF 和 OTDF 帶來了顯著的性能提升:DVDF-IGDF 在 20 個任務(wù)中的 16 個上超越了原 IGDF 方法,總分從 1001.6 提升至 1164.7,增幅達(dá) 16.3%;DVDF-OTDF 則在 15 個任務(wù)上超越了原 OTDF 方法,總分從 986.5 提升至 1172.3,增幅達(dá) 18.8%。在形體偏移這一設(shè)定下,DVDF 依然保持了顯著的性能優(yōu)勢。DVDF-IGDF 在 20 個任務(wù)中的 16 個上超越了原 IGDF 方法,總分從 1039.0 提升至 1198.7,增幅達(dá) 15.4%;DVDF-OTDF 則在 14 個任務(wù)上超越了原 OTDF 方法,總分從 1042.1 提升至 1156.3,增幅達(dá) 11.0%。





2. 消融實(shí)驗(yàn)

在消融實(shí)驗(yàn)部分,論文主要分析了分別使用 SQL 和 IQL 算法進(jìn)行優(yōu)勢函數(shù)預(yù)訓(xùn)練對策略性能和優(yōu)勢估計偏差的影響。如下圖所示,相比于 IQL 算法,使用 SQL 算法進(jìn)行優(yōu)勢函數(shù)預(yù)訓(xùn)練能夠得到更高的策略性能以及更低的優(yōu)勢估計誤差。



3. 參數(shù)敏感性實(shí)驗(yàn)





總結(jié)

本論文聚焦于動力學(xué)偏移下的跨域離線強(qiáng)化學(xué)習(xí),通過實(shí)驗(yàn)和理論層面的探究,證明了動力學(xué)和價值雙重對齊對于跨域離線強(qiáng)化學(xué)習(xí)至關(guān)重要。基于這一發(fā)現(xiàn),論文提出全新的跨域離線強(qiáng)化學(xué)習(xí)框架 DVDF。通過在源域上預(yù)訓(xùn)練優(yōu)勢函數(shù)來度量樣本價值,并與動力學(xué)對齊相結(jié)合,DVDF 能夠識別并篩選出對策略學(xué)習(xí)有價值源域樣本。在多種場景下的實(shí)驗(yàn)結(jié)果表明,DVDF 都展示了比基線算法更高的性能,充分驗(yàn)證了其有效性。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
9歲小酒窩職業(yè)假笑濃妝營業(yè),評論區(qū)差評一片,董璇后悔了嗎?

9歲小酒窩職業(yè)假笑濃妝營業(yè),評論區(qū)差評一片,董璇后悔了嗎?

蒂蒂茱家
2026-04-17 15:28:38
許家印認(rèn)罪只是開始,律師稱:恒大背后的“幫兇”一個都別想跑

許家印認(rèn)罪只是開始,律師稱:恒大背后的“幫兇”一個都別想跑

未曾青梅
2026-04-18 23:07:13
這位男星當(dāng)爸,全網(wǎng)卻在扒他"藏了多久"

這位男星當(dāng)爸,全網(wǎng)卻在扒他"藏了多久"

追星雷達(dá)站
2026-04-19 01:14:40
正式退出,全紅嬋無緣亞運(yùn)會?跳水隊(duì)官宣選拔條件,全紅嬋獲資格

正式退出,全紅嬋無緣亞運(yùn)會?跳水隊(duì)官宣選拔條件,全紅嬋獲資格

懂球社
2026-04-19 20:23:38
徹底丟臉了!佩通坦的通話錄音已曝光,泰國急眼了,洪森跪地求饒

徹底丟臉了!佩通坦的通話錄音已曝光,泰國急眼了,洪森跪地求饒

杰絲聊古今
2026-04-19 00:10:16
美國威脅:要對伊朗實(shí)施“金融轟炸”! 伊朗:美已成以色列“第七個行政區(qū)”

美國威脅:要對伊朗實(shí)施“金融轟炸”! 伊朗:美已成以色列“第七個行政區(qū)”

每日經(jīng)濟(jì)新聞
2026-04-17 18:36:38
這是李鴻章妻妾的真實(shí)樣貌,個個美艷身材修長,顏值不輸當(dāng)代女星

這是李鴻章妻妾的真實(shí)樣貌,個個美艷身材修長,顏值不輸當(dāng)代女星

阿廢冷眼觀察所
2026-04-11 18:41:14
接父母來城里養(yǎng)老90天,我才明白:沒退休金的老人,孝順也養(yǎng)不起

接父母來城里養(yǎng)老90天,我才明白:沒退休金的老人,孝順也養(yǎng)不起

木子言故事
2026-04-19 10:47:16
10萬億窟窿!比恒大更坑的民企來了,曾力壓許家印,位居第一

10萬億窟窿!比恒大更坑的民企來了,曾力壓許家印,位居第一

孤單是寂寞的毒
2026-03-04 15:38:03
勇士隊(duì)格林透露主帥讓他在本賽季保持專注:有好幾次我都想放棄

勇士隊(duì)格林透露主帥讓他在本賽季保持專注:有好幾次我都想放棄

好火子
2026-04-20 05:01:24
輸山東鄭永剛點(diǎn)出多個問題+談小外融入,王浩然直指輸球不是壞事

輸山東鄭永剛點(diǎn)出多個問題+談小外融入,王浩然直指輸球不是壞事

籃球資訊達(dá)人
2026-04-20 00:52:26
沈陽兩超市暗中較勁,老百姓的狂歡,網(wǎng)友期望多來幾次

沈陽兩超市暗中較勁,老百姓的狂歡,網(wǎng)友期望多來幾次

遼沈音信
2026-04-19 23:59:17
東風(fēng)導(dǎo)彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

東風(fēng)導(dǎo)彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

番外行
2026-03-31 08:28:28
我今年55了,想用血淚教訓(xùn)告訴你:不要跟任何人,包括你的父母、子女、枕邊人,分享這4件事

我今年55了,想用血淚教訓(xùn)告訴你:不要跟任何人,包括你的父母、子女、枕邊人,分享這4件事

東林夕亭
2026-03-27 09:07:57
61歲張曼玉近照曝光,臉僵到認(rèn)不出?終于明白她死活不上浪姐了

61歲張曼玉近照曝光,臉僵到認(rèn)不出?終于明白她死活不上浪姐了

科學(xué)發(fā)掘
2026-04-19 06:49:58
別再只看中超豪門了!重慶銅梁龍的崛起,藏著中國足球的真正出路

別再只看中超豪門了!重慶銅梁龍的崛起,藏著中國足球的真正出路

圣西羅的太陽
2026-04-19 07:42:38
伊朗攻擊印度船,特朗普的感謝派啥用了?內(nèi)塔尼亞胡的震驚……

伊朗攻擊印度船,特朗普的感謝派啥用了?內(nèi)塔尼亞胡的震驚……

新民周刊
2026-04-19 08:06:05
特朗普稱萬斯不參加美伊復(fù)談

特朗普稱萬斯不參加美伊復(fù)談

財聯(lián)社
2026-04-19 21:19:08
只剩3天,解放軍準(zhǔn)時下通牒,賴清德將登機(jī)離臺,蕭旭岑判斷準(zhǔn)確

只剩3天,解放軍準(zhǔn)時下通牒,賴清德將登機(jī)離臺,蕭旭岑判斷準(zhǔn)確

八斗小先生
2026-04-19 10:24:04
睡覺時盡量把腳露在外面,有什么作用,醫(yī)生:經(jīng)常失眠或與肝相關(guān)

睡覺時盡量把腳露在外面,有什么作用,醫(yī)生:經(jīng)常失眠或與肝相關(guān)

荊醫(yī)生科普
2026-03-13 22:00:09
2026-04-20 06:15:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12795文章數(shù) 142632關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀(jì)錄!300臺機(jī)器人狂飆半馬

頭條要聞

特朗普:美艦武力攔截伊朗貨船 在機(jī)艙炸出一個洞

頭條要聞

特朗普:美艦武力攔截伊朗貨船 在機(jī)艙炸出一個洞

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬!內(nèi)娛隔空掀桌第一人

財經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

房產(chǎn)
旅游
藝術(shù)
公開課
軍事航空

房產(chǎn)要聞

官宣簽約最強(qiáng)城更!海口樓市,突然殺入神秘房企!

旅游要聞

北京投入2.2億元建成和田“三館一院”

藝術(shù)要聞

超模施特洛耶克寫真曝光,簡直美到窒息,別錯過!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗逼退美掃雷艇:美方求給15分鐘撤退

無障礙瀏覽 進(jìn)入關(guān)懷版