无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

真機強化學習如何保證安全性?清華團隊提出安全探索均衡機制

0
分享至



近日清華大學于IEEE TPAMI發表論文,探討了真機強化學習的安全性保障問題,提出了一套「安全探索均衡」新型機制,揭示了安全探索的理論最大邊界,并攻克了其收斂性證明難題。該論文通訊作者為清華大學車輛學院、人工智能學院教授李升波;共同第一作者為清華大學博士生楊雨杰、鄭志龍。

當下,具身智能正經歷著爆發式的演進。強化學習是其背后的核心驅動算法。然而,想要讓智能體真正走出虛擬仿真,在物理世界中落地應用,真機強化學習(Real-World RL)是繞不開的終極考驗。

與在仿真器里無限次試錯不同,真實世界沒有「重來」的按鈕。如果在物理環境中進行無限制的探索,極易導致機器損壞甚至人員傷亡。這就引出了真機強化學習中最核心的難題:安全探索(Safe Exploration)。

安全探索不僅要求最終學到的策略是安全的,更苛刻的是,它要求在整個訓練過程中,所有的中間策略都必須嚴格安全,智能體與真實環境的每一次交互都不能突破約束邊界。



論文連接:https://ieeexplore.ieee.org/document/11419867

步步為營:安全探索的基本思想


如何在充滿未知的現實世界里做到百分之百的安全?現有的主流方法給出了一個直觀的思路:將探索嚴格限制在一個「可行區域(Feasible Zone)」 內。

這個可行區域,是由預先建立的「環境模型」推算得到的。由于真實世界十分復雜,最初始的環境模型往往存在誤差(即不確定性)。但算法會對模型進行最壞情況的打算,得到的可行區域對模型誤差具有魯棒性。因此,只要待在這個區域內,真實環境下的絕對安全就能得到保證。

在這個邏輯下,智能體的學習過程就變成了一個「滾雪球」的良性循環:在現有的可行區域內收集交互數據用這些數據擬合環境模型并降低其誤差依靠更精準的模型推算出更大的可行區域。

巨人的盲區:雪球會越滾越大,但終點在哪?

這一「邊探索、邊建模、邊擴圈」的路徑,吸引了眾多國際頂尖學者的目光。

例如,瑞士工程科學院院士、ACM/IEEE Fellow Andreas Krause 教授團隊提出了一系列利用李雅普諾夫函數表示可行區域、用高斯過程擬合環境模型的方法;美國工程院院士、IEEE/IFAC Fellow Claire Tomlin 教授團隊則借助哈密頓 - 雅可比(HJ)可達性分析攻克可行區域的求解難題。

然而,沿著這條路線前行,前人卻留下了一個極其關鍵卻始終懸而未決的難題:這個不斷擴圈的探索過程究竟會不會收斂?如果會,它最終會收斂到哪里?我們理論上究竟能探索到多大的極限區域?

這篇由清華大學李升波教授團隊最新發表于 IEEE TPAMI 2026的論文,首次對這個問題給出了擲地有聲的解答:這個過程必然會收斂,且收斂點被嚴格定義為安全探索的「均衡(Equilibrium)」。

撥云見日:何為「安全探索均衡」?

要理解這個概念,我們可以把可行區域和環境模型看作一對相互依存的雙子星:更準確的模型能解鎖更大的區域,而更大的區域能提供更多的數據,進而孕育出更準確的模型。

所謂「均衡」,就是這對雙子星共舞的完美不動點:當探索到達這個點時,區域已經擴張到了極限,再也無法提供能進一步降低模型誤差的新數據;同時模型也精準到了極限,再也無法支撐區域進一步拓展。

在這個不動點上,兩者達到了完美平衡。它包含兩個核心要素:

  • 最大可行區域(Maximum Feasible Zone):在當前模型認知下,智能體能拓展出的最廣闊的安全地盤。
  • 最小不確定模型(Least Uncertain Model):在給定區域內,利用所有已知數據將誤差降到理論最低的極限模型。



安全探索過程示意:模型精度逐步提升,可行區域逐步擴大,直至抵達均衡點

大道至簡:兩步交替的 SEE 算法

尋找這個均衡點聽起來高深,但團隊提出了一種極其直觀的算法框架 —— 安全均衡探索(SEE, Safe Equilibrium Exploration)。

摒棄復雜的推導,SEE 的工作原理只需要兩步交替迭代:

  • 第一步(求區域):固定當前的環境模型,通過求解風險貝爾曼方程(Risky Bellman Equation),精準算出它所能支撐的「最大可行區域」。
  • 第二步(求模型):固定剛找到的可行區域,把尋找「最小不確定模型」的問題轉化為圖論中的團判定問題(Clique Decision Problem),并在多項式時間內進行近似求解。

只需不斷交替這兩步,研究團隊通過嚴密的數學理論證明了其優美的性質:在迭代過程中,模型誤差會單調減小,可行區域會單調擴展,并且最終一定會收斂到那個完美的「安全探索均衡」點。

扎實的數值驗證:收斂性與安全性的統一

這套理論在數值仿真中得到了扎實的驗證。團隊在三個經典的控制任務上對 SEE 算法進行了測試,包括:2D 線性雙積分器調節、2D 非線性倒立擺平衡,以及 3D 非線性獨輪車避障任務。



雙積分器調節任務可行區域單調擴展過程



獨輪車避障任務可行區域單調擴展過程

實驗結果清晰地展示了算法的理論特性:SEE 算法在探索未知環境的全過程中,不僅實現了嚴格零約束違反,并且在效率上表現優異,僅僅經過寥寥幾次迭代(如獨輪車任務僅需 10 次迭代,區域召回率即達 95.78%),就能迅速逼近理論上的最大極限區域,抵達安全探索的均衡點。

結語:拋磚引玉,共筑真機 RL 的安全底座

本文的核心價值,絕不僅僅是為一個古老的數學問題提供了一個確切的證明,團隊更希望這項工作能成為真機強化學習領域的一塊「引玉之磚」。

這篇論文首次厘清了「安全探索到底在探索什么」這一根本目標,并將「安全探索均衡」這一概念清晰地立在了大家面前。它傳遞了一個明確的信號:在物理世界做強化學習訓練,區域擴張與模型更新絕非孤立的兩個任務,而是通向同一均衡點的雙向奔赴。

無論未來的研究者是引入更復雜的神經網絡進行函數逼近,還是將其泛化部署到自由度極高的人形機器人上,這一「均衡」范式都為智能體的探索提供了數學上的安全底座。這篇論文并非一個終點,而是一個全新的起點。期待這一視角能為廣大同行提供新的破局思路,讓具身智能的真機強化學習迎來真正的爆發。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
小米高管回應雷軍擺拍風波:這事都兩年了

小米高管回應雷軍擺拍風波:這事都兩年了

熱搜摘要官
2026-06-23 01:14:08
42歲李宇春嫁法國老頭真相曝光,近況不意外

42歲李宇春嫁法國老頭真相曝光,近況不意外

微風輕拂面
2026-06-21 17:45:18
隊記:熱火有意詹姆斯,預計將提供一份中產合同

隊記:熱火有意詹姆斯,預計將提供一份中產合同

懂球帝
2026-06-23 16:43:06
曝洛夫頓不服管理,上海隊既不想續約,也不愿讓他加盟其他球隊

曝洛夫頓不服管理,上海隊既不想續約,也不愿讓他加盟其他球隊

孤影來客
2026-06-23 17:11:16
“內娛第一窩囊廢”,徹底人設崩塌

“內娛第一窩囊廢”,徹底人設崩塌

金錯刀
2026-06-23 14:26:23
正常人有沒可能被逼瘋成精神病?看網友講述,簡直不要太可怕。

正常人有沒可能被逼瘋成精神病?看網友講述,簡直不要太可怕。

侃神評故事
2026-06-23 11:27:52
央企“最牛女副處長”落馬:兩年與上司開房410次,細節曝光

央企“最牛女副處長”落馬:兩年與上司開房410次,細節曝光

西門老爹
2025-12-16 15:35:31
國際油價,顯著下跌!金價、銀價,都跌了

國際油價,顯著下跌!金價、銀價,都跌了

中國能源網
2026-06-23 10:14:07
韓國民調:中國好感度降至19%,中國青年眼中韓國已無足輕重

韓國民調:中國好感度降至19%,中國青年眼中韓國已無足輕重

君笙的拂兮
2026-06-22 18:11:35
李金銘簽約MCN!被糾纏12年、停更10個月,這次能翻身嗎?

李金銘簽約MCN!被糾纏12年、停更10個月,這次能翻身嗎?

手工制作阿殲
2026-06-23 15:16:16
一款包裝寫了大量日文的眼藥水,實際產自江西,記者一查:該公司0人參保

一款包裝寫了大量日文的眼藥水,實際產自江西,記者一查:該公司0人參保

南方都市報
2026-06-23 14:45:16
剛剛,華為宣布:智駕全面兜底

剛剛,華為宣布:智駕全面兜底

大佬灼見
2026-06-23 13:10:42
巴拉圭“胸神”16年后重返世界杯,靠火辣身材爆紅,愿為贏球裸奔

巴拉圭“胸神”16年后重返世界杯,靠火辣身材爆紅,愿為贏球裸奔

深析古今
2026-06-14 15:32:00
康城失守已成定局?大股俄軍已攻入城區,頓巴斯之戰或迎來轉折

康城失守已成定局?大股俄軍已攻入城區,頓巴斯之戰或迎來轉折

小雪的運動之心
2026-06-23 16:30:47
C羅長子16歲了,身高190一頭卷毛很有足球天賦,喬治娜視他為親生

C羅長子16歲了,身高190一頭卷毛很有足球天賦,喬治娜視他為親生

照見古今
2026-06-22 18:34:47
王欣瑜抓住換對手機會62分鐘速下班,WTA排名前五十無中國金花

王欣瑜抓住換對手機會62分鐘速下班,WTA排名前五十無中國金花

網球之家
2026-06-22 23:18:02
“久旱逢甘霖”!000756,獲年內首個漲停;603669,午后2分鐘封板

“久旱逢甘霖”!000756,獲年內首個漲停;603669,午后2分鐘封板

大眾證券報
2026-06-23 16:00:01
雷軍的真實感快過期了

雷軍的真實感快過期了

智遠同學
2026-06-22 11:50:16
WTT美國大滿貫:壞消息!梁靖崑退賽,14人出發,王楚欽晉級64強

WTT美國大滿貫:壞消息!梁靖崑退賽,14人出發,王楚欽晉級64強

國乒二三事
2026-06-23 11:20:14
沉默15天后,中方準時宣布斷供,截癱美國公司,禁止外企吃飯砸鍋

沉默15天后,中方準時宣布斷供,截癱美國公司,禁止外企吃飯砸鍋

流史歲月
2026-06-23 15:00:07
2026-06-23 19:59:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13339文章數 142677關注度
往期回顧 全部

科技要聞

48名中國開發者聯名舉報蘋果

頭條要聞

河南南陽曾47天查扣24輛冷鏈貨車:拍賣350萬上繳國庫

頭條要聞

河南南陽曾47天查扣24輛冷鏈貨車:拍賣350萬上繳國庫

體育要聞

揚尼斯去了邁阿密:凱爾特人怎么辦?

娛樂要聞

內娛95后頂流格局發生潛移默化的變化

財經要聞

屋頂光伏度苦夏

汽車要聞

華為智駕ADS限時優惠月底結束 7月1日前下訂立省3000元

態度原創

教育
游戲
藝術
時尚
軍事航空

教育要聞

TTS新傳考研名詞解釋:算法抵抗

曾被質疑不配年度游戲的《宇宙機器人》 足夠好玩么?

藝術要聞

魯迅畢生珍藏的書法!這才是楷書的“最初樣貌”,水平高過唐代大師

除了瑪麗珍、薄底鞋,今年最火的鞋子就是它了

軍事要聞

以色列總理、國防部長和國防軍總參謀長發表聯合聲明

無障礙瀏覽 進入關懷版