網易首頁 > 網易號 > 正文 申請入駐

AGILE:自監督+交互式強化學習助力VLMs感知與推理全面提升

0
分享至

現有視覺語言大模型(VLMs)在多模態感知和推理任務上仍存在明顯短板:1. 對圖像中的細粒度視覺信息理解有限,視覺感知和推理能力未被充分激發;2. 強化學習雖能帶來改進,但缺乏高質量、易擴展的 RL 數據。

AGILE 提出一種全新的自監督學習范式,將「智能體交互」遷移至多模態大模型的強化學習訓練中,通過「模型生成動作代碼 + 視覺環境反饋」的循環式交互過程,讓模型像人一樣邊觀察、邊推理、邊學習,從而顯著提升模型視覺感知與邏輯推理能力。

  • Title:Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models
  • Paper:https://arxiv.org/pdf/2510.01304
  • Project Page:https://yuzeng0-0.github.io/AGILE/
  • Dataset:https://huggingface.co/datasets/YuZeng260/AGILE
  • Code:https://github.com/yuzeng0-0/AGILE
  • 作者單位:中科大、上海 AI Lab、華東師大、港中文

圖 1:AGILE 主要工作框架

方法核心:

交互式智能體 + 拼圖代理任務

為了克服數據瓶頸與可擴展性問題,研究者們選擇「拼圖」作為一種高效的兼具感知和推理的代理任務,提出 AGILE。將拼圖過程建模為「可控、可驗證」的交互式形式:

  • 模型在每一步生成 Python 動作代碼(Swap、Observe、Crop、Zoom);
  • 環境執行代碼、返回視覺反饋;
  • 模型根據環境反饋繼續規劃調整拼圖,該循環重復至拼圖完成。

這一閉環交互形成了「觀察–交互–反饋–學習」的智能體訓練范式,使 VLMs 能在自監督方式下持續提升感知和推理能力。

AGILE 的完整流程分為兩個階段:

Cold-Start 階段,使用 Gemini 2.5 Pro 生成 1.6K 條高質量專家拼圖交互軌跡,教會模型如何正確生成動作代碼與交互邏輯,解決初期模型「不會動手」的問題;

Reinforcement Learning 階段,在 15.6K 張圖像上訓練拼圖任務,采用 GRPO 算法,通過準確率、格式規范與交互輪數三重獎勵信號優化策略。

圖 2:模型拼圖過程中激發出來的感知和推理行為

實驗

研究者們進行了大量實驗,驗證了 AGILE 的有效性,并得到了多條富有啟發意義的結論:

  • 研究者們設計了系統的拼圖評估數據集,涵蓋不同難度(2×2、3×3)與不同初始正確塊數(L0–L7)。模型性能以兩種指標衡量:Acc,所有塊完全放對的比例;Score,正確拼塊數占總拼塊數的比例。在最簡單的 2×2 任務中,AGILE 使準確率從 9.5% 提升至 82.8%,比 Gemini 2.5 Pro 高出 36.4 個百分點。在更具挑戰性的 3×3 拼圖中,也從 0.4% 提升至 20.8%,標志著模型感知和推理能力大幅躍升。

表 1:拼圖 Acc 結果。LN 表示難度級別,N 表示初始正確拼圖塊數。N 值越小,拼圖越亂,難度越高。最佳結果以粗體顯示,次佳結果以下劃線顯示。

  • 通用能力即泛化性評測:經過拼圖訓練,模型在 9 項通用視覺任務中(涵蓋真實世界場景、高分辨率場景、細粒度感知、幻覺和多模態推理)平均提升 3.1%,展現出強大的泛化能力。進一步驗證了拼圖任務作為代理任務對于通用視覺能力的泛化價值。

表 2:不同模型在 9 個基準測試上的性能比較。縮寫:MME-RW (MME-RealWorld-Lite)、RWQA (RealWorldQA)、HRB4K (HRBench4K)、HRB8K (HRBench8K)、HalBench (HallusionBench)、MMMU (MMMU VAL),Avg. 表示所有 9 個基準測試的平均性能。? 表示強化學習相對于基礎模型 Qwen2.5-VL-7B 獲得的相對性能提升。最佳結果以粗體突出顯示,次佳結果以下劃線標出。

  • Scaling 實驗:數據規模帶來的持續增益。研究者們進一步探究了拼圖數據規模對性能的影響。當訓練數據從 0 擴展至 16K 時:拼圖任務準確率從 22.0% → 82.8%;HRBench4K 準確率提升 +2.0%;RealWorldQA 提升 +1.8%。表明 AGILE 的訓練在數據量擴增下持續有效。由于拼圖環境可自動生成,AGILE 的數據擴展幾乎零成本、無限擴容,為多模態 RL 提供了可持續的自監督范式。

圖 3:(左圖)訓練數據規模的影響。左側 y 軸表示 HRBench4K 和 RealWorldQA 的準確率,右側 y 軸表示拼圖任務的準確率。(右圖)與常規 QA 數據的比較,在兩種實驗設置中,樣本總數始終保持在 20K。

  • 與常規 QA 數據的對比實驗:研究者們替換 20K 常規 QA 數據中的其中 10K 為拼圖數據,發現模型可以表現出更好的性能。這說明拼圖任務提供了更強的結構感知與監督信號。這一發現凸顯了拼圖任務在緩解多模態強化學習數據稀缺方面的潛力,并為推進多模態模型開發開辟了一個充滿前景的新方向。

意義與未來

AGILE = 交互式拼圖代理 + 自監督 RL,在無需額外人工標注的前提下,持續提升 VLMs 的感知與推理能力。它證明了「交互式拼圖代理任務」作為突破數據瓶頸、強化 VLMs 的可行性和自監督強化學習范式的潛力。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
此論調不可取:整個北約打不過俄羅斯?把德國逼下場會讓俄軍絕望

此論調不可取:整個北約打不過俄羅斯?把德國逼下場會讓俄軍絕望

寰球經緯所
2026-04-24 15:00:27
火湖G3,湖人該讓一場?若橫掃火箭,挑戰雷霆,或難湊齊完整陣容

火湖G3,湖人該讓一場?若橫掃火箭,挑戰雷霆,或難湊齊完整陣容

熊哥愛籃球
2026-04-24 22:30:38
拉涅利:解約是羅馬單方面決定;感謝俱樂部給予我的深厚喜愛

拉涅利:解約是羅馬單方面決定;感謝俱樂部給予我的深厚喜愛

懂球帝
2026-04-24 23:23:07
太子爺坑苦尼克斯!只想刷數據,9200萬雙核沒球權,被當成藍領用

太子爺坑苦尼克斯!只想刷數據,9200萬雙核沒球權,被當成藍領用

你的籃球頻道
2026-04-24 11:19:15
1-6脆敗!鄭欽文大崩盤,連輸5局,輸球原因曝光,數據一目了然!

1-6脆敗!鄭欽文大崩盤,連輸5局,輸球原因曝光,數據一目了然!

大秦壁虎白話體育
2026-04-24 17:44:00
西方專家驚呼:中國正在回到明朝,可怕的“朝貢體系”正在歸來!

西方專家驚呼:中國正在回到明朝,可怕的“朝貢體系”正在歸來!

薦史
2026-04-24 08:45:12
轟29分+7記三分!中國男籃29歲王牌崛起:效率值超胡金秋劍指MVP

轟29分+7記三分!中國男籃29歲王牌崛起:效率值超胡金秋劍指MVP

李喜林籃球絕殺
2026-04-25 10:03:24
恒大集團與特朗普合作往事

恒大集團與特朗普合作往事

地產微資訊
2026-04-24 18:09:33
前所未有!中國罕見直接表態:軍演針對菲律賓

前所未有!中國罕見直接表態:軍演針對菲律賓

鳳眼論
2026-04-24 18:49:26
果然不出所料,國民黨主席鄭麗文表態了!

果然不出所料,國民黨主席鄭麗文表態了!

達文西看世界
2026-04-24 16:08:18
污染源找到,負責人被處理!但河北地下水變紅的關鍵問題還未解決

污染源找到,負責人被處理!但河北地下水變紅的關鍵問題還未解決

社會日日鮮
2026-04-24 07:10:17
情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

新歐洲
2026-04-21 19:37:05
第94分鐘絕平!皇馬爆冷翻車,爭冠形勢惡化,被巴薩甩開8分

第94分鐘絕平!皇馬爆冷翻車,爭冠形勢惡化,被巴薩甩開8分

足球狗說
2026-04-25 05:02:51
初二就輟學!全紅嬋哥哥被批沒文化 回應:能寫出自己名字就不錯

初二就輟學!全紅嬋哥哥被批沒文化 回應:能寫出自己名字就不錯

念洲
2026-04-24 18:05:13
保姆偷拿了家里2瓶茅臺去賣,我沒揭穿只辭退了她,臨走時她指了指舊皮鞋,我一看瞬間癱坐在地

保姆偷拿了家里2瓶茅臺去賣,我沒揭穿只辭退了她,臨走時她指了指舊皮鞋,我一看瞬間癱坐在地

今夜有個好故事
2026-03-11 17:26:56
假空姐大鬧亞航后續:賬號被扒出,曾穿地勤制服,十級美顏認不出

假空姐大鬧亞航后續:賬號被扒出,曾穿地勤制服,十級美顏認不出

離離言幾許
2026-04-24 21:38:49
王傳福夫婦坐地鐵參加北京車展被偶遇,網友:綠色出行

王傳福夫婦坐地鐵參加北京車展被偶遇,網友:綠色出行

新浪財經
2026-04-25 09:00:05
伊朗新領袖傷情曝光:截肢、毀容、發聲難,意識清醒仍能垂簾聽政

伊朗新領袖傷情曝光:截肢、毀容、發聲難,意識清醒仍能垂簾聽政

日新現場
2026-04-24 12:36:25
掘金隊第3場失利后,穆雷對約基奇史無前例的低迷表現感到恐慌

掘金隊第3場失利后,穆雷對約基奇史無前例的低迷表現感到恐慌

好火子
2026-04-24 23:31:23
瞞不下去了,但還是不愿意徹查!

瞞不下去了,但還是不愿意徹查!

胖胖說他不胖
2026-04-25 08:55:14
2026-04-25 11:20:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12852文章數 142635關注度
往期回顧 全部

科技要聞

Anthropic剛拿亞馬遜250億美元,又拿谷歌400億

頭條要聞

中學印刷廠廠長被指侵吞324萬利潤 本人堅稱正當得利

頭條要聞

中學印刷廠廠長被指侵吞324萬利潤 本人堅稱正當得利

體育要聞

上海男籃23連勝+主場全勝 姚明之后最強一季

娛樂要聞

鄧超最大的幸運,就是遇見孫儷

財經要聞

別高估英偉達,別低估DeepSeek

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

時尚
房產
數碼
教育
本地

朱珠到底為什么接這部劇?

房產要聞

新一輪教育大爆發來了!海口,開始瘋狂建學校!

數碼要聞

華為AI眼鏡開售 自研AI芯片+12小時續航 2499元起

教育要聞

走,跟著校長去讀書

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

無障礙瀏覽 進入關懷版