无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AAAI 2026 Oral|InfiGUI-G1模型來(lái)了,刷新GUI Grounding SOTA

0
分享至



隨著多模態(tài)大語(yǔ)言模型(MLLM)的飛速發(fā)展,能夠像人類(lèi)一樣通過(guò)視覺(jué)輸入操作圖形用戶(hù)界面(GUI)的智能體(Agent)正逐漸成為現(xiàn)實(shí)。然而,在通往通用計(jì)算機(jī)控制的道路上,如何讓模型精準(zhǔn)地將自然語(yǔ)言指令對(duì)應(yīng)到屏幕上的具體元素 —— 即 GUI Grounding 任務(wù),依然是一大難題。

現(xiàn)有的方法,特別是基于驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR),雖然在提升 “指得準(zhǔn)”(空間對(duì)齊)方面表現(xiàn)出色,卻往往在 “指得對(duì)”(語(yǔ)義對(duì)齊)上遭遇瓶頸。模型常常陷入 “自信陷阱”,在復(fù)雜的語(yǔ)義場(chǎng)景下無(wú)法通過(guò)有效探索找到正確的功能圖標(biāo)。

針對(duì)這一痛點(diǎn),來(lái)自浙江大學(xué)、香港理工大學(xué)及 InfiX.ai 的研究團(tuán)隊(duì)提出了一種全新的自適應(yīng)探索策略?xún)?yōu)化框架(AEPO),并推出了InfiGUI-G1系列模型。該模型通過(guò)多答案生成與自適應(yīng)獎(jiǎng)勵(lì)機(jī)制,徹底打破了傳統(tǒng) RLVR 的探索瓶頸。僅憑 3B 和 7B 的參數(shù)量,InfiGUI-G1 便在多個(gè)高難度 GUI 基準(zhǔn)測(cè)試中刷新了 SOTA,部分指標(biāo)甚至大幅超越了閉源模型。

本文將深入介紹這項(xiàng)被 AAAI 2026 接收為 Oral 的工作,解讀其如何通過(guò) “學(xué)會(huì)探索” 來(lái)實(shí)現(xiàn)更精準(zhǔn)的 GUI 語(yǔ)義理解。



  • 論文標(biāo)題:InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization
  • 論文鏈接:https://arxiv.org/abs/2508.05731
  • 代碼鏈接:https://github.com/InfiXAI/InfiGUI-G1

從 “空間對(duì)齊” 到 “語(yǔ)義對(duì)齊”:被忽視的探索瓶頸

GUI Grounding 任務(wù)的核心是將自然語(yǔ)言指令(如 “打開(kāi)相機(jī)”)映射到屏幕上的特定元素坐標(biāo)。研究團(tuán)隊(duì)指出,這一任務(wù)可以解構(gòu)為兩個(gè)正交的維度:

1. 空間對(duì)齊(Spatial Alignment):能否精確地定位到元素(即 “指得準(zhǔn)”)。

2. 語(yǔ)義對(duì)齊(Semantic Alignment):能否識(shí)別出功能正確的元素(即 “指得對(duì)”)。

現(xiàn)有的 RLVR 方法(如 Naive RLVR)雖然能通過(guò)優(yōu)化坐標(biāo)生成來(lái)提升定位精度,但在面對(duì)語(yǔ)義模糊或復(fù)雜的指令時(shí)卻顯得力不從心。

例如,當(dāng)指令是 “使用相機(jī)搜索物體” 時(shí),屏幕上可能同時(shí)存在普通的 “相機(jī)應(yīng)用” 和具有視覺(jué)搜索功能的 “Google Lens”。缺乏深度語(yǔ)義理解的模型往往會(huì)自信地死磕 “相機(jī)應(yīng)用” 圖標(biāo)。由于傳統(tǒng) RL 依賴(lài)當(dāng)前策略采樣,模型會(huì)不斷重復(fù)這個(gè)高置信度的錯(cuò)誤,陷入“自信陷阱”(Confidence Trap),從而無(wú)法發(fā)現(xiàn)真正正確的 “Google Lens” 圖標(biāo),導(dǎo)致無(wú)法獲得修正語(yǔ)義誤解所需的學(xué)習(xí)信號(hào)。



GUI Grounding 的主要失敗模式: (a) 空間對(duì)齊失敗,(b) 語(yǔ)義對(duì)齊失敗

InfiGUI-G1:自適應(yīng)探索策略?xún)?yōu)化(AEPO)

為了解決這一探索效率低下的問(wèn)題,InfiGUI-G1 引入了AEPO(Adaptive Exploration Policy Optimization)框架。與傳統(tǒng)的單次回答生成不同,AEPO 旨在通過(guò)更廣泛且高效的探索來(lái)捕捉低概率但正確的選項(xiàng)。

AEPO 框架由三個(gè)協(xié)同工作的核心組件構(gòu)成:

1.多答案生成機(jī)制(Multi-Answer Generation)傳統(tǒng)的 RL 方法通常只采樣一個(gè)動(dòng)作,一旦模型 “固執(zhí)己見(jiàn)” 地選錯(cuò),梯度的學(xué)習(xí)信號(hào)就會(huì)消失。AEPO 強(qiáng)制模型在一次前向傳遞中生成 N 個(gè)候選坐標(biāo)點(diǎn)。這一機(jī)制迫使模型跳出單一的高置信度預(yù)測(cè),去探索策略分布長(zhǎng)尾中的可能性,從而大幅增加了發(fā)現(xiàn)正確答案(如上述例子中的 Google Lens)的概率。

2.自適應(yīng)探索獎(jiǎng)勵(lì)(Adaptive Exploration Reward, AER)僅僅生成多個(gè)答案是不夠的,如何評(píng)價(jià)這些答案的質(zhì)量至關(guān)重要。研究團(tuán)隊(duì)基于效率第一性原理(效率 = 效用 / 成本)設(shè)計(jì)了 AER 函數(shù)。

  • 動(dòng)態(tài)激勵(lì):如果模型在靠前的排名(Rank k)就找到了正確答案,給予高額獎(jiǎng)勵(lì);如果失敗,則給予較小的懲罰以鼓勵(lì)繼續(xù)探索。
  • 這種非線(xiàn)性的獎(jiǎng)勵(lì)設(shè)計(jì)在失敗時(shí)鼓勵(lì)模型 “廣撒網(wǎng)”,在成功時(shí)引導(dǎo)模型追求 “快準(zhǔn)狠”,實(shí)現(xiàn)了探索與利用的動(dòng)態(tài)平衡。

3.共線(xiàn)懲罰(Collinear Penalty)為了防止模型通過(guò)生成近似直線(xiàn)的點(diǎn)來(lái) “作弊”(簡(jiǎn)單的線(xiàn)性?huà)呙璨呗裕芯恳肓斯簿€(xiàn)懲罰。如果生成的多個(gè)候選點(diǎn)在幾何上近似共線(xiàn),將被視為低質(zhì)量探索并受到嚴(yán)厲懲罰。這強(qiáng)制模型在語(yǔ)義空間而非單純的幾何空間中進(jìn)行多樣化探索。



AEPO 與 Naive 強(qiáng)化學(xué)習(xí)基準(zhǔn)方法的對(duì)比

實(shí)驗(yàn)結(jié)果:小參數(shù)量實(shí)現(xiàn)性能越級(jí)

研究團(tuán)隊(duì)在 MMBench-GUI、ScreenSpot-Pro、UI-Vision 等五個(gè)極具挑戰(zhàn)性的基準(zhǔn)上對(duì) InfiGUI-G1(3B 和 7B 版本)進(jìn)行了全面評(píng)估。

1.綜合性能全面領(lǐng)先:在 MMBench-GUI 基準(zhǔn)測(cè)試中,InfiGUI-G1-7B 在 Windows、iOS、Android 等多個(gè)平臺(tái)上的表現(xiàn)均刷新了開(kāi)源模型的最佳成績(jī)。值得注意的是,InfiGUI-G1-7B 在部分指標(biāo)上甚至優(yōu)于參數(shù)量大得多的 Qwen2.5-VL-72B 和閉源模型 GPT-4o。

2.攻克高難度語(yǔ)義理解任務(wù)ScreenSpot-Pro 基準(zhǔn)專(zhuān)門(mén)區(qū)分了文本類(lèi)(Text)和圖標(biāo)類(lèi)(Icon)任務(wù)。結(jié)果顯示,InfiGUI-G1 在更依賴(lài)語(yǔ)義理解的 “圖標(biāo)” 任務(wù)上提升尤為明顯。這直接證明了 AEPO 策略有效解決了語(yǔ)義對(duì)齊的瓶頸,讓模型真正 “看懂” 了抽象圖標(biāo)背后的功能含義,而不僅僅是進(jìn)行簡(jiǎn)單的文本匹配。

3.讓 “不可學(xué)習(xí)” 變得 “可學(xué)習(xí)”為了驗(yàn)證 AEPO 是否真的解決了探索難題,研究團(tuán)隊(duì)將樣本按難度分為簡(jiǎn)單、中等和困難。實(shí)驗(yàn)發(fā)現(xiàn),InfiGUI-G1 在 “困難” 樣本(即基座模型幾乎無(wú)法答對(duì)的樣本)上的提升最為巨大,相對(duì) Naive RLVR 基線(xiàn)提升了超過(guò)60%。這意味著 AEPO 成功挖掘出了那些以往因缺乏探索而被模型 “放棄” 的長(zhǎng)尾知識(shí)。



ScreenSpot-Pro 基準(zhǔn)測(cè)試的性能對(duì)比

總結(jié)與展望

InfiGUI-G1 的成功表明,GUI 智能體的性能瓶頸不僅僅在于視覺(jué)識(shí)別能力,更在于如何通過(guò)有效的強(qiáng)化學(xué)習(xí)策略來(lái)解決語(yǔ)義對(duì)齊問(wèn)題。通過(guò)引入自適應(yīng)探索機(jī)制,InfiGUI-G1 以極高的數(shù)據(jù)效率和較小的模型規(guī)模,實(shí)現(xiàn)了超越大模型的 GUI Grounding 能力。這項(xiàng)工作為未來(lái)開(kāi)發(fā)更通用、更智能的 GUI 交互助手提供了堅(jiān)實(shí)的技術(shù)基礎(chǔ)。

目前,InfiGUI-G1 的代碼、模型權(quán)重及相關(guān)資源已在 GitHub 開(kāi)源,歡迎社區(qū)進(jìn)一步研究與使用。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中紀(jì)委2026年“放大招”!嚴(yán)查四類(lèi)人!伸過(guò)手的一個(gè)都跑不了!

中紀(jì)委2026年“放大招”!嚴(yán)查四類(lèi)人!伸過(guò)手的一個(gè)都跑不了!

職場(chǎng)資深秘書(shū)
2026-06-13 16:09:20
G5又是一樣的輸法!米奇用人仍成臥底,持續(xù)信賴(lài)2臥底球員真敗筆

G5又是一樣的輸法!米奇用人仍成臥底,持續(xù)信賴(lài)2臥底球員真敗筆

籃球資訊達(dá)人
2026-06-14 11:37:06
下一周(6.15-18)持有這些個(gè)股的要小心了!(附個(gè)股)

下一周(6.15-18)持有這些個(gè)股的要小心了!(附個(gè)股)

股俠指北針
2026-06-14 07:53:00
宇宙永久冠名!徐熙媛星正式獲批,原來(lái)大S的終極心愿早已圓滿(mǎn)

宇宙永久冠名!徐熙媛星正式獲批,原來(lái)大S的終極心愿早已圓滿(mǎn)

孤傲何妨初
2026-06-14 11:07:59
不出意外,下半年開(kāi)始,寬帶費(fèi)、有線(xiàn)電視費(fèi)將迎來(lái)行業(yè)新一輪洗牌

不出意外,下半年開(kāi)始,寬帶費(fèi)、有線(xiàn)電視費(fèi)將迎來(lái)行業(yè)新一輪洗牌

民生格物
2026-06-14 13:14:05
俄羅斯沒(méi)收富豪76億美元資產(chǎn),寡頭們“自愿”捐款支持戰(zhàn)爭(zhēng)

俄羅斯沒(méi)收富豪76億美元資產(chǎn),寡頭們“自愿”捐款支持戰(zhàn)爭(zhēng)

山河路口
2026-06-14 14:01:30
陳競(jìng)?cè)沃泄查L(zhǎng)沙市委書(shū)記,從基層走到市委書(shū)記花了三十年。

陳競(jìng)?cè)沃泄查L(zhǎng)沙市委書(shū)記,從基層走到市委書(shū)記花了三十年。

阿天愛(ài)旅行
2026-06-14 14:02:06
俄議員公開(kāi)炮轟普京“無(wú)效領(lǐng)導(dǎo)”:幻覺(jué)已結(jié)束,國(guó)家正處于社會(huì)爆發(fā)邊緣

俄議員公開(kāi)炮轟普京“無(wú)效領(lǐng)導(dǎo)”:幻覺(jué)已結(jié)束,國(guó)家正處于社會(huì)爆發(fā)邊緣

叮當(dāng)當(dāng)科技
2026-06-14 10:12:19
凌晨3點(diǎn)!哈登持槍被警方逮捕!騎士官方緊急回應(yīng)

凌晨3點(diǎn)!哈登持槍被警方逮捕!騎士官方緊急回應(yīng)

海右那人
2026-06-14 08:43:54
價(jià)格大跳水,網(wǎng)友驚呼買(mǎi)早了!最高直降2500元,幾乎所有品類(lèi)“你降我也降”

價(jià)格大跳水,網(wǎng)友驚呼買(mǎi)早了!最高直降2500元,幾乎所有品類(lèi)“你降我也降”

大風(fēng)新聞
2026-06-14 09:47:24
有沒(méi)有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

有沒(méi)有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

夜深?lèi)?ài)雜談
2026-02-18 20:55:58
你吃過(guò)公司最大的瓜是什么?網(wǎng)友: 這是我吃過(guò)最大的瓜

你吃過(guò)公司最大的瓜是什么?網(wǎng)友: 這是我吃過(guò)最大的瓜

夜深?lèi)?ài)雜談
2026-06-13 23:33:10
再過(guò)幾年,可能一半孩子上不了高中!家長(zhǎng)越早看清越好

再過(guò)幾年,可能一半孩子上不了高中!家長(zhǎng)越早看清越好

愛(ài)下廚的阿椅
2026-06-14 13:23:13
摩根士丹利:更多跡象顯示中國(guó)二手房銷(xiāo)售走弱

摩根士丹利:更多跡象顯示中國(guó)二手房銷(xiāo)售走弱

新浪財(cái)經(jīng)
2026-06-13 18:15:03
河南省委書(shū)記:針對(duì)鄭州新密市一紙廠(chǎng)3名員工在制漿池清淤時(shí)窒息死亡事件,要深刻汲取教訓(xùn),做好善后工作,嚴(yán)肅追責(zé)

河南省委書(shū)記:針對(duì)鄭州新密市一紙廠(chǎng)3名員工在制漿池清淤時(shí)窒息死亡事件,要深刻汲取教訓(xùn),做好善后工作,嚴(yán)肅追責(zé)

南方都市報(bào)
2026-06-14 09:45:17
總決賽砍90+30+10歷史唯一!馬刺丟冠,唯獨(dú)他一人可以昂首離開(kāi)

總決賽砍90+30+10歷史唯一!馬刺丟冠,唯獨(dú)他一人可以昂首離開(kāi)

你的籃球頻道
2026-06-14 12:44:04
臺(tái)灣演員吐槽“在島內(nèi)看不到世界杯”,網(wǎng)友:來(lái)大陸免費(fèi)看

臺(tái)灣演員吐槽“在島內(nèi)看不到世界杯”,網(wǎng)友:來(lái)大陸免費(fèi)看

澎湃新聞
2026-06-14 14:57:07
搶在王毅專(zhuān)機(jī)起飛前,蒙古就亮出危險(xiǎn)4字,逼中國(guó)做出兩件讓步

搶在王毅專(zhuān)機(jī)起飛前,蒙古就亮出危險(xiǎn)4字,逼中國(guó)做出兩件讓步

白日追夢(mèng)人
2026-06-14 03:46:46
陳家四兄弟分屬?lài)?guó)共兩軍,有人當(dāng)將軍有當(dāng)元帥,可他們從沒(méi)紅過(guò)臉

陳家四兄弟分屬?lài)?guó)共兩軍,有人當(dāng)將軍有當(dāng)元帥,可他們從沒(méi)紅過(guò)臉

瑩瑩的歷史說(shuō)
2026-06-14 00:31:52
普京簽署新法!海外公民批評(píng)政府,國(guó)內(nèi)房產(chǎn)或被沒(méi)收

普京簽署新法!海外公民批評(píng)政府,國(guó)內(nèi)房產(chǎn)或被沒(méi)收

老謝談史
2026-06-14 11:05:54
2026-06-14 16:04:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
13249文章數(shù) 142669關(guān)注度
往期回顧 全部

科技要聞

Anthropic最強(qiáng)模型被禁,傳亞馬遜通風(fēng)報(bào)信

頭條要聞

蓋茨出軌20多次 愛(ài)潑斯坦曾鼓勵(lì)女醫(yī)生與其發(fā)展性關(guān)系

頭條要聞

蓋茨出軌20多次 愛(ài)潑斯坦曾鼓勵(lì)女醫(yī)生與其發(fā)展性關(guān)系

體育要聞

8年8隊(duì)奪冠,鄧肯那句話(huà),現(xiàn)在還給了馬刺

娛樂(lè)要聞

鄧超攜子觀戰(zhàn)NBA,等等帥氣十足

財(cái)經(jīng)要聞

金價(jià)跌至900元關(guān)口,大媽又來(lái)抄底了!

汽車(chē)要聞

綜合續(xù)航超1600km/零百加速4秒級(jí) 2027款星途ES預(yù)售18.99萬(wàn)起

態(tài)度原創(chuàng)

數(shù)碼
本地
健康
公開(kāi)課
軍事航空

數(shù)碼要聞

從3DGS到小藝Claw,華為智慧屏MateTV在HDC展示鴻蒙生態(tài)破界之力

本地新聞

AK劉彰邂逅河北南大港濕地

老人、小孩、孕婦,吃粽子有啥風(fēng)險(xiǎn)

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:美伊協(xié)議周日簽 還有終極手段

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版