![]()
![]()
GUI Agent,重新定義人機交互自動化。
1.發(fā)布背景
進入2026年,OpenClaw的橫空出世,宣告全球人工智能正式從Chat時代走到了Act時代,各主要廠商不再只做Agent,而是推動Agent成為AI時代新的超級入口,GUI Agent也成為這一探索中最重要的路徑之一。GUI Agent正在引發(fā)繼“命令行”到“圖形界面”之后的第三次人機交互革命,其核心是通過UI直接進行操作,從“人操作機器”轉(zhuǎn)向“機器理解并執(zhí)行人的意圖”,使操作系統(tǒng)回歸“用戶意圖執(zhí)行者”的本質(zhì)。
隨著產(chǎn)業(yè)探索的深入,從業(yè)者逐漸意識到,當(dāng)前以API為核心路徑的Agent路線存在難以逾越的障礙,一是覆蓋率瓶頸,API Agent高度依賴API接口,初步估計全球當(dāng)前僅有不到5%的軟件開放了完整的API接口,這使得Agent在數(shù)量巨大的“黑盒”軟件面前寸步難行;二是認知維度確缺失,多數(shù)API Agent僅能在數(shù)據(jù)層面進行交互,丟失了界面布局、圖標(biāo)隱喻等關(guān)鍵的視覺上下文信息;三是跨生態(tài)協(xié)作割裂,受限于接口壁壘,傳統(tǒng)Agent往往淪為單一軟件內(nèi)的“半自動”工具,難以處理跨平臺、跨應(yīng)用的長鏈路復(fù)雜任務(wù)。這就造成了當(dāng)前Agent多數(shù)是“半自動”智能體,重復(fù)、繁瑣的跨軟件操作還需要人工完成。總的來說,以API為主要路徑的Agent仍然沒辦法克服當(dāng)前計算機行業(yè)發(fā)展留下來的弊病,即無法對碎片化的數(shù)據(jù)進行多模態(tài)、大規(guī)模、跨平臺、自動化的調(diào)用和整理,并且最終實現(xiàn)智能化的輸出。
在短期無法重構(gòu)全球軟件生態(tài)的前提下,直接通過圖形界面完成感知與操作,成為繞開接口壁壘、實現(xiàn)規(guī)模化自動化的重要實現(xiàn)路徑。GUI Agent是一種基于多模態(tài)大模型,能夠模擬人類用戶,通過視覺感知和模擬操作,直接與多端圖形用戶界面進行交互的智能體。它的優(yōu)勢在于擺脫了對API接口和RPA腳本的依賴,通過強大的視覺語義理解,打破了應(yīng)用間的數(shù)據(jù)圍墻,實現(xiàn)了真正的跨App、跨平臺、跨生態(tài)操作。GUI Agent的出現(xiàn),將智能設(shè)備從刻板的“代碼執(zhí)行者”進化為靈活的“意圖代理人”,從根本上重塑了人機交互范式,是人類通往通用人工智能道路上的里程碑式跨越。
北京庭宇科技有限公司是全球領(lǐng)先的邊緣智算基礎(chǔ)設(shè)施服務(wù)商,成立于2019年,始終致力于構(gòu)建以邊緣智算為核心的AI全棧基礎(chǔ)設(shè)施生態(tài),為智能時代提供核心算力支撐。庭宇運營著國內(nèi)最大的分布式GPU算力池,構(gòu)建了覆蓋全國超1500個縣市及東南亞的高性能邊緣節(jié)點網(wǎng)絡(luò),基礎(chǔ)設(shè)施已深度賦能云桌面、AI Agent等多元場景,技術(shù)實力與市場占有率持續(xù)領(lǐng)先。
2024年,庭宇科技就開始了在GUI Agent領(lǐng)域的探索,并且在2025年10月發(fā)布了GUI Agent產(chǎn)品Lybic,成為國內(nèi)發(fā)布的首個基于邊緣智算架構(gòu)的GUI Agent產(chǎn)品。Lybic補足了庭宇科技在Agentic OS領(lǐng)域的拼圖,使庭宇科技形成了以“邊緣云-GUI Agent-云手機/電腦”為主的產(chǎn)品體系,初步構(gòu)建了以邊緣智算為核心的AI全棧基礎(chǔ)設(shè)施生態(tài)。Lybic以庭宇科技的邊緣智算為底座,以沙箱為保障的運行環(huán)境,配合“全模型+全工具鏈”的開放生態(tài),形成了“毫秒級延時、高安全保障、全場景適應(yīng)”的產(chǎn)品優(yōu)勢,有效解決了GUI Agent運行過程中面臨的延遲長、精度差、安全保障低的痛點。
《跨OS GUI智能體基礎(chǔ)設(shè)施白皮書》由庭宇科技和鑄基計劃聯(lián)合發(fā)布,提出了對GUI Agent的發(fā)展現(xiàn)狀、技術(shù)路徑、落地場景及未來前景提出的研判與思考。希望通過本白皮書,與全球從業(yè)者共同探討這一變革性技術(shù)的未來,為推動全球通用人工智能的發(fā)展貢獻庭宇科技力量,實現(xiàn)庭宇科技“讓算力無處不在,讓智能觸手可及”的使命。
2.核心亮點
本白皮書總結(jié)了GUI Agent的概念、發(fā)展阻礙、技術(shù)架構(gòu)和核心實現(xiàn)、產(chǎn)品形態(tài)和場景落地、未來與展望。
本白皮書基于庭宇科技近年在GUI Agent領(lǐng)域的思考、探索和實踐,深度剖析了GUI Agent的市場格局、技術(shù)演進路徑及關(guān)鍵落地場景。我們希望通過本白皮書,為全球從業(yè)者提供一份可參考的“落地指南”,并致力于通過持續(xù)深耕邊緣AI基礎(chǔ)設(shè)施,推動通用人工智能早日普惠千行百業(yè)。
人工智能的演進將經(jīng)歷算法階段、模型階段、智能體階段和智能體生態(tài)階段四個階段,其中算法階段的核心特征是主要解決“如何計算”的問題,由統(tǒng)計學(xué)和傳統(tǒng)的機器學(xué)習(xí)算法驅(qū)動,智能體階段的核心特征是大模型不再是一個簡單的Chatbot,而是可以主動完成任務(wù)的智能助理,智能體生態(tài)階段的核心特征是AI將從單體智能走向多智能體協(xié)作和智能體工作流。不同的 Agent扮演不同的角色(如程序員、測試員)共同完成龐大的工程。
GUI Agent是人機交互自動化的范式革命。人機交互經(jīng)歷了三次浪潮,分別是CLI階段、GUI階段、GUI Agent階段,GUI Agent正在引發(fā)繼“命令行”到“圖形界面”之后的第三次人機交互革命,其核心是從“人操作機器”轉(zhuǎn)向“機器理解并執(zhí)行人的意圖”,最終將消滅“應(yīng)用孤島”,使操作系統(tǒng)回歸‘用戶意圖執(zhí)行者“的本質(zhì)。主要表現(xiàn)在交互邏輯革命、用戶角色革命、能力邊界革命、生態(tài)模式革命四個方面。
GUI Agent驅(qū)動因素由Agent面臨的智能化困境和大模型底層技術(shù)的突破進展兩方面組成。在 Agent面臨的智能化困境方面,“API覆蓋率不足”造成的“長尾軟件孤島”、傳統(tǒng)RPA維護成本過高、跨應(yīng)用跨生態(tài)造成的碎片化工作流、復(fù)雜軟件使用和學(xué)習(xí)門檻較高是傳統(tǒng)Agent面臨的最大阻礙;在大模型底層技術(shù)的突破進展方面,VLM視覺理解能力飛躍,從“鑒賞”到“操作”的進化和LLM實現(xiàn)從“直覺式反應(yīng)”到“深思熟慮”的進化是讓GUI Agent得以實現(xiàn)的關(guān)鍵因素。
GUI Agent組成包括感知模塊、決策與規(guī)劃模塊、執(zhí)行模塊、反饋優(yōu)化模塊等四個最重要的模塊,同時底層沙盒環(huán)境也是GUI Agent安全可控的良好保障。基于各個模塊設(shè)計邏輯的不同,GUI Agent形成了端到端視覺大模型、代碼生成路徑、多智能體協(xié)作路徑三大主流技術(shù)路徑。本報告基于實踐經(jīng)驗,將每個模塊的核心內(nèi)容、困難和挑戰(zhàn)、技術(shù)考量維度、技術(shù)解決方案進行詳細的展開和解釋,期望能夠與行業(yè)從業(yè)者交流和討論。
詳細介紹了GUI Agent可能的產(chǎn)品形態(tài)和落地場景,包括手機、電腦、OS生態(tài)和人機自動化交互具體場景的可能性。同時,提出了未來GUI Agent的發(fā)展可能性、面臨的困難和挑戰(zhàn)。
關(guān)注公眾號「甲子光年」,后臺回復(fù)“GUI Agent”,獲得高清版完整PDF。或者點擊文末“閱讀原文”,進入甲子光年官網(wǎng)下載。
3.報告正文
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
關(guān)注公眾號「甲子光年」,后臺回復(fù)“GUI Agent”,獲得高清版完整PDF。或者點擊文末“閱讀原文”,進入甲子光年官網(wǎng)下載。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
關(guān)注公眾號「甲子光年」,后臺回復(fù)“GUI Agent”,獲得高清版完整PDF。或者點擊文末“閱讀原文”,進入甲子光年官網(wǎng)下載。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.