![]()
AI原生界面,幫助Agent摘下烤箱手套彈鋼琴。
文|何伊凡
編輯|鐘云華
圖片來源|視覺中國
想象這樣一個凌晨:2031年,你的書房角落有一臺設備仍在無聲運轉——編寫程序、處理郵件、審核合同、分析即時數據、安排日程、撰寫文檔。此刻你正在熟睡,當清晨醒來時,它已完成當日的大部分工作,你只需作出關鍵決策。
這臺設備沒有屏幕,也沒有鍵盤。你無法用熟悉的方式與它交互,因為它根本不是給你用的,它是給Agent用的。
這幅畫面勾勒出一個人類“退居二線”的未來,隱藏在它背后的,是一個更尖銳的問題:當Agent數量即將超過人類,為什么它們還在使用為人類設計的工具?你可以想象一位鋼琴家被要求戴著烤箱手套彈奏莫扎特——手指明明具備超凡的靈活性,卻被一層厚厚的隔熱棉隔絕了與琴鍵的真實接觸。
全球權威IT研究與顧問機構Gartner給出的預測正將這個矛盾推向臨界點:到2026年底,40%的企業應用將集成AI Agent,而2025年這一比例還不足5%。企業云存儲巨頭Box的首席執行官亞倫·萊維(Aaron Levie)在2026年4月一次訪談中更是直言,Agent將滲透進幾乎所有有經濟價值的任務——審查每一份合同、承接大多數客服前線工作、審計每家公司的財務、生成幾乎所有將被寫出的代碼。
當Agent的數量超過人類,它們理應擁有屬于自己的“工位”,而不是擠在為我們設計的桌椅上勉為其難。
一場為Agent量身打造的交互界面革命,已經悄然啟幕。
1
從硬件看,OpenClaw在全球技術圈引爆“龍蝦”熱后,深圳一家初創公司迅速推出了一款巴掌大小的硬件Violoop。2026年3月,這款產品在一個月內即完成數千萬元種子及天使輪融資。用戶使用時,只需用HDMI與Type-C線分別連接電腦和設備,它自帶芯片與獨立算力,通電后自主運行任務,不占用主機CPU與內存。它讓AI能在本地持續運行、看屏幕、調用鼠標鍵盤操作,并自動處理文件、郵件、日程等任務。
這是一種“外接方案”——給普通電腦加一個專用外設,讓它變身AI電腦。更激進的玩家選擇徹底獨立。深圳創業公司吾云創新(Zettlab)即將推出的Agent Computer沒有屏幕、鍵盤、鼠標這“三件套”,可以24小時運行,內置專用AI芯片與本地模型,開箱就能讓“龍蝦”自主運行。它能夠理解、調用、編排個人數據,且這些數據都沉淀在硬件里,做到了隱私隔離。
![]()
傳統硬件大廠也已入局。聯想在2026年3月發布了YOGA AI Mini和Think AI Tiny兩款AI原生智能終端,同樣砍掉“三件套”,搭載自研的AI原生操作系統DingOS。它采用自然語言交互界面(Native UI),支持多模態指令理解,無需手動配置即可實現AI工作流的自動化部署。
2025年初曾出現過DeepSeek一體機熱潮,但這次完全不同。一體機本質是集軟硬件于一體的“盒子”,軟件棧基本是“Linux+大模型服務+前端界面”,模型僅作為服務被調用。它安靜等待用戶發送指令,然后給出回答——人依然是所有行為的發起者,也是功能回路的中心。而Agent Computer的躍遷在于:從“面向人類的圖形界面”走向“面向代理的多模態執行環境”。
一個是讓人更高效地指揮AI,一個是讓AI自主地完成任務。兩者看似相近,實則是兩個時代的分水嶺。
在GTC 2026大會上,黃仁勛將OpenClaw比作Linux,把AI Agent生態稱為35萬億美元的市場。他更斷言:“今天,世界上的每家公司都需要有一個智能體系統戰略,這是新的計算機。”
2
之前我們探討過AI原生一代用戶(《AI原住民:鏡像世界中誕生的認知新物種》),以及AI原生組織(《流量祛魅,詞元為王,未來只有兩種公司》)。這是AI原生系列第三篇——AI原生界面。將硬件與軟件統一到交互界面的范疇來審視,一個清晰的脈絡浮出水面:過去60年,人機交互的設計始終以“降低人類認知負擔”為核心目標。從命令行到圖形界面(GUI),從旋鈕到觸屏,每一次演進都在降低人類使用設備的門檻。
然而,這個延續60年的設計哲學,正在遭遇前所未有的挑戰。
隨著AI Agent的快速發展,未來的軟件和硬件將同時服務于兩類“用戶”:人類與AI Agent。這不是對人類友好型架構的替代,而是對其擴展與升維——“雙模態”交互范式將成為主流。
![]()
要理解這場變革的深度,需要先看清當下GUI的本質。
今天的人機交互界面具有四個鮮明特征:第一,它是可視化的,窗口、圖標、按鈕、菜單,所見即所得;第二,它是可直接操作的,點擊、拖拽、滑動即可完成任務;第三,它遵循即時反饋原則,視覺、聽覺、觸覺隨時響應;第四,它大量使用隱喻設計——桌面、文件夾、回收站等名稱,都是借用人類在物理世界已有的心智模型。
為了降低認知負擔,交互界面必然會“遷就”人類的認知模式:“文件夾”掩蓋了文件系統的實際結構,“拖拽”操作隱藏了底層的數據移動邏輯,圖形化配置界面將復雜的參數簡化為開關和滑塊。
這種“遷就”是有代價的。正如真格基金投資總監鐘天杰在一篇引發廣泛討論的文章中所言,GUI(圖形用戶界面)的存在本質上是人類認知缺陷的一個“補丁”——人類的注意力帶寬極窄,工作記憶極淺,需要持續的視覺錨點才能維持任務狀態。(《我們也許不該再投資GUI思維的軟件公司》,文|真格基金投資總監鐘天杰)
這個“補丁”對人類體貼入微,對AI Agent卻充滿敵意。
Agent今天面對的正是這樣的困境:它需要通過“拖拽文件到文件夾”這一連串視覺動作,才能完成本質上只是“將文件路徑從A修改為B”的簡單操作。每一層界面隱喻,都是一道語義翻譯的關卡;每一次鼠標點擊,都是一次不必要的身份偽裝。
我們常用精美、簡潔、流暢等詞來形容交互界面,這些標準全部建立在人類認知局限性之上。一旦用戶不是人類,所有優勢瞬間歸零。GUI對AI Agent而言,就像一扇只能推開一半的門——一個擁有廣闊視野的存在,被強迫透過門縫窺視整個房間。翻譯是人類的長項,卻是AI的枷鎖,當它被迫以人類的方式行事時,每一步都在自我束縛。
3
人類有視覺、有雙手、有持續感知能力,大語言模型卻沒有。它無法通過顏色和布局來理解界面,無法通過鼠標點擊來觸發操作,也無法通過動畫來感知狀態變化。每一次交互,Agent都需要付出高昂的視覺理解成本——通過屏幕截圖、目標檢測、OCR識別、語義理解等一系列復雜步驟,才能“看懂”一個對人類來說一目了然的界面。
效率差距觸目驚心。2024年10月,Anthropic在Claude 3.5 Sonnet中首次引入“Computer Use”功能,通過API接口讓AI能夠像人類一樣查看屏幕、移動光標、點擊按鈕。這項被官方稱為“突破性”的技術,在OSWorld基準測試中僅取得14.9%的成功率。雖然遠超此前AI的表現,但依然遠低于人類70%~75%的水平。
這不是AI不夠聰明,而是界面本身不是為它設計的。
到2025年1月,OpenAI推出的Operator及其核心模型CUA(Computer-Using Agent)將技術水準提升到新高度。與Claude依賴API調用的方式不同,CUA融合GPT-4o視覺能力與強化學習技術,直接與GUI交互。在WebVoyager基準測試中,任務成功率達到87%,幾乎追平人類表現;OSWorld測試38.1%的成績更是將此前的技術天花板推高了近一倍。
但這依然是在讓AI“偽裝”成人類——通過計算機視覺解析屏幕、模擬鼠標點擊和鍵盤輸入。給馬車裝上噴氣發動機,它或許能跑得更快,但終究不是飛機。這是務實的過渡方案,而非終局。
真正的終局,是重新設計交互的底層邏輯。
4
從2024年底開始,圍繞AI Agent的一系列開放協議密集出現。它們的共同目標很明確:為不斷“生長”的Agent生態建立一套可通用、可協作的語言與標準。2025年12月,Google開源了A2UI(Agent to UI)協議,提出了一個新思路——讓AI Agent學會“說UI的語言”。通過一種安全、聲明式的格式,將UI需求發送給前端應用,用來渲染與交互,這是在定義Agent描述用戶界面的全新標準。
未來的交互界面,無需再模擬鼠標或鍵盤的操作。一個更大膽的預言來自Nothing首席執行官裴宇(Carl Pei),他認為智能手機App將逐漸消失,取而代之的是更具主動性、更智能的AI Agent。未來的愿景是“Intent-based UI”——系統不再顯示成排的圖標,而是直接根據用戶自然語言意圖生成交互界面。
![]()
對著手機說句話就能訂咖啡、買機票,這都是最初級的階段。下一階段,Agent將成為主動的生活助手,而非被動的工具。而到了最強大的階段,系統甚至會浮現你從未想過要提的需求——它會提出連我們自己都沒意識到的想要的東西。
這意味著界面本身必須發生根本性的變化。裴宇認為,人工智能代理不應該像機器人一樣在菜單上點擊,假裝成人類。更專業的描述是:每個功能都提供完善的API接口,Agent可以直接調用而無需通過界面理解;所有信息都以機器可解析的格式提供,而非僅渲染為可視化界面。
這個轉變的本質,是從“視覺中介”到“語義直達”。
想象一家餐廳:傳統GUI讓人類顧客只能通過菜單點菜,菜單經過精心設計、排版美觀,但始終是一個間接的翻譯層。而API則是讓顧客直接進入后廚,精確告知廚師每一道菜的配料、火候和擺盤要求——沒有中間商,沒有信息損耗。Agent需要的正是這種“直達后廚”的能力,而不是在精美的菜單封面上消磨時間。這種轉變不是錦上添花,而是當Agent數量爆發式增長后的必然選擇。
當然,向Agent友好型界面的轉變并不缺少挑戰。最直接的挑戰來自安全與隱私——當Agent獲得系統級操作權限時,如何驗證其身份、分配合理的權限、追溯其行為責任,都是亟待解決的核心問題——如果Agent可以同時訪問你的銀行賬戶、醫療記錄和工作郵件,那么一道安全漏洞的代價將遠超傳統的數據泄露。
盡管未來隱藏著不安,但我們無法拒絕它降臨。五年之內,軟件和硬件的交互都需要同時服務于兩類用戶:一類是有視覺、有雙手、需要視覺錨點的人類;另一類是沒有視覺、沒有雙手,但擁有超強推理和規劃能力的AI Agent。
這不再是“人機交互”的問題,而是“人—Agent—機”三方共存的復雜生態系統設計問題。
從“人適應機器”到“機器適應人”,再到“機器適應Agent”——人機交互的歷史,正在翻開最具想象力,也最不可預測的一頁。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.