網易首頁 > 網易號 > 正文申請入駐

你的屏幕和鍵盤，正在拖垮AI的智商｜觀察家

2026-05-21 19:16:16　來源: 中國企業家雜志

北京舉報

分享至

AI原生界面，幫助Agent摘下烤箱手套彈鋼琴。

文｜何伊凡

編輯｜鐘云華

圖片來源｜視覺中國

想象這樣一個凌晨：2031年，你的書房角落有一臺設備仍在無聲運轉——編寫程序、處理郵件、審核合同、分析即時數據、安排日程、撰寫文檔。此刻你正在熟睡，當清晨醒來時，它已完成當日的大部分工作，你只需作出關鍵決策。

這臺設備沒有屏幕，也沒有鍵盤。你無法用熟悉的方式與它交互，因為它根本不是給你用的，它是給Agent用的。

這幅畫面勾勒出一個人類“退居二線”的未來，隱藏在它背后的，是一個更尖銳的問題：當Agent數量即將超過人類，為什么它們還在使用為人類設計的工具？你可以想象一位鋼琴家被要求戴著烤箱手套彈奏莫扎特——手指明明具備超凡的靈活性，卻被一層厚厚的隔熱棉隔絕了與琴鍵的真實接觸。

全球權威IT研究與顧問機構Gartner給出的預測正將這個矛盾推向臨界點：到2026年底，40%的企業應用將集成AI Agent，而2025年這一比例還不足5%。企業云存儲巨頭Box的首席執行官亞倫·萊維（Aaron Levie）在2026年4月一次訪談中更是直言，Agent將滲透進幾乎所有有經濟價值的任務——審查每一份合同、承接大多數客服前線工作、審計每家公司的財務、生成幾乎所有將被寫出的代碼。

當Agent的數量超過人類，它們理應擁有屬于自己的“工位”，而不是擠在為我們設計的桌椅上勉為其難。

一場為Agent量身打造的交互界面革命，已經悄然啟幕。

從硬件看，OpenClaw在全球技術圈引爆“龍蝦”熱后，深圳一家初創公司迅速推出了一款巴掌大小的硬件Violoop。2026年3月，這款產品在一個月內即完成數千萬元種子及天使輪融資。用戶使用時，只需用HDMI與Type-C線分別連接電腦和設備，它自帶芯片與獨立算力，通電后自主運行任務，不占用主機CPU與內存。它讓AI能在本地持續運行、看屏幕、調用鼠標鍵盤操作，并自動處理文件、郵件、日程等任務。

這是一種“外接方案”——給普通電腦加一個專用外設，讓它變身AI電腦。更激進的玩家選擇徹底獨立。深圳創業公司吾云創新（Zettlab）即將推出的Agent Computer沒有屏幕、鍵盤、鼠標這“三件套”，可以24小時運行，內置專用AI芯片與本地模型，開箱就能讓“龍蝦”自主運行。它能夠理解、調用、編排個人數據，且這些數據都沉淀在硬件里，做到了隱私隔離。

傳統硬件大廠也已入局。聯想在2026年3月發布了YOGA AI Mini和Think AI Tiny兩款AI原生智能終端，同樣砍掉“三件套”，搭載自研的AI原生操作系統DingOS。它采用自然語言交互界面（Native UI），支持多模態指令理解，無需手動配置即可實現AI工作流的自動化部署。

2025年初曾出現過DeepSeek一體機熱潮，但這次完全不同。一體機本質是集軟硬件于一體的“盒子”，軟件棧基本是“Linux+大模型服務+前端界面”，模型僅作為服務被調用。它安靜等待用戶發送指令，然后給出回答——人依然是所有行為的發起者，也是功能回路的中心。而Agent Computer的躍遷在于：從“面向人類的圖形界面”走向“面向代理的多模態執行環境”。

一個是讓人更高效地指揮AI，一個是讓AI自主地完成任務。兩者看似相近，實則是兩個時代的分水嶺。

在GTC 2026大會上，黃仁勛將OpenClaw比作Linux，把AI Agent生態稱為35萬億美元的市場。他更斷言：“今天，世界上的每家公司都需要有一個智能體系統戰略，這是新的計算機。”

之前我們探討過AI原生一代用戶（《AI原住民：鏡像世界中誕生的認知新物種》），以及AI原生組織（《流量祛魅，詞元為王，未來只有兩種公司》）。這是AI原生系列第三篇——AI原生界面。將硬件與軟件統一到交互界面的范疇來審視，一個清晰的脈絡浮出水面：過去60年，人機交互的設計始終以“降低人類認知負擔”為核心目標。從命令行到圖形界面（GUI），從旋鈕到觸屏，每一次演進都在降低人類使用設備的門檻。

然而，這個延續60年的設計哲學，正在遭遇前所未有的挑戰。

隨著AI Agent的快速發展，未來的軟件和硬件將同時服務于兩類“用戶”：人類與AI Agent。這不是對人類友好型架構的替代，而是對其擴展與升維——“雙模態”交互范式將成為主流。

要理解這場變革的深度，需要先看清當下GUI的本質。

今天的人機交互界面具有四個鮮明特征：第一，它是可視化的，窗口、圖標、按鈕、菜單，所見即所得；第二，它是可直接操作的，點擊、拖拽、滑動即可完成任務；第三，它遵循即時反饋原則，視覺、聽覺、觸覺隨時響應；第四，它大量使用隱喻設計——桌面、文件夾、回收站等名稱，都是借用人類在物理世界已有的心智模型。

為了降低認知負擔，交互界面必然會“遷就”人類的認知模式：“文件夾”掩蓋了文件系統的實際結構，“拖拽”操作隱藏了底層的數據移動邏輯，圖形化配置界面將復雜的參數簡化為開關和滑塊。

這種“遷就”是有代價的。正如真格基金投資總監鐘天杰在一篇引發廣泛討論的文章中所言，GUI（圖形用戶界面）的存在本質上是人類認知缺陷的一個“補丁”——人類的注意力帶寬極窄，工作記憶極淺，需要持續的視覺錨點才能維持任務狀態。（《我們也許不該再投資GUI思維的軟件公司》，文｜真格基金投資總監鐘天杰）

這個“補丁”對人類體貼入微，對AI Agent卻充滿敵意。

Agent今天面對的正是這樣的困境：它需要通過“拖拽文件到文件夾”這一連串視覺動作，才能完成本質上只是“將文件路徑從A修改為B”的簡單操作。每一層界面隱喻，都是一道語義翻譯的關卡；每一次鼠標點擊，都是一次不必要的身份偽裝。

我們常用精美、簡潔、流暢等詞來形容交互界面，這些標準全部建立在人類認知局限性之上。一旦用戶不是人類，所有優勢瞬間歸零。GUI對AI Agent而言，就像一扇只能推開一半的門——一個擁有廣闊視野的存在，被強迫透過門縫窺視整個房間。翻譯是人類的長項，卻是AI的枷鎖，當它被迫以人類的方式行事時，每一步都在自我束縛。

人類有視覺、有雙手、有持續感知能力，大語言模型卻沒有。它無法通過顏色和布局來理解界面，無法通過鼠標點擊來觸發操作，也無法通過動畫來感知狀態變化。每一次交互，Agent都需要付出高昂的視覺理解成本——通過屏幕截圖、目標檢測、OCR識別、語義理解等一系列復雜步驟，才能“看懂”一個對人類來說一目了然的界面。

效率差距觸目驚心。2024年10月，Anthropic在Claude 3.5 Sonnet中首次引入“Computer Use”功能，通過API接口讓AI能夠像人類一樣查看屏幕、移動光標、點擊按鈕。這項被官方稱為“突破性”的技術，在OSWorld基準測試中僅取得14.9%的成功率。雖然遠超此前AI的表現，但依然遠低于人類70%~75%的水平。

這不是AI不夠聰明，而是界面本身不是為它設計的。

到2025年1月，OpenAI推出的Operator及其核心模型CUA（Computer-Using Agent）將技術水準提升到新高度。與Claude依賴API調用的方式不同，CUA融合GPT-4o視覺能力與強化學習技術，直接與GUI交互。在WebVoyager基準測試中，任務成功率達到87%，幾乎追平人類表現；OSWorld測試38.1%的成績更是將此前的技術天花板推高了近一倍。

但這依然是在讓AI“偽裝”成人類——通過計算機視覺解析屏幕、模擬鼠標點擊和鍵盤輸入。給馬車裝上噴氣發動機，它或許能跑得更快，但終究不是飛機。這是務實的過渡方案，而非終局。

真正的終局，是重新設計交互的底層邏輯。

從2024年底開始，圍繞AI Agent的一系列開放協議密集出現。它們的共同目標很明確：為不斷“生長”的Agent生態建立一套可通用、可協作的語言與標準。2025年12月，Google開源了A2UI（Agent to UI）協議，提出了一個新思路——讓AI Agent學會“說UI的語言”。通過一種安全、聲明式的格式，將UI需求發送給前端應用，用來渲染與交互，這是在定義Agent描述用戶界面的全新標準。

未來的交互界面，無需再模擬鼠標或鍵盤的操作。一個更大膽的預言來自Nothing首席執行官裴宇（Carl Pei），他認為智能手機App將逐漸消失，取而代之的是更具主動性、更智能的AI Agent。未來的愿景是“Intent-based UI”——系統不再顯示成排的圖標，而是直接根據用戶自然語言意圖生成交互界面。

對著手機說句話就能訂咖啡、買機票，這都是最初級的階段。下一階段，Agent將成為主動的生活助手，而非被動的工具。而到了最強大的階段，系統甚至會浮現你從未想過要提的需求——它會提出連我們自己都沒意識到的想要的東西。

這意味著界面本身必須發生根本性的變化。裴宇認為，人工智能代理不應該像機器人一樣在菜單上點擊，假裝成人類。更專業的描述是：每個功能都提供完善的API接口，Agent可以直接調用而無需通過界面理解；所有信息都以機器可解析的格式提供，而非僅渲染為可視化界面。

這個轉變的本質，是從“視覺中介”到“語義直達”。

想象一家餐廳：傳統GUI讓人類顧客只能通過菜單點菜，菜單經過精心設計、排版美觀，但始終是一個間接的翻譯層。而API則是讓顧客直接進入后廚，精確告知廚師每一道菜的配料、火候和擺盤要求——沒有中間商，沒有信息損耗。Agent需要的正是這種“直達后廚”的能力，而不是在精美的菜單封面上消磨時間。這種轉變不是錦上添花，而是當Agent數量爆發式增長后的必然選擇。

當然，向Agent友好型界面的轉變并不缺少挑戰。最直接的挑戰來自安全與隱私——當Agent獲得系統級操作權限時，如何驗證其身份、分配合理的權限、追溯其行為責任，都是亟待解決的核心問題——如果Agent可以同時訪問你的銀行賬戶、醫療記錄和工作郵件，那么一道安全漏洞的代價將遠超傳統的數據泄露。

盡管未來隱藏著不安，但我們無法拒絕它降臨。五年之內，軟件和硬件的交互都需要同時服務于兩類用戶：一類是有視覺、有雙手、需要視覺錨點的人類；另一類是沒有視覺、沒有雙手，但擁有超強推理和規劃能力的AI Agent。

這不再是“人機交互”的問題，而是“人—Agent—機”三方共存的復雜生態系統設計問題。

從“人適應機器”到“機器適應人”，再到“機器適應Agent”——人機交互的歷史，正在翻開最具想象力，也最不可預測的一頁。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.