![]()
這項由加州大學圣地亞哥分校主導,聯合阿布扎比穆罕默德·本·扎耶德人工智能大學、密歇根大學、加州大學伯克利分校、蘇黎世聯邦理工學院、劍橋大學及Gray Swan AI等多家機構共同完成的研究,以預印本形式發布于2026年4月13日,論文編號為arXiv:2604.11201。有興趣深入了解的讀者可通過該編號查詢完整論文。
說到今天的人工智能,大家可能已經習慣了這樣的說法:AI能寫代碼、能上網搜東西、能看圖片、能自動操作電腦界面……聽起來樣樣精通,無所不能。但一個核心問題始終沒人認真回答:當這些能力需要同時配合起來完成一件復雜任務時,AI到底表現得怎么樣?
就好比一個廚師,你單獨考他刀工是一回事,單獨考他火候控制是另一回事,但真正上灶做一桌席面——刀工、火候、擺盤、時間節奏全都得配合——那又完全是另一回事了。現有的AI評測,大多還停留在"單獨考刀工"的階段。正是為了填補這個空白,研究團隊設計了一套全新的綜合測試平臺,叫做COCOABENCH。
一、為什么現有的AI考試卷子不夠用
要理解COCOABENCH解決了什么問題,得先搞清楚現有測試有哪些局限。
目前市面上已經有不少針對AI助手的測試平臺。有專門測試AI處理軟件工程bug的(比如SWE-bench Pro),有專門測試AI操作電腦桌面界面的(比如OSWorld),有專門測試AI搜索網絡信息的(比如BrowseComp),也有測試AI調用各種專用工具的(比如MCP Atlas和Tool Decathlon)。這些測試各有所長,但問題在于,它們基本上都是"單科考試"——專注測某一項能力,而且往往綁定特定的運行環境或工具集合,就像只有在某個特定廚房、用特定炊具才能進行的廚藝考核。
現實中的任務卻不是這樣運作的。當你讓AI幫你規劃一次旅行,它可能需要先在網上搜索航班和酒店信息(搜索能力),然后從一張截圖或地圖中識別某個地點(視覺能力),最后把收集到的數據整理成一份對比表格或執行某種計算(編程能力)。這三件事缺一不可,而且必須按照合理的順序協調配合。
這就是研究團隊所說的"統一數字助手"需要具備的核心素質:不是單項冠軍,而是全能選手。而要測試全能選手,自然需要一份全科考卷。
二、COCOABENCH到底是怎么設計的
COCOABENCH總共包含153道由人工精心設計的題目,覆蓋商業、文化、教育、生活、邏輯與謎題、科學、體育、科技和旅行九大領域。每道題都對應一個真實生活中可能遇到的場景,比如根據一年的加油收據計算加權平均油價,或者通過購物網站的截圖比較不同零食的營養成分并幫人做出最優選擇。
這些題目有幾個特別之處,值得細說。
首先,每道題對AI來說都是"開放世界"挑戰。題目只給出一段指令和一個最終輸出的評分標準,不指定AI必須使用哪些工具、走哪條路徑。這就像告訴廚師"做一道魚香肉絲,最終口味要達到這個標準",但不規定他用哪口鍋、哪把刀——能力強的廚師自然會選最合適的工具和流程。
其次,任務涉及多種資源形式。有些題需要AI處理網頁內容,有些需要處理圖片,有些需要解析PDF文檔或CSV數據表,甚至還有需要分析視頻的題目。數據顯示,視覺類資源(網頁截圖加上圖片)占到了全部任務資源的近七成,足見視覺理解能力在實際任務中的重要性。
三類核心能力(視覺、搜索、編程)在這些題目中高度交叉出現——研究團隊統計,98%的題目需要同時用到至少兩種能力。其中,搜索能力被86.3%的題目所要求,視覺理解被83%的題目所要求,編程能力被56.2%的題目所要求。這種高度交叉,正是測試"全能配合"而非"單科成績"的關鍵所在。
第三,每道題都配有自動評分腳本,不依賴人工打分,也不依賴另一個AI來評判答案是否正確。這一點非常重要,因為人工評分費時費力,而用AI評AI又容易產生誤差。對于那些需要在網站上執行操作才能完成的任務(比如在購物網站上真正完成下單流程),研究團隊采用了"結果代理評估"的方式——比如驗證AI最終報出的價格是否正確,因為只有正確完成了網站操作和合理計算才能得出這個價格。
在質量把控方面,所有題目和參考答案都經歷了嚴格的同行評審,確保題目表述清晰、評分標準明確、沒有讓AI抄近路繞過核心推理的漏洞,同時外部資源的鏈接穩定可訪問。研究團隊還專門做了試運行,對照AI的執行日志區分"AI確實能力不足"和"題目設計有問題",剔除了有持續歧義的題目,整個設計經過了多輪打磨。
三、和那些AI一起參加考試
為了讓評測結果盡可能全面和有代表性,研究團隊從兩個維度組織了測試。
一方面,他們直接測試了幾款現成的AI產品系統:OpenAI推出的ChatGPT Agent Mode(較早期的綜合型AI助手)、開源框架OpenClaw(分別搭載GPT-5.4和Claude Sonnet 4.6兩款核心模型)、Codex(OpenAI的編程助手,搭載GPT-5.4)、Claude Code(Anthropic的編程助手,搭載Claude Sonnet 4.6),以及OpenAI的Deep Research(專注長篇網絡信息搜索和整合的研究型助手,使用o4-mini版本)。
另一方面,研究團隊自己開發了一個輕量級的測試框架,叫做COCOA-AGENT,讓不同的AI核心模型在同一套工具配置下參賽,以便更公平地比較模型本身的能力差異。參與這個框架測試的模型包括:Claude Sonnet 4.6(高思考模式)、GPT-5.4(高思考模式)、Gemini-3.1-pro(高思考模式)、Gemini-Flash-3.0,以及兩款開源模型——Kimi-k2.5(月之暗面出品,總參數量1萬億,實際激活320億)和Qwen3.5-397B-A13B(阿里巴巴出品,總參數3970億,實際激活130億)。
COCOA-AGENT本身的設計也值得介紹一下。它建立在一個叫AIO Sandbox的沙盒運行環境上,把瀏覽器、命令行終端和文件系統全都集成在一個Docker容器里。AI通過一套共39個工具與這個環境交互,這些工具按能力類型分為三組:瀏覽器視覺操作類(17個工具,包括點擊、滾動、截圖等)、DOM網頁結構訪問類(11個工具,包括讀取文本、提取鏈接、標記元素等)、以及編程與文件操作類(包括執行Python/JavaScript代碼、運行終端命令、讀寫文件等)。每次測試有30分鐘時間限制和最多50輪交互的次數上限。
四、成績單出來了:最好的也才45%
測試結果相當直白:即使是目前最強的AI系統,也只能完成不到一半的任務。
在所有測試系統中,表現最好的是搭載GPT-5.4的Codex,成功率恰好達到45.1%。同樣搭載GPT-5.4的OpenClaw也達到了45.1%。緊隨其后的是搭載Claude Sonnet 4.6的OpenClaw,成功率34.0%。在COCOA-AGENT框架下,GPT-5.4取得了36.6%的成功率,Gemini-3.1-pro達到30.7%,Gemini-Flash-3.0達到19.6%,Claude Sonnet 4.6只有15.7%。
而兩款開源模型的成績則相當不理想:Kimi-k2.5僅有11.8%,Qwen3.5-397B-A13B只有9.8%。OpenAI Deep Research的表現也令人意外地低,只有3.3%,這可能是因為這款產品專注于長篇研究寫作,面對COCOABENCH里大量需要實時交互操作的任務時力不從心。
從這些數字可以得出幾個有意思的結論。GPT-5.4是目前最穩定的核心模型,無論搭配哪個框架都保持在前列。Claude Sonnet 4.6的表現則不那么穩定,在OpenClaw框架下有34%,但在COCOA-AGENT下只有15.7%,說明它對框架設計的依賴性更強。開源模型與頂級閉源模型之間的差距依然明顯,最強開源模型的成功率還不到最強閉源模型的三分之一。
五、花多少錢、用多長時間,和考多高分的關系
研究團隊還仔細比較了各系統的成本效率:每個任務的平均花費從0.5美元到2.5美元不等,平均完成時間從380秒到3400秒不等。
一個出乎意料的發現是:貴不一定好,慢不一定強。Codex系統(搭載GPT-5.4)每個任務平均花費0.75美元,而同樣用GPT-5.4的OpenClaw要花1.09美元,COCOA-AGENT框架下更是高達2.31美元。但成功率并不隨著花費增加而等比例提升。在成本與性能的權衡曲線上,Codex處于最優位置,是所謂的"帕累托前沿"——用相對最低的成本取得最高的成績。
這背后的原因很可能是框架設計的效率差異。Codex最初是為編程任務設計的,它的交互方式更簡潔直接,而COCOA-AGENT的工具體系更全面,但相應地調用成本也更高。這提示我們,AI系統的整體能力不只取決于核心模型的智力水平,框架和工具的設計效率同樣至關重要。
六、會用代碼的AI,才是真正的強手
研究團隊對COCOA-AGENT框架下六個模型的工具調用記錄做了詳細統計,發現了一個非常清晰的規律:強的模型更多地依賴編程工具,弱的模型則更多地停留在瀏覽器操作上。
在所有工具調用中,"執行代碼"(code execute)和"執行終端命令"(shell execute)是使用最頻繁的兩類,總調用次數分別達到7799次和4050次,遠超其他所有工具。排在后面的依次是瀏覽器導航(3439次)和圖片讀取(2482次)。
把這些工具調用按能力類型(編程、視覺、搜索)歸類后,可以看出不同模型的"風格"截然不同。GPT-5.4有64%的工具調用屬于編程類,Gemini-3.1-pro有63.2%。而Kimi-k2.5則把51.7%的調用花在視覺工具上,Gemini-Flash-3.0把34%的調用花在DOM搜索工具上,編程調用分別只占26.4%和更低的比例。
這種差異和最終成績高度吻合:越是多用編程工具的模型,成績越好。原因在于編程工具承擔了雙重角色——一方面,寫幾行代碼往往能用更少的步驟完成復雜操作,比直接點來點去效率高得多;另一方面,對收集來的數據進行復雜運算、格式化輸出,也必須靠編程完成。強模型的策略是:用視覺和搜索工具獲取信息,然后交給代碼處理;弱模型則傾向于在瀏覽器里"手動"完成全程,既慢又容易出錯。
七、哪里出了問題:三大失敗原因的解剖
為了搞清楚AI到底是在哪些環節上栽跟頭的,研究團隊對712條失敗記錄進行了系統分類(這712條來自六個模型共918次任務嘗試中的失敗部分),用Claude Sonnet 4.6作為評判者,為每條失敗記錄打上原因標簽。
失敗原因被分成三大類,每類下面又細分出若干子類型。
第一大類叫"推理與規劃失敗",占所有失敗原因的54%,是比例最高的一類。這類失敗又細分為三種情形。第一種是"推理錯誤"(占25%),包括兩種表現:一是目標偏移,AI明明要完成任務A,卻只解決了任務A的一個子問題就停下來了——就像有人讓你做一份完整的項目報告,你只寫了摘要就交卷了;二是策略錯誤,AI理解了目標但選擇了根本行不通的方法。一個典型例子是,在一道要求解決八數碼謎題并以"最短路徑序列"為依據生成驗證碼的任務中,AI正確地算出了最短28步的解法,但是在一個已經執行了很多探索操作的瀏覽器會話里繼續操作,導致最終提交的驗證碼和"從干凈狀態嚴格按最短路徑執行"所生成的驗證碼不一致。AI解了題,但沒真正完成任務。
第二種是"精度失誤"(占15.5%),即方法對了,但細節出錯。一個讓人印象深刻的案例是:AI要計算一整年加油收據的加權平均油價,它正確識別了所有收據,也使用了正確的價格乘以體積的計算邏輯,但在累加過程中過早做了中間舍入,導致最終結果是4.217而正確答案是4.216,差了0.001,就這一個小數點后第三位的偏差,任務失敗。另一個案例是AI需要統計某篇博士論文正文部分某參考文獻的引用次數,結果把附錄里的引用也算進去了,得出5次而非正確的4次。
第三種是"格式錯誤"(占13.6%),即AI算出了正確答案,但沒有按要求格式輸出——比如在一道需要同時回答A和B兩個問題的任務里,AI答完A就提交了,把B的答案丟掉了。
第二大類叫"工具與執行失敗",占19%。這類失敗最常見的表現是陷入無限循環(占12%),即AI發現某個工具沒有返回預期結果,卻不斷重復同樣的操作,消耗完全部50次交互機會也沒能推進任務。一個案例是AI需要解一道圖像形式的數獨謎題,它試圖用圖像處理庫逐行逐列裁剪微小區域來讀取數字,整整消耗了51輪交互都沒有真正進入解題階段,最終空手而歸。
另一類工具失敗是被網站的反爬蟲機制攔截(占4.2%)。AI試圖爬取某個學術數據庫查詢論文引用數,結果被Cloudflare的驗證頁面攔下,AI沒有識別出這是驗證頁面,把這個空白的安全提示頁當成了正常的查詢結果,最終報告引用數為0。
還有一類是工具結果幻覺(占0.8%,但危害很大):AI要處理47篇關于GLP-1藥物臨床試驗的論文,在前幾輪對話里成功提取了若干論文的數據,但隨著對話記錄越來越長,早期的提取結果被"遺忘"(超出了AI的上下文窗口限制),AI開始重復提取同樣的數據,不斷循環,最終沒能完成完整分析。
第三大類叫"視覺定位失敗",占28%。第一種子類型是視覺細節不精準(占15.8%):AI在一段登山視頻中需要讀出路線圖上每個標記點的海拔高度,它正確處理了大部分數字,但把第三個標記點的"8690m"誤讀為"8710m",差了20米,超過了評分容差。
第二種是視覺語義知識不足(占7.6%):AI能看清圖片里的人臉,但不認識是誰。一個案例是AI看到一張格萊美頒獎典禮照片,需要識別出兩位藝術家的名字,它正確識別了Billie Eilish,但把旁邊的Lana Del Rey認成了Taylor Swift,進而用錯誤的人名去查詢獲獎記錄,導致最終計算出的總獲獎數完全錯誤。還有一個案例更有意思:AI需要根據一張街景圖中熊雕塑旁的環島和"進入環島取第一個出口"的指令判斷某建筑面朝哪個方向,AI正確讀取了圖片中的空間布局,卻錯誤地套用了"左行交通"(即英國式靠左行駛)的規則,而圖片實際上來自一個靠右行駛的國家,結果方向判斷完全反了。
第三種是缺乏視覺感知(占5.4%):AI試圖通過讀取網頁DOM結構來獲取本應通過截圖視覺解讀才能得到的信息。一個典型案例是分析一個Tableau商業智能儀表盤,AI調用了后臺的數據API接口,拿到了原始未聚合的數據,但Tableau的最終顯示結果是在瀏覽器端完成數據聚合后才渲染出來的,原始數據和顯示結果根本不一樣,AI拿著"原材料"報告了一個完全錯誤的結論。
八、GPT-5.4和Kimi-k2.5的差距從哪里來
為了更細致地理解為什么不同模型表現差距這么大,研究團隊重點比對了成績最好和成績最差的兩個模型——GPT-5.4和Kimi-k2.5——在各類失敗原因上的分布。
相比GPT-5.4,Kimi-k2.5在"推理錯誤"這一類失敗上比例更高,說明它在面對陌生場景時缺乏足夠的程序性知識,不知道該用什么策略。它的"格式錯誤"比例也明顯更高,說明在經歷了多輪交互之后,它更容易忘記任務開始時給出的輸出格式要求。在工具使用上,Kimi-k2.5更容易陷入無限循環,一旦遇到工具返回了意外結果,它往往不知道如何調整策略,只是一遍遍重復同樣的操作。在視覺能力上,Kimi-k2.5在"視覺細節"這一子類型上的失敗比例遠高于GPT-5.4,說明它在處理精細視覺信息時可靠性明顯不足。
歸根結底,這項研究的結論是:即便是當今最先進的AI系統,在面對需要視覺、搜索和編程協同配合的真實任務時,依然遠未達到可靠的水平。最好的系統只有45.1%的成功率,意味著超過一半的任務會失敗。這三大類失敗——想不清楚、做不到位、看不準確——共同構成了通向"真正全能數字助手"道路上的主要障礙。
研究團隊已將COCOABENCH的全部153道題目、評分腳本和COCOA-AGENT框架代碼完全開源,希望這套工具能成為未來AI能力研究的基礎設施,包括為訓練更強AI(尤其是通過強化學習提升綜合任務能力)提供評測基礎。
說到底,我們現在的AI助手更像是一批專科畢業的高手,各自在本專業領域出類拔萃,但面對現實生活里那些需要綜合調度多種技能的任務時,仍然力不從心。COCOABENCH的價值不只是給出了一份成績單,更是清晰地指出了差距在哪里:不是某一項技術還不夠強,而是在多能力協同配合、長鏈條任務推進、以及在遇到障礙時靈活調整策略這些方面,還有很長的路要走。對于任何關心AI未來發展走向的人來說,這份診斷報告或許比那個45.1%的分數本身更有參考價值。有興趣深入了解的讀者可通過arXiv:2604.11201查閱完整論文。
Q&A
Q1:COCOABENCH和現有AI測試平臺有什么本質區別?
A:現有測試平臺大多只考察AI的單項能力,比如只測編程、只測網頁瀏覽或只測圖像理解,而且往往綁定特定的運行環境。COCOABENCH的核心區別在于,它的每道題目都要求AI同時綜合運用視覺理解、網絡搜索和編程三種能力,并且不限定AI使用哪些工具或走哪條路徑,更接近真實生活中的復雜任務場景。
Q2:為什么GPT-5.4在COCOABENCH上的成績比其他模型好這么多?
A:從測試數據來看,GPT-5.4的優勢主要體現在兩方面:一是它在遇到復雜任務時更傾向于用編程代碼來處理數據,這比在瀏覽器里一步步手動操作更高效也更可靠;二是它在推理準確性和長任務中保持注意力方面表現更穩定,不容易在多輪交互后遺忘早期指令或陷入重復循環。
Q3:AI在COCOABENCH上失敗最多的原因是什么?
A:最常見的失敗原因是推理與規劃問題,占所有失敗的54%。具體表現包括:理解了目標但采用了錯誤的解題策略、算法對了但中間某個細節出了偏差(比如計算時過早四舍五入導致最終結果差一點),以及明明算出了正確答案卻沒有按要求格式輸出。視覺理解失敗(28%)和工具執行卡頓(19%)是另外兩大主要原因。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.