无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

走出MMLU的高分幻覺:AI Agent的「斯坦利時刻」與職場生存法則

0
分享至



作者:論文團隊

編輯丨ScienceAI

序章:穿越數字世界的「莫哈韋沙漠」

把時鐘撥回 2005 年,內華達州的莫哈韋沙漠。

那是美國國防部高級研究計劃局(DARPA)舉辦的無人駕駛挑戰賽現場。不同于平整的封閉賽道,DARPA 給出的考題殘酷而簡單:沒有高精地圖輔助,沒有人類遠程接管,車輛必須依靠自身的感知決策系統,穿越數百公里的荒漠。

最初的嘗試是慘烈的,無數車輛在起步后不久就撞向巖石、陷入溝壑。直到一輛名為「斯坦利(Stanley)」的賽車,依靠在非結構化環境中的自主決策能力沖過終點。那一刻,被公認為自動駕駛的「斯坦利時刻」——它證明了機器智能的價值不在于實驗室里的理想參數,而在于能在充滿未知的物理世界中「活下來」并完成任務。

今天,在通往通用人工智能(AGI)的道路上,我們正站在這一時刻的數字鏡像前。

在多模態大模型(MLLMs)狂飆突進的今天,MMLU、GSM8K 等基準測試的分數每隔幾個月就被刷新。然而,企業和開發者卻面臨著一個共同的困惑:為什么這些在考卷上接近滿分的 AI,一旦放入真實的業務流程中,往往就變成了需要人類時刻照看的「巨嬰」?

繁榮下的隱憂:高分低能的「執行鴻溝」

現有的 Agent 評測大多像是在「無菌室」里做題:環境是靜態的,任務是單一的,信息是全知的。我們正在用測試「大腦」的考卷,來評估「手腳」的靈活性。

近日,來自復旦大學、上海 AI Lab、浙江大學等機構的研究團隊發表了論文 。研究團隊指出,現在的 Agent 之所以難用于實際生產環境,是因為它們存在顯著的「執行鴻溝」

  • 現有的測試benchmark是「全知視角」的(Oracle-based):我們給模型完美的上下文,要求它輸出完美的答案。
  • 真實的職場是「迷霧模式」的(Partially Observable):任務說明書里可能沒有密碼,需求是模糊的,環境里充滿了老板突然交辦的任務 B 和臨時插進來的會議。

為了打破這種「高分低能」的幻覺,研究團隊造了一個高度仿真的「職場模擬器」——Trainee-Bench。他們拉來了包括 GPT-5.1、Gemini-3-Flash、Claude-4-Sonnet 在內的頂尖模型,進行了一場殘酷的「入職第一天」壓力測試。

Trainee-Bench:AI 實習生的「受難日」

Trainee-Bench 不再關注單一能力的上限,而是考察 Agent 在復雜動態環境中的「生存策略」。它模擬了一個新員工入職時的真實困境——缺乏「上帝視角」的輔助,一切靠自己。研究從三個硬核的技術維度,重新定義了 Agent 的能力邊界:

維度一:從「線性推理」到「動態調度」

職場充滿了異步性。當 Agent 正在處理一份報表時,突然收到緊急郵件。它能否展現出類似操作系統的調度能力?

  • 優先級判斷:能分清輕重緩急嗎?
  • 掛起與恢復:處理完緊急任務后,能無損地回到剛才的進度嗎?



維度二:從「全知地圖」到「主動探索」

在真實環境中,信息往往是碎片化且隱蔽的。Trainee-Bench 構建了一個「無圖(Mapless)」環境,Agent 不會被告知「文件在哪里」或「工具怎么用」。它必須像人類實習生一樣,通過、探測目錄,自主閱讀文檔理解參數,并在探索中逐步構建起對環境的「認知地圖」。

ls

grep



維度三:從「單次完成」到「持續學習」

一個合格的數字員工,必須具備「長記性」的能力。Trainee-Bench 設置了長程的時間跨度,考察 Agent 能否利用前一天的環境反饋和執行歷史,在第二天避開同樣的坑。



核心解密:如何構建一個「無限流」職場?

Trainee-Bench 的構造流程精妙地模擬了現實世界的復雜性。整個環境的構建分為三個關鍵步驟:

  • 第一步:拒絕死記硬背的「任務實例化」:為了防止Agent「背題」或過度擬合,Trainee-Bench 引入了 元任務(Meta-Task) 的概念。團隊精心設計了 181 個元任務規則,這些元任務規則就像 Rogue-like 游戲一樣,通過隨機種子生成不同的 NPC 性格、文件路徑、數據分布等。此外,這些元任務會刻意隱藏部分關鍵線索,讓 agent 必須主動探索環境和向外部尋求幫助才能繼續推進任務。
  • 第二步:還原真實的「動態復合場景」:真實工作從來不是單線程的。Trainee-Bench 將多個獨立的任務實例,按照時間軸編排進一個動態復合場景中。這些任務具有不同的優先級,也可能存在先后依賴,考驗 智能體的多任務規劃能力。
  • 第三步:像導師一樣的「自動驗證機制」:系統不僅看最終結果,更關注過程。通過預埋的 Checkpoints(檢查點),環境能夠自動評估 Agent 每一步做對了沒有,并給出細粒度的自然語言反饋。



評測結果:頂尖模型的集體「滑鐵盧」

研究團隊測試了包括Gemini-3-Flash、GPT-5.1、GPT-4o、Claude-4-Sonnet等在內的 7 款頂尖模型,測試結果有些「扎心」。即便面對目前地表最強的 7 款模型,Trainee-Bench 依然像是一道難以逾越的墻。

洞察一:成功率的「天花板」極低

在綜合測試中,表現最好的Gemini-3-Flash成功率也僅為35%,而備受期待的GPT-5.1Claude-4-Sonnet成功率僅在23%左右。這說明,面對非結構化的動態職場,SOTA 模型離「獨立上崗」還有極遠的距離。



洞察二:任務一多,立刻「顧頭不顧尾」

實驗發現,當并發任務數量從2 個增加到 6 個時,除了 Claude-4 和 GPT-5.1 表現相對平穩外,其他模型的性能都出現了斷崖式下降。多線程工作的調度能力,依然是 AI 邁向高級助理的致命軟肋。



洞察三:最扎心的發現:Agent 竟然「記吃不記打」?

Trainee-Bench最獨特的設計之一是引入了「持續學習」的評估。研究者讓 Agent 先工作一天(Day 1),根據反饋總結經驗,讓智能體在Day 2 再次執行和第一天類似的任務。理論上,有了經驗總結,第二天應該干得更好對吧?

結果恰恰相反!結果顯示:使用了經驗后,Agent 的整體表現反而下降了(得分從 0.42 降至 0.36)。原因在于,當前大模型總結的「經驗」往往非常膚淺或過度擬合。面對動態變化的新環境,生搬硬套昨天的教條反而成了執行的累贅。



智能體商業價值的重構:用「人類時間」丈量技術

技術范式的轉移,必然伴隨著商業邏輯的重構。AI Agent 的核心價值不在于算力消耗,而在于「解放」人類的時間。

在移動互聯網時代,商業的核心是「注意力經濟APP 恨不得占有你每一分鐘。而 AI Agent 時代的邏輯恰恰相反:Agent 本質上是 "Service-as-Software"(服務即軟件),它的核心價值在于「解放」人類的時間。

本篇論文提出的測試結果,實際上指向了一個可以直接與 投資回報率(ROI)掛鉤的終極指標:等價人類時間(Equivalent Human Time),即:

{價值} = {人類自主完成時間} - {Agent 耗時} + {人類監工與修正時間}

如果一個 Agent 需要人類頻繁介入去糾錯、去喂數據,該指標可能為負——這意味著它不僅沒有生產力,反而在浪費算力。只有當 Agent 在「探索、調度、學習」三個環節實現零接管,它才真正具備了商業上的「長青」價值。

《The Agent's First Day》的實驗數據給出了一個令人振奮的側面:當人類在關鍵時刻給出少量指導(Human Guidance)時,GPT-4o 的得分能從0.24飆升至0.83。這證明了:模型本身的推理能力其實已經足夠強,它真正匱乏的是像人類一樣的主動探索意識和對環境的敏銳感知。



結語:尋找數字職場的「斯坦利」

20 年前,莫哈韋沙漠揚起的沙塵,開啟了物理世界自動駕駛的黃金時代。

如今,《The Agent's First Day》在數字世界里構建的這座「職場迷宮」,或許正是 AI Agent 走向 AGI 所必須跨越的荒漠。它向行業揭示了一個樸素的洞察:停止單純卷模型的參數,開始卷 Agent 的自主學習性。

因為,只有那些能夠獨自處理復雜任務、讓用戶真正敢于放手、在「無圖」環境中生存下來的 Agent,才能在未來的職場中獲得一張正式的工牌。

想要挑戰一下你的 Agent 嗎?Trainee-Bench 的數據與代碼已正式開源,歡迎全球開發者帶著Agent前來應聘!

  • 論文標題:The Agent’s First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios
  • 項目地址:https://github.com/KnowledgeXLab/EvoEnv
  • arXiv 地址:https://arxiv.org/abs/2601.08173

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
鄭柵潔主持召開民企座談會 聽取5家企業意見建議

鄭柵潔主持召開民企座談會 聽取5家企業意見建議

觀點機構
2026-05-20 22:26:21
No!麻了,雷霆麻了!頂薪后衛反復腿筋拉傷

No!麻了,雷霆麻了!頂薪后衛反復腿筋拉傷

籃球實戰寶典
2026-05-21 15:03:34
他是致使臺灣難以收復的關鍵人物,若不是他臺灣或許早已解放

他是致使臺灣難以收復的關鍵人物,若不是他臺灣或許早已解放

老范談史
2026-04-30 03:59:22
于文華:一婚下嫁李凡,三拒尹相杰,再婚嫁小伙,不生孩子也幸福

于文華:一婚下嫁李凡,三拒尹相杰,再婚嫁小伙,不生孩子也幸福

飄飄然的娛樂匯
2026-05-18 20:05:05
男子反復出現肺部感染,福建醫生抽絲剝繭揪出元兇:他的肺里竟藏著一顆……

男子反復出現肺部感染,福建醫生抽絲剝繭揪出元兇:他的肺里竟藏著一顆……

福建衛生報
2026-05-20 12:51:00
Shams:過去一年中的所有跡象都表明,詹姆斯會再打一個賽季

Shams:過去一年中的所有跡象都表明,詹姆斯會再打一個賽季

懂球帝
2026-05-21 08:15:08
誰錯了?曹暉坐在馬斯克身邊,幾乎沒有與馬斯克交流,被網友笑話

誰錯了?曹暉坐在馬斯克身邊,幾乎沒有與馬斯克交流,被網友笑話

蝴蝶花雨話教育
2026-05-20 00:05:10
其實我們也有合規的楊梅,只不過被賣到了國外

其實我們也有合規的楊梅,只不過被賣到了國外

黑噪音
2026-05-20 17:06:54
約會時女人說去廁所,其實是在給你兩個暗示,聽懂的都不是凡人

約會時女人說去廁所,其實是在給你兩個暗示,聽懂的都不是凡人

心理觀察局
2026-05-18 09:11:14
知名歌唱家貪財好色嫁大30歲二婚男,如今活成這樣

知名歌唱家貪財好色嫁大30歲二婚男,如今活成這樣

風月得自難尋
2026-05-12 06:25:42
罕見!近70萬球迷打分,馬刺好評不斷雷霆全員低分,裁判低到離譜

罕見!近70萬球迷打分,馬刺好評不斷雷霆全員低分,裁判低到離譜

球盲百小易
2026-05-21 12:48:44
西媒:連續三年的清洗嘗試,拉莫斯考慮今夏直接賠錢遣散夸西

西媒:連續三年的清洗嘗試,拉莫斯考慮今夏直接賠錢遣散夸西

懂球帝
2026-05-21 14:48:43
正常人可以偶爾偷吃一顆偉哥嗎?有什么副作用?本文為你講出實情

正常人可以偶爾偷吃一顆偉哥嗎?有什么副作用?本文為你講出實情

健康科普365
2026-05-09 21:05:04
佛山樓市開始離譜了!千燈湖板塊房價從4.5萬變成3.2萬,臨廣片區承接廣州外溢需求

佛山樓市開始離譜了!千燈湖板塊房價從4.5萬變成3.2萬,臨廣片區承接廣州外溢需求

美食格物
2026-05-21 13:10:12
18歲被王全安選中,20歲登戛納,后來為啥沒人敢用她?

18歲被王全安選中,20歲登戛納,后來為啥沒人敢用她?

林雁飛
2026-05-21 13:36:32
繼子被繼母虐待,考上985辦升學宴,繼子掏出親子鑒定后繼母呆住

繼子被繼母虐待,考上985辦升學宴,繼子掏出親子鑒定后繼母呆住

曉艾故事匯
2025-05-02 07:32:27
英偉達業績炸裂!凈利潤暴漲211%,9成收入來自數據中心,自研CPU將年入千億

英偉達業績炸裂!凈利潤暴漲211%,9成收入來自數據中心,自研CPU將年入千億

芯東西
2026-05-21 10:12:45
北京今夜起將迎降雨過程 明天最高氣溫僅22℃需防雨添衣

北京今夜起將迎降雨過程 明天最高氣溫僅22℃需防雨添衣

極目新聞
2026-05-21 08:06:54
主角:直到青娥兒子離世,才懂為啥她寧嫁劉紅兵,也不跟封瀟瀟

主角:直到青娥兒子離世,才懂為啥她寧嫁劉紅兵,也不跟封瀟瀟

阿廢冷眼觀察所
2026-05-21 14:17:25
廣汽本田新款皓影上市 售價13.79-17.99萬元

廣汽本田新款皓影上市 售價13.79-17.99萬元

車質網
2026-05-21 09:22:52
2026-05-21 17:27:00
ScienceAI incentive-icons
ScienceAI
關注人工智能與其他前沿技術
1307文章數 227關注度
往期回顧 全部

科技要聞

好到離譜也不夠!英偉達交出816億美元營收

頭條要聞

特朗普稱將與賴清德交談 外交部表態

頭條要聞

特朗普稱將與賴清德交談 外交部表態

體育要聞

常住人口7000的小鎮,擁有了一支德甲球隊

娛樂要聞

反轉!金秀賢與金賽綸未成年時交往不實

財經要聞

英偉達業績超預!指引再新高仍不夠亮眼

汽車要聞

26.98萬起步 看小鵬GX如何詮釋一車多能以及滿配的科技與豪華

態度原創

房產
藝術
家居
健康
親子

房產要聞

順德澐璟樓王『澐冠』啟幕|一場高階共鳴的靜奢美學之約

藝術要聞

崔雪冬 2026年油畫新作

家居要聞

風格碰撞 個性與藝術

專家:別把PRP當作“自體干細胞”

親子要聞

媽媽太卷兒女都不顧兒女身心健康是特別無奈的,做爸爸的太心疼還沒辦法

無障礙瀏覽 進入關懷版