網易首頁 > 網易號 > 正文 申請入駐

Anthropic:大模型 benchmark 打分不適用 AI agent 評測

0
分享至

最近,Anthropic 發了一篇不太像“技術博客”的文章,《Demystifying evals for AI agents(揭開 AI agents 評測的迷霧)》,基本可視為一份“Agent 時代的產品生存指南”。


這篇文章背后隱含的一個判斷是,如果你做的是 AI Agent,卻還在用“模型 benchmark”那一套方式來評估它,那基本就是在扯淡。

Agent 的問題,不是模型準不準,而是它會不會在真實世界里,把事情搞砸。

Anthropic 在文中反復強調一個現實:隨著 AI 從“一次性回答問題”,走向“長時間自主行動”,系統的失敗方式已經發生了根本變化。

錯誤不再是“答錯一道題”,而是一步小錯、持續放大,最終造成不可逆后果。

比如一個研究型 Agent,早期一次資料篩選偏差,后面所有推理都會建立在錯誤前提上;

又比如一個自動化 Agent,在工具調用上出現微小誤判,卻在長鏈條任務中不斷復制這種錯誤。

這些問題,用傳統的評測方式幾乎是測不出來的。

Anthropic 直接點破了一個行業誤區:我們過去評估 AI,更像是在給“考試機器”打分;但 Agent 更像一個“實習生”,你真正關心的是——它在真實任務里能不能被信任。

所以,Anthropic提出,其核心不是“怎么跑 評測”,而是評測到底應該服務什么目標。

他們給出的第一個關鍵轉向是,從靜態結果評測,轉向過程與行為評測。

在 Agent 系統中,最終結果是否正確固然重要,但遠遠不夠。更關鍵的是:


  • 它是否遵循了預期的決策路徑

  • 是否在不確定時主動求證

  • 是否在失敗后調整策略

  • 是否在高風險節點表現得足夠保守

換句話說,評測不只是“對不對”,而是“像不像一個你敢用的 Agent”。


第二個非常現實的判斷是:Agent 的 評測永遠不可能一次性完成。

Anthropic 明確指出,Agent 的評估是一個“持續對抗”的過程。

你修復了一個失敗模式,很可能立刻引入一個新的失敗方式。

這點對所有做產品的人都很殘酷,也很真實:Agent 并不存在“評測通過 → 可以放心上線”的時刻,只有“暫時可控”。

因此,Anthropic建議,把評測變成和訓練、部署同等重要的基礎設施,而不是發布前的一個檢查項。

第三個被反復強調的觀點是:不要迷信自動化評測。

在 Agent 場景下,純自動評測往往會遺漏最危險的問題。

很多真正致命的錯誤,只能通過人工設計的 adversarial 測試、失敗案例復盤、極端場景模擬才能發現。

Anthropic 的態度非常清醒:評測不是為了證明系統“很強”,而是為了盡可能早地發現“它會怎么翻車”。

這和當前行業大量“Agent Demo 導向”的做法,形成了非常鮮明的對比。

Anthropic幾乎是為整個 AI 應用層敲了警鐘:當 AI 開始替人“做事”,而不是“回答問題”,評估體系本身就變成了安全邊界的一部分。

這也是為什么 Anthropic 會把評測提到如此高的戰略位置——不是工程細節,而是產品能不能活下去的問題。

對創業者來說,可以反思的是,未來 AI Agent 的競爭,不只是在模型、算力或功能完整度上,而是在誰更早建立起一套可靠的“可控性與信任機制”。

而評測,正是這套機制的第一道防線。

原文鏈接(Anthropic 官方):

https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
陳華任成都市錦江區政府代理區長

陳華任成都市錦江區政府代理區長

金臺資訊
2026-05-09 17:17:44
世乒賽國乒迎來好消息,最大強敵出局,布陣出人意料國乒或可借鑒

世乒賽國乒迎來好消息,最大強敵出局,布陣出人意料國乒或可借鑒

寒士之言本尊
2026-05-08 20:34:14
“菜市場禁剝蠶豆”是怕引發蠶豆?市場回應,醫師提醒:該病在廣東等地較為常見

“菜市場禁剝蠶豆”是怕引發蠶豆。渴袌龌貞,醫師提醒:該病在廣東等地較為常見

南粵女聲
2026-05-09 10:35:17
斯諾克巨星邀請賽:吳宜澤送袋口球!希金斯回敬破百,追到2-3!

斯諾克巨星邀請賽:吳宜澤送袋口球!希金斯回敬破百,追到2-3!

劉姚堯的文字城堡
2026-05-09 16:29:55
給寒戰演技最好8位演員排名:周潤發第3,梁家輝第2,第1無爭議

給寒戰演技最好8位演員排名:周潤發第3,梁家輝第2,第1無爭議

糊咖娛樂
2026-05-07 11:49:24
塞爾維亞有兩個自治省,只有科索沃鬧獨立,另一個為何不鬧?

塞爾維亞有兩個自治省,只有科索沃鬧獨立,另一個為何不鬧?

世界縱橫說
2026-05-09 11:39:26
不要錯過!5月9日CCTV5體育頻道,早上08:03足球直播比賽!

不要錯過!5月9日CCTV5體育頻道,早上08:03足球直播比賽!

林子說事
2026-05-09 11:19:57
特朗普訪華有變?美軍機剛到北京中方就阻斷,華盛頓坐不住了!

特朗普訪華有變?美軍機剛到北京中方就阻斷,華盛頓坐不住了!

阿器談史
2026-05-06 13:15:47
跟隊:皇馬更衣室支持穆帥擔任主帥,包括赫伊森和維尼修斯

跟隊:皇馬更衣室支持穆帥擔任主帥,包括赫伊森和維尼修斯

懂球帝
2026-05-09 11:26:41
皇馬的內鬼就是他!高層懷疑索拉里泄密,他的處境變得尷尬

皇馬的內鬼就是他!高層懷疑索拉里泄密,他的處境變得尷尬

懂個球
2026-05-09 15:31:10
1966年毛主席在滴水洞留下詩作,凡讀懂其中玄機之人皆驚恐萬分

1966年毛主席在滴水洞留下詩作,凡讀懂其中玄機之人皆驚恐萬分

人生錄
2026-05-07 16:15:09
阿特金森和烏度卡 誰是季后賽最差主教練 這兩人風評為何反轉大

阿特金森和烏度卡 誰是季后賽最差主教練 這兩人風評為何反轉大

大話火箭隊
2026-05-09 17:15:18
浙江偶遇章若楠王安宇拍戲,生圖腿長蘋果肌飽滿,私下性格太圈粉

浙江偶遇章若楠王安宇拍戲,生圖腿長蘋果肌飽滿,私下性格太圈粉

往史過眼云煙
2026-05-09 16:47:03
利物浦對陣切爾西:英超焦點戰首發揭曉

利物浦對陣切爾西:英超焦點戰首發揭曉

熱血體育社
2026-05-09 18:22:46
總結了一些鍛煉“大腦前額葉”的小方法,孩子真的越來越聰明了!

總結了一些鍛煉“大腦前額葉”的小方法,孩子真的越來越聰明了!

蓁蓁心理撫養
2026-05-06 12:00:08
美國政府被曝向海灣三國“偷偷”出售約170億美元導彈

美國政府被曝向海灣三國“偷偷”出售約170億美元導彈

新京報
2026-05-08 15:46:57
戴旭:中美一旦發生戰爭,美國有實力將中國沿海城市打得稀巴爛?

戴旭:中美一旦發生戰爭,美國有實力將中國沿海城市打得稀巴爛?

二大爺觀世界
2026-01-16 03:04:40
除夕夜我多夾一塊肉婆婆竟把菜扣我頭上,我按下免提鍵:媽反擊了

除夕夜我多夾一塊肉婆婆竟把菜扣我頭上,我按下免提鍵:媽反擊了

麥子情感故事
2026-05-08 23:09:24
美若天仙王楚然:膚白貌美,婀娜多姿。傾國傾城,美不勝收!

美若天仙王楚然:膚白貌美,婀娜多姿。傾國傾城,美不勝收!

十為先生
2026-05-09 15:19:03
大巨變!發現沒有?農村越來越多四五十歲的人,都不出去打工了

大巨變!發現沒有?農村越來越多四五十歲的人,都不出去打工了

復轉這些年
2026-03-22 17:26:02
2026-05-09 19:08:49
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應用精選與評測
503文章數 74關注度
往期回顧 全部

科技要聞

美國政府強力下場 蘋果英特爾達成代工協議

頭條要聞

國防部證實:中方建造的"麒麟"級潛艇首艇交付巴基斯坦

頭條要聞

國防部證實:中方建造的"麒麟"級潛艇首艇交付巴基斯坦

體育要聞

成立128年后,這支升班馬首奪頂級聯賽冠軍

娛樂要聞

50歲趙薇臉頰凹陷滄桑得認不出!

財經要聞

存儲芯片上演造富潮

汽車要聞

軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

態度原創

時尚
健康
手機
藝術
數碼

今年春夏最火的3個穿搭思路,普通人可以直接照搬嗎?

干細胞能讓人“返老還童”嗎

手機要聞

紅魔11S Pro官宣搭載第五代驍龍8至尊領先版

藝術要聞

齊白石 紫藤蜜蜂

數碼要聞

當貝2S Ultra:AI智養+干濕分離+全色域燈,養魚一步到位

無障礙瀏覽 進入關懷版