![]()
作者 | PRO
郵箱 | pro@pingwest.com
如果說過去一年,全球 AI 行業的關注點還集中在OpenAI、Google、Anthropic、Meta 與 DeepSeek等頭部公司,那么Agnes的連續上榜,則意味著全球 AI 競爭格局正在出現新的變量。
近日,Agnes AI旗下模型Agnes-2.0-Flash與Agnes-Image-2.0-Flash同時進入國際權威榜單前列,從PinchBench全球前十,到如今ClawEval與Artificial Analysis雙榜持續上榜,Agnes已連續獲得多個國際評測體系認可,并正式進入“全球AI Lab排名第9”的位置。
目前Agnes的模型能力與Harness系統已經開始服務數千萬規模用戶,已經被廣泛應用于AI內容生成、自動化工作流、網頁操作、多模態創作以及開發者工具等場景。
1
AI 行業,正在出現新的全球玩家
本次Agnes-2.0-Flash上榜的Claw-Eval(https://claw-eval.github.io),并不是傳統意義上的“刷題榜”。
相比過去主要測試數學、知識問答或者代碼能力的Benchmark,Claw-Eval更強調模型在真實Agent場景中的綜合執行能力,被不少開發者視為當前“更接近AI Agent實戰能力”的重要評測體系之一。
隨著AI行業從Chatbot階段進入Agent階段,行業對于模型的要求,已經不再只是“會回答問題”,而是“能否真正完成任務”,這也是為什么越來越多開發者開始關注Claw-Eval這類真實任務導向型榜單。
而此次Agnes-2.0-Flash在部分任務中超越Gemini Flash與 MiniMax M2.7等知名模型。這意味著Agnes已經開始具備進入全球模型第一梯隊競爭的能力。
![]()
除了文本模型外,Agnes在圖像編輯方向同樣取得突破。
本次Agnes-Image-2.0-Flash進入的 Artificial Analysis是當前國際AI行業關注度較高的第三方模型評測體系之一,也表明Agnes在圖像編輯方向已經達到國際主流水平。
![]()
尤其在海外AI圈,Artificial Analysis已經逐漸成為衡量模型綜合能力的重要觀察窗口。
Artificial Analysis的Image Editing Leaderboard 采用真實用戶盲評機制,重點評估模型在真實圖像編輯場景中的表現。評測過程中,用戶并不知道圖片對應的模型來源,而是直接根據生成質量進行主觀選擇與打分,因此其結果被很多開發者與行業機構認為更接近真實用戶體驗。
更值得注意的是,Agnes本次上榜的并不是超大參數模型,而是輕量級高效率模型。在更低推理成本、更低GPU消耗情況下依然進入全球前列,這也是近期全球開發者社區開始重新關注Agnes的重要原因。
1
比性能更激進的,是Agnes的價格策略
相比榜單成績,更讓行業關注的,其實是Agnes的定價。
目前,Agnes-2.0-Flash的官方API定價為每百萬輸入tokens 0.03美元,每百萬輸出tokens 0.15美元,成本已經低于大多數主流模型。據公開信息顯示,其價格已經低于國際與國內頭部模型產品,僅為 DeepSeek V4 Flash的約一半。
![]()
而在圖像模型方向,Agnes同樣展現出了極強的價格競爭力。
目前,Agnes-Image-2.0-Flash的價格僅為3美元/1000張圖片,而當前行業主流模型的平均價格普遍在30美元/1000張圖片左右,在保持高質量圖像生成與編輯能力的同時,Agnes的成本僅約為行業平均水平的十分之一。
![]()
Agnes的出現,并沒有選擇簡單地“堆參數”,而是更強調:
推理效率優化
Agent場景適配
多模型協同
更低成本部署
更高性價比輸出
這種路徑,也讓Agnes在當前AI行業“推理成本大戰”中,形成了明顯差異化。
尤其對于開發者而言,這意味著他們第一次有機會,以遠低于行業平均水平的成本,大規模調用第一梯隊AI模型能力。
當行業還在討論誰擁有最強模型時,Agnes已經開始推動另一件更關鍵的事情——讓全球開發者第一次有機會,以更低成本、更高效率,大規模使用真正具備Agent能力的AI模型。
這或許也意味著,全球 AI 行業正在迎來一個新的競爭階段——不僅比拼模型能力,也開始真正比拼效率、成本與大規模落地能力。
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.