无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

又一家AI大模型超過了Fable5!

0
分享至

就在今天,日本AI公司Sakana AI發布了一款名為Fugu的多智能體編排模型。


在官方公告中,Sakana AI宣稱Fugu Ultra版本性能對標 Fable 5 和 Mythos Preview。

過去幾年,AI的發展主要靠構建越來越龐大的單體模型,投喂越來越多的數據。

這次Sakana AI走了一條截然不同的路,Fugu并不是又一個“更大更猛”的單體模型。

而是一個懂得去“調度”其他模型的模型,它并不直接回答你的問題,它的工作是決定讓誰來回答。


當一個任務進來,Fugu 會動態地決定:調哪個模型、分幾步完成、要不要驗證結果、要不要遞歸調用自己,結合每個模型特有優勢,同時繞過個人弱點。

用Sakana AI的話說,這是一個將完整的多智能體編排系統包裝成單一基礎模型的產品。

Sakana Fugu提供了兩個版本:

標準版Fugu:注重性能與響應速度的平衡,適合日常業務、聊天機器人和代碼輔助等場景,如日常編碼、代碼審查等。

Fugu Ultra:專攻復雜的多階段問題,會調動更多更專業的專家模型,適用于AI研究、網絡安全分析、學術調查等對精度和深度要求極高的工作。

那么,是什么樣的成績能讓官方直言媲美Fable 5和Mythos Preview?



SWE Bench Pro這個行業公認的硬核編程測試里,Fugu Ultra拿下了73.7分,直接超過了Opus 4.8的69.2和GPT 5.5的58.6。

GPQA-D(研究生級別科學問答)上拿到了 95.5,是目前公開可用模型中的最高分。

LiveCodeBench Pro上更是干到了90.8分,把一眾對手甩在身后。

在專門考模型的知識廣度和推理深度的Humanity's Last Exam測試中,Fugu Ultra得了50.0分,僅比Claude Fable 5少了3.3分。

Sakana AI強調,Fugu Ultra與Fugu的基準測試結果,是在模型池中不包含Claude Fable 5和Claude Mythos Preview的情況下取得的。

綜合來看,Fugu Ultra在各種硬核的工程科學推理測試里,分數已經能和Anthropic家的頂尖模型Fable 5和Mythos Preview打得有來有回了。

不過數據歸數據,真實用起來怎么樣?

Sakana AI展示了六個實戰案例:

Fugu模型在AutoResearch(自動化ML 研究)、魔方、機械設計、日文古籍識別、單次國際象棋、金融時間序列預測中,均超過Gemini 3.1 Pro、Claude Opus 4.8和GPT-5.5。

在AutoResearch(自動化 ML 研究)任務中,Fugu Ultra 自主運行了 123 次實驗,拿到了最優的 BPB 得分(0.9774 ± 0.0019)。

日文古籍識別方面,Fugu 在處理日本歷史文獻的閱讀順序恢復時達到 NED 0.80,而其他模型只有0.24 或直接失敗。

魔方求解器上,Fugu Ultra僅用19步就解開了魔方,是四款模型中步數最短。

在CAD 機械設計任務中,Fugu 設計了一個可工作的虹膜機構,其他模型產出的設計則存在間隙或不完整。

在國際象棋連續四局對弈中Fugu 保持著完美的準確率;

在股票交易50 周的回測中 Fugu 實現了 +19.43% 的平均回報,其他模型則均低于 15%。

目前Sakana AI提供訂閱制和按量計費兩種方式:

個人用戶可選擇訂閱制,Standard套餐月費20美元,Pro套餐100美元,Max套餐200美元。

按量付費模式下:輸入每百萬tokens 5美元(超過27.2萬tokens后為10美元),輸出每百萬tokens 30美元(超過27.2萬tokens后為45美元)。

作為對比,Opus 4.8 的價格是輸入每百萬tokens 15美元,輸出每百萬tokens 75美元。

Fugu Ultra 的輸入價格只有 Opus 的三分之一,輸出價格不到一半。

Fugu的推出,其實直指另一個很現實的問題,那就是雞蛋不能放在一個籃子里。

前陣子Anthropic的Claude Fable 5剛發布就被限制使,這一事件讓單一供應商依賴的風險變得無比真實。

Sakana AI指出,監管框架、出口管制和各國政策的變化,可能讓企業對AI模型的訪問權限“一夜之間改變甚至斷絕”。

對于一個組織乃至一個國家而言,將關鍵基礎設施、金融或治理系統寄托于一家公司的API,是“現實存在的弱點”。

而Fugu的設計恰恰回應了這一問題——它底層的Agent池完全可替換。如果某家供應商限制訪問,Fugu可以動態繞開干擾。

Sakana AI表示,隨著時間的推移,Fugu將自然地納入更新、更高效的模型——包括他們自己開發的模型。

這或許才是Fugu最值得關注的地方。

在“越大越好”的競賽之外,Sakana AI提供了一條不同的思路:與其造一個全能的神,不如建一個懂得調兵遣將的指揮官。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
離婚三年,前夫每月來我家睡一晚,昨晚他照例來,這回我沒讓他碰

離婚三年,前夫每月來我家睡一晚,昨晚他照例來,這回我沒讓他碰

千秋文化
2026-06-21 19:55:40
一旦金融危機殺到,什么東西最值錢?答案絕對顛覆你的認知

一旦金融危機殺到,什么東西最值錢?答案絕對顛覆你的認知

小蜜情感說
2026-06-24 08:18:14
袁彩云女兒小學畢業,全家到校觀禮丈夫罕露臉,13歲女兒像母親

袁彩云女兒小學畢業,全家到校觀禮丈夫罕露臉,13歲女兒像母親

老吳教育課堂
2026-06-22 13:00:48
為何美伊談判中美國反而連連退讓?

為何美伊談判中美國反而連連退讓?

小眼睛小世界
2026-06-24 06:40:01
2026河南分數線正式發布,最先徹夜難眠的,并不是低分考生家長

2026河南分數線正式發布,最先徹夜難眠的,并不是低分考生家長

追蹤之點
2026-06-25 00:31:17
中方對走私開出第一刀,偷運稀土的日企員工,被中方當場抓進大牢

中方對走私開出第一刀,偷運稀土的日企員工,被中方當場抓進大牢

書寫傳奇
2026-06-24 19:11:18
1943年,叛徒繆莊林途經延安與李克農長談,李克農:回去做你的官

1943年,叛徒繆莊林途經延安與李克農長談,李克農:回去做你的官

磊子講史
2026-06-18 16:17:51
中國110億方水被鄰國攔截建水庫,規模超三峽

中國110億方水被鄰國攔截建水庫,規模超三峽

揭秘世間萬象
2026-06-11 14:59:12
太勵志!失明男孩721分高考上岸,人民日報發文,釋放3個信號

太勵志!失明男孩721分高考上岸,人民日報發文,釋放3個信號

云舟史策
2026-06-24 22:10:08
“好豪邁的洛麗塔”,165cm未成年女兒穿搭火了,家長尷尬不敢認

“好豪邁的洛麗塔”,165cm未成年女兒穿搭火了,家長尷尬不敢認

妍妍教育日記
2026-05-12 18:46:53
為何天文學界對星際彗星如此興奮?

為何天文學界對星際彗星如此興奮?

小眼睛小世界
2026-06-24 06:46:16
烏軍無人機神話破滅?3909架被干下,俄軍用土辦法破了西方高科技

烏軍無人機神話破滅?3909架被干下,俄軍用土辦法破了西方高科技

忠于法紀
2026-06-24 09:21:10
綠軍或與布朗決裂!火箭出申京&KD 馬刺福克斯+添頭 六隊準備開搶

綠軍或與布朗決裂!火箭出申京&KD 馬刺福克斯+添頭 六隊準備開搶

硯底沉香
2026-06-24 18:21:09
上海79歲爺叔懵了:宅基地檔案上,多了個“陌生妻子”!前后3段婚姻,配偶都不是她;派出所也查不出這人到底是誰……

上海79歲爺叔懵了:宅基地檔案上,多了個“陌生妻子”!前后3段婚姻,配偶都不是她;派出所也查不出這人到底是誰……

大風新聞
2026-06-24 16:57:19
剛才,上海男籃傳來三條消息,涉及姜偉澤、凱爾·弗格、強力外援

剛才,上海男籃傳來三條消息,涉及姜偉澤、凱爾·弗格、強力外援

小七說籃球
2026-06-24 16:37:35
一個殘酷真相:5個月前,被美軍抓走的馬杜羅,已經被徹底遺忘?

一個殘酷真相:5個月前,被美軍抓走的馬杜羅,已經被徹底遺忘?

蜉蝣說
2026-05-23 21:57:24
Shams:凱爾特人正聽取對布朗的報價 已有多隊開始聯系

Shams:凱爾特人正聽取對布朗的報價 已有多隊開始聯系

北青網-北京青年報
2026-06-24 20:51:16
世界男排聯賽積分出爐:日本5戰全勝登頂,中國第15

世界男排聯賽積分出爐:日本5戰全勝登頂,中國第15

墨史軒
2026-06-25 03:34:40
心理學:“普通人,盡量不要去接觸不屬于你的那個階層的有錢人”,這句話背后折射出的階層壁壘,你怎么看?

心理學:“普通人,盡量不要去接觸不屬于你的那個階層的有錢人”,這句話背后折射出的階層壁壘,你怎么看?

心理觀察局
2026-06-24 06:55:13
四川兒媳吐槽:婆婆與公公,每晚鴛鴦浴,自己很尷尬,只得搬離!

四川兒媳吐槽:婆婆與公公,每晚鴛鴦浴,自己很尷尬,只得搬離!

川渝視覺
2026-05-20 12:50:15
2026-06-25 05:04:49
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應用精選與評測
552文章數 92關注度
往期回顧 全部

科技要聞

豆包專業版上線:定價68-500元每月

頭條要聞

15歲男孩肥胖誘發糖尿病 搶救無效離世

頭條要聞

15歲男孩肥胖誘發糖尿病 搶救無效離世

體育要聞

字母哥,會把凱爾特人拆了嗎?

娛樂要聞

向佐向佑兄弟合體直播!母子終于和解

財經要聞

逃稅23億:審計署年報直指七家機構

汽車要聞

施鵬澤:為什么奧迪E7X強調座艙氣味安全?

態度原創

教育
健康
旅游
房產
公開課

教育要聞

2026高考分數線最新匯總!12省已公布,含藝術類各專業分數線

神經內科專家破解中風十大謠言

旅游要聞

昆明鬧市藏短巷,曾遍開赤紅鸚哥花,一頭貢象改了整條街名!

房產要聞

白鵝潭新增優質宅地!沙涌地塊對望太古里,容積率僅 2.14

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版