![]()
一個名叫“合成大西瓜”的小游戲曾風靡一時,它的玩法很簡單:兩顆相同的水果撞在一起,會變成更大的一顆。葡萄合成櫻桃,櫻桃合成橘子,最終目標是合出一顆西瓜。
如果把這套邏輯搬進 AI 領域,會發生什么?
近日,美國大模型聚合平臺 OpenRouter 真的做出了一個能“合成大 AI”的產品,名為 Fusion。在基準測試中,三個中等價位的模型經過 Fusion 的合理編排,最終表現系統性地超過了同期所有單一旗艦模型。而且,把三個同樣的模型合在一起,其得分竟也高于原模型單獨作答的結果。
中間層平臺的生存焦慮,催生了 Fusion
成立于 2023 年的 OpenRouter,總部位于美國紐約,是一家提供 AI 中間層的初創公司。
創始人之一亞歷克斯·阿塔拉(Alex Atallah)曾在 Palantir 擔任工程師,2017 年聯合創辦了全球知名 NFT(非同質化代幣)交易平臺 OpenSea。另一位聯合創始人路易斯·維奇(Louis Vichy)則是一位連續創業者,長期專注于開發者工具與平臺層產品。
OpenRouter 為開發者提供統一 API 網關,接入超 400 個大語言模型,覆蓋 OpenAI、Anthropic、谷歌、Kimi、DeepSeek 等主要廠商,盈利方式是抽取 5% 的傭金。
據其披露數據,成立以來,平臺月消費金額已從 2024 年 10 月的約 80 萬美元增長至 2025 年 5 月約 800 萬美元,平臺每周路由 token 額度已達 25 萬億到 27 萬億量級。融資方面,不到三年,OpenRouter 已踏入獨角獸行列。
但其最大的商業風險是被繞過:一旦某家頭部模型在某個場景明顯占優,開發者完全可以直接接入該廠商的 API,不必額外向 OpenRouter 支付傭金。
為應對這一危機,Fusion 應運而生。他們要提供單一模型供應商都無法提供的跨廠商模型協同。
功能實現和實測表現
Fusion 的架構大致如下:用戶在 API 請求中指定一個調用方模型,調用方模型決定啟用 Fusion,系統將提示詞(prompt)并行分發給若干面板模型(panel models),每個模型同時啟用三項服務端工具,包括網頁搜索和網頁抓取,以及 bash 命令執行(Linux 和 macOS 系統最常用的命令行解釋器)。
面板模型各自獨立完成任務后,一個裁判模型(judge model)將讀取全部回答,產出一份結構化的 JSON(一種通用的數據交換格式)分析。最后再由調用方模型基于這份分析撰寫最終答案,撰寫階段不再啟用網頁搜索工具。在默認情況下,裁判模型和調用方模型是同一個模型。
整套流程封裝在服務器端,開發者只需將模型字段填為“openrouter/fusion”即可調用整套工具,面板成員與裁判模型均可由用戶自定義。
為避免編排的無限嵌套,每次內部請求都會攜帶一個“x-openrouter-fusion-depth”標頭,阻止面板模型和裁判模型再次套娃式調用 Fusion。
聊完機制,Fusion 在基準測試中的實際表現如何?
2026 年 2 月,Perplexity 開源了一項名為 DRACO 的基準測試,包含 100 道深度研究任務。這些題目源于平臺收集的真實用戶請求,評分標準覆蓋事實準確性、分析廣度與深度、呈現質量、引用質量四個維度。部分標準帶有負權重,模型如果說錯或提供危險建議就會被扣分,這讓湊字數刷分的策略難以奏效。
Fusion 在 DRACO 上的測試結果顯示,Fable 5 與 GPT-5.5 組成的雙面板(合成模型為 Claude Opus 4.8)拿到了 69.0 分。對比之下,Fable 5 單獨作答得到 65.3 分,單獨的 GPT-5.5 是 60.0 分。
![]()
(來源:OpenRouter)
在低價模型中,Fusion 體現出較高的性價比優勢。Gemini 3 Flash、Kimi K2.6、DeepSeek V4 Pro 三個相對經濟的模型經過合成后取得 64.7 分,已超過單獨的 Opus 4.8(58.8 分)及 GPT-5.5(60.0 分),但整體推理成本只有前沿模型的一半。
![]()
(來源:OpenRouter)
OpenRouter 還讓 Opus 4.8 與 Opus 4.8 組成“雙胞胎面板”,裁判與調用方模型也是 Opus 4.8。結果顯示,這套自我合成的組合拿到了 65.5 分,比單獨測試 Opus 4.8 還高出 6.7 分。
研究者在測試中意外發現,開啟網頁搜索后,部分模型檢索到了 DRACO 的評分標準,這種無意識的作弊構成了數據污染。團隊隨后通過域名排除機制統一屏蔽了相關頁面,最終公布內容均為模型屏蔽后的表現。
集成學習早就有了,護城河在哪?
將多個模型組合以提升性能的思路,最早可以追溯到上世紀九十年代。機器學習有集成學習(Ensemble Learning)的傳統,人們熟知的隨機森林、提升方法(Boosting)等經典方法,都建立在“多個弱模型勝過單個強模型”上。
進入大語言模型時代,這一策略最具代表性的工作之一是 2023 年發布的雙模塊集成框架 LLM-Blender:其一從多個開源模型的候選答案中挑出最優;另一個模塊把得分最高的若干候選答案與原始問題交給一個融合模型,最終生成綜合答案。
![]()
圖 | LLM-Blender 的架構(來源:DOI: 10.18653/v1/2023.acl-lo)
不難看出, Fusion“面板模型+裁判模型”的方案與老前輩 LLM-Blender 的結構高度相似:并行調用多個模型,讓一個能力更強的模型閱讀全部回答后輸出答案。
“三個 Opus 4.8 比一個 Opus 4.8 更強”的結果,其實呼應了自一致性(self-consistency)的概念:同一個模型對同一問題獨立采樣多次再投票,效果通常優于單次輸出。
但 Fusion 的價值并不在算法,閉源模型的調度協作、工程化封裝以及多樣性的工具調用才是它真正的護城河。
集成研究需要訪問模型權重等內部參數和原始計算結果,最少也要了解完整的概率分布,因此,學術界相關工作絕大多數基于開源模型。但目前真正能力最強的幾款模型基本都閉源,只能通過 API 獲取文本輸出,OpenRouter 要在閉源模型之間做集成,必然要同時擁有多家廠商的接入權限和穩定的調度能力。
其次,一套可用的多模型集成流程,需要處理并發調用、超時與失敗回退、合成提示詞模板、成本核算、負載均衡等問題。對一般開發團隊而言,這是一筆不小的工程投入。而 Fusion 將整套流程封裝成一次性的 API 調用,大大降低了開發者的操作門檻。
第三是工具調用層面的多樣性。傳統集成研究大多只涉及純文本問答,多個模型的差異主要體現在生成策略。Fusion 執行任務時,每個面板模型會各自調用檢索和篩選工具。在對信息覆蓋要求較高的任務上,其最終合成的結果不僅綜合多種推理路徑,還涵蓋多套獨立資料來源,超越了單模型多次采樣的表現。
產品不完美,但有望改寫大模型的能力單位
OpenRouter 明確表示,Fusion 并不適合作為編程模型的直接替代品。挑選 DRACO 作為基準測試,更多是想評估其在單輪深度研究類任務中的表現,未涵蓋編程、實時對話、多模態等場景,Fable 系列擅長的長周期任務也不在測試范圍內。
調用 Fusion 后,單次響應的時間通常是普通調用的 2 到 3 倍,多個面板模型的并行推理與一次合成推理疊加,整體成本遠高于單模型方案,耗時也將顯著上升。
需要注意的是,Fusion 的合成質量上限取決于裁判模型的理解力和歸納能力。目前選用 Opus 4.8 當裁判,暫時能取得不錯的效果。但當任務復雜度繼續上升、面板模型的綜合能力接近甚至超過現有的最強模型時,由單一模型進行評判與輸出將變得不再可靠。考慮到模型可能存在系統性偏好,對于讓大模型當裁判的評判方式,學界還一直存有爭議。
在產品局限之外,Fusion 已經引出一個更值得關注的問題:大模型的能力單元將被重新定義,單個模型性能或許不再是用戶選擇的唯一取向。
頭部廠商圍繞單一模型的能力極限展開競爭,參數規模、訓練數據、對齊手段輪番加碼。Fusion 卻證實了一種可能:編排技術系統性地組合多個中等模型,可使其達到接近甚至超過旗艦模型的水平。
如果這一規律在更多場景中被證實有效,旗艦模型的溢價空間將被壓縮,但對于 OpenRouter 這樣的中間層,更強大的調控能力,將使其從 API 中介升級為創造價值的環節。
設想一下,倘若面板模型從 2 個擴展到 10 個,合成模型本身也可由多模型集成擔任,當代碼執行、長期記憶等更多工具被納入這一框架,最終合成出的“西瓜”到底能長多大,誰也說不準。
參考內容:
https://openrouter.ai/blog/announcements/fusion-beats-frontier/
https://openrouter.ai/docs/guides/features/server-tools/fusion
https://arxiv.org/abs/2602.11685
https://aclanthology.org/2023.acl-long.792/
注:封面/首圖由 AI 輔助生成
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.