網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

英偉達(dá)巧用8B模型秒掉GPT-5，開源了

2025-12-06 14:07:18　來(lái)源: 量子位

北京舉報(bào)

分享至

英偉達(dá)端著一個(gè)8B小模型對(duì)GPT-5說(shuō)：

不好意思，你還得練（bushi）。

何出此言？——英偉達(dá)攜手香港大學(xué)開源的Orchestrator-8B，人類終極考試HLE分?jǐn)?shù)更高、花錢更少、跑起來(lái)速度還更快。

哦對(duì)了，還在HuggingFace被狂贊，沖到了熱門模型前五。

而它超越GPT-5的打法是不當(dāng)推理者，而是“工具主理人”，協(xié)調(diào)使用各路工具。

如何吊打GPT-5？

人在解決問(wèn)題時(shí)會(huì)找各種幫手，比如搜索引擎、計(jì)算器，那這個(gè)工作能不能由模型代勞？

Orchestrator干的就是這事兒。

雖然自己只有8B參數(shù)，但手下管著一整個(gè)工具團(tuán)隊(duì)。

既有GPT-5、Claude Opus 4.1這樣的頂級(jí)大模型，也有Qwen2.5-Math這樣的專業(yè)數(shù)學(xué)工具，還有網(wǎng)頁(yè)搜索、本地檢索、代碼解釋器這些實(shí)用小幫手。

它并不是自己解題，而是判斷現(xiàn)在該用哪個(gè)工具、控制工具的順序和使用次數(shù)、還能兼顧效果、成本、用戶偏好，工作日常如下：

拿到難題先分析：這題需要算數(shù)學(xué)？那就調(diào)用Qwen2.5-Math；
過(guò)程中動(dòng)態(tài)調(diào)整：搜完資料發(fā)現(xiàn)需要驗(yàn)證？那就先用代碼解釋器跑一遍；
全程把控用戶偏好：用戶說(shuō)要省錢，那GPT-5能不用就不用，優(yōu)先用本地工具。

簡(jiǎn)單說(shuō)，大模型是一個(gè)人干所有活，而Orchestrator-8B是帶著團(tuán)隊(duì)干專業(yè)活。

能讓小模型精準(zhǔn)協(xié)調(diào)這么多工具，全靠英偉達(dá)的ToolOrchestra訓(xùn)練大法。

核心有兩個(gè)，一個(gè)是有獎(jiǎng)有罰的強(qiáng)化學(xué)習(xí)，一個(gè)是量身定制的ToolScale數(shù)據(jù)集。

訓(xùn)練時(shí)給Orchestrator立了三條獎(jiǎng)懲規(guī)則：

效果獎(jiǎng)：讓GPT-5判對(duì)錯(cuò)，解題對(duì)了加分，錯(cuò)了扣分；
效率獎(jiǎng)：用的錢少、耗時(shí)短加分，反之扣分；
偏好獎(jiǎng)：聽用戶的話加分，比如用戶要隱私保護(hù)，多用本地搜索就加分。

研究者建了個(gè)包含金融、醫(yī)療、電商、旅游等10個(gè)領(lǐng)域的訓(xùn)練素材庫(kù)，里面全是“怎么用工具解題”的案例，讓模型充分接觸各類場(chǎng)景。

Orchestrator-8B也在權(quán)威測(cè)試中交出了令人滿意的答卷。

HLE測(cè)試?yán)锼孟?7.1%的得分，超過(guò)GPT-5的35.1%，成本卻僅為后者的1/2.5；

FRAMES、τ2-Bench測(cè)試中也拿下SOTA成績(jī)，降低了開支，運(yùn)行速度更是快了一倍多。

小模型的逆襲

實(shí)際上，在AI領(lǐng)域工具編排和小模型驅(qū)動(dòng)復(fù)合系統(tǒng)的賽道上，英偉達(dá)ToolOrchestra訓(xùn)練的Orchestrator-8B并非孤例。

最早探索讓小模型學(xué)會(huì)調(diào)用工具的代表性研究，是谷歌DeepMind在2023年提出的Toolformer，通過(guò)監(jiān)督學(xué)習(xí)+自生成數(shù)據(jù)，讓12B參數(shù)的模型學(xué)會(huì)調(diào)用計(jì)算器、翻譯API、搜索引擎等基礎(chǔ)工具；

但當(dāng)時(shí)，Toolformer僅聚焦基礎(chǔ)工具，并沒(méi)有把大模型納入工具庫(kù)。

MIT和CMU聯(lián)合團(tuán)隊(duì)的ToolRL，提出以獎(jiǎng)勵(lì)為核心的工具學(xué)習(xí)框架，訓(xùn)練小模型通過(guò)強(qiáng)化學(xué)習(xí)動(dòng)態(tài)選擇工具，主要是解決“傳統(tǒng)工具學(xué)習(xí)過(guò)度依賴人工標(biāo)注數(shù)據(jù)” 的問(wèn)題，通過(guò)自動(dòng)生成工具交互軌跡訓(xùn)練模型。

雖然也是獎(jiǎng)勵(lì)機(jī)制，但ToolRL的獎(jiǎng)勵(lì)函數(shù)更側(cè)重于任務(wù)的正確性和工具調(diào)用效率，并沒(méi)有明確納入用戶偏好，且工具庫(kù)以基礎(chǔ)工具和專業(yè)API為主。

今年，香港大學(xué)和微軟提出的Optimal Tool Calls（OCT），也是專門針對(duì)“工具調(diào)用成本優(yōu)化”的小模型訓(xùn)練方法。

越來(lái)越多的團(tuán)隊(duì)在做相關(guān)研究，也有越來(lái)越多的人關(guān)注該領(lǐng)域的進(jìn)展。

就拿Orchestrator-8B來(lái)說(shuō)，為什么它能獲得HuggingFace高贊？

最明顯的原因就是實(shí)用。大模型雖強(qiáng)，但太貴、太慢，而Orchestrator-8B參數(shù)量小，還能實(shí)現(xiàn)「強(qiáng)+省錢」，直接解決了落地時(shí)的成本難題。

用低成本實(shí)現(xiàn)高智能，這么一看，AI的未來(lái)還真不一定是超級(jí)大模型單打獨(dú)斗了。

作者簡(jiǎn)介

Orchestrator-8B這篇論文的一作是香港大學(xué)博士蘇弘錦，主要研究方向是數(shù)據(jù)科學(xué)和自然語(yǔ)言處理，現(xiàn)在英偉達(dá)實(shí)習(xí)。

共一是英偉達(dá)研究院的研究科學(xué)家Shizhe Diao，主要進(jìn)行大型基礎(chǔ)模型的預(yù)訓(xùn)練、高效調(diào)優(yōu)和對(duì)齊方面的研究，曾與字節(jié)跳動(dòng)人工智能實(shí)驗(yàn)室的李航博士合作。

論文地址：https://arxiv.org/abs/2511.21689
項(xiàng)目主頁(yè)：https://research.nvidia.com/labs/lpr/ToolOrchestra/
數(shù)據(jù)集：https://huggingface.co/datasets/nvidia/ToolScale
HuggingFace地址：https://huggingface.co/nvidia/Nemotron-Orchestrator-8B

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.