亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

英偉達(dá)巧用8B模型秒掉GPT-5,開源了

0
分享至

英偉達(dá)端著一個(gè)8B小模型對(duì)GPT-5說(shuō):

不好意思,你還得練(bushi)。

何出此言?——英偉達(dá)攜手香港大學(xué)開源的Orchestrator-8B,人類終極考試HLE分?jǐn)?shù)更高、花錢更少、跑起來(lái)速度還更快。



哦對(duì)了,還在HuggingFace被狂贊,沖到了熱門模型前五。



而它超越GPT-5的打法是不當(dāng)推理者,而是“工具主理人”,協(xié)調(diào)使用各路工具。

如何吊打GPT-5?

人在解決問(wèn)題時(shí)會(huì)找各種幫手,比如搜索引擎、計(jì)算器 ,那這個(gè)工作能不能由模型代勞?

Orchestrator干的就是這事兒。

雖然自己只有8B參數(shù),但手下管著一整個(gè)工具團(tuán)隊(duì)。

既有GPT-5、Claude Opus 4.1這樣的頂級(jí)大模型,也有Qwen2.5-Math這樣的專業(yè)數(shù)學(xué)工具,還有網(wǎng)頁(yè)搜索、本地檢索、代碼解釋器這些實(shí)用小幫手。



它并不是自己解題,而是判斷現(xiàn)在該用哪個(gè)工具、控制工具的順序和使用次數(shù)、還能兼顧效果、成本、用戶偏好,工作日常如下:

  • 拿到難題先分析:這題需要算數(shù)學(xué)?那就調(diào)用Qwen2.5-Math;
  • 過(guò)程中動(dòng)態(tài)調(diào)整:搜完資料發(fā)現(xiàn)需要驗(yàn)證?那就先用代碼解釋器跑一遍;
  • 全程把控用戶偏好:用戶說(shuō)要省錢,那GPT-5能不用就不用,優(yōu)先用本地工具。

簡(jiǎn)單說(shuō),大模型是一個(gè)人干所有活,而Orchestrator-8B是帶著團(tuán)隊(duì)干專業(yè)活。



能讓小模型精準(zhǔn)協(xié)調(diào)這么多工具,全靠英偉達(dá)的ToolOrchestra訓(xùn)練大法。

核心有兩個(gè),一個(gè)是有獎(jiǎng)有罰的強(qiáng)化學(xué)習(xí),一個(gè)是量身定制的ToolScale數(shù)據(jù)集

訓(xùn)練時(shí)給Orchestrator立了三條獎(jiǎng)懲規(guī)則:

  • 效果獎(jiǎng):讓GPT-5判對(duì)錯(cuò),解題對(duì)了加分,錯(cuò)了扣分;
  • 效率獎(jiǎng):用的錢少、耗時(shí)短加分,反之扣分;
  • 偏好獎(jiǎng):聽用戶的話加分,比如用戶要隱私保護(hù),多用本地搜索就加分。

研究者建了個(gè)包含金融、醫(yī)療、電商、旅游等10個(gè)領(lǐng)域的訓(xùn)練素材庫(kù),里面全是“怎么用工具解題”的案例,讓模型充分接觸各類場(chǎng)景。

Orchestrator-8B也在權(quán)威測(cè)試中交出了令人滿意的答卷。



HLE測(cè)試?yán)锼孟?7.1%的得分,超過(guò)GPT-5的35.1%,成本卻僅為后者的1/2.5;



FRAMES、τ2-Bench測(cè)試中也拿下SOTA成績(jī),降低了開支,運(yùn)行速度更是快了一倍多。

小模型的逆襲

實(shí)際上,在AI領(lǐng)域工具編排和小模型驅(qū)動(dòng)復(fù)合系統(tǒng)的賽道上,英偉達(dá)ToolOrchestra訓(xùn)練的Orchestrator-8B并非孤例。

最早探索讓小模型學(xué)會(huì)調(diào)用工具的代表性研究,是谷歌DeepMind在2023年提出的Toolformer,通過(guò)監(jiān)督學(xué)習(xí)+自生成數(shù)據(jù),讓12B參數(shù)的模型學(xué)會(huì)調(diào)用計(jì)算器、翻譯API、搜索引擎等基礎(chǔ)工具;

但當(dāng)時(shí),Toolformer僅聚焦基礎(chǔ)工具,并沒(méi)有把大模型納入工具庫(kù)。

MIT和CMU聯(lián)合團(tuán)隊(duì)的ToolRL,提出以獎(jiǎng)勵(lì)為核心的工具學(xué)習(xí)框架,訓(xùn)練小模型通過(guò)強(qiáng)化學(xué)習(xí)動(dòng)態(tài)選擇工具,主要是解決“傳統(tǒng)工具學(xué)習(xí)過(guò)度依賴人工標(biāo)注數(shù)據(jù)” 的問(wèn)題,通過(guò)自動(dòng)生成工具交互軌跡訓(xùn)練模型。

雖然也是獎(jiǎng)勵(lì)機(jī)制,但ToolRL的獎(jiǎng)勵(lì)函數(shù)更側(cè)重于任務(wù)的正確性和工具調(diào)用效率,并沒(méi)有明確納入用戶偏好,且工具庫(kù)以基礎(chǔ)工具和專業(yè)API為主。

今年,香港大學(xué)和微軟提出的Optimal Tool Calls(OCT),也是專門針對(duì)“工具調(diào)用成本優(yōu)化”的小模型訓(xùn)練方法。

越來(lái)越多的團(tuán)隊(duì)在做相關(guān)研究,也有越來(lái)越多的人關(guān)注該領(lǐng)域的進(jìn)展。

就拿Orchestrator-8B來(lái)說(shuō),為什么它能獲得HuggingFace高贊?

最明顯的原因就是實(shí)用。大模型雖強(qiáng),但太貴、太慢,而Orchestrator-8B參數(shù)量小,還能實(shí)現(xiàn)「強(qiáng)+省錢」,直接解決了落地時(shí)的成本難題。

用低成本實(shí)現(xiàn)高智能,這么一看,AI的未來(lái)還真不一定是超級(jí)大模型單打獨(dú)斗了。

作者簡(jiǎn)介

Orchestrator-8B這篇論文的一作是香港大學(xué)博士蘇弘錦,主要研究方向是數(shù)據(jù)科學(xué)和自然語(yǔ)言處理,現(xiàn)在英偉達(dá)實(shí)習(xí)。



共一是英偉達(dá)研究院的研究科學(xué)家Shizhe Diao,主要進(jìn)行大型基礎(chǔ)模型的預(yù)訓(xùn)練、高效調(diào)優(yōu)和對(duì)齊方面的研究,曾與字節(jié)跳動(dòng)人工智能實(shí)驗(yàn)室的李航博士合作。



論文地址:https://arxiv.org/abs/2511.21689
項(xiàng)目主頁(yè):https://research.nvidia.com/labs/lpr/ToolOrchestra/
數(shù)據(jù)集:https://huggingface.co/datasets/nvidia/ToolScale
HuggingFace地址:https://huggingface.co/nvidia/Nemotron-Orchestrator-8B

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
11年前優(yōu)衣庫(kù)男女主現(xiàn)狀曝光,他們還在一起生了兩個(gè)孩子

11年前優(yōu)衣庫(kù)男女主現(xiàn)狀曝光,他們還在一起生了兩個(gè)孩子

半糖甜而不膩
2026-04-06 12:09:15
10億都救不了一命!京東副總裁蔡磊,生命進(jìn)入倒計(jì)時(shí)

10億都救不了一命!京東副總裁蔡磊,生命進(jìn)入倒計(jì)時(shí)

聽風(fēng)喃
2026-04-06 11:16:04
斯諾克美女裁判波娃專訪:提議出桿計(jì)時(shí),進(jìn)攻限30秒做障礙球另算

斯諾克美女裁判波娃專訪:提議出桿計(jì)時(shí),進(jìn)攻限30秒做障礙球另算

楊華評(píng)論
2026-04-19 04:28:56
廣東珠海一女神好漂亮, 身高179cm,體重50kg 美的讓人移不開眼

廣東珠海一女神好漂亮, 身高179cm,體重50kg 美的讓人移不開眼

今日搞笑分享
2026-04-06 17:55:16
藍(lán)思科技稱“打造了支撐榮耀機(jī)器人完賽的‘鋼鐵之軀’”,公司一季度凈利潤(rùn)由盈轉(zhuǎn)虧

藍(lán)思科技稱“打造了支撐榮耀機(jī)器人完賽的‘鋼鐵之軀’”,公司一季度凈利潤(rùn)由盈轉(zhuǎn)虧

紅星資本局
2026-04-19 19:30:42
庫(kù)明加拉胯!老鷹102-113不敵尼克斯,約翰遜23+7,麥科勒姆26+4

庫(kù)明加拉胯!老鷹102-113不敵尼克斯,約翰遜23+7,麥科勒姆26+4

林子說(shuō)事
2026-04-19 09:27:54
楊立昆開噴 Anthropic CEO:別信那個(gè)賣AI的人

楊立昆開噴 Anthropic CEO:別信那個(gè)賣AI的人

象先志
2026-04-19 21:04:50
和黃圣依離婚后,楊子去娘家接娃,14歲安迪駝背自卑,9歲弟弟帥

和黃圣依離婚后,楊子去娘家接娃,14歲安迪駝背自卑,9歲弟弟帥

椰黃娛樂(lè)
2026-04-19 12:34:43
隆基董事長(zhǎng)實(shí)名舉報(bào)萬(wàn)科,可能會(huì)進(jìn)一步動(dòng)搖萬(wàn)科與合作方信任基石

隆基董事長(zhǎng)實(shí)名舉報(bào)萬(wàn)科,可能會(huì)進(jìn)一步動(dòng)搖萬(wàn)科與合作方信任基石

老潘聊地產(chǎn)
2026-04-17 21:08:12
凈利潤(rùn)超45億元!又一光伏龍頭業(yè)績(jī)出爐

凈利潤(rùn)超45億元!又一光伏龍頭業(yè)績(jī)出爐

新浪財(cái)經(jīng)
2026-04-19 21:14:10
以牙還牙!日本戰(zhàn)艦闖入臺(tái)海第2天,東部戰(zhàn)區(qū)出兵戰(zhàn)巡東海!

以牙還牙!日本戰(zhàn)艦闖入臺(tái)海第2天,東部戰(zhàn)區(qū)出兵戰(zhàn)巡東海!

阿龍聊軍事
2026-04-19 08:46:34
美專家無(wú)奈承認(rèn):我們沒(méi)打贏伊朗,但是中國(guó)、俄羅斯、朝鮮都贏了

美專家無(wú)奈承認(rèn):我們沒(méi)打贏伊朗,但是中國(guó)、俄羅斯、朝鮮都贏了

阿傖說(shuō)事
2026-04-19 18:11:11
一場(chǎng)1-0,讓米蘭終結(jié)兩連敗,升到第2名,被國(guó)米甩開12分

一場(chǎng)1-0,讓米蘭終結(jié)兩連敗,升到第2名,被國(guó)米甩開12分

足球狗說(shuō)
2026-04-19 23:13:58
iPhone實(shí)現(xiàn)短信自動(dòng)轉(zhuǎn)發(fā)到微信,驗(yàn)證碼、取件碼再也不漏接

iPhone實(shí)現(xiàn)短信自動(dòng)轉(zhuǎn)發(fā)到微信,驗(yàn)證碼、取件碼再也不漏接

星哥玩云
2026-04-18 23:44:00
君子報(bào)仇,一天都覺(jué)得晚,海軍編隊(duì)過(guò)航日本橫當(dāng)水道

君子報(bào)仇,一天都覺(jué)得晚,海軍編隊(duì)過(guò)航日本橫當(dāng)水道

三叔的裝備空間
2026-04-19 21:25:30
徹底撕破臉?《乘風(fēng)2026》蕭薔當(dāng)場(chǎng)罷錄,一句身體不適,藏著對(duì)節(jié)目組的不滿

徹底撕破臉?《乘風(fēng)2026》蕭薔當(dāng)場(chǎng)罷錄,一句身體不適,藏著對(duì)節(jié)目組的不滿

老吳教育課堂
2026-04-19 14:19:36
張雪峰公司員工接二連三的離職!武亮還能撐得住嗎

張雪峰公司員工接二連三的離職!武亮還能撐得住嗎

金牌娛樂(lè)
2026-04-19 08:06:42
暴跌40%,關(guān)店4000家!曾創(chuàng)神話的“零食界愛(ài)馬仕”,賣不動(dòng)了

暴跌40%,關(guān)店4000家!曾創(chuàng)神話的“零食界愛(ài)馬仕”,賣不動(dòng)了

好賢觀史記
2026-03-02 20:17:10
蔣介石敗逃臺(tái)灣之前,臺(tái)灣的實(shí)際掌控者是誰(shuí)?為何老蔣一到,對(duì)方就甘愿拱手相讓?

蔣介石敗逃臺(tái)灣之前,臺(tái)灣的實(shí)際掌控者是誰(shuí)?為何老蔣一到,對(duì)方就甘愿拱手相讓?

文史明鑒
2026-01-14 01:03:20
男子“養(yǎng)龍蝦”炒股幾個(gè)月燒掉數(shù)十萬(wàn),破防抑郁,體重驟降十幾斤

男子“養(yǎng)龍蝦”炒股幾個(gè)月燒掉數(shù)十萬(wàn),破防抑郁,體重驟降十幾斤

都市快報(bào)橙柿互動(dòng)
2026-04-19 15:46:18
2026-04-20 00:27:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12497文章數(shù) 176455關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀(jì)錄!300臺(tái)機(jī)器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒(méi)法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒(méi)法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂(lè)要聞

何潤(rùn)東漲粉百萬(wàn)!內(nèi)娛隔空掀桌第一人

財(cái)經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬(wàn) 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

時(shí)尚
本地
房產(chǎn)
數(shù)碼
公開課

裝修“精神角落”,就是這么上癮

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

房產(chǎn)要聞

官宣簽約最強(qiáng)城更!海口樓市,突然殺入神秘房企!

數(shù)碼要聞

亞馬遜明確:未來(lái)Fire TV Stick全換Vega OS

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版