亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

三星發(fā)力大模型!三星研究院聯(lián)合北大發(fā)布 M2RL,系統(tǒng)揭秘多領(lǐng)域RL訓(xùn)練機(jī)制

0
分享至


三星研究院開展了M2RL研究項目,對多域強(qiáng)化學(xué)習(xí)進(jìn)行了系統(tǒng)性的研究和分析。

大模型訓(xùn)練需要同時兼顧多個領(lǐng)域能力,包括Agentic 能力、數(shù)學(xué)推理、代碼生成等。如何訓(xùn)練一個能夠在多個領(lǐng)域同時達(dá)到專家水平的通用模型,已成為當(dāng)前研究中的一項關(guān)鍵挑戰(zhàn)。尤其是在強(qiáng)化學(xué)習(xí)(RL)階段,如何通過合理的訓(xùn)練機(jī)制與超參數(shù)配置,緩解多領(lǐng)域訓(xùn)練中的能力沖突與兼容問題,對于模型最終性能的提升至關(guān)重要。為此,三星研究院聯(lián)合北京大學(xué),發(fā)布技術(shù)報告R2Mixer(To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models),系統(tǒng)分析了多領(lǐng)域RL的訓(xùn)練機(jī)理,通過系統(tǒng)級調(diào)優(yōu),顯著提升了多領(lǐng)域RL后的模型效果。

值得關(guān)注的是,結(jié)合去年10月份的相關(guān)報道,三星已向英偉達(dá)采購5萬張 GPU用于構(gòu)建大規(guī)模AI 基礎(chǔ)設(shè)施。此舉或許標(biāo)志著三星在大模型領(lǐng)域正大幅加大投入,意在打造自主可控的基礎(chǔ)模型體系,為未來在手機(jī)、智能終端、自動化工廠等場景中部署通用 AI 能力提供底層支撐。


文章地址:https://arxiv.org/abs/2602.12566

項目主頁:https://github.com/Mosi-AI/M2RL

01


關(guān)鍵痛點

在人工智能的浪潮中,LLM正以前所未有的速度席卷Agent、數(shù)學(xué)推理、代碼生成、科學(xué)問題求解等關(guān)鍵領(lǐng)域,一場關(guān)于"如何打造全能型AI專家"的技術(shù)競賽已然拉開帷幕!目前學(xué)界存在兩種主流的RL后訓(xùn)練范式:

? 混合多任務(wù)范式:同時學(xué)習(xí)來自不同領(lǐng)域的數(shù)據(jù)和獎勵;

? 專家融合范式:分別訓(xùn)練各領(lǐng)域?qū)<遥偻ㄟ^權(quán)重合并或蒸餾技術(shù)融合。

兩大路線各有優(yōu)劣,DeepSeek-R1、Qwen3、GLM-4.5、MiMo-V2等明星模型亦選擇不同路徑,但學(xué)界對這兩種范式的系統(tǒng)性對比和內(nèi)在機(jī)制的分析仍然缺乏。面對構(gòu)建通用多領(lǐng)域?qū)<夷P偷暮诵耐袋c:

1)訓(xùn)練效率與性能的兩難:不同領(lǐng)域的強(qiáng)化學(xué)習(xí)是否會產(chǎn)生梯度干擾,導(dǎo)致整體性能下降?混合多任務(wù)訓(xùn)練的計算成本是否低于分別訓(xùn)練后合并? 2) 領(lǐng)域知識的遷移與干擾:不同領(lǐng)域的強(qiáng)化學(xué)習(xí)是否存在知識遷移效應(yīng)?還是會產(chǎn)生互相干擾?這種關(guān)系在不同類型的任務(wù)之間是否有差異? 3) 模型合并的內(nèi)在機(jī)制:模型合并后的性能增益從何而來?不同合并方法之間有何優(yōu)劣?如何選擇最優(yōu)的合并策略? 4) 自我評判能力的演化:RLVR訓(xùn)練是否能夠使模型獲得自我評判能力?這種能力在不同訓(xùn)練范式下如何變化?

研究團(tuán)隊基于開源數(shù)據(jù)集進(jìn)行完整的SFT+RL后訓(xùn)練過程實現(xiàn)可控的實驗比較,進(jìn)而深入分析其內(nèi)在機(jī)制。


02


M2RL:系統(tǒng)性研究與實驗設(shè)計

三星研究院開展了M2RL研究項目 (Mixed multi-task training or separate training followed by modelMerging forReinforcementLearning),對多域強(qiáng)化學(xué)習(xí)進(jìn)行了系統(tǒng)性的研究和分析。研究團(tuán)隊基于Nemotron 3 Nano技術(shù)報告中開源的SFT或RL數(shù)據(jù)進(jìn)行實驗,選擇了五個常見的RLVR域:數(shù)學(xué)、編程、科學(xué)、指令跟隨以及Agent,初始模型選用Qwen3-4B-Base,RL算法選用GRPO。

1)對于有監(jiān)督微調(diào)(SFT),研究團(tuán)隊遵循Nemotron 3 Nano技術(shù)報告中的數(shù)據(jù)配比將其開源數(shù)據(jù)進(jìn)行合理組合。其中,對于數(shù)量較多的開源數(shù)據(jù)集進(jìn)行隨機(jī)采樣,對于數(shù)量較少的開源數(shù)據(jù)集則重復(fù)使用(最多10次),最終獲得~14M的數(shù)據(jù)用于有監(jiān)督微調(diào),詳細(xì)配比如下:


2)對于強(qiáng)化學(xué)習(xí)訓(xùn)練,研究團(tuán)隊同樣使用Nemotron 3 Nano開源的RL訓(xùn)練數(shù)據(jù),其數(shù)據(jù)配比及來源總結(jié)如下:


3)對于模型融合方法,研究團(tuán)隊考慮了廣泛使用的weight merging (對模型權(quán)重加權(quán)平均)和multi-teacher on-policy-distillation技術(shù)。其中,weight merging包括average merging, task arithmetic merging, Ties-merging以及SCE merging,同時也考察了這些方法與DARE的組合使用效果。對于MT-OPD,他們使用來自5個域的專家模型作為teacher蒸餾有監(jiān)督微調(diào)后的模型,設(shè)計相應(yīng)的teacher路由策略。

所有實驗在相同型號顯卡上運行,詳細(xì)的訓(xùn)練設(shè)置及GPU Hours如下:


03


M2RL:評測結(jié)果及機(jī)制分析

1.評測結(jié)果

研究團(tuán)隊在跨越5個域的9個benchmark上對模型進(jìn)行評估:數(shù)學(xué)(AIME’24和AIME’25)、代碼(LiveCodeBench v5和v6)、科學(xué)(HLE和GPQA-Diamond)、指令跟隨(IFEval和IFBench )以及Agent(BFCL v3):


其中model merging報告的是Ties-merging的結(jié)果,其表現(xiàn)最佳;詳細(xì)對比如下:


從上述結(jié)果可以看出:

[1]就5個獨立RL模型而言,math, coding,instruction following和agent域的RL模型都在對應(yīng)域的benchmark上獲得了最佳表現(xiàn);有趣的是math域的RL模型比science域的RL模型在science benchmark上獲得了更好的表現(xiàn),可能這兩個science benchmark需要更多的邏輯推理和數(shù)學(xué)計算而非科學(xué)知識。

[2]混合的多任務(wù)RL可以用約63.7%的GPU Hours獲得與單獨RL再融合相當(dāng)?shù)男Ч徊煌蛑g的干擾并不明顯,甚至有增益。例如,三個推理相關(guān)的域(math, coding和science)的RL就互有增益,Instruction Following域也有助于這三個域的評估。有趣的是,所有其他域都對agent域沒有增益,可能單輪的邏輯推理對于多輪的工具調(diào)用和環(huán)境交互價值有限,但仍然未觀察到互相干擾現(xiàn)象。

[3]weight merging這類training-free的融合方法效果意外的很好,不僅繼承了原始模型的絕大部分性能,甚至在AIME’24, AIME’25, HLE, IFEval和BFCL v3數(shù)據(jù)集比對應(yīng)專家模型還要強(qiáng),再次印證了不同域的互相增益效果。此外,weight merging無需額外的GPU Hours即可達(dá)到稍微優(yōu)于MT-OPD的效果。

除了最終表現(xiàn),研究團(tuán)隊還給出了不同域RL訓(xùn)練過程中模型在不同域的benchmark上的表現(xiàn)。具體的,選擇AIME’24, LiveCodeBench v5, GPQA-Diamond, IFEval和BFCL v3分別作為math, coding, science, instruction following和agent域的代表,結(jié)果如下:


可以看到三個推理域(math, coding和science)的RL過程可以穩(wěn)定提升彼此的表現(xiàn)。此外,instruction following和agent域的任務(wù)只有對應(yīng)域的RL能穩(wěn)步提升表現(xiàn),推理域RL對其并無增益。反之,instruction following和agent域的RL卻可以或多或少的提升推理域的能力表現(xiàn),說明推理為基本能力,各種域的學(xué)習(xí)都需要。

研究團(tuán)隊僅用開源數(shù)據(jù),從Qwen3-4B-Base開始訓(xùn)練便獲得了和官方的Qwen3-4B可比的結(jié)果,證明其工程實現(xiàn)的有效性:

除了上述評測結(jié)果之外,研究團(tuán)隊還從信息約束模型預(yù)測行為自我驗證等角度深入分析多域RL訓(xùn)練的工作機(jī)理。更多分析內(nèi)容詳見論文。

04


總結(jié)與展望

三星研究院針對大模型后訓(xùn)練范式進(jìn)行了系統(tǒng)的對比。研究通過嚴(yán)謹(jǐn)?shù)氖芸貙嶒灒钊肫饰隽恕盎旌隙嗳蝿?wù)RL”與“專家模型融合”在多域能力構(gòu)建中的性能邊界。針對梯度干擾、領(lǐng)域知識遷移、模型合并機(jī)制及自我評判能力演化等行業(yè)核心痛點,該研究不僅揭示了多域強(qiáng)化學(xué)習(xí)的內(nèi)在作用機(jī)理,更在訓(xùn)練效率與性能平衡上提供了關(guān)鍵保障,有效支撐了千億、萬億等更大參數(shù)模型的RL訓(xùn)練。

05


作者信息

本文共有3位共同一作,其中王好慶、龍翔為三星大模型高級研究員,李子恒為北京大學(xué)博士生,研究方向為大模型強(qiáng)化學(xué)習(xí)。

本文通訊作者為唐業(yè)輝,目前擔(dān)任三星大模型算法負(fù)責(zé)人、高級技術(shù)總監(jiān)。他博士畢業(yè)于北京大學(xué),已發(fā)表AI頂會論文50余篇,Google學(xué)術(shù)引用1萬+,并擔(dān)任NeurIPS、ICML等會議的領(lǐng)域主席。

未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
趙巖昊遭王博當(dāng)眾怒吼徑直離場,胡金秋拉都拉不住,誰之過?

趙巖昊遭王博當(dāng)眾怒吼徑直離場,胡金秋拉都拉不住,誰之過?

硯底沉香
2026-04-18 20:15:25
低迷,加納喬對陣曼聯(lián)15次丟失球權(quán)+0次成功傳中、0次射正

低迷,加納喬對陣曼聯(lián)15次丟失球權(quán)+0次成功傳中、0次射正

懂球帝
2026-04-19 05:49:21
雨雨雨!江蘇天氣最新預(yù)測:大風(fēng)、大降溫!

雨雨雨!江蘇天氣最新預(yù)測:大風(fēng)、大降溫!

江南晚報
2026-04-19 03:00:05
3-1!蓉城頭號爭冠對手出爐:6輪不敗轟14球!被扣10分也有望奪冠

3-1!蓉城頭號爭冠對手出爐:6輪不敗轟14球!被扣10分也有望奪冠

球場沒跑道
2026-04-18 23:04:39
淚目!趙心童與老外合影時霸氣捧杯站C位 合影丁俊暉時主動站一旁

淚目!趙心童與老外合影時霸氣捧杯站C位 合影丁俊暉時主動站一旁

風(fēng)過鄉(xiāng)
2026-04-18 08:42:19
呂焯毅絕殺!大連英博2-1河南隊,4連勝沖到第3,河南隊4輪不勝

呂焯毅絕殺!大連英博2-1河南隊,4連勝沖到第3,河南隊4輪不勝

中超偽球迷
2026-04-18 21:01:03
美國總統(tǒng)特朗普稱將很快發(fā)布第一批UFO文件!特朗普:我領(lǐng)導(dǎo)的政府找到了許多“非常有趣”的文件

美國總統(tǒng)特朗普稱將很快發(fā)布第一批UFO文件!特朗普:我領(lǐng)導(dǎo)的政府找到了許多“非常有趣”的文件

每日經(jīng)濟(jì)新聞
2026-04-18 11:35:50
東風(fēng)導(dǎo)彈嚴(yán)重泄密案:追查6年無果,卻意外被一賣菜老漢揪出真兇

東風(fēng)導(dǎo)彈嚴(yán)重泄密案:追查6年無果,卻意外被一賣菜老漢揪出真兇

華人星光
2026-04-16 11:44:43
存款超這個數(shù)就被嚴(yán)查?買房賣房必看,銀行為啥突然變得這么較真

存款超這個數(shù)就被嚴(yán)查?買房賣房必看,銀行為啥突然變得這么較真

復(fù)轉(zhuǎn)這些年
2026-04-18 12:38:07
特朗普稱很快發(fā)布第一批UFO文件

特朗普稱很快發(fā)布第一批UFO文件

每日經(jīng)濟(jì)新聞
2026-04-18 08:05:30
選在《馬關(guān)條約》簽訂日!日本再闖臺海,百年野心,從未死心!

選在《馬關(guān)條約》簽訂日!日本再闖臺海,百年野心,從未死心!

大風(fēng)新聞
2026-04-18 15:57:05
劉德華回應(yīng)潘宏彬去世,失聯(lián)數(shù)十年遺憾滿滿

劉德華回應(yīng)潘宏彬去世,失聯(lián)數(shù)十年遺憾滿滿

手工制作阿殲
2026-04-19 05:49:03
“三航母”將齊聚中東 美國有何意圖 專家解讀

“三航母”將齊聚中東 美國有何意圖 專家解讀

北青網(wǎng)-北京青年報
2026-04-18 21:48:04
234萬平方公里大國,海岸線僅37公里:準(zhǔn)內(nèi)陸國到底有多憋屈

234萬平方公里大國,海岸線僅37公里:準(zhǔn)內(nèi)陸國到底有多憋屈

兔斯基聊科學(xué)
2026-04-18 10:45:36
我預(yù)判,A股本輪牛市,極有可能是十年一遇超級大牛市!兩點原因

我預(yù)判,A股本輪牛市,極有可能是十年一遇超級大牛市!兩點原因

風(fēng)風(fēng)順
2026-04-19 03:05:03
臺灣士兵一句靈魂拷問,扯碎所有謊言:兩岸若開戰(zhàn),陣亡者連撫恤金都無處可領(lǐng)

臺灣士兵一句靈魂拷問,扯碎所有謊言:兩岸若開戰(zhàn),陣亡者連撫恤金都無處可領(lǐng)

青蘋果sht
2026-04-19 06:05:28
西伯利亞:吃不完的鹿肉,收不完的糧;砍不完的森林,挖不完的礦

西伯利亞:吃不完的鹿肉,收不完的糧;砍不完的森林,挖不完的礦

小莜讀史
2026-04-17 20:53:45
老話講“人壽盡,屋先知”,這不是迷信!家中要是出現(xiàn)這3個現(xiàn)象

老話講“人壽盡,屋先知”,這不是迷信!家中要是出現(xiàn)這3個現(xiàn)象

阿天愛旅行
2026-04-19 01:48:22
巴西女子發(fā)現(xiàn)丈夫正在強(qiáng)奸未成年的女兒,女子一怒之把丈夫殺死

巴西女子發(fā)現(xiàn)丈夫正在強(qiáng)奸未成年的女兒,女子一怒之把丈夫殺死

西樓知趣雜談
2026-04-18 15:11:24
善惡終有報,57歲央視女主持王小丫,原來早已經(jīng)走上另一條大路

善惡終有報,57歲央視女主持王小丫,原來早已經(jīng)走上另一條大路

聽風(fēng)喃
2026-03-24 05:39:34
2026-04-19 06:43:00
AI科技評論 incentive-icons
AI科技評論
點評學(xué)術(shù),服務(wù)AI
7198文章數(shù) 20744關(guān)注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

伊朗革命衛(wèi)隊向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

頭條要聞

伊朗革命衛(wèi)隊向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

體育要聞

時隔25年重返英超!沒有人再嘲笑他了

娛樂要聞

劉德華回應(yīng)潘宏彬去世,拒談喪禮細(xì)節(jié)

財經(jīng)要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

奇瑞威麟R08 PRO正式上市 售價14.48萬元起

態(tài)度原創(chuàng)

親子
健康
時尚
家居
軍事航空

親子要聞

老公終于夢想成真了!幫忙給寶寶起小名唄

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

選對發(fā)型,真的能少走很多變美彎路

家居要聞

法式線條 時光靜淌

軍事要聞

解放軍護(hù)衛(wèi)艦與外艦纏斗20小時 細(xì)節(jié)披露

無障礙瀏覽 進(jìn)入關(guān)懷版