![]()
這項(xiàng)由北京航空航天大學(xué)、上海交通大學(xué)、不列顛哥倫比亞大學(xué)、IQuest Research及瀾舟科技共同完成的研究,以預(yù)印本形式于2026年5月發(fā)布在arXiv平臺,論文編號為arXiv:2605.30288。感興趣的讀者可通過該編號查閱完整論文。
**一個繞不開的問題:喂給AI的食材,到底該怎么挑?**
要理解這項(xiàng)研究解決的問題,可以先考慮這樣一個場景:你是一位廚師,正在為一場超級重要的宴席備菜。倉庫里堆滿了食材——有新鮮蔬菜、腌制肉類、調(diào)味料包、速食半成品、甚至還有一些食譜文本和烹飪教學(xué)視頻的文字稿。你沒有時間用完所有食材,必須精挑細(xì)選,但問題是:菜式五花八門,評判蔬菜新鮮度的標(biāo)準(zhǔn)根本沒法用來判斷腌肉夠不夠入味,更沒法用來衡量食譜文字寫得好不好。
這個"挑食材"的困境,正是當(dāng)今大語言模型(AI大腦)開發(fā)者每天面臨的現(xiàn)實(shí)問題。
現(xiàn)代AI大模型的成長分三個階段。第一階段叫"預(yù)訓(xùn)練",相當(dāng)于讓AI海量閱讀網(wǎng)上的一切文字,建立基礎(chǔ)的語言認(rèn)知。第三階段叫"后訓(xùn)練"或"指令微調(diào)",相當(dāng)于手把手教AI怎么禮貌地回答問題、如何遵從用戶的指令。而夾在中間、越來越被重視的第二階段,就是這篇論文聚焦的"中間訓(xùn)練"(Mid-training)。
中間訓(xùn)練的任務(wù)很特別:它保留了第一階段那種大規(guī)模、海量數(shù)據(jù)的訓(xùn)練方式,但同時開始有意識地強(qiáng)化特定能力,比如寫代碼、做數(shù)學(xué)推理、理解超長文檔、使用工具完成復(fù)雜任務(wù)等。更重要的是,它使用的數(shù)據(jù)來源極其多樣——既有像網(wǎng)頁文章一樣的純文字,也有問答對、推理鏈、工具調(diào)用日志,還有多輪對話的代理操作軌跡。這就好比備菜倉庫里同時存放著生鮮、半成品和調(diào)料,評判標(biāo)準(zhǔn)怎么可能統(tǒng)一?
**一、現(xiàn)有方法為何在這個戰(zhàn)場上"水土不服"**
為了挑出高質(zhì)量的訓(xùn)練數(shù)據(jù),研究人員此前已有兩大類工具可用。
第一類是"預(yù)訓(xùn)練派"的工具,比如用模型的困惑度(perplexity,可以理解為"模型讀到這段話時有多懵")來評分,或者用數(shù)據(jù)重要性重采樣的方法來匹配目標(biāo)數(shù)據(jù)分布。這類工具的優(yōu)勢是快、便宜、能處理海量數(shù)據(jù)。缺點(diǎn)是它們依賴的是模型自身的統(tǒng)計(jì)感覺,并不真正理解"這道題的解法寫對了嗎"或"這個工具調(diào)用合理嗎"——它們只是在隱隱感覺哪段數(shù)據(jù)"看起來正常"。
第二類是"后訓(xùn)練派"的工具,比如人工定義質(zhì)量評判標(biāo)準(zhǔn)、用另一個AI模型當(dāng)裁判打分、或者訓(xùn)練一個專門的打分模型。這類工具語義理解能力強(qiáng),能真正判斷內(nèi)容好不好。缺點(diǎn)是它們通常假設(shè)所有數(shù)據(jù)都遵循類似的格式,用統(tǒng)一的標(biāo)準(zhǔn)評判一切——這對中間訓(xùn)練的多樣化數(shù)據(jù)來說,就像用同一把刻度尺去量蘋果的甜度、湯的咸度和音樂的節(jié)奏感,根本驢唇不對馬嘴。
以論文中分析的一個典型例子來說:DataMan是一個廣受認(rèn)可的通用質(zhì)量打分工具,但它無法處理超長的代理操作軌跡(因?yàn)槌隽怂O(shè)計(jì)時預(yù)設(shè)的輸入長度),導(dǎo)致在需要覆蓋這類數(shù)據(jù)的場景下,這個工具直接"罷工"了。更別說,即便它能處理這些數(shù)據(jù),它的評判維度也是為通用文本設(shè)計(jì)的,根本不知道"工具調(diào)用時JSON格式是否正確"這件事有多重要。
正是這個裂縫——要么能擴(kuò)展但語義盲目,要么語義精準(zhǔn)但無法擴(kuò)展——催生了這篇論文提出的解決方案。
**二、MIRA的核心思路:讓評委先搞清楚自己在評什么**
研究團(tuán)隊(duì)將他們的方法命名為MIRA,全稱是"中間訓(xùn)練錨定評分的數(shù)據(jù)來源感知篩選框架"。核心哲學(xué)可以用一句話概括:**評判標(biāo)準(zhǔn)本身應(yīng)該是被發(fā)現(xiàn)的,而不是被強(qiáng)加的。**
回到廚師備菜的比喻。MIRA的做法不是讓一個萬能裁判拿著同一份評分表走遍整個倉庫,而是先把倉庫里的食材按大類分組——蔬菜歸一堆、肉類歸一堆、調(diào)料歸一堆——然后針對每一組,專門找對應(yīng)的行家來定制評判維度:評蔬菜的行家會關(guān)注新鮮程度、含水量和農(nóng)藥殘留;評肉類的行家會關(guān)注腌制是否均勻、保質(zhì)期是否達(dá)標(biāo);評調(diào)料的行家則會關(guān)注濃度和香氣。最后,再根據(jù)這些定制評分訓(xùn)練出各組專屬的"快速審核員",讓他們以極低成本處理倉庫里的海量食材。
具體來說,MIRA的工作流程分為四大步驟,每一步都環(huán)環(huán)相扣,形成一個完整的篩選流水線。
**三、第一步:給數(shù)據(jù)"分家",讓相似的數(shù)據(jù)坐在一起**
中間訓(xùn)練數(shù)據(jù)庫里有21個不同的數(shù)據(jù)來源,包含數(shù)學(xué)推理鏈、代碼問答對、算法文檔、工具調(diào)用日志、軟件工程修復(fù)軌跡等形形色色的內(nèi)容。MIRA做的第一件事,是用一種叫"內(nèi)容嵌入相似度"的技術(shù)——可以理解為把每份數(shù)據(jù)轉(zhuǎn)換成一個能代表其含義的數(shù)字向量,然后看哪些數(shù)據(jù)的向量靠得更近——把21個來源聚合成5個大組。
這5個大組分別是:數(shù)學(xué)推理類問答(包含5個子來源)、代碼通用類問答(包含5個子來源)、代碼文檔文本類(包含3個子來源)、工具調(diào)用代理類(包含5個子來源),以及軟件工程修復(fù)代理類(包含3個子來源)。每個組內(nèi)的數(shù)據(jù)共享相似的能力主題和數(shù)據(jù)格式,這是后續(xù)定制評判維度的基礎(chǔ)。
這種分組有個巧妙之處:它不是人工拍腦袋分的,而是讓數(shù)據(jù)的內(nèi)容本身說了算。相互靠近的數(shù)據(jù)來源被歸在一組,不管研究者最初是否預(yù)期它們屬于同一類。
**四、第二步:請"頂級裁判"自由發(fā)揮,看它真正在意什么**
完成分組之后,MIRA進(jìn)入了最關(guān)鍵也最有創(chuàng)意的一步:**讓頂級AI評委(論文中稱為"前沿教師模型",使用的是Kimi-K2.6)自由說出它對每組數(shù)據(jù)的質(zhì)量判斷。**
怎么個"自由"法?研究團(tuán)隊(duì)從每個組里隨機(jī)抽取一批樣本,然后把這些樣本喂給Kimi-K2.6,并告訴它:"你來評價(jià)這些數(shù)據(jù),質(zhì)量好不好,好在哪里,差在哪里,你自己決定從哪些維度來看,不用參考任何預(yù)設(shè)框架。"
這個設(shè)計(jì)的精髓在于:與其讓研究者預(yù)先假設(shè)"對于代理軌跡數(shù)據(jù),我們應(yīng)該看這五個維度",不如直接問頂級評委:"你在評價(jià)這類數(shù)據(jù)時,實(shí)際上關(guān)注的是什么?"這樣得到的評判維度,是從數(shù)據(jù)本身的特性中自然浮現(xiàn)出來的,而不是從作者的直覺中強(qiáng)加的。
Kimi-K2.6對每條樣本數(shù)據(jù)都會輸出一套自選的15個質(zhì)量維度,每個維度配有分?jǐn)?shù)(0到10分)和一句話說明理由。于是,每個數(shù)據(jù)大組就積累了大量這樣的"自由評判結(jié)果"。
接下來,研究團(tuán)隊(duì)對這些自由評判結(jié)果做了一次"歸納總結(jié)"。每個評判結(jié)果被拆解成一個個"判斷點(diǎn)"——每個判斷點(diǎn)是一對(維度名稱,評判理由)。然后,對同一組內(nèi)所有的判斷點(diǎn)做聚類分析,把意思相近的維度歸到一堆,從每堆中挑出最靠近中心、最有代表性的那個作為"錨點(diǎn)維度"。最終,每個大組都得到了15個錨點(diǎn)維度,構(gòu)成該組數(shù)據(jù)專屬的評判框架,論文稱之為"錨定評分準(zhǔn)則"(Anchor Rubric)。
這個過程有點(diǎn)像開會前先做頭腦風(fēng)暴,讓每個人自由發(fā)言,然后統(tǒng)計(jì)哪些關(guān)鍵詞被反復(fù)提到,最后提煉出幾條真正被大家認(rèn)可的核心議題。不同的是,"每個人"其實(shí)都是同一個頂級AI,而"頭腦風(fēng)暴"的對象是千萬條真實(shí)訓(xùn)練數(shù)據(jù)。
**五、第三步:用"錨定準(zhǔn)則"大批量打分,再訓(xùn)練各組專屬的"廉價(jià)替代"**
有了每個組的錨定評分準(zhǔn)則,下一步就是用它來正式給數(shù)據(jù)打分。研究團(tuán)隊(duì)再次請出Kimi-K2.6,但這次不讓它自由發(fā)揮了——它只需要按照該組的15個固定維度,對更大批量的樣本數(shù)據(jù)逐一打分并給出理由。這次打分產(chǎn)生了超過200萬條帶有結(jié)構(gòu)化評分標(biāo)簽的數(shù)據(jù)記錄。
然而,即便是超高速的前沿模型,也無法以可接受的成本對數(shù)億條訓(xùn)練數(shù)據(jù)逐一評分。這就是"學(xué)生蒸餾"(Student Distillation)這一步的用武之地。
研究團(tuán)隊(duì)將Kimi-K2.6打分的200萬條記錄(一部分用于訓(xùn)練,一部分留作驗(yàn)證)用來訓(xùn)練5個體型更小、運(yùn)行更快的專屬"學(xué)生模型",每個大組一個學(xué)生模型。選用的學(xué)生模型基礎(chǔ)架構(gòu)是Qwen3.5-35B-A3B-Base——這是一個混合專家架構(gòu)的模型,總參數(shù)量約350億,但每次處理文本時只激活約30億個參數(shù),因此運(yùn)行成本遠(yuǎn)低于全量激活的大模型。
訓(xùn)練完成后,這5個學(xué)生模型就能以極低成本對海量數(shù)據(jù)批量打分,輸出格式與教師模型完全一致:每條數(shù)據(jù)對應(yīng)15個維度的評分加上理由。這就是"廉價(jià)替代"的精髓——用頂級評委的標(biāo)準(zhǔn)訓(xùn)練廉價(jià)助手,讓廉價(jià)助手做重復(fù)性的大規(guī)模工作。
**六、第四步:"可靠性篩查"確保打分靠譜,最后按組精準(zhǔn)留人**
完成大規(guī)模打分后,MIRA并不是簡單地把15個維度的分?jǐn)?shù)加起來平均。研究團(tuán)隊(duì)還專門設(shè)計(jì)了一道"質(zhì)量把關(guān)"機(jī)制,稱為"來源條件可靠性聚合"。
為什么需要這道關(guān)卡?因?yàn)榧幢銓W(xué)生模型訓(xùn)練得再好,也可能在某些數(shù)據(jù)來源和某些評分維度的交叉點(diǎn)上出現(xiàn)系統(tǒng)性偏差。比如,對于代碼庫修復(fù)類數(shù)據(jù),"代碼引用準(zhǔn)確性"這個維度需要學(xué)生模型將代碼中的工具調(diào)用與實(shí)際文件系統(tǒng)狀態(tài)對應(yīng)起來,但學(xué)生模型無法看到實(shí)際的文件系統(tǒng),因此這個維度的打分先天就不可靠。
研究團(tuán)隊(duì)的做法是:在驗(yàn)證集上計(jì)算每個(數(shù)據(jù)來源,評分維度)組合的"教師-學(xué)生分?jǐn)?shù)一致性",用平均絕對誤差(MAE,可以理解為"學(xué)生評分與老師評分平均差了多少分")和斯皮爾曼相關(guān)系數(shù)(衡量兩組分?jǐn)?shù)的排名是否一致)兩個指標(biāo)來衡量。如果某個組合的差異超過了閾值(論文中設(shè)定為1分,滿分10分),就把這個組合標(biāo)記為"不可靠",在最終聚合打分時直接忽略這個維度的得分。
這里有一個巧妙的設(shè)計(jì)細(xì)節(jié):這種屏蔽是在打分之后、聚合之前進(jìn)行的"事后處理",而不是在讓學(xué)生模型打分時就去掉這些維度。原因是:如果在輸入給學(xué)生模型的提示詞里刪掉某個維度,會改變剩余維度的打分分布(因?yàn)槟P偷淖⒁饬蜕舷挛母兄獣l(fā)生變化),造成不可控的偏差。而在聚合階段才做屏蔽,既保證了每條數(shù)據(jù)打分時的一致性,又避免了不可靠維度污染最終結(jié)果。
在21個數(shù)據(jù)來源、每組15個維度的框架下,研究共識別出37個不可靠的(來源,維度)組合,占全部315個組合的約12%。這些被屏蔽的組合集中在幾個規(guī)律性的模式上:在數(shù)學(xué)推理類數(shù)據(jù)中,"技術(shù)精確性"這個維度在多個來源上都被標(biāo)記為不可靠;在工具調(diào)用代理類數(shù)據(jù)中,"代碼引用準(zhǔn)確性"和"錯誤恢復(fù)能力"這兩個維度是主要麻煩制造者;在文檔文本類數(shù)據(jù)中,"格式規(guī)范性"相關(guān)的維度出現(xiàn)了較高的不一致性。
完成可靠性屏蔽和分?jǐn)?shù)聚合之后,每條數(shù)據(jù)都有了一個經(jīng)過校準(zhǔn)的綜合質(zhì)量分?jǐn)?shù)。最后一步是根據(jù)這些分?jǐn)?shù)篩選出最終的訓(xùn)練數(shù)據(jù)集。MIRA在這里提供了三種不同粒度的篩選策略,對應(yīng)表格中的三個變體。
MIRA-Global是最簡單粗暴的策略:從整個打過分的語料庫里,直接選出分?jǐn)?shù)最高的前50%數(shù)據(jù),不管數(shù)據(jù)來自哪個來源或哪個組。這種方式能選出絕對高分的數(shù)據(jù),但容易出現(xiàn)"本來就得分偏高的組被過度代表"的問題。MIRA-Group是按能力大組分別設(shè)定篩選閾值,組內(nèi)競爭、組間配額,既保證了每個能力方向都有足夠代表,也允許高質(zhì)量來源在組內(nèi)脫穎而出。MIRA-Source則是更細(xì)粒度的策略,在每一個具體數(shù)據(jù)來源內(nèi)部分別篩選,最大程度保留來源多樣性,但當(dāng)某個來源的數(shù)據(jù)量較小或打分噪聲較大時,這種策略可能變得不穩(wěn)定。研究團(tuán)隊(duì)將MIRA-Group定為"默認(rèn)推薦"策略,認(rèn)為它在能力覆蓋和評分穩(wěn)定性之間找到了最好的平衡點(diǎn)。
**七、實(shí)驗(yàn)驗(yàn)證:在9個代碼評測上"半價(jià)完成滿價(jià)任務(wù)"**
研究團(tuán)隊(duì)選擇了代碼能力強(qiáng)化作為驗(yàn)證場景。原因很直接:代碼數(shù)據(jù)涵蓋了最典型的異構(gòu)中間訓(xùn)練數(shù)據(jù)——既有靜態(tài)的代碼文檔,也有動態(tài)的代碼問答對,還有復(fù)雜的代理工具調(diào)用軌跡,質(zhì)量判斷標(biāo)準(zhǔn)完全不同。而且代碼能力有明確可量化的評測基準(zhǔn),便于比較。
實(shí)驗(yàn)基礎(chǔ)模型選用了Qwen2.5-Coder-14B,這是一個專門針對代碼任務(wù)的140億參數(shù)模型。所有實(shí)驗(yàn)都在Megatron-LM分布式訓(xùn)練框架下進(jìn)行,使用128K上下文長度和BF16精度。中間訓(xùn)練完成后,所有模型都經(jīng)過完全相同的"指令微調(diào)"后處理階段(使用40萬條固定的指令跟隨樣本),以確保任何性能差異都來自中間訓(xùn)練的數(shù)據(jù)篩選策略,而非后續(xù)階段的差異。
評測覆蓋4個大類、9個具體基準(zhǔn):代碼生成類包含MBPP、MBPP+、BigCodeBench-Full、BigCodeBench-Hard和LiveCodeBench;多語言代碼生成使用Multipl-E(覆蓋8種編程語言的宏平均);SQL執(zhí)行準(zhǔn)確性測試包含Spider和BIRD兩個基準(zhǔn);軟件工程修復(fù)測試使用SWE-Multi。最終給出四類的宏平均分作為總體評價(jià)。
對比對象包括:完全不做中間訓(xùn)練的基礎(chǔ)模型(得分28.16,可理解為"零分起點(diǎn)")、在基礎(chǔ)模型上直接做指令微調(diào)(得分48.60,代表"有點(diǎn)基礎(chǔ)但沒有專項(xiàng)訓(xùn)練")、用全量50億token數(shù)據(jù)不加篩選進(jìn)行中間訓(xùn)練的Raw Mixture(得分63.83,代表"用全部食材做的宴席"),以及四種用250億token(即全量數(shù)據(jù)的一半)進(jìn)行篩選后中間訓(xùn)練的方法:隨機(jī)采樣、困惑度篩選、DSIR重要性重采樣、DataMan打分篩選。
實(shí)驗(yàn)結(jié)果非常清晰地呈現(xiàn)了三條核心規(guī)律。
MIRA-Group在宏平均分上達(dá)到64.20,是所有250億token方法中最高的,超過了隨機(jī)采樣的63.23、DataMan的63.01,大幅超過DSIR的59.55和困惑度篩選的54.73。更重要的是,64.20還略高于使用全量500億token的Raw Mixture的63.83——也就是說,用一半的數(shù)據(jù)量,MIRA-Group不僅追平了全量數(shù)據(jù)的效果,還略微超出,實(shí)現(xiàn)了"半價(jià)超越滿價(jià)"。
不同的MIRA變體在不同能力方向上各有所長。MIRA-Group在代碼生成類表現(xiàn)最好,平均得分54.53,在MBPP(88.90)、MBPP+(73.80)和BigCodeBench-Hard(33.11)上均領(lǐng)先所有方法。MIRA-Source在Multipl-E多語言評測上最強(qiáng),得分72.84,這與其最大程度保留來源多樣性的策略高度吻合——多語言代碼數(shù)據(jù)來自多個不同子來源,MIRA-Source的精細(xì)化保護(hù)確保每種語言都有充足的高質(zhì)量代表。MIRA-Group在軟件工程修復(fù)任務(wù)(SWE-Multi)上得到36.33,超過所有其他250億token基線方法,而MIRA-Source在SQL任務(wù)上以94.38接近DSIR的最優(yōu)95.20。
相比之下,DSIR和困惑度篩選的差勁表現(xiàn)背后有一個共同的問題:這兩種方法對數(shù)據(jù)長度都有嚴(yán)重的系統(tǒng)性偏見。困惑度會對越長的文本給出越低的分?jǐn)?shù),因?yàn)殚L文本中的每個token被模型"意外"的概率累積下來就變高了。DSIR在處理超長的代理軌跡數(shù)據(jù)時幾乎完全崩潰,因?yàn)槠鋘-gram特征無法捕捉長依賴關(guān)系。DataMan則在超出其設(shè)計(jì)長度限制的記錄上直接返回?zé)o效分?jǐn)?shù),整個長尾區(qū)域的數(shù)據(jù)都失去了打分信號。而MIRA在不同長度的數(shù)據(jù)上保持了相對穩(wěn)定的打分行為,既不過度青睞短文本,也不在長文本上出現(xiàn)系統(tǒng)性崩潰。
**八、分析揭示:評委的眼光真的"因地制宜"了嗎?**
除了主實(shí)驗(yàn)結(jié)果,研究團(tuán)隊(duì)還做了幾組分析來驗(yàn)證MIRA核心設(shè)計(jì)的有效性。
為了檢驗(yàn)"各組數(shù)據(jù)的評分維度真的不同"這一核心假設(shè),研究團(tuán)隊(duì)對MIRA在所有21個數(shù)據(jù)來源上發(fā)現(xiàn)的錨定維度進(jìn)行了嵌入可視化。他們從問答類、文本類、代理類三大格式中各采樣3000個維度描述,總計(jì)9000個數(shù)據(jù)點(diǎn),用t-SNE降維后畫出二維分布圖。結(jié)果發(fā)現(xiàn),三類格式的維度分布占據(jù)了圖上明顯不同的三個區(qū)域,互不重疊。這意味著MIRA針對不同格式數(shù)據(jù)確實(shí)發(fā)現(xiàn)了本質(zhì)上不同的質(zhì)量判斷視角,而不是換了個說法的同一套標(biāo)準(zhǔn)。
更有意思的一個對比是:研究團(tuán)隊(duì)把DataMan使用的14個通用質(zhì)量維度也用相同的編碼方式映射到同一張圖上。結(jié)果顯示,DataMan的14個維度全部落在MIRA維度空間的內(nèi)部,其中13個在MIRA的95百分位最近鄰距離內(nèi),5個甚至在MIRA的中位數(shù)距離內(nèi)。換句話說,MIRA發(fā)現(xiàn)的維度空間完整覆蓋了DataMan的通用維度,同時還擴(kuò)展到了DataMan從未觸及的區(qū)域。MIRA沒有丟失通用質(zhì)量標(biāo)準(zhǔn),而是在通用標(biāo)準(zhǔn)的基礎(chǔ)上生長出了來源特異性的分支。
可靠性分析也帶來了一些直觀的發(fā)現(xiàn)。論文中展示了代理類、問答類、文本類三個學(xué)生模型的雷達(dá)圖,每個維度的"臂"代表該維度的教師-學(xué)生平均絕對誤差。三張圖呈現(xiàn)出完全不同的輪廓,有些維度所有模型都表現(xiàn)穩(wěn)定,有些則在特定模型上出現(xiàn)了異常突出的高誤差尖刺。被可靠性掩碼屏蔽的單元格恰好集中在這些尖刺周圍,而不是均勻分布,說明不可靠性是稀疏且維度特異的,而不是某個模型整體性地表現(xiàn)差。
論文還通過案例研究具體展示了MIRA在代理數(shù)據(jù)上的評分邏輯。在工具調(diào)用軌跡中,高分樣本的共同特征是:工具調(diào)用時傳遞的JSON格式是合法的,遇到工具返回錯誤時能識別錯誤并調(diào)整下一步行動。低分樣本的常見問題則是:把多個JSON對象拼接成一個無效的參數(shù)字段(形式上看起來是在"調(diào)用工具",但實(shí)際上工具根本無法解析這個調(diào)用),以及收到錯誤反饋后仍然重復(fù)發(fā)出同樣的無效調(diào)用。這兩類問題都是"看起來流暢"但"實(shí)際上廢物"的數(shù)據(jù),純粹的文本流暢度評分無法識別這類缺陷,而MIRA的代理專屬評分維度(包含工具調(diào)用結(jié)構(gòu)有效性和錯誤恢復(fù)能力)能準(zhǔn)確捕捉到。
**說到底,這項(xiàng)研究告訴了我們什么**
歸根結(jié)底,MIRA解決的是一個"用一把尺子量萬物"的根本性問題。AI大模型訓(xùn)練數(shù)據(jù)多種多樣,強(qiáng)行用統(tǒng)一標(biāo)準(zhǔn)評判,要么過于粗糙導(dǎo)致信號失真,要么無法擴(kuò)展到海量數(shù)據(jù)。MIRA的回答是:先讓頂級裁判對每類數(shù)據(jù)"自由訴說"它真正關(guān)心的質(zhì)量維度,再從這些訴說中提煉出每類數(shù)據(jù)專屬的評分框架,最后用"廉價(jià)替代"做大規(guī)模執(zhí)行。
這對實(shí)際的AI開發(fā)工作有直接的意義:同樣的訓(xùn)練算力,MIRA篩選出的數(shù)據(jù)能讓模型學(xué)得更多、更準(zhǔn)、能力覆蓋更廣。實(shí)驗(yàn)中"250億token超越500億token"的結(jié)果,直接意味著訓(xùn)練成本減半、效果不降。對于當(dāng)前AI訓(xùn)練動輒消耗數(shù)千萬度電的現(xiàn)實(shí)而言,這種效率提升并非小事。
當(dāng)然,研究團(tuán)隊(duì)也坦誠地指出了局限所在:MIRA專注于數(shù)據(jù)篩選這一環(huán)節(jié),而如何確定不同數(shù)據(jù)類型的混合比例、如何安排訓(xùn)練課程表、如何處理數(shù)據(jù)去重和數(shù)據(jù)污染,這些問題依然是需要單獨(dú)解決的開放問題。MIRA不是萬能的,它是這個復(fù)雜流水線中的一個精心設(shè)計(jì)的關(guān)鍵零件。
對于更廣泛的讀者來說,這項(xiàng)研究提出了一個值得持續(xù)思考的問題:當(dāng)我們評價(jià)事物質(zhì)量時,是否應(yīng)該先問問"用什么標(biāo)準(zhǔn)評價(jià)這類事物才是合適的",而不是直接抄來一套現(xiàn)成框架套用?這種"先發(fā)現(xiàn)評判標(biāo)準(zhǔn),再評判"的思路,或許在遠(yuǎn)超AI訓(xùn)練的很多領(lǐng)域都有它的用武之地。有興趣深入了解的讀者,可以通過arXiv編號2605.30288查閱完整論文。
Q&A
Q1:MIRA框架和普通數(shù)據(jù)篩選方法有什么本質(zhì)區(qū)別?
A:普通方法用一套固定標(biāo)準(zhǔn)評判所有數(shù)據(jù),而MIRA的核心思路是先讓頂級AI模型對每類數(shù)據(jù)"自由評價(jià)",自動發(fā)現(xiàn)每類數(shù)據(jù)真正適用的質(zhì)量維度,再用這些來源專屬的標(biāo)準(zhǔn)打分。簡單說,就是"給每類數(shù)據(jù)配專屬評委",而不是用萬能裁判一刀切。
Q2:MIRA訓(xùn)練出來的學(xué)生打分模型可靠嗎?
A:研究團(tuán)隊(duì)專門設(shè)計(jì)了"可靠性掩碼"機(jī)制來保證這一點(diǎn)。他們在驗(yàn)證集上檢測每個(數(shù)據(jù)來源,評分維度)組合的教師-學(xué)生分?jǐn)?shù)一致性,把誤差超過閾值的組合直接屏蔽,不讓它影響最終評分。實(shí)驗(yàn)顯示,被屏蔽的組合只占全部組合的約12%,且集中在幾個有規(guī)律可循的薄弱環(huán)節(jié),不影響整體評分質(zhì)量。
Q3:中間訓(xùn)練對普通用戶使用的AI產(chǎn)品有什么影響?
A:中間訓(xùn)練直接決定了AI助手在特定任務(wù)上的能力深度。中間訓(xùn)練做得好,AI寫代碼、做數(shù)學(xué)推理、使用工具完成復(fù)雜任務(wù)的能力都會更強(qiáng)、更可靠。MIRA這類高效篩選方法讓開發(fā)者能用更少的計(jì)算資源達(dá)到更好的訓(xùn)練效果,從而加快高質(zhì)量AI產(chǎn)品的迭代速度,最終讓用戶更早用到能力更強(qiáng)的AI工具。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.