北航、上海交大等頂尖高校聯(lián)手攻克AI訓(xùn)練數(shù)據(jù)難題

2026-06-09 21:40:28　來源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由北京航空航天大學(xué)、上海交通大學(xué)、不列顛哥倫比亞大學(xué)、IQuest Research及瀾舟科技共同完成的研究，以預(yù)印本形式于2026年5月發(fā)布在arXiv平臺，論文編號為arXiv:2605.30288。感興趣的讀者可通過該編號查閱完整論文。

**一個繞不開的問題：喂給AI的食材，到底該怎么挑？**

要理解這項(xiàng)研究解決的問題，可以先考慮這樣一個場景：你是一位廚師，正在為一場超級重要的宴席備菜。倉庫里堆滿了食材——有新鮮蔬菜、腌制肉類、調(diào)味料包、速食半成品、甚至還有一些食譜文本和烹飪教學(xué)視頻的文字稿。你沒有時間用完所有食材，必須精挑細(xì)選，但問題是：菜式五花八門，評判蔬菜新鮮度的標(biāo)準(zhǔn)根本沒法用來判斷腌肉夠不夠入味，更沒法用來衡量食譜文字寫得好不好。

這個"挑食材"的困境，正是當(dāng)今大語言模型（AI大腦）開發(fā)者每天面臨的現(xiàn)實(shí)問題。

現(xiàn)代AI大模型的成長分三個階段。第一階段叫"預(yù)訓(xùn)練"，相當(dāng)于讓AI海量閱讀網(wǎng)上的一切文字，建立基礎(chǔ)的語言認(rèn)知。第三階段叫"后訓(xùn)練"或"指令微調(diào)"，相當(dāng)于手把手教AI怎么禮貌地回答問題、如何遵從用戶的指令。而夾在中間、越來越被重視的第二階段，就是這篇論文聚焦的"中間訓(xùn)練"（Mid-training）。

中間訓(xùn)練的任務(wù)很特別：它保留了第一階段那種大規(guī)模、海量數(shù)據(jù)的訓(xùn)練方式，但同時開始有意識地強(qiáng)化特定能力，比如寫代碼、做數(shù)學(xué)推理、理解超長文檔、使用工具完成復(fù)雜任務(wù)等。更重要的是，它使用的數(shù)據(jù)來源極其多樣——既有像網(wǎng)頁文章一樣的純文字，也有問答對、推理鏈、工具調(diào)用日志，還有多輪對話的代理操作軌跡。這就好比備菜倉庫里同時存放著生鮮、半成品和調(diào)料，評判標(biāo)準(zhǔn)怎么可能統(tǒng)一？

**一、現(xiàn)有方法為何在這個戰(zhàn)場上"水土不服"**

為了挑出高質(zhì)量的訓(xùn)練數(shù)據(jù)，研究人員此前已有兩大類工具可用。

第一類是"預(yù)訓(xùn)練派"的工具，比如用模型的困惑度（perplexity，可以理解為"模型讀到這段話時有多懵"）來評分，或者用數(shù)據(jù)重要性重采樣的方法來匹配目標(biāo)數(shù)據(jù)分布。這類工具的優(yōu)勢是快、便宜、能處理海量數(shù)據(jù)。缺點(diǎn)是它們依賴的是模型自身的統(tǒng)計(jì)感覺，并不真正理解"這道題的解法寫對了嗎"或"這個工具調(diào)用合理嗎"——它們只是在隱隱感覺哪段數(shù)據(jù)"看起來正常"。

第二類是"后訓(xùn)練派"的工具，比如人工定義質(zhì)量評判標(biāo)準(zhǔn)、用另一個AI模型當(dāng)裁判打分、或者訓(xùn)練一個專門的打分模型。這類工具語義理解能力強(qiáng)，能真正判斷內(nèi)容好不好。缺點(diǎn)是它們通常假設(shè)所有數(shù)據(jù)都遵循類似的格式，用統(tǒng)一的標(biāo)準(zhǔn)評判一切——這對中間訓(xùn)練的多樣化數(shù)據(jù)來說，就像用同一把刻度尺去量蘋果的甜度、湯的咸度和音樂的節(jié)奏感，根本驢唇不對馬嘴。

以論文中分析的一個典型例子來說：DataMan是一個廣受認(rèn)可的通用質(zhì)量打分工具，但它無法處理超長的代理操作軌跡（因?yàn)槌隽怂O(shè)計(jì)時預(yù)設(shè)的輸入長度），導(dǎo)致在需要覆蓋這類數(shù)據(jù)的場景下，這個工具直接"罷工"了。更別說，即便它能處理這些數(shù)據(jù)，它的評判維度也是為通用文本設(shè)計(jì)的，根本不知道"工具調(diào)用時JSON格式是否正確"這件事有多重要。

正是這個裂縫——要么能擴(kuò)展但語義盲目，要么語義精準(zhǔn)但無法擴(kuò)展——催生了這篇論文提出的解決方案。

**二、MIRA的核心思路：讓評委先搞清楚自己在評什么**

研究團(tuán)隊(duì)將他們的方法命名為MIRA，全稱是"中間訓(xùn)練錨定評分的數(shù)據(jù)來源感知篩選框架"。核心哲學(xué)可以用一句話概括：**評判標(biāo)準(zhǔn)本身應(yīng)該是被發(fā)現(xiàn)的，而不是被強(qiáng)加的。**

回到廚師備菜的比喻。MIRA的做法不是讓一個萬能裁判拿著同一份評分表走遍整個倉庫，而是先把倉庫里的食材按大類分組——蔬菜歸一堆、肉類歸一堆、調(diào)料歸一堆——然后針對每一組，專門找對應(yīng)的行家來定制評判維度：評蔬菜的行家會關(guān)注新鮮程度、含水量和農(nóng)藥殘留；評肉類的行家會關(guān)注腌制是否均勻、保質(zhì)期是否達(dá)標(biāo)；評調(diào)料的行家則會關(guān)注濃度和香氣。最后，再根據(jù)這些定制評分訓(xùn)練出各組專屬的"快速審核員"，讓他們以極低成本處理倉庫里的海量食材。

具體來說，MIRA的工作流程分為四大步驟，每一步都環(huán)環(huán)相扣，形成一個完整的篩選流水線。

**三、第一步：給數(shù)據(jù)"分家"，讓相似的數(shù)據(jù)坐在一起**

中間訓(xùn)練數(shù)據(jù)庫里有21個不同的數(shù)據(jù)來源，包含數(shù)學(xué)推理鏈、代碼問答對、算法文檔、工具調(diào)用日志、軟件工程修復(fù)軌跡等形形色色的內(nèi)容。MIRA做的第一件事，是用一種叫"內(nèi)容嵌入相似度"的技術(shù)——可以理解為把每份數(shù)據(jù)轉(zhuǎn)換成一個能代表其含義的數(shù)字向量，然后看哪些數(shù)據(jù)的向量靠得更近——把21個來源聚合成5個大組。

這5個大組分別是：數(shù)學(xué)推理類問答（包含5個子來源）、代碼通用類問答（包含5個子來源）、代碼文檔文本類（包含3個子來源）、工具調(diào)用代理類（包含5個子來源），以及軟件工程修復(fù)代理類（包含3個子來源）。每個組內(nèi)的數(shù)據(jù)共享相似的能力主題和數(shù)據(jù)格式，這是后續(xù)定制評判維度的基礎(chǔ)。

這種分組有個巧妙之處：它不是人工拍腦袋分的，而是讓數(shù)據(jù)的內(nèi)容本身說了算。相互靠近的數(shù)據(jù)來源被歸在一組，不管研究者最初是否預(yù)期它們屬于同一類。

**四、第二步：請"頂級裁判"自由發(fā)揮，看它真正在意什么**

完成分組之后，MIRA進(jìn)入了最關(guān)鍵也最有創(chuàng)意的一步：**讓頂級AI評委（論文中稱為"前沿教師模型"，使用的是Kimi-K2.6）自由說出它對每組數(shù)據(jù)的質(zhì)量判斷。**

怎么個"自由"法？研究團(tuán)隊(duì)從每個組里隨機(jī)抽取一批樣本，然后把這些樣本喂給Kimi-K2.6，并告訴它："你來評價(jià)這些數(shù)據(jù)，質(zhì)量好不好，好在哪里，差在哪里，你自己決定從哪些維度來看，不用參考任何預(yù)設(shè)框架。"

這個設(shè)計(jì)的精髓在于：與其讓研究者預(yù)先假設(shè)"對于代理軌跡數(shù)據(jù)，我們應(yīng)該看這五個維度"，不如直接問頂級評委："你在評價(jià)這類數(shù)據(jù)時，實(shí)際上關(guān)注的是什么？"這樣得到的評判維度，是從數(shù)據(jù)本身的特性中自然浮現(xiàn)出來的，而不是從作者的直覺中強(qiáng)加的。

Kimi-K2.6對每條樣本數(shù)據(jù)都會輸出一套自選的15個質(zhì)量維度，每個維度配有分?jǐn)?shù)（0到10分）和一句話說明理由。于是，每個數(shù)據(jù)大組就積累了大量這樣的"自由評判結(jié)果"。

接下來，研究團(tuán)隊(duì)對這些自由評判結(jié)果做了一次"歸納總結(jié)"。每個評判結(jié)果被拆解成一個個"判斷點(diǎn)"——每個判斷點(diǎn)是一對（維度名稱，評判理由）。然后，對同一組內(nèi)所有的判斷點(diǎn)做聚類分析，把意思相近的維度歸到一堆，從每堆中挑出最靠近中心、最有代表性的那個作為"錨點(diǎn)維度"。最終，每個大組都得到了15個錨點(diǎn)維度，構(gòu)成該組數(shù)據(jù)專屬的評判框架，論文稱之為"錨定評分準(zhǔn)則"（Anchor Rubric）。

這個過程有點(diǎn)像開會前先做頭腦風(fēng)暴，讓每個人自由發(fā)言，然后統(tǒng)計(jì)哪些關(guān)鍵詞被反復(fù)提到，最后提煉出幾條真正被大家認(rèn)可的核心議題。不同的是，"每個人"其實(shí)都是同一個頂級AI，而"頭腦風(fēng)暴"的對象是千萬條真實(shí)訓(xùn)練數(shù)據(jù)。

**五、第三步：用"錨定準(zhǔn)則"大批量打分，再訓(xùn)練各組專屬的"廉價(jià)替代"**

有了每個組的錨定評分準(zhǔn)則，下一步就是用它來正式給數(shù)據(jù)打分。研究團(tuán)隊(duì)再次請出Kimi-K2.6，但這次不讓它自由發(fā)揮了——它只需要按照該組的15個固定維度，對更大批量的樣本數(shù)據(jù)逐一打分并給出理由。這次打分產(chǎn)生了超過200萬條帶有結(jié)構(gòu)化評分標(biāo)簽的數(shù)據(jù)記錄。

然而，即便是超高速的前沿模型，也無法以可接受的成本對數(shù)億條訓(xùn)練數(shù)據(jù)逐一評分。這就是"學(xué)生蒸餾"（Student Distillation）這一步的用武之地。

研究團(tuán)隊(duì)將Kimi-K2.6打分的200萬條記錄（一部分用于訓(xùn)練，一部分留作驗(yàn)證）用來訓(xùn)練5個體型更小、運(yùn)行更快的專屬"學(xué)生模型"，每個大組一個學(xué)生模型。選用的學(xué)生模型基礎(chǔ)架構(gòu)是Qwen3.5-35B-A3B-Base——這是一個混合專家架構(gòu)的模型，總參數(shù)量約350億，但每次處理文本時只激活約30億個參數(shù)，因此運(yùn)行成本遠(yuǎn)低于全量激活的大模型。

訓(xùn)練完成后，這5個學(xué)生模型就能以極低成本對海量數(shù)據(jù)批量打分，輸出格式與教師模型完全一致：每條數(shù)據(jù)對應(yīng)15個維度的評分加上理由。這就是"廉價(jià)替代"的精髓——用頂級評委的標(biāo)準(zhǔn)訓(xùn)練廉價(jià)助手，讓廉價(jià)助手做重復(fù)性的大規(guī)模工作。

**六、第四步："可靠性篩查"確保打分靠譜，最后按組精準(zhǔn)留人**

完成大規(guī)模打分后，MIRA并不是簡單地把15個維度的分?jǐn)?shù)加起來平均。研究團(tuán)隊(duì)還專門設(shè)計(jì)了一道"質(zhì)量把關(guān)"機(jī)制，稱為"來源條件可靠性聚合"。

為什么需要這道關(guān)卡？因?yàn)榧幢銓W(xué)生模型訓(xùn)練得再好，也可能在某些數(shù)據(jù)來源和某些評分維度的交叉點(diǎn)上出現(xiàn)系統(tǒng)性偏差。比如，對于代碼庫修復(fù)類數(shù)據(jù)，"代碼引用準(zhǔn)確性"這個維度需要學(xué)生模型將代碼中的工具調(diào)用與實(shí)際文件系統(tǒng)狀態(tài)對應(yīng)起來，但學(xué)生模型無法看到實(shí)際的文件系統(tǒng)，因此這個維度的打分先天就不可靠。

研究團(tuán)隊(duì)的做法是：在驗(yàn)證集上計(jì)算每個（數(shù)據(jù)來源，評分維度）組合的"教師-學(xué)生分?jǐn)?shù)一致性"，用平均絕對誤差（MAE，可以理解為"學(xué)生評分與老師評分平均差了多少分"）和斯皮爾曼相關(guān)系數(shù)（衡量兩組分?jǐn)?shù)的排名是否一致）兩個指標(biāo)來衡量。如果某個組合的差異超過了閾值（論文中設(shè)定為1分，滿分10分），就把這個組合標(biāo)記為"不可靠"，在最終聚合打分時直接忽略這個維度的得分。

這里有一個巧妙的設(shè)計(jì)細(xì)節(jié)：這種屏蔽是在打分之后、聚合之前進(jìn)行的"事后處理"，而不是在讓學(xué)生模型打分時就去掉這些維度。原因是：如果在輸入給學(xué)生模型的提示詞里刪掉某個維度，會改變剩余維度的打分分布（因?yàn)槟Ｐ偷淖⒁饬蜕舷挛母兄獣l(fā)生變化），造成不可控的偏差。而在聚合階段才做屏蔽，既保證了每條數(shù)據(jù)打分時的一致性，又避免了不可靠維度污染最終結(jié)果。

在21個數(shù)據(jù)來源、每組15個維度的框架下，研究共識別出37個不可靠的（來源，維度）組合，占全部315個組合的約12%。這些被屏蔽的組合集中在幾個規(guī)律性的模式上：在數(shù)學(xué)推理類數(shù)據(jù)中，"技術(shù)精確性"這個維度在多個來源上都被標(biāo)記為不可靠；在工具調(diào)用代理類數(shù)據(jù)中，"代碼引用準(zhǔn)確性"和"錯誤恢復(fù)能力"這兩個維度是主要麻煩制造者；在文檔文本類數(shù)據(jù)中，"格式規(guī)范性"相關(guān)的維度出現(xiàn)了較高的不一致性。

完成可靠性屏蔽和分?jǐn)?shù)聚合之后，每條數(shù)據(jù)都有了一個經(jīng)過校準(zhǔn)的綜合質(zhì)量分?jǐn)?shù)。最后一步是根據(jù)這些分?jǐn)?shù)篩選出最終的訓(xùn)練數(shù)據(jù)集。MIRA在這里提供了三種不同粒度的篩選策略，對應(yīng)表格中的三個變體。

MIRA-Global是最簡單粗暴的策略：從整個打過分的語料庫里，直接選出分?jǐn)?shù)最高的前50%數(shù)據(jù)，不管數(shù)據(jù)來自哪個來源或哪個組。這種方式能選出絕對高分的數(shù)據(jù)，但容易出現(xiàn)"本來就得分偏高的組被過度代表"的問題。MIRA-Group是按能力大組分別設(shè)定篩選閾值，組內(nèi)競爭、組間配額，既保證了每個能力方向都有足夠代表，也允許高質(zhì)量來源在組內(nèi)脫穎而出。MIRA-Source則是更細(xì)粒度的策略，在每一個具體數(shù)據(jù)來源內(nèi)部分別篩選，最大程度保留來源多樣性，但當(dāng)某個來源的數(shù)據(jù)量較小或打分噪聲較大時，這種策略可能變得不穩(wěn)定。研究團(tuán)隊(duì)將MIRA-Group定為"默認(rèn)推薦"策略，認(rèn)為它在能力覆蓋和評分穩(wěn)定性之間找到了最好的平衡點(diǎn)。

**七、實(shí)驗(yàn)驗(yàn)證：在9個代碼評測上"半價(jià)完成滿價(jià)任務(wù)"**

研究團(tuán)隊(duì)選擇了代碼能力強(qiáng)化作為驗(yàn)證場景。原因很直接：代碼數(shù)據(jù)涵蓋了最典型的異構(gòu)中間訓(xùn)練數(shù)據(jù)——既有靜態(tài)的代碼文檔，也有動態(tài)的代碼問答對，還有復(fù)雜的代理工具調(diào)用軌跡，質(zhì)量判斷標(biāo)準(zhǔn)完全不同。而且代碼能力有明確可量化的評測基準(zhǔn)，便于比較。

實(shí)驗(yàn)基礎(chǔ)模型選用了Qwen2.5-Coder-14B，這是一個專門針對代碼任務(wù)的140億參數(shù)模型。所有實(shí)驗(yàn)都在Megatron-LM分布式訓(xùn)練框架下進(jìn)行，使用128K上下文長度和BF16精度。中間訓(xùn)練完成后，所有模型都經(jīng)過完全相同的"指令微調(diào)"后處理階段（使用40萬條固定的指令跟隨樣本），以確保任何性能差異都來自中間訓(xùn)練的數(shù)據(jù)篩選策略，而非后續(xù)階段的差異。

評測覆蓋4個大類、9個具體基準(zhǔn)：代碼生成類包含MBPP、MBPP+、BigCodeBench-Full、BigCodeBench-Hard和LiveCodeBench；多語言代碼生成使用Multipl-E（覆蓋8種編程語言的宏平均）；SQL執(zhí)行準(zhǔn)確性測試包含Spider和BIRD兩個基準(zhǔn)；軟件工程修復(fù)測試使用SWE-Multi。最終給出四類的宏平均分作為總體評價(jià)。

對比對象包括：完全不做中間訓(xùn)練的基礎(chǔ)模型（得分28.16，可理解為"零分起點(diǎn)"）、在基礎(chǔ)模型上直接做指令微調(diào)（得分48.60，代表"有點(diǎn)基礎(chǔ)但沒有專項(xiàng)訓(xùn)練"）、用全量50億token數(shù)據(jù)不加篩選進(jìn)行中間訓(xùn)練的Raw Mixture（得分63.83，代表"用全部食材做的宴席"），以及四種用250億token（即全量數(shù)據(jù)的一半）進(jìn)行篩選后中間訓(xùn)練的方法：隨機(jī)采樣、困惑度篩選、DSIR重要性重采樣、DataMan打分篩選。

實(shí)驗(yàn)結(jié)果非常清晰地呈現(xiàn)了三條核心規(guī)律。

MIRA-Group在宏平均分上達(dá)到64.20，是所有250億token方法中最高的，超過了隨機(jī)采樣的63.23、DataMan的63.01，大幅超過DSIR的59.55和困惑度篩選的54.73。更重要的是，64.20還略高于使用全量500億token的Raw Mixture的63.83——也就是說，用一半的數(shù)據(jù)量，MIRA-Group不僅追平了全量數(shù)據(jù)的效果，還略微超出，實(shí)現(xiàn)了"半價(jià)超越滿價(jià)"。

不同的MIRA變體在不同能力方向上各有所長。MIRA-Group在代碼生成類表現(xiàn)最好，平均得分54.53，在MBPP（88.90）、MBPP+（73.80）和BigCodeBench-Hard（33.11）上均領(lǐng)先所有方法。MIRA-Source在Multipl-E多語言評測上最強(qiáng)，得分72.84，這與其最大程度保留來源多樣性的策略高度吻合——多語言代碼數(shù)據(jù)來自多個不同子來源，MIRA-Source的精細(xì)化保護(hù)確保每種語言都有充足的高質(zhì)量代表。MIRA-Group在軟件工程修復(fù)任務(wù)（SWE-Multi）上得到36.33，超過所有其他250億token基線方法，而MIRA-Source在SQL任務(wù)上以94.38接近DSIR的最優(yōu)95.20。

相比之下，DSIR和困惑度篩選的差勁表現(xiàn)背后有一個共同的問題：這兩種方法對數(shù)據(jù)長度都有嚴(yán)重的系統(tǒng)性偏見。困惑度會對越長的文本給出越低的分?jǐn)?shù)，因?yàn)殚L文本中的每個token被模型"意外"的概率累積下來就變高了。DSIR在處理超長的代理軌跡數(shù)據(jù)時幾乎完全崩潰，因?yàn)槠鋘-gram特征無法捕捉長依賴關(guān)系。DataMan則在超出其設(shè)計(jì)長度限制的記錄上直接返回?zé)o效分?jǐn)?shù)，整個長尾區(qū)域的數(shù)據(jù)都失去了打分信號。而MIRA在不同長度的數(shù)據(jù)上保持了相對穩(wěn)定的打分行為，既不過度青睞短文本，也不在長文本上出現(xiàn)系統(tǒng)性崩潰。

**八、分析揭示：評委的眼光真的"因地制宜"了嗎？**

除了主實(shí)驗(yàn)結(jié)果，研究團(tuán)隊(duì)還做了幾組分析來驗(yàn)證MIRA核心設(shè)計(jì)的有效性。

為了檢驗(yàn)"各組數(shù)據(jù)的評分維度真的不同"這一核心假設(shè)，研究團(tuán)隊(duì)對MIRA在所有21個數(shù)據(jù)來源上發(fā)現(xiàn)的錨定維度進(jìn)行了嵌入可視化。他們從問答類、文本類、代理類三大格式中各采樣3000個維度描述，總計(jì)9000個數(shù)據(jù)點(diǎn)，用t-SNE降維后畫出二維分布圖。結(jié)果發(fā)現(xiàn)，三類格式的維度分布占據(jù)了圖上明顯不同的三個區(qū)域，互不重疊。這意味著MIRA針對不同格式數(shù)據(jù)確實(shí)發(fā)現(xiàn)了本質(zhì)上不同的質(zhì)量判斷視角，而不是換了個說法的同一套標(biāo)準(zhǔn)。

更有意思的一個對比是：研究團(tuán)隊(duì)把DataMan使用的14個通用質(zhì)量維度也用相同的編碼方式映射到同一張圖上。結(jié)果顯示，DataMan的14個維度全部落在MIRA維度空間的內(nèi)部，其中13個在MIRA的95百分位最近鄰距離內(nèi)，5個甚至在MIRA的中位數(shù)距離內(nèi)。換句話說，MIRA發(fā)現(xiàn)的維度空間完整覆蓋了DataMan的通用維度，同時還擴(kuò)展到了DataMan從未觸及的區(qū)域。MIRA沒有丟失通用質(zhì)量標(biāo)準(zhǔn)，而是在通用標(biāo)準(zhǔn)的基礎(chǔ)上生長出了來源特異性的分支。

可靠性分析也帶來了一些直觀的發(fā)現(xiàn)。論文中展示了代理類、問答類、文本類三個學(xué)生模型的雷達(dá)圖，每個維度的"臂"代表該維度的教師-學(xué)生平均絕對誤差。三張圖呈現(xiàn)出完全不同的輪廓，有些維度所有模型都表現(xiàn)穩(wěn)定，有些則在特定模型上出現(xiàn)了異常突出的高誤差尖刺。被可靠性掩碼屏蔽的單元格恰好集中在這些尖刺周圍，而不是均勻分布，說明不可靠性是稀疏且維度特異的，而不是某個模型整體性地表現(xiàn)差。

論文還通過案例研究具體展示了MIRA在代理數(shù)據(jù)上的評分邏輯。在工具調(diào)用軌跡中，高分樣本的共同特征是：工具調(diào)用時傳遞的JSON格式是合法的，遇到工具返回錯誤時能識別錯誤并調(diào)整下一步行動。低分樣本的常見問題則是：把多個JSON對象拼接成一個無效的參數(shù)字段（形式上看起來是在"調(diào)用工具"，但實(shí)際上工具根本無法解析這個調(diào)用），以及收到錯誤反饋后仍然重復(fù)發(fā)出同樣的無效調(diào)用。這兩類問題都是"看起來流暢"但"實(shí)際上廢物"的數(shù)據(jù)，純粹的文本流暢度評分無法識別這類缺陷，而MIRA的代理專屬評分維度（包含工具調(diào)用結(jié)構(gòu)有效性和錯誤恢復(fù)能力）能準(zhǔn)確捕捉到。

**說到底，這項(xiàng)研究告訴了我們什么**

歸根結(jié)底，MIRA解決的是一個"用一把尺子量萬物"的根本性問題。AI大模型訓(xùn)練數(shù)據(jù)多種多樣，強(qiáng)行用統(tǒng)一標(biāo)準(zhǔn)評判，要么過于粗糙導(dǎo)致信號失真，要么無法擴(kuò)展到海量數(shù)據(jù)。MIRA的回答是：先讓頂級裁判對每類數(shù)據(jù)"自由訴說"它真正關(guān)心的質(zhì)量維度，再從這些訴說中提煉出每類數(shù)據(jù)專屬的評分框架，最后用"廉價(jià)替代"做大規(guī)模執(zhí)行。

這對實(shí)際的AI開發(fā)工作有直接的意義：同樣的訓(xùn)練算力，MIRA篩選出的數(shù)據(jù)能讓模型學(xué)得更多、更準(zhǔn)、能力覆蓋更廣。實(shí)驗(yàn)中"250億token超越500億token"的結(jié)果，直接意味著訓(xùn)練成本減半、效果不降。對于當(dāng)前AI訓(xùn)練動輒消耗數(shù)千萬度電的現(xiàn)實(shí)而言，這種效率提升并非小事。

當(dāng)然，研究團(tuán)隊(duì)也坦誠地指出了局限所在：MIRA專注于數(shù)據(jù)篩選這一環(huán)節(jié)，而如何確定不同數(shù)據(jù)類型的混合比例、如何安排訓(xùn)練課程表、如何處理數(shù)據(jù)去重和數(shù)據(jù)污染，這些問題依然是需要單獨(dú)解決的開放問題。MIRA不是萬能的，它是這個復(fù)雜流水線中的一個精心設(shè)計(jì)的關(guān)鍵零件。

對于更廣泛的讀者來說，這項(xiàng)研究提出了一個值得持續(xù)思考的問題：當(dāng)我們評價(jià)事物質(zhì)量時，是否應(yīng)該先問問"用什么標(biāo)準(zhǔn)評價(jià)這類事物才是合適的"，而不是直接抄來一套現(xiàn)成框架套用？這種"先發(fā)現(xiàn)評判標(biāo)準(zhǔn)，再評判"的思路，或許在遠(yuǎn)超AI訓(xùn)練的很多領(lǐng)域都有它的用武之地。有興趣深入了解的讀者，可以通過arXiv編號2605.30288查閱完整論文。

Q&A

Q1：MIRA框架和普通數(shù)據(jù)篩選方法有什么本質(zhì)區(qū)別？

A：普通方法用一套固定標(biāo)準(zhǔn)評判所有數(shù)據(jù)，而MIRA的核心思路是先讓頂級AI模型對每類數(shù)據(jù)"自由評價(jià)"，自動發(fā)現(xiàn)每類數(shù)據(jù)真正適用的質(zhì)量維度，再用這些來源專屬的標(biāo)準(zhǔn)打分。簡單說，就是"給每類數(shù)據(jù)配專屬評委"，而不是用萬能裁判一刀切。

Q2：MIRA訓(xùn)練出來的學(xué)生打分模型可靠嗎？

A：研究團(tuán)隊(duì)專門設(shè)計(jì)了"可靠性掩碼"機(jī)制來保證這一點(diǎn)。他們在驗(yàn)證集上檢測每個（數(shù)據(jù)來源，評分維度）組合的教師-學(xué)生分?jǐn)?shù)一致性，把誤差超過閾值的組合直接屏蔽，不讓它影響最終評分。實(shí)驗(yàn)顯示，被屏蔽的組合只占全部組合的約12%，且集中在幾個有規(guī)律可循的薄弱環(huán)節(jié)，不影響整體評分質(zhì)量。

Q3：中間訓(xùn)練對普通用戶使用的AI產(chǎn)品有什么影響？

A：中間訓(xùn)練直接決定了AI助手在特定任務(wù)上的能力深度。中間訓(xùn)練做得好，AI寫代碼、做數(shù)學(xué)推理、使用工具完成復(fù)雜任務(wù)的能力都會更強(qiáng)、更可靠。MIRA這類高效篩選方法讓開發(fā)者能用更少的計(jì)算資源達(dá)到更好的訓(xùn)練效果，從而加快高質(zhì)量AI產(chǎn)品的迭代速度，最終讓用戶更早用到能力更強(qiáng)的AI工具。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.