網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Meta AI教小模型"偷師"頂級(jí)AI：不看答案也能學(xué)會(huì)解題全新蒸餾法

2026-06-09 21:35:25　來源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由Meta AI研究團(tuán)隊(duì)完成的研究發(fā)表于2026年5月31日，論文預(yù)印本編號(hào)為arXiv:2606.01476v1，有興趣深入了解的讀者可通過該編號(hào)在arXiv平臺(tái)查詢完整論文。

**一個(gè)關(guān)于"拜師學(xué)藝"的難題**

教一個(gè)小徒弟學(xué)廚藝，最直接的方法是讓他站在大廚旁邊，大廚每切一刀，徒弟就照著切一刀。問題是，大廚用的是進(jìn)口菜刀，徒弟手里只有一把普通的家用刀，兩把刀的手感、重量、角度完全不同——大廚的每個(gè)動(dòng)作，徒弟根本照搬不來。更麻煩的是，如今最厲害的大廚都在米其林餐廳里，根本不讓外人進(jìn)廚房觀摩，只能通過外賣窗口告訴你"這道菜好不好吃"，絕不讓你看他們?cè)趺醋龅摹?/p>

這個(gè)困境，正是當(dāng)前人工智能領(lǐng)域里一個(gè)真實(shí)存在的核心問題。在AI的世界里，"大廚"是GPT、Claude、Gemini這類頂級(jí)大模型，"小徒弟"是各種規(guī)模較小、可以在普通設(shè)備上運(yùn)行的開源模型。研究人員一直在努力讓小模型向大模型"學(xué)習(xí)"，但方式始終受限。Meta AI的研究團(tuán)隊(duì)提出了一套全新的方案，叫做OmniOPD，它的核心突破在于：小模型學(xué)習(xí)大模型，不再需要窺探大模型內(nèi)部的"秘密賬本"，只需要觀察大模型做出來的"成品菜"，就能判斷自己的方向?qū)Σ粚?duì)。

**一、學(xué)徒的三種困境：為什么"拜師"這么難**

要理解OmniOPD解決了什么問題，先得搞清楚AI領(lǐng)域里"拜師學(xué)藝"（知識(shí)蒸餾）這件事為什么那么難。

最古老的方法叫做監(jiān)督微調(diào)（SFT），通俗地說，就是讓大模型先把解題過程寫下來，然后小模型照著抄。這就像是大廚事先把菜譜寫好，徒弟對(duì)著菜譜練習(xí)。這種方法簡單直接，但有一個(gè)根本缺陷：菜譜是大廚在自己的狀態(tài)下寫的，徒弟練習(xí)時(shí)會(huì)遇到各種書上沒寫到的情況，一旦遇到陌生場景，徒弟就手足無措了。專業(yè)術(shù)語叫做"分布偏移"，就是訓(xùn)練時(shí)的情況和實(shí)際使用時(shí)的情況不一樣，導(dǎo)致模型表現(xiàn)變差。

為了解決這個(gè)問題，研究人員發(fā)明了"在線策略蒸餾"（OPD）。這種方法讓小模型先自己嘗試解題，生成自己的解題過程，然后請(qǐng)大模型來評(píng)價(jià)——大模型會(huì)在每個(gè)關(guān)鍵步驟上給出詳細(xì)的反饋，告訴小模型"這里你應(yīng)該往左走，不應(yīng)該往右走"。這種方式好比讓徒弟先自己做一道菜，然后大廚站在旁邊一個(gè)動(dòng)作一個(gè)動(dòng)作地點(diǎn)評(píng)。這種方法兼具了"自己練習(xí)"和"密集反饋"的優(yōu)點(diǎn)，理論上非常完美。

然而，這套方法有兩個(gè)相互纏繞的致命弱點(diǎn)。第一個(gè)弱點(diǎn)是訪問限制：標(biāo)準(zhǔn)的在線策略蒸餾需要讀取大模型內(nèi)部對(duì)每一個(gè)詞的概率分布——也就是大模型"心里的想法"，而不僅僅是它最終說出來的話。Claude、GPT、Gemini這些頂級(jí)商業(yè)模型根本不對(duì)外提供這種內(nèi)部數(shù)據(jù)，它們只會(huì)告訴你生成的文字結(jié)果。這就好比你只能通過外賣窗口收菜，永遠(yuǎn)看不到大廚的操作過程。結(jié)果就是，最強(qiáng)的"大廚"全部被排除在教學(xué)系統(tǒng)之外，小模型只能跟著稍微厲害一點(diǎn)的開源模型學(xué)。

第二個(gè)弱點(diǎn)更隱蔽：即使你能拿到大模型的內(nèi)部概率數(shù)據(jù)，這個(gè)數(shù)據(jù)本身也非常脆弱、不可靠。麻省理工學(xué)院、卡內(nèi)基梅隆大學(xué)等機(jī)構(gòu)的研究發(fā)現(xiàn)，大模型和小模型在生成文本時(shí)，有時(shí)候思路差異很大，就像一個(gè)擅長用法語思維解題的大廚，和一個(gè)習(xí)慣用中文思維的徒弟——即使最終答案相同，中間過程的詞匯選擇可能千差萬別，彼此的"詞匯重疊區(qū)"非常窄。真正有用的學(xué)習(xí)信號(hào)，就集中在這個(gè)非常狹窄的重疊區(qū)里，一旦大模型和小模型的風(fēng)格差異較大，這個(gè)區(qū)域就幾乎消失了。更糟糕的是，當(dāng)小模型陷入"重復(fù)循環(huán)"（比如反復(fù)說同一句話）這類退化狀態(tài)時(shí)，大模型反而會(huì)給這些重復(fù)的詞語打出很高的分?jǐn)?shù)，因?yàn)橹貜?fù)的詞在局部上看起來"非常符合預(yù)期"，結(jié)果反而強(qiáng)化了小模型的壞習(xí)慣。不同模型家族之間的詞匯表差異，也會(huì)讓這種信號(hào)變得充滿噪音。

歸根結(jié)底，按詞語概率逐詞匹配，這個(gè)信號(hào)的"信息密度"雖然高，但真正有用的部分極少，噪音和干擾卻極多。

**二、OmniOPD的核心思路：從"逐字抄寫"到"核對(duì)成品"**

面對(duì)以上困境，Meta AI的研究團(tuán)隊(duì)問了一個(gè)很根本的問題：我們能不能完全不看大模型內(nèi)部的概率數(shù)據(jù)，只通過觀察它輸出的文字，就建立起一套密集、有效的學(xué)習(xí)信號(hào)？

答案是肯定的，而且效果出人意料地好。OmniOPD的基本思路，可以用一個(gè)更貼切的比喻來理解：不再是讓徒弟逐字照著大廚的菜譜抄，而是讓大廚做出幾道菜來，然后看看徒弟自己做的菜和大廚的菜在口感、成分上有多相似。如果徒弟做的菜和大廚的菜差不多，就說明徒弟這一步走對(duì)了；如果差很多，就說明徒弟需要在這里調(diào)整。

這套方案由三個(gè)相互配合的機(jī)制組成，共同構(gòu)成了OmniOPD的完整框架。

**三、峰值熵調(diào)度：只在"關(guān)鍵路口"請(qǐng)大廚來點(diǎn)評(píng)**

第一個(gè)機(jī)制解決的是"在哪里請(qǐng)大廚點(diǎn)評(píng)"的問題。

一道復(fù)雜的菜有很多步驟。切蔥花、放鹽、翻炒這些步驟幾乎是機(jī)械性的，不需要專家指導(dǎo)；但"火候該不該降低""是否該加醬油"這些關(guān)鍵決策點(diǎn)，才是需要大廚出手的地方。如果大廚要對(duì)每一個(gè)細(xì)枝末節(jié)都給出意見，成本高得離譜，而且大部分意見都是"這步做得對(duì)，繼續(xù)"，沒什么信息量。

OmniOPD的"峰值熵調(diào)度"機(jī)制，就是專門找出解題過程中的"關(guān)鍵路口"。技術(shù)上，它通過計(jì)算小模型在生成每個(gè)詞時(shí)的"熵"來衡量不確定程度——熵越高，說明小模型越拿不定主意，這個(gè)位置越值得請(qǐng)大模型來評(píng)判。低熵的地方，比如寫下"因?yàn)?、"所以"這類過渡詞，小模型基本上不會(huì)犯錯(cuò)，不需要浪費(fèi)寶貴的評(píng)判預(yù)算。高熵的地方，比如需要決定用哪個(gè)定理、是否切換解題策略，才是最需要大模型指導(dǎo)的關(guān)鍵時(shí)刻。

系統(tǒng)會(huì)從整條解題軌跡里，挑出M個(gè)熵值最高的位置，以這些位置為中心，截取一段連續(xù)的文字塊（論文中稱為"chunk"，默認(rèn)長度是50個(gè)詞），送給大模型去評(píng)判。這種方法把有限的"請(qǐng)教大廚"預(yù)算，全部集中在了最有價(jià)值的決策點(diǎn)上。

**四、蒙特卡洛投票：用多份"成品"估算大模型的偏好**

第二個(gè)機(jī)制解決的是"如何在不看內(nèi)部數(shù)據(jù)的情況下，量化大模型的偏好"這個(gè)核心難題。

具體做法是這樣的：對(duì)于小模型生成的每一個(gè)文字塊，系統(tǒng)把這段文字之前的所有內(nèi)容（也就是"前綴"，相當(dāng)于解題背景和已完成的步驟）發(fā)送給大模型，然后請(qǐng)大模型獨(dú)立生成N份"后續(xù)"（論文默認(rèn)是10份）。這N份后續(xù)，就是大模型在同樣背景下認(rèn)為應(yīng)該怎么走的N種可能。

然后，系統(tǒng)把小模型自己生成的那段文字，和大模型生成的N份文字逐一比較，用一個(gè)語義相似度指標(biāo)來打分（比如ROUGE-1，就是看兩段文字共同用了多少相同的詞）。如果小模型的文字和大模型的大多數(shù)版本都很像，說明小模型這一步走對(duì)了，得分高；如果差異很大，說明小模型走偏了，得分低。

這個(gè)設(shè)計(jì)的聰明之處在于，它把"逐詞概率匹配"變成了"多段文字的語義投票"。大模型不需要透露任何內(nèi)部數(shù)據(jù)，只需要生成文字就行——這正是Claude、GPT這類黑盒模型唯一愿意提供的東西。同時(shí)，通過把比較單位從單個(gè)詞擴(kuò)展到50個(gè)詞的文字塊，就算大模型和小模型用詞習(xí)慣不同，語義層面的相似性依然能被可靠地捕捉到。一個(gè)詞匯選擇上的偏差，不會(huì)毀掉整個(gè)評(píng)分，因?yàn)?0個(gè)詞的整體語義是足夠魯棒的。

**五、貝葉斯平滑：防止"學(xué)不到東西"的數(shù)學(xué)安全網(wǎng)**

第三個(gè)機(jī)制解決的是統(tǒng)計(jì)穩(wěn)定性問題。

用10份樣本來估計(jì)大模型的偏好，本質(zhì)上是一種抽樣統(tǒng)計(jì)，存在相當(dāng)大的隨機(jī)誤差。更麻煩的是，有時(shí)候大模型生成的10份文字，和小模型生成的那段文字在語義上完全不同——得分全為零。在數(shù)學(xué)上，這會(huì)導(dǎo)致梯度歸零，小模型在這個(gè)位置學(xué)不到任何東西，盡管這恰恰是最需要學(xué)習(xí)的地方。

貝葉斯平滑機(jī)制就是用來解決這個(gè)問題的。它的做法相當(dāng)直觀：不直接用10份樣本的原始得分，而是把這個(gè)得分和小模型自身的"先驗(yàn)信心"做一個(gè)加權(quán)平均。小模型對(duì)自己生成的這段文字，本身就有一個(gè)概率估計(jì)——這個(gè)估計(jì)也許不準(zhǔn)確，但它永遠(yuǎn)不會(huì)是零。把這個(gè)非零的先驗(yàn)信心作為"保底"，就確保了每個(gè)位置的學(xué)習(xí)信號(hào)永遠(yuǎn)不會(huì)徹底消失。

用論文中的公式表達(dá)，最終的"老師信號(hào)"等于（實(shí)際得分 × N + 先驗(yàn)信心 × α）÷（N + α），其中α是控制先驗(yàn)信心權(quán)重的參數(shù)。當(dāng)α很小時(shí)，以實(shí)際觀測(cè)為主；當(dāng)α很大時(shí)，以小模型自身的先驗(yàn)為主。論文實(shí)驗(yàn)發(fā)現(xiàn)α=1.0時(shí)效果最好，過大或過小都會(huì)導(dǎo)致性能下降。從理論上，論文嚴(yán)格證明了這個(gè)貝葉斯估計(jì)量的均方誤差上界，以及它相比直接用樣本均值的方差壓縮幅度，確保了梯度信號(hào)的數(shù)學(xué)穩(wěn)定性。

**六、信任區(qū)域錨定：防止小模型在"沒人管"的地方亂走**

OmniOPD只在M個(gè)關(guān)鍵位置（乘以每塊50個(gè)詞）進(jìn)行評(píng)判，其余大量的詞匯是處于"無監(jiān)督"狀態(tài)的。這就帶來了一個(gè)風(fēng)險(xiǎn)：小模型可能會(huì)在沒人看的地方"偷懶"，生成一堆毫無意義的文字，或者為了逃避懲罰而故意縮短解題過程。

為了防止這種情況，OmniOPD對(duì)所有未被評(píng)判的詞匯，施加了一個(gè)額外的約束：要求小模型在這些位置的輸出，不能和訓(xùn)練前的原始版本偏離太多（技術(shù)上叫做KL散度懲罰，參數(shù)為β=0.1）。這就相當(dāng)于在沒有大廚點(diǎn)評(píng)的步驟里，有一個(gè)"規(guī)范手冊(cè)"約束徒弟不能偏離基本操作太遠(yuǎn)。論文用皮斯克不等式嚴(yán)格證明了這個(gè)約束能把未監(jiān)督區(qū)域的"政策漂移"控制在一個(gè)有界的范圍內(nèi)，并且當(dāng)β趨向無窮大時(shí)，未監(jiān)督區(qū)域的行為會(huì)完全收斂到初始策略。從消融實(shí)驗(yàn)來看，去掉這個(gè)約束會(huì)導(dǎo)致性能從69.08%災(zāi)難性崩潰到8.28%，這足以說明它的重要性。

**七、理論保證：從數(shù)學(xué)上確認(rèn)每個(gè)設(shè)計(jì)的必要性**

OmniOPD不只是工程上的拼湊，研究團(tuán)隊(duì)為每個(gè)設(shè)計(jì)機(jī)制提供了嚴(yán)格的數(shù)學(xué)證明，這在AI工程論文里并不多見。

關(guān)于梯度穩(wěn)定性，論文證明了：在OmniOPD的分塊損失設(shè)計(jì)下，每一塊的梯度范數(shù)上界由小模型自身的"得分函數(shù)"控制，無論大模型給出什么樣的估計(jì)值（哪怕是0或1），梯度都不會(huì)爆炸。相比之下，標(biāo)準(zhǔn)在線策略蒸餾的反向KL散度目標(biāo)函數(shù)，當(dāng)大模型對(duì)某個(gè)詞的概率趨向零時(shí)，梯度會(huì)趨向無窮大，這正是實(shí)踐中觀察到的訓(xùn)練不穩(wěn)定的數(shù)學(xué)根源。

關(guān)于估計(jì)量收斂，論文用霍夫丁不等式證明了，貝葉斯估計(jì)量以次高斯速率收斂到真實(shí)期望值，誤差隨樣本量N以O(shè)(1/N)的速度縮小。這意味著N=10就能提供可靠的信號(hào)，繼續(xù)增加N的邊際收益快速遞減——這也解釋了為什么實(shí)驗(yàn)中N從10增加到20，性能幾乎沒有變化。

關(guān)于詞匯和風(fēng)格不變性，論文證明了一個(gè)非常優(yōu)雅的性質(zhì)：只要兩組大模型輸出在語義相似度函數(shù)φ下被判定為等價(jià)（即對(duì)同一段小模型輸出給出相同的相似度分?jǐn)?shù)），那么貝葉斯估計(jì)量和最終的損失函數(shù)就完全相同——無論這兩組輸出的具體詞匯選擇有多大差異。這意味著OmniOPD天然地對(duì)詞匯表差異、標(biāo)記化差異、風(fēng)格差異全部免疫。相比之下，標(biāo)準(zhǔn)在線策略蒸餾的損失函數(shù)對(duì)詞匯概率的每一個(gè)細(xì)節(jié)都敏感，無法區(qū)分"語義等價(jià)但措辭不同"和"語義完全不同"這兩種情況。

**八、實(shí)驗(yàn)結(jié)果：數(shù)字背后的故事**

研究團(tuán)隊(duì)在數(shù)學(xué)推理和編程競賽兩個(gè)方向上，進(jìn)行了大量嚴(yán)格的對(duì)比實(shí)驗(yàn)，測(cè)試的模型組合涵蓋了開源模型和商業(yè)黑盒模型。

在數(shù)學(xué)推理方面，以Qwen3-4B作為學(xué)生模型，Qwen3-32B作為老師模型，OmniOPD取得了69.08%的平均準(zhǔn)確率。相比直接讓小模型自己練習(xí)（基礎(chǔ)推理，54.01%），提升了15.07個(gè)百分點(diǎn)。相比用大模型的軌跡做離線監(jiān)督微調(diào)（63.80%），提升了5.28個(gè)百分點(diǎn)。最令人意外的是，與需要完整訪問大模型內(nèi)部概率的標(biāo)準(zhǔn)在線策略蒸餾（64.16%）相比，OmniOPD在完全不看內(nèi)部數(shù)據(jù)的情況下還高出了約5個(gè)百分點(diǎn)。這證明了一個(gè)反直覺的結(jié)論：更粗粒度但更干凈的語義信號(hào)，有時(shí)候比信息密度極高但噪音極多的詞級(jí)概率信號(hào)更有效。

當(dāng)老師模型換成更激進(jìn)的Qwen3-30B-A3B-Instruct（一個(gè)經(jīng)過大量對(duì)齊訓(xùn)練、風(fēng)格和基礎(chǔ)模型差異很大的instruct版本）時(shí)，差距進(jìn)一步拉大：標(biāo)準(zhǔn)在線策略蒸餾只能達(dá)到56.22%，而OmniOPD達(dá)到了72.32%，差距高達(dá)約16個(gè)百分點(diǎn)。這與理論預(yù)測(cè)完全吻合——老師模型和學(xué)生模型的風(fēng)格差異越大，標(biāo)準(zhǔn)方法的詞級(jí)匹配就越脆弱，OmniOPD的語義不變性優(yōu)勢(shì)就越明顯。

當(dāng)老師換成商業(yè)黑盒模型時(shí)，OmniOPD的優(yōu)勢(shì)更加顯著。使用Claude-4.5-Haiku作為老師，OmniOPD達(dá)到74.92%，比同一老師的離線微調(diào)基線（67.52%）高出7.40個(gè)百分點(diǎn)；使用Gemini-2.5-Flash作為老師，達(dá)到75.67%，比對(duì)應(yīng)基線（73.51%）高出2.16個(gè)百分點(diǎn)。這兩個(gè)成績都超過了自我探索式強(qiáng)化學(xué)習(xí)（GRPO）在4B模型上的天花板（70.24%），證明OmniOPD能夠幫助小模型從商業(yè)大模型那里學(xué)到比自我摸索更多的東西。

在編程競賽方面，情況有所不同。OmniOPD在1.7B學(xué)生模型上超過了標(biāo)準(zhǔn)在線策略蒸餾（47.93% vs 47.06%），但在4B學(xué)生模型上略微落后（63.78% vs 65.26%）。研究團(tuán)隊(duì)分析認(rèn)為，代碼的語法剛性比數(shù)學(xué)推理文字更高，同一段代碼邏輯幾乎沒有同義改寫的空間，因此詞級(jí)精確匹配在代碼領(lǐng)域比在數(shù)學(xué)推理領(lǐng)域更有價(jià)值，語義相似度的優(yōu)勢(shì)相對(duì)減小。

**九、超參數(shù)的精細(xì)調(diào)校：每個(gè)旋鈕的作用**

研究團(tuán)隊(duì)對(duì)OmniOPD的各個(gè)參數(shù)進(jìn)行了系統(tǒng)性的敏感度分析，這些分析揭示了每個(gè)設(shè)計(jì)選擇背后的工作機(jī)制。

文字塊大小（C）是影響最大的參數(shù)。把C從默認(rèn)的50個(gè)詞擴(kuò)大到100個(gè)詞，性能從69.08%提升到71.58%，說明更大的上下文窗口讓語義相似度估計(jì)更加可靠。把C縮小到25個(gè)詞，性能從69.08%斷崖式下跌到24.48%，原因很直接：25個(gè)詞不夠包含一個(gè)完整的邏輯步驟，語義相似度函數(shù)變成了在懲罰措辭差異而不是驗(yàn)證推理方向。

監(jiān)控塊數(shù)量（M）影響監(jiān)督密度。把M從10增加到20，性能小幅提升到70.96%；把M從10減少到5，性能只下降了0.7個(gè)百分點(diǎn)（從69.08%到68.38%）。這個(gè)結(jié)果很有力地驗(yàn)證了峰值熵調(diào)度的有效性：即使監(jiān)控點(diǎn)減半，因?yàn)槊總€(gè)監(jiān)控點(diǎn)都精準(zhǔn)命中了最高不確定性的位置，學(xué)習(xí)信號(hào)依然高度有效。同時(shí)，M=5的配置對(duì)應(yīng)的老師推理成本只有離線監(jiān)督微調(diào)的0.88倍，也就是說OmniOPD在預(yù)算更低的情況下，保留了99%的性能。

蒙特卡洛采樣數(shù)量（N）的影響呈現(xiàn)出明顯的邊際遞減。N從10增加到20，在C=50的情況下只帶來0.49%的提升，而成本翻倍。在C=100的最優(yōu)配置下，N從10增加到20甚至略有下降。這與理論預(yù)測(cè)完全一致：估計(jì)精度以O(shè)(1/N)的速度提升，N=10已經(jīng)處于收益-成本曲線的拐點(diǎn)附近。

語義相似度指標(biāo)（φ）的選擇對(duì)結(jié)果影響不大，但存在規(guī)律性：當(dāng)學(xué)生和老師能力差距很大（32B教1.7B）時(shí)，ROUGE-1這種詞級(jí)重疊指標(biāo)表現(xiàn)更好，因?yàn)樗鼘?duì)措辭差異更寬容；當(dāng)老師本身經(jīng)過高度對(duì)齊訓(xùn)練、風(fēng)格更統(tǒng)一時(shí)，編輯距離這種結(jié)構(gòu)相似度指標(biāo)表現(xiàn)略好。整體來看，兩種指標(biāo)的差距在不同設(shè)置下不超過2個(gè)百分點(diǎn)，說明OmniOPD對(duì)指標(biāo)選擇具有相當(dāng)?shù)聂敯粜浴?/p>

**十、訓(xùn)練過程的內(nèi)部圖景：從混亂到穩(wěn)定**

除了最終性能數(shù)字，研究團(tuán)隊(duì)還記錄了訓(xùn)練過程中的三條關(guān)鍵曲線：在線策略損失、參考KL散度、以及AIME-2025競賽數(shù)學(xué)題的動(dòng)態(tài)準(zhǔn)確率。

使用Qwen3-32B作為老師時(shí)，損失值在前100步從約0.33快速下降到約0.24，然后趨于平穩(wěn)，全程沒有出現(xiàn)任何震蕩或爆炸。使用Gemini-2.5-Flash作為老師時(shí)，僅用30步就達(dá)到了相似的穩(wěn)定水平，這和黑盒老師的信號(hào)質(zhì)量更高有直接關(guān)系。

KL散度（小模型當(dāng)前版本與初始版本之間的差異）先升后穩(wěn)，在達(dá)到峰值后安全地保持平臺(tái)狀態(tài)，而不是繼續(xù)無限增大。這正是信任區(qū)域約束在起作用的直接體現(xiàn)，與第三個(gè)理論定理的預(yù)測(cè)完全吻合。在整個(gè)訓(xùn)練過程中，AIME-2025準(zhǔn)確率持續(xù)爬升：Qwen3-32B老師下從不到30%最終超過50%；Gemini-2.5-Flash老師在僅50步的嚴(yán)格預(yù)算下，從23%爬升到接近47%。

**歸根結(jié)底，OmniOPD證明的是什么**

說到底，OmniOPD告訴我們一件很有意思的事：在AI學(xué)習(xí)的世界里，"信息量大"不等于"有用信息多"。逐詞概率分布是信息密度極高的信號(hào)，但它同時(shí)也是噪聲密度極高的信號(hào)，對(duì)模型風(fēng)格差異和詞匯差異高度敏感，在稍微復(fù)雜一點(diǎn)的條件下就會(huì)失靈。相比之下，把整段文字拿來做語義比較，雖然粒度粗了很多，但恰恰因?yàn)樗鼘?duì)表面形式不敏感，學(xué)到的是更本質(zhì)的推理方向，梯度信號(hào)更干凈，訓(xùn)練更穩(wěn)定，最終效果反而更好。

這對(duì)AI領(lǐng)域的實(shí)踐意義是相當(dāng)直接的：未來的AI能力傳遞，不再需要強(qiáng)制要求頂級(jí)商業(yè)模型開放內(nèi)部數(shù)據(jù)。通過文字層面的語義驗(yàn)證，小模型同樣可以從Claude、GPT、Gemini這些通常只對(duì)外提供文字輸出的頂級(jí)模型那里，獲得真正有用的密集學(xué)習(xí)信號(hào)。這在某種程度上打破了開源社區(qū)和商業(yè)AI之間的壁壘，讓規(guī)模更小、更容易部署的模型能夠真正站在最頂尖的AI"巨人"肩膀上。

當(dāng)然，OmniOPD在代碼領(lǐng)域的表現(xiàn)提示我們，語義相似度的優(yōu)勢(shì)并不是萬能的。對(duì)于那些語法極其精確、一個(gè)字符之差就決定對(duì)錯(cuò)的任務(wù)，詞級(jí)精確匹配仍有其無可替代的價(jià)值。未來可能需要針對(duì)不同任務(wù)類型，設(shè)計(jì)不同粒度的相似度度量，找到語義靈活性和符號(hào)精確性之間更好的平衡點(diǎn)。

對(duì)于有興趣進(jìn)一步探索的讀者，可以通過arXiv編號(hào)2606.01476v1找到這篇論文的完整版本，其中包含了所有定理的完整證明、超參數(shù)分析的詳細(xì)數(shù)據(jù)，以及多個(gè)定性案例分析，展示了峰值熵調(diào)度在幾何、組合數(shù)學(xué)、代數(shù)題目中具體命中了哪些關(guān)鍵推理節(jié)點(diǎn)。

Q&A

Q1：OmniOPD為什么不需要看大模型內(nèi)部的概率數(shù)據(jù)就能學(xué)習(xí)？

A：OmniOPD采用了一種"語義投票"的方法。它讓大模型在相同背景下生成多份文字輸出，然后比較小模型的輸出和這些文字在語義上有多相似，用相似度分?jǐn)?shù)來替代內(nèi)部概率數(shù)據(jù)。因?yàn)橹恍枰竽Ｐ?說話"而不需要看它"內(nèi)心的概率賬本"，Claude、GPT等不對(duì)外開放內(nèi)部數(shù)據(jù)的商業(yè)模型就可以直接被當(dāng)作老師使用了。

Q2：OmniOPD去掉信任區(qū)域約束（KL錨定）后性能為什么會(huì)從69%崩潰到8%？

A：OmniOPD只在解題軌跡中10個(gè)關(guān)鍵位置進(jìn)行監(jiān)督，其余大量詞匯是沒人管的。去掉信任區(qū)域約束后，小模型在這些無監(jiān)督的位置可以隨意改變行為——為了讓被監(jiān)督的位置得高分，它可能在其他地方生成完全混亂的文字，導(dǎo)致整體推理能力崩潰。信任區(qū)域約束要求未監(jiān)督位置不能偏離初始模型太遠(yuǎn)，相當(dāng)于給無人看守的區(qū)域加了一個(gè)基本規(guī)范，防止"局部優(yōu)化毀掉全局"。

Q3：OmniOPD在編程任務(wù)上為什么表現(xiàn)不如在數(shù)學(xué)推理上穩(wěn)定？

A：代碼和數(shù)學(xué)推理文字的根本差異在于語義的"容忍度"。數(shù)學(xué)推理可以用不同的詞匯表達(dá)相同的邏輯，"因此"換成"所以"，效果完全一樣，語義相似度能準(zhǔn)確捕捉到這種等價(jià)性。但代碼不同，一個(gè)變量名、一個(gè)括號(hào)的位置差異，就可能讓兩段代碼的執(zhí)行結(jié)果完全不同，即使"看起來很像"的代碼實(shí)際上邏輯完全不同。語義相似度在這種場景下反而可能被表面相似性誤導(dǎo)，而逐詞匹配在代碼里比在自然語言里更有意義。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.