无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Meta AI教小模型"偷師"頂級(jí)AI:不看答案也能學(xué)會(huì)解題全新蒸餾法

0
分享至


這項(xiàng)由Meta AI研究團(tuán)隊(duì)完成的研究發(fā)表于2026年5月31日,論文預(yù)印本編號(hào)為arXiv:2606.01476v1,有興趣深入了解的讀者可通過該編號(hào)在arXiv平臺(tái)查詢完整論文。

**一個(gè)關(guān)于"拜師學(xué)藝"的難題**

教一個(gè)小徒弟學(xué)廚藝,最直接的方法是讓他站在大廚旁邊,大廚每切一刀,徒弟就照著切一刀。問題是,大廚用的是進(jìn)口菜刀,徒弟手里只有一把普通的家用刀,兩把刀的手感、重量、角度完全不同——大廚的每個(gè)動(dòng)作,徒弟根本照搬不來。更麻煩的是,如今最厲害的大廚都在米其林餐廳里,根本不讓外人進(jìn)廚房觀摩,只能通過外賣窗口告訴你"這道菜好不好吃",絕不讓你看他們?cè)趺醋龅摹?/p>

這個(gè)困境,正是當(dāng)前人工智能領(lǐng)域里一個(gè)真實(shí)存在的核心問題。在AI的世界里,"大廚"是GPT、Claude、Gemini這類頂級(jí)大模型,"小徒弟"是各種規(guī)模較小、可以在普通設(shè)備上運(yùn)行的開源模型。研究人員一直在努力讓小模型向大模型"學(xué)習(xí)",但方式始終受限。Meta AI的研究團(tuán)隊(duì)提出了一套全新的方案,叫做OmniOPD,它的核心突破在于:小模型學(xué)習(xí)大模型,不再需要窺探大模型內(nèi)部的"秘密賬本",只需要觀察大模型做出來的"成品菜",就能判斷自己的方向?qū)Σ粚?duì)。

**一、學(xué)徒的三種困境:為什么"拜師"這么難**

要理解OmniOPD解決了什么問題,先得搞清楚AI領(lǐng)域里"拜師學(xué)藝"(知識(shí)蒸餾)這件事為什么那么難。

最古老的方法叫做監(jiān)督微調(diào)(SFT),通俗地說,就是讓大模型先把解題過程寫下來,然后小模型照著抄。這就像是大廚事先把菜譜寫好,徒弟對(duì)著菜譜練習(xí)。這種方法簡單直接,但有一個(gè)根本缺陷:菜譜是大廚在自己的狀態(tài)下寫的,徒弟練習(xí)時(shí)會(huì)遇到各種書上沒寫到的情況,一旦遇到陌生場景,徒弟就手足無措了。專業(yè)術(shù)語叫做"分布偏移",就是訓(xùn)練時(shí)的情況和實(shí)際使用時(shí)的情況不一樣,導(dǎo)致模型表現(xiàn)變差。

為了解決這個(gè)問題,研究人員發(fā)明了"在線策略蒸餾"(OPD)。這種方法讓小模型先自己嘗試解題,生成自己的解題過程,然后請(qǐng)大模型來評(píng)價(jià)——大模型會(huì)在每個(gè)關(guān)鍵步驟上給出詳細(xì)的反饋,告訴小模型"這里你應(yīng)該往左走,不應(yīng)該往右走"。這種方式好比讓徒弟先自己做一道菜,然后大廚站在旁邊一個(gè)動(dòng)作一個(gè)動(dòng)作地點(diǎn)評(píng)。這種方法兼具了"自己練習(xí)"和"密集反饋"的優(yōu)點(diǎn),理論上非常完美。

然而,這套方法有兩個(gè)相互纏繞的致命弱點(diǎn)。第一個(gè)弱點(diǎn)是訪問限制:標(biāo)準(zhǔn)的在線策略蒸餾需要讀取大模型內(nèi)部對(duì)每一個(gè)詞的概率分布——也就是大模型"心里的想法",而不僅僅是它最終說出來的話。Claude、GPT、Gemini這些頂級(jí)商業(yè)模型根本不對(duì)外提供這種內(nèi)部數(shù)據(jù),它們只會(huì)告訴你生成的文字結(jié)果。這就好比你只能通過外賣窗口收菜,永遠(yuǎn)看不到大廚的操作過程。結(jié)果就是,最強(qiáng)的"大廚"全部被排除在教學(xué)系統(tǒng)之外,小模型只能跟著稍微厲害一點(diǎn)的開源模型學(xué)。

第二個(gè)弱點(diǎn)更隱蔽:即使你能拿到大模型的內(nèi)部概率數(shù)據(jù),這個(gè)數(shù)據(jù)本身也非常脆弱、不可靠。麻省理工學(xué)院、卡內(nèi)基梅隆大學(xué)等機(jī)構(gòu)的研究發(fā)現(xiàn),大模型和小模型在生成文本時(shí),有時(shí)候思路差異很大,就像一個(gè)擅長用法語思維解題的大廚,和一個(gè)習(xí)慣用中文思維的徒弟——即使最終答案相同,中間過程的詞匯選擇可能千差萬別,彼此的"詞匯重疊區(qū)"非常窄。真正有用的學(xué)習(xí)信號(hào),就集中在這個(gè)非常狹窄的重疊區(qū)里,一旦大模型和小模型的風(fēng)格差異較大,這個(gè)區(qū)域就幾乎消失了。更糟糕的是,當(dāng)小模型陷入"重復(fù)循環(huán)"(比如反復(fù)說同一句話)這類退化狀態(tài)時(shí),大模型反而會(huì)給這些重復(fù)的詞語打出很高的分?jǐn)?shù),因?yàn)橹貜?fù)的詞在局部上看起來"非常符合預(yù)期",結(jié)果反而強(qiáng)化了小模型的壞習(xí)慣。不同模型家族之間的詞匯表差異,也會(huì)讓這種信號(hào)變得充滿噪音。

歸根結(jié)底,按詞語概率逐詞匹配,這個(gè)信號(hào)的"信息密度"雖然高,但真正有用的部分極少,噪音和干擾卻極多。

**二、OmniOPD的核心思路:從"逐字抄寫"到"核對(duì)成品"**

面對(duì)以上困境,Meta AI的研究團(tuán)隊(duì)問了一個(gè)很根本的問題:我們能不能完全不看大模型內(nèi)部的概率數(shù)據(jù),只通過觀察它輸出的文字,就建立起一套密集、有效的學(xué)習(xí)信號(hào)?

答案是肯定的,而且效果出人意料地好。OmniOPD的基本思路,可以用一個(gè)更貼切的比喻來理解:不再是讓徒弟逐字照著大廚的菜譜抄,而是讓大廚做出幾道菜來,然后看看徒弟自己做的菜和大廚的菜在口感、成分上有多相似。如果徒弟做的菜和大廚的菜差不多,就說明徒弟這一步走對(duì)了;如果差很多,就說明徒弟需要在這里調(diào)整。

這套方案由三個(gè)相互配合的機(jī)制組成,共同構(gòu)成了OmniOPD的完整框架。

**三、峰值熵調(diào)度:只在"關(guān)鍵路口"請(qǐng)大廚來點(diǎn)評(píng)**

第一個(gè)機(jī)制解決的是"在哪里請(qǐng)大廚點(diǎn)評(píng)"的問題。

一道復(fù)雜的菜有很多步驟。切蔥花、放鹽、翻炒這些步驟幾乎是機(jī)械性的,不需要專家指導(dǎo);但"火候該不該降低""是否該加醬油"這些關(guān)鍵決策點(diǎn),才是需要大廚出手的地方。如果大廚要對(duì)每一個(gè)細(xì)枝末節(jié)都給出意見,成本高得離譜,而且大部分意見都是"這步做得對(duì),繼續(xù)",沒什么信息量。

OmniOPD的"峰值熵調(diào)度"機(jī)制,就是專門找出解題過程中的"關(guān)鍵路口"。技術(shù)上,它通過計(jì)算小模型在生成每個(gè)詞時(shí)的"熵"來衡量不確定程度——熵越高,說明小模型越拿不定主意,這個(gè)位置越值得請(qǐng)大模型來評(píng)判。低熵的地方,比如寫下"因?yàn)?、"所以"這類過渡詞,小模型基本上不會(huì)犯錯(cuò),不需要浪費(fèi)寶貴的評(píng)判預(yù)算。高熵的地方,比如需要決定用哪個(gè)定理、是否切換解題策略,才是最需要大模型指導(dǎo)的關(guān)鍵時(shí)刻。

系統(tǒng)會(huì)從整條解題軌跡里,挑出M個(gè)熵值最高的位置,以這些位置為中心,截取一段連續(xù)的文字塊(論文中稱為"chunk",默認(rèn)長度是50個(gè)詞),送給大模型去評(píng)判。這種方法把有限的"請(qǐng)教大廚"預(yù)算,全部集中在了最有價(jià)值的決策點(diǎn)上。

**四、蒙特卡洛投票:用多份"成品"估算大模型的偏好**

第二個(gè)機(jī)制解決的是"如何在不看內(nèi)部數(shù)據(jù)的情況下,量化大模型的偏好"這個(gè)核心難題。

具體做法是這樣的:對(duì)于小模型生成的每一個(gè)文字塊,系統(tǒng)把這段文字之前的所有內(nèi)容(也就是"前綴",相當(dāng)于解題背景和已完成的步驟)發(fā)送給大模型,然后請(qǐng)大模型獨(dú)立生成N份"后續(xù)"(論文默認(rèn)是10份)。這N份后續(xù),就是大模型在同樣背景下認(rèn)為應(yīng)該怎么走的N種可能。

然后,系統(tǒng)把小模型自己生成的那段文字,和大模型生成的N份文字逐一比較,用一個(gè)語義相似度指標(biāo)來打分(比如ROUGE-1,就是看兩段文字共同用了多少相同的詞)。如果小模型的文字和大模型的大多數(shù)版本都很像,說明小模型這一步走對(duì)了,得分高;如果差異很大,說明小模型走偏了,得分低。

這個(gè)設(shè)計(jì)的聰明之處在于,它把"逐詞概率匹配"變成了"多段文字的語義投票"。大模型不需要透露任何內(nèi)部數(shù)據(jù),只需要生成文字就行——這正是Claude、GPT這類黑盒模型唯一愿意提供的東西。同時(shí),通過把比較單位從單個(gè)詞擴(kuò)展到50個(gè)詞的文字塊,就算大模型和小模型用詞習(xí)慣不同,語義層面的相似性依然能被可靠地捕捉到。一個(gè)詞匯選擇上的偏差,不會(huì)毀掉整個(gè)評(píng)分,因?yàn)?0個(gè)詞的整體語義是足夠魯棒的。

**五、貝葉斯平滑:防止"學(xué)不到東西"的數(shù)學(xué)安全網(wǎng)**

第三個(gè)機(jī)制解決的是統(tǒng)計(jì)穩(wěn)定性問題。

用10份樣本來估計(jì)大模型的偏好,本質(zhì)上是一種抽樣統(tǒng)計(jì),存在相當(dāng)大的隨機(jī)誤差。更麻煩的是,有時(shí)候大模型生成的10份文字,和小模型生成的那段文字在語義上完全不同——得分全為零。在數(shù)學(xué)上,這會(huì)導(dǎo)致梯度歸零,小模型在這個(gè)位置學(xué)不到任何東西,盡管這恰恰是最需要學(xué)習(xí)的地方。

貝葉斯平滑機(jī)制就是用來解決這個(gè)問題的。它的做法相當(dāng)直觀:不直接用10份樣本的原始得分,而是把這個(gè)得分和小模型自身的"先驗(yàn)信心"做一個(gè)加權(quán)平均。小模型對(duì)自己生成的這段文字,本身就有一個(gè)概率估計(jì)——這個(gè)估計(jì)也許不準(zhǔn)確,但它永遠(yuǎn)不會(huì)是零。把這個(gè)非零的先驗(yàn)信心作為"保底",就確保了每個(gè)位置的學(xué)習(xí)信號(hào)永遠(yuǎn)不會(huì)徹底消失。

用論文中的公式表達(dá),最終的"老師信號(hào)"等于(實(shí)際得分 × N + 先驗(yàn)信心 × α)÷(N + α),其中α是控制先驗(yàn)信心權(quán)重的參數(shù)。當(dāng)α很小時(shí),以實(shí)際觀測(cè)為主;當(dāng)α很大時(shí),以小模型自身的先驗(yàn)為主。論文實(shí)驗(yàn)發(fā)現(xiàn)α=1.0時(shí)效果最好,過大或過小都會(huì)導(dǎo)致性能下降。從理論上,論文嚴(yán)格證明了這個(gè)貝葉斯估計(jì)量的均方誤差上界,以及它相比直接用樣本均值的方差壓縮幅度,確保了梯度信號(hào)的數(shù)學(xué)穩(wěn)定性。

**六、信任區(qū)域錨定:防止小模型在"沒人管"的地方亂走**

OmniOPD只在M個(gè)關(guān)鍵位置(乘以每塊50個(gè)詞)進(jìn)行評(píng)判,其余大量的詞匯是處于"無監(jiān)督"狀態(tài)的。這就帶來了一個(gè)風(fēng)險(xiǎn):小模型可能會(huì)在沒人看的地方"偷懶",生成一堆毫無意義的文字,或者為了逃避懲罰而故意縮短解題過程。

為了防止這種情況,OmniOPD對(duì)所有未被評(píng)判的詞匯,施加了一個(gè)額外的約束:要求小模型在這些位置的輸出,不能和訓(xùn)練前的原始版本偏離太多(技術(shù)上叫做KL散度懲罰,參數(shù)為β=0.1)。這就相當(dāng)于在沒有大廚點(diǎn)評(píng)的步驟里,有一個(gè)"規(guī)范手冊(cè)"約束徒弟不能偏離基本操作太遠(yuǎn)。論文用皮斯克不等式嚴(yán)格證明了這個(gè)約束能把未監(jiān)督區(qū)域的"政策漂移"控制在一個(gè)有界的范圍內(nèi),并且當(dāng)β趨向無窮大時(shí),未監(jiān)督區(qū)域的行為會(huì)完全收斂到初始策略。從消融實(shí)驗(yàn)來看,去掉這個(gè)約束會(huì)導(dǎo)致性能從69.08%災(zāi)難性崩潰到8.28%,這足以說明它的重要性。

**七、理論保證:從數(shù)學(xué)上確認(rèn)每個(gè)設(shè)計(jì)的必要性**

OmniOPD不只是工程上的拼湊,研究團(tuán)隊(duì)為每個(gè)設(shè)計(jì)機(jī)制提供了嚴(yán)格的數(shù)學(xué)證明,這在AI工程論文里并不多見。

關(guān)于梯度穩(wěn)定性,論文證明了:在OmniOPD的分塊損失設(shè)計(jì)下,每一塊的梯度范數(shù)上界由小模型自身的"得分函數(shù)"控制,無論大模型給出什么樣的估計(jì)值(哪怕是0或1),梯度都不會(huì)爆炸。相比之下,標(biāo)準(zhǔn)在線策略蒸餾的反向KL散度目標(biāo)函數(shù),當(dāng)大模型對(duì)某個(gè)詞的概率趨向零時(shí),梯度會(huì)趨向無窮大,這正是實(shí)踐中觀察到的訓(xùn)練不穩(wěn)定的數(shù)學(xué)根源。

關(guān)于估計(jì)量收斂,論文用霍夫丁不等式證明了,貝葉斯估計(jì)量以次高斯速率收斂到真實(shí)期望值,誤差隨樣本量N以O(shè)(1/N)的速度縮小。這意味著N=10就能提供可靠的信號(hào),繼續(xù)增加N的邊際收益快速遞減——這也解釋了為什么實(shí)驗(yàn)中N從10增加到20,性能幾乎沒有變化。

關(guān)于詞匯和風(fēng)格不變性,論文證明了一個(gè)非常優(yōu)雅的性質(zhì):只要兩組大模型輸出在語義相似度函數(shù)φ下被判定為等價(jià)(即對(duì)同一段小模型輸出給出相同的相似度分?jǐn)?shù)),那么貝葉斯估計(jì)量和最終的損失函數(shù)就完全相同——無論這兩組輸出的具體詞匯選擇有多大差異。這意味著OmniOPD天然地對(duì)詞匯表差異、標(biāo)記化差異、風(fēng)格差異全部免疫。相比之下,標(biāo)準(zhǔn)在線策略蒸餾的損失函數(shù)對(duì)詞匯概率的每一個(gè)細(xì)節(jié)都敏感,無法區(qū)分"語義等價(jià)但措辭不同"和"語義完全不同"這兩種情況。

**八、實(shí)驗(yàn)結(jié)果:數(shù)字背后的故事**

研究團(tuán)隊(duì)在數(shù)學(xué)推理和編程競賽兩個(gè)方向上,進(jìn)行了大量嚴(yán)格的對(duì)比實(shí)驗(yàn),測(cè)試的模型組合涵蓋了開源模型和商業(yè)黑盒模型。

在數(shù)學(xué)推理方面,以Qwen3-4B作為學(xué)生模型,Qwen3-32B作為老師模型,OmniOPD取得了69.08%的平均準(zhǔn)確率。相比直接讓小模型自己練習(xí)(基礎(chǔ)推理,54.01%),提升了15.07個(gè)百分點(diǎn)。相比用大模型的軌跡做離線監(jiān)督微調(diào)(63.80%),提升了5.28個(gè)百分點(diǎn)。最令人意外的是,與需要完整訪問大模型內(nèi)部概率的標(biāo)準(zhǔn)在線策略蒸餾(64.16%)相比,OmniOPD在完全不看內(nèi)部數(shù)據(jù)的情況下還高出了約5個(gè)百分點(diǎn)。這證明了一個(gè)反直覺的結(jié)論:更粗粒度但更干凈的語義信號(hào),有時(shí)候比信息密度極高但噪音極多的詞級(jí)概率信號(hào)更有效。

當(dāng)老師模型換成更激進(jìn)的Qwen3-30B-A3B-Instruct(一個(gè)經(jīng)過大量對(duì)齊訓(xùn)練、風(fēng)格和基礎(chǔ)模型差異很大的instruct版本)時(shí),差距進(jìn)一步拉大:標(biāo)準(zhǔn)在線策略蒸餾只能達(dá)到56.22%,而OmniOPD達(dá)到了72.32%,差距高達(dá)約16個(gè)百分點(diǎn)。這與理論預(yù)測(cè)完全吻合——老師模型和學(xué)生模型的風(fēng)格差異越大,標(biāo)準(zhǔn)方法的詞級(jí)匹配就越脆弱,OmniOPD的語義不變性優(yōu)勢(shì)就越明顯。

當(dāng)老師換成商業(yè)黑盒模型時(shí),OmniOPD的優(yōu)勢(shì)更加顯著。使用Claude-4.5-Haiku作為老師,OmniOPD達(dá)到74.92%,比同一老師的離線微調(diào)基線(67.52%)高出7.40個(gè)百分點(diǎn);使用Gemini-2.5-Flash作為老師,達(dá)到75.67%,比對(duì)應(yīng)基線(73.51%)高出2.16個(gè)百分點(diǎn)。這兩個(gè)成績都超過了自我探索式強(qiáng)化學(xué)習(xí)(GRPO)在4B模型上的天花板(70.24%),證明OmniOPD能夠幫助小模型從商業(yè)大模型那里學(xué)到比自我摸索更多的東西。

在編程競賽方面,情況有所不同。OmniOPD在1.7B學(xué)生模型上超過了標(biāo)準(zhǔn)在線策略蒸餾(47.93% vs 47.06%),但在4B學(xué)生模型上略微落后(63.78% vs 65.26%)。研究團(tuán)隊(duì)分析認(rèn)為,代碼的語法剛性比數(shù)學(xué)推理文字更高,同一段代碼邏輯幾乎沒有同義改寫的空間,因此詞級(jí)精確匹配在代碼領(lǐng)域比在數(shù)學(xué)推理領(lǐng)域更有價(jià)值,語義相似度的優(yōu)勢(shì)相對(duì)減小。

**九、超參數(shù)的精細(xì)調(diào)校:每個(gè)旋鈕的作用**

研究團(tuán)隊(duì)對(duì)OmniOPD的各個(gè)參數(shù)進(jìn)行了系統(tǒng)性的敏感度分析,這些分析揭示了每個(gè)設(shè)計(jì)選擇背后的工作機(jī)制。

文字塊大小(C)是影響最大的參數(shù)。把C從默認(rèn)的50個(gè)詞擴(kuò)大到100個(gè)詞,性能從69.08%提升到71.58%,說明更大的上下文窗口讓語義相似度估計(jì)更加可靠。把C縮小到25個(gè)詞,性能從69.08%斷崖式下跌到24.48%,原因很直接:25個(gè)詞不夠包含一個(gè)完整的邏輯步驟,語義相似度函數(shù)變成了在懲罰措辭差異而不是驗(yàn)證推理方向。

監(jiān)控塊數(shù)量(M)影響監(jiān)督密度。把M從10增加到20,性能小幅提升到70.96%;把M從10減少到5,性能只下降了0.7個(gè)百分點(diǎn)(從69.08%到68.38%)。這個(gè)結(jié)果很有力地驗(yàn)證了峰值熵調(diào)度的有效性:即使監(jiān)控點(diǎn)減半,因?yàn)槊總€(gè)監(jiān)控點(diǎn)都精準(zhǔn)命中了最高不確定性的位置,學(xué)習(xí)信號(hào)依然高度有效。同時(shí),M=5的配置對(duì)應(yīng)的老師推理成本只有離線監(jiān)督微調(diào)的0.88倍,也就是說OmniOPD在預(yù)算更低的情況下,保留了99%的性能。

蒙特卡洛采樣數(shù)量(N)的影響呈現(xiàn)出明顯的邊際遞減。N從10增加到20,在C=50的情況下只帶來0.49%的提升,而成本翻倍。在C=100的最優(yōu)配置下,N從10增加到20甚至略有下降。這與理論預(yù)測(cè)完全一致:估計(jì)精度以O(shè)(1/N)的速度提升,N=10已經(jīng)處于收益-成本曲線的拐點(diǎn)附近。

語義相似度指標(biāo)(φ)的選擇對(duì)結(jié)果影響不大,但存在規(guī)律性:當(dāng)學(xué)生和老師能力差距很大(32B教1.7B)時(shí),ROUGE-1這種詞級(jí)重疊指標(biāo)表現(xiàn)更好,因?yàn)樗鼘?duì)措辭差異更寬容;當(dāng)老師本身經(jīng)過高度對(duì)齊訓(xùn)練、風(fēng)格更統(tǒng)一時(shí),編輯距離這種結(jié)構(gòu)相似度指標(biāo)表現(xiàn)略好。整體來看,兩種指標(biāo)的差距在不同設(shè)置下不超過2個(gè)百分點(diǎn),說明OmniOPD對(duì)指標(biāo)選擇具有相當(dāng)?shù)聂敯粜浴?/p>

**十、訓(xùn)練過程的內(nèi)部圖景:從混亂到穩(wěn)定**

除了最終性能數(shù)字,研究團(tuán)隊(duì)還記錄了訓(xùn)練過程中的三條關(guān)鍵曲線:在線策略損失、參考KL散度、以及AIME-2025競賽數(shù)學(xué)題的動(dòng)態(tài)準(zhǔn)確率。

使用Qwen3-32B作為老師時(shí),損失值在前100步從約0.33快速下降到約0.24,然后趨于平穩(wěn),全程沒有出現(xiàn)任何震蕩或爆炸。使用Gemini-2.5-Flash作為老師時(shí),僅用30步就達(dá)到了相似的穩(wěn)定水平,這和黑盒老師的信號(hào)質(zhì)量更高有直接關(guān)系。

KL散度(小模型當(dāng)前版本與初始版本之間的差異)先升后穩(wěn),在達(dá)到峰值后安全地保持平臺(tái)狀態(tài),而不是繼續(xù)無限增大。這正是信任區(qū)域約束在起作用的直接體現(xiàn),與第三個(gè)理論定理的預(yù)測(cè)完全吻合。在整個(gè)訓(xùn)練過程中,AIME-2025準(zhǔn)確率持續(xù)爬升:Qwen3-32B老師下從不到30%最終超過50%;Gemini-2.5-Flash老師在僅50步的嚴(yán)格預(yù)算下,從23%爬升到接近47%。

**歸根結(jié)底,OmniOPD證明的是什么**

說到底,OmniOPD告訴我們一件很有意思的事:在AI學(xué)習(xí)的世界里,"信息量大"不等于"有用信息多"。逐詞概率分布是信息密度極高的信號(hào),但它同時(shí)也是噪聲密度極高的信號(hào),對(duì)模型風(fēng)格差異和詞匯差異高度敏感,在稍微復(fù)雜一點(diǎn)的條件下就會(huì)失靈。相比之下,把整段文字拿來做語義比較,雖然粒度粗了很多,但恰恰因?yàn)樗鼘?duì)表面形式不敏感,學(xué)到的是更本質(zhì)的推理方向,梯度信號(hào)更干凈,訓(xùn)練更穩(wěn)定,最終效果反而更好。

這對(duì)AI領(lǐng)域的實(shí)踐意義是相當(dāng)直接的:未來的AI能力傳遞,不再需要強(qiáng)制要求頂級(jí)商業(yè)模型開放內(nèi)部數(shù)據(jù)。通過文字層面的語義驗(yàn)證,小模型同樣可以從Claude、GPT、Gemini這些通常只對(duì)外提供文字輸出的頂級(jí)模型那里,獲得真正有用的密集學(xué)習(xí)信號(hào)。這在某種程度上打破了開源社區(qū)和商業(yè)AI之間的壁壘,讓規(guī)模更小、更容易部署的模型能夠真正站在最頂尖的AI"巨人"肩膀上。

當(dāng)然,OmniOPD在代碼領(lǐng)域的表現(xiàn)提示我們,語義相似度的優(yōu)勢(shì)并不是萬能的。對(duì)于那些語法極其精確、一個(gè)字符之差就決定對(duì)錯(cuò)的任務(wù),詞級(jí)精確匹配仍有其無可替代的價(jià)值。未來可能需要針對(duì)不同任務(wù)類型,設(shè)計(jì)不同粒度的相似度度量,找到語義靈活性和符號(hào)精確性之間更好的平衡點(diǎn)。

對(duì)于有興趣進(jìn)一步探索的讀者,可以通過arXiv編號(hào)2606.01476v1找到這篇論文的完整版本,其中包含了所有定理的完整證明、超參數(shù)分析的詳細(xì)數(shù)據(jù),以及多個(gè)定性案例分析,展示了峰值熵調(diào)度在幾何、組合數(shù)學(xué)、代數(shù)題目中具體命中了哪些關(guān)鍵推理節(jié)點(diǎn)。

Q&A

Q1:OmniOPD為什么不需要看大模型內(nèi)部的概率數(shù)據(jù)就能學(xué)習(xí)?

A:OmniOPD采用了一種"語義投票"的方法。它讓大模型在相同背景下生成多份文字輸出,然后比較小模型的輸出和這些文字在語義上有多相似,用相似度分?jǐn)?shù)來替代內(nèi)部概率數(shù)據(jù)。因?yàn)橹恍枰竽P?說話"而不需要看它"內(nèi)心的概率賬本",Claude、GPT等不對(duì)外開放內(nèi)部數(shù)據(jù)的商業(yè)模型就可以直接被當(dāng)作老師使用了。

Q2:OmniOPD去掉信任區(qū)域約束(KL錨定)后性能為什么會(huì)從69%崩潰到8%?

A:OmniOPD只在解題軌跡中10個(gè)關(guān)鍵位置進(jìn)行監(jiān)督,其余大量詞匯是沒人管的。去掉信任區(qū)域約束后,小模型在這些無監(jiān)督的位置可以隨意改變行為——為了讓被監(jiān)督的位置得高分,它可能在其他地方生成完全混亂的文字,導(dǎo)致整體推理能力崩潰。信任區(qū)域約束要求未監(jiān)督位置不能偏離初始模型太遠(yuǎn),相當(dāng)于給無人看守的區(qū)域加了一個(gè)基本規(guī)范,防止"局部優(yōu)化毀掉全局"。

Q3:OmniOPD在編程任務(wù)上為什么表現(xiàn)不如在數(shù)學(xué)推理上穩(wěn)定?

A:代碼和數(shù)學(xué)推理文字的根本差異在于語義的"容忍度"。數(shù)學(xué)推理可以用不同的詞匯表達(dá)相同的邏輯,"因此"換成"所以",效果完全一樣,語義相似度能準(zhǔn)確捕捉到這種等價(jià)性。但代碼不同,一個(gè)變量名、一個(gè)括號(hào)的位置差異,就可能讓兩段代碼的執(zhí)行結(jié)果完全不同,即使"看起來很像"的代碼實(shí)際上邏輯完全不同。語義相似度在這種場景下反而可能被表面相似性誤導(dǎo),而逐詞匹配在代碼里比在自然語言里更有意義。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
人不會(huì)平白無故患帶狀皰疹!醫(yī)生強(qiáng)調(diào):得帶狀皰疹,多半有3共性

人不會(huì)平白無故患帶狀皰疹!醫(yī)生強(qiáng)調(diào):得帶狀皰疹,多半有3共性

39健康網(wǎng)
2026-06-12 20:16:42
巴拉圭一對(duì)球迷姐弟因高顏值走紅,被譽(yù)為世界杯女友/男友

巴拉圭一對(duì)球迷姐弟因高顏值走紅,被譽(yù)為世界杯女友/男友

可樂談情感
2026-06-13 19:28:40
太平島又發(fā)生激烈對(duì)峙,現(xiàn)場情況很危險(xiǎn),我們必須收回該島執(zhí)法權(quán)

太平島又發(fā)生激烈對(duì)峙,現(xiàn)場情況很危險(xiǎn),我們必須收回該島執(zhí)法權(quán)

馬探解說體育
2026-06-14 08:00:22
西方為什么死咬新疆不放?

西方為什么死咬新疆不放?

杰絲聊古今
2026-06-13 18:57:12
高家寶,你好幸福啊,爸爸是爾豪,媽媽是小秦氏,關(guān)鍵是他們愛你

高家寶,你好幸福啊,爸爸是爾豪,媽媽是小秦氏,關(guān)鍵是他們愛你

娛人細(xì)品
2026-06-13 18:29:45
伊布談阿什拉夫犯規(guī)維尼修斯:裁判應(yīng)該保護(hù)球員,他沒做到

伊布談阿什拉夫犯規(guī)維尼修斯:裁判應(yīng)該保護(hù)球員,他沒做到

懂球帝
2026-06-14 17:15:19
新冠后遺癥的長期侵襲,無數(shù)人在不知不覺中深陷困境

新冠后遺癥的長期侵襲,無數(shù)人在不知不覺中深陷困境

律法刑道
2026-04-01 10:15:47
蘇超一晚三場冷門,主場隊(duì)伍全翻車

蘇超一晚三場冷門,主場隊(duì)伍全翻車

林子說事
2026-06-14 14:36:50
《火遮眼》北美票房出爐,回本無壓力,謝苗要登上巔峰了

《火遮眼》北美票房出爐,回本無壓力,謝苗要登上巔峰了

凡知
2026-06-14 14:19:46
大家都難了嗎?網(wǎng)傳胖東來要降薪,成本會(huì)計(jì)3600工資竟來23人面試

大家都難了嗎?網(wǎng)傳胖東來要降薪,成本會(huì)計(jì)3600工資竟來23人面試

慧翔百科
2026-06-12 08:39:57
澳大利亞公開賽,國羽三冠兩亞收官,陳柏陽劉毅登頂,董天堯摘銀

澳大利亞公開賽,國羽三冠兩亞收官,陳柏陽劉毅登頂,董天堯摘銀

天涯遠(yuǎn)行人
2026-06-14 17:29:16
摩洛哥18歲天才完爆巴西中場,阿森納后悔7000萬要價(jià)

摩洛哥18歲天才完爆巴西中場,阿森納后悔7000萬要價(jià)

老糿尾聲體育解說
2026-06-14 13:27:41
“都絕戶了,還拼命掙錢干嘛?”看見父親50歲就躺平,我崩潰了

“都絕戶了,還拼命掙錢干嘛?”看見父親50歲就躺平,我崩潰了

素十三兒
2026-04-13 07:12:36
路易斯王子陽臺(tái)搶盡風(fēng)頭,12歲的喬治王子身高暴漲,幾乎追上凱特

路易斯王子陽臺(tái)搶盡風(fēng)頭,12歲的喬治王子身高暴漲,幾乎追上凱特

譯言
2026-06-14 06:09:35
王鶴隸早期出道視頻曝光引熱議

王鶴隸早期出道視頻曝光引熱議

淺遇時(shí)光
2026-06-14 01:16:31
鄭麗文這番話一放出來,火藥味一下就上來了。

鄭麗文這番話一放出來,火藥味一下就上來了。

果媽聊娛樂
2026-06-14 17:20:53
就差最后一步,伊朗人自己打起來!萬人血誓:復(fù)仇未竟,休想妥協(xié)

就差最后一步,伊朗人自己打起來!萬人血誓:復(fù)仇未竟,休想妥協(xié)

菁菁子衿
2026-06-14 09:01:10
調(diào)整!6月14日晚間央視直播乒乓收官日有變,4場決賽,林詩棟爭冠

調(diào)整!6月14日晚間央視直播乒乓收官日有變,4場決賽,林詩棟爭冠

煙潯渺渺
2026-06-14 14:29:13
伊朗新領(lǐng)袖打破40年潛規(guī)則!正面打擊以色列,一場國運(yùn)豪賭開始了

伊朗新領(lǐng)袖打破40年潛規(guī)則!正面打擊以色列,一場國運(yùn)豪賭開始了

凡知
2026-06-12 12:34:32
玩過14位男星!人前玉女,人后“欲女”,47歲至今未婚無人敢娶

玩過14位男星!人前玉女,人后“欲女”,47歲至今未婚無人敢娶

翰飛觀事
2026-06-13 14:19:51
2026-06-14 19:04:50
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8771文章數(shù) 565關(guān)注度
往期回顧 全部

科技要聞

Anthropic最強(qiáng)模型被禁,傳亞馬遜通風(fēng)報(bào)信

頭條要聞

村民砍掉"孤獨(dú)樹":砍樹前一天跟紅裙女子發(fā)生沖突

頭條要聞

村民砍掉"孤獨(dú)樹":砍樹前一天跟紅裙女子發(fā)生沖突

體育要聞

8年8隊(duì)奪冠,鄧肯那句話,現(xiàn)在還給了馬刺

娛樂要聞

鄧超攜子觀戰(zhàn)NBA,等等帥氣十足

財(cái)經(jīng)要聞

金價(jià)跌至900元關(guān)口,大媽又來抄底了!

汽車要聞

綜合續(xù)航超1600km/零百加速4秒級(jí) 2027款星途ES預(yù)售18.99萬起

態(tài)度原創(chuàng)

數(shù)碼
健康
房產(chǎn)
手機(jī)
游戲

數(shù)碼要聞

Meta向旗下Quest 2/3/Pro頭顯全面推送新版Navigator界面

老人、小孩、孕婦,吃粽子有啥風(fēng)險(xiǎn)

房產(chǎn)要聞

海南最賺錢行業(yè)曝光!最快4年半,海口全款買三房!

手機(jī)要聞

消息稱小米MIX Fold 5闊折疊手機(jī)首發(fā)澎湃OS4

《殺戮尖塔》UP主承認(rèn)作弊!并承諾退回禮物重打挑戰(zhàn)

無障礙瀏覽 進(jìn)入關(guān)懷版