![]()
這項由比利時魯汶大學與Sophont公司聯合開展的研究,以預印本形式于2026年6月4日發布于arXiv平臺,論文編號為arXiv:2606.05988。感興趣的讀者可通過該編號檢索完整論文。
一、從一個煩惱說起:AI老師的教案寫得太長了
每當一位老師給學生布置作業時,都希望自己的講解筆記既清晰又簡潔。但如果這位老師特別喜歡寫長篇大論——洋洋灑灑寫了十頁,而其中真正關鍵的知識點其實只需要一頁就能講清楚——那么讓學生抄這份超長筆記,不僅費時費力,而且學生自己以后講題時也會養成啰嗦的習慣。
當前AI世界里恰好存在這樣的困境。以DeepSeek-R1、Qwen3這類"推理型AI模型"為代表的大型語言模型,被訓練成在回答問題之前先寫出一大段"思考過程",就像在草稿紙上把推導步驟全部寫出來一樣。這種"思考過程"在AI領域被稱為"思維鏈"(Chain-of-Thought,CoT),它確實能讓AI回答得更準確,但代價是這段思考內容有時長得驚人。
在AI知識傳承體系中,存在一種叫做"知識蒸餾"的方法,通俗地說就是讓"大師級AI"(教師模型)教"學生級AI"(學生模型)。教法很簡單:把大師解題的全部過程記錄下來,讓小模型反復學習模仿。問題在于,大師的思考記錄動輒上千、甚至上萬個字符,用這些超長記錄來訓練小模型,不僅訓練成本極高,而且訓練出來的小模型自己回答問題時也會喋喋不休,推理費用居高不下。
研究團隊由此提出了一個聽起來很自然的想法:在讓小模型學習之前,先用另一個AI把大師的思考記錄"壓縮濃縮"一遍,去掉那些反復繞彎、無關緊要的部分,只保留邏輯骨架——這個方案被命名為Compress-Distill(壓縮蒸餾)。這個思路就好比把一部三小時的紀錄片剪成一部精華版,既保留核心內容,又大幅縮短時長,然后再拿給學生觀看。
然而,這個聽起來很美的方案究竟有沒有代價?學生看精華版之后,考試成績會不會比看完整版低?研究團隊用一套覆蓋面極廣的實驗,給出了清晰而誠實的答案。
二、實驗的"烹飪配方":兩位大廚、四位學徒、兩種壓縮師傅
為了讓結論盡可能可靠,研究團隊設計了一套三階段流水線,就像一個標準化的烹飪流程,每道工序都有明確的輸入和輸出。
第一道工序是"大廚出菜",也就是讓教師模型生成解題記錄。團隊選取了兩位"大廚":一位是Qwen3.5-397B-A17B,一個參數規模極為龐大的混合專家架構模型,思考風格詳盡冗長;另一位是gpt-oss-120B,同樣是高推理能力模型,但天生話少,思考記錄比前者短約一半。兩位大廚分別在涵蓋數學、科學、醫學、邏輯常識等領域的十多個數據集上出題解答,只有答對了的題目才會被保留下來,最終各自積累了約28.3萬道經過驗證的正確解題記錄。
第二道工序是"壓縮提煉",用專門的壓縮模型對這些解題記錄進行濃縮。團隊選用了兩位"壓縮師傅":一位是Llama-3.3-70B-Instruct,另一位是Ministral-3-14B-Instruct-2512。給這兩位壓縮師傅的指令很簡單:用一個通用提示詞,要求它們保留推理的關鍵邏輯步驟和核心見解,去掉冗余探索,生成更短的版本。壓縮時溫度參數設為0.3,追求穩定可復現的輸出。兩位壓縮師傅獨立工作,產生兩套風格不同的壓縮結果。
研究團隊還特別設計了一個"對照實驗"——截斷版本(Truncated),專門用來檢驗壓縮的價值是否僅僅來自"訓練數據變少了"這一點。具體做法是:把原始的完整解題記錄,直接從末尾截掉一段,使其長度恰好等于Ministral壓縮版的長度,最終答案保持不變。這樣就能比較"被AI智能精煉過的短文本"和"被機械截斷的短文本"到底哪個更好,排除了純粹因為訓練數據量減少帶來的影響。
第三道工序是"學徒學習",讓學生模型分別在原始完整版、兩種壓縮版、截斷版和純答案版(完全去掉思考過程,只保留最終答案)這五種數據上進行訓練。參與學習的學徒共有四位,分別是規模為0.8B(8億參數)的Qwen3.5-0.8B-Base、規模為8B的Llama-3.1-8B、規模為9B的Qwen3.5-9B-Base,以及規模達20B的gpt-oss-20B。每位學徒都分別嘗試了兩種學習方式:一種是"LoRA"微調(相當于只在模型的部分參數上做調整,就像給一本書加注釋而不重寫整本書),另一種是"全參數微調"(相當于徹底重新學習,從頭到尾全部更新)。整個實驗網格共產生了48個主要訓練運行,加上7個額外的截斷對照實驗,數據量相當可觀。
三、壓縮究竟壓掉了多少?
在搞清楚學生成績之前,先來看看壓縮師傅到底把內容壓縮到了什么程度。
以Qwen大廚的思考記錄為基準,兩位壓縮師傅的表現差異顯著。Llama-70B這位壓縮師傅較為溫和,把記錄壓縮到原來長度的平均14.2%;而Ministral-14B則更為激進,把記錄壓縮到原來長度的平均8.6%。換句話說,原來100頁的內容,Llama-70B給你留下約14頁,Ministral-14B只留8到9頁。
gpt-oss大廚的情況則不同,因為它本身就已經比較簡潔,原始記錄大約只有Qwen記錄長度的一半,所以壓縮空間自然更小——Llama-70B壓縮后保留了21%,Ministral-14B保留了14.7%。雖然壓縮比例看起來比Qwen的情況要高(保留比例更大),但這僅僅因為起點就已經更短了,絕對長度其實更小。
更有趣的是,壓縮效果因題目難度和類型差異極大。最難壓縮的是GPQA Diamond這套研究生級別的科學題——Qwen大廚對這類題目的解題思考記錄平均長達18734個字符,而Ministral壓縮后只剩平均1020個字符,壓縮比約5.4%;反觀簡單的MultiArith算術題,Qwen的思考記錄本來就只有1750個字符,壓縮后仍有221個字符,壓縮比約12.6%。這個規律說明了一個直覺上合理的道理:越難的題目,大師思考時就越容易產生大量探索性的"彎路"和反復推敲,這些內容可以被大量刪除;而簡單題目本就干凈利落,可刪除的冗余本來就少。
從分布圖來看,壓縮效果相當顯著。原始Qwen記錄的思考長度中位數約為1078個估算token(語言模型處理文本的基本單位,大致相當于一個詞或幾個字),分布有一條非常長的右尾——有大量極長的記錄。經過Llama-70B壓縮后,中位數降至242個token,Ministral-14B進一步降至142個token,絕大多數記錄都集中在500個token以下,長尾基本被消除。原始gpt-oss記錄的中位數本來就只有423個token,壓縮后分別降至177和123個token,縮短幅度沒那么戲劇化,但絕對值仍然更小。
四、訓練速度提升了多少?
壓縮帶來的第一個直接好處是訓練效率的大幅提升,這一點毋庸置疑。
以Qwen大廚、0.8B學徒為例,原始完整版訓練需要約1.1小時,訓練過程中共需處理約6.35億個token;而用Ministral壓縮版訓練,只需約0.1小時,處理約7400萬個token,速度提升了7.3到7.6倍,訓練數據量縮減到原來的約12%。8B和9B規模的學徒,速度提升幅度約為3.2到4.9倍;20B規模的gpt-oss學徒提升約5.1到6.3倍。
在gpt-oss大廚的體系下,因為原始記錄本就較短,提升效果相對溫和,各規模學徒的訓練速度提升約2.0到4.1倍,訓練數據量縮減到原來的22%到30%左右。
這個差異揭示了一個重要規律:壓縮的收益與原始內容的冗余程度成正比。大廚越啰嗦,壓縮帶來的效率紅利就越大。
五、學生成績如何?核心發現令人清醒
訓練效率提升了,但學生的實際解題能力是否受損?這才是整個實驗最關鍵的問題。
答案清晰而一致:在所有測試過的規模、所有教師、所有訓練方式下,用原始完整版思考記錄訓練出來的學生,成績都是最好的,沒有例外。
以Qwen大廚、9B規模學徒為例,三種數據源下的全面準確率分別為:原始版0.866、Llama-70B壓縮版0.834、Ministral-14B壓縮版0.817。換算成百分比,壓縮版學生分別保留了原始版約96.3%和94.3%的成績。對于20B規模的gpt-oss學徒在gpt-oss大廚體系下:原始版0.844、Llama-70B壓縮版0.776、Ministral-14B壓縮版0.767,差距有所拉大。
差距的大小與學生規模和訓練方式密切相關。在9B這個規模上,LoRA和全參數微調的結果都比較接近,壓縮版學生能保住較高比例的成績。但在8B的Llama學生上,差距就更明顯一些:原始版全參數微調達到0.715,而兩個壓縮版分別只有0.665和0.652。最小的0.8B學生情況最特殊——各版本之間的差距反而是最小的,原始版LoRA微調是0.528,兩個壓縮版是0.506和0.500,相差不到3個百分點。研究團隊認為,這是因為0.8B的小學生本來能力就有限,即便提供完整詳盡的思考記錄,它也沒有足夠的"腦容量"去充分利用那些額外的推理細節,所以原始版相對于壓縮版的優勢就被抹平了。
值得注意的是,在數學領域,Llama學生使用Qwen大廚的壓縮記錄訓練后,成績反而比原始版更好——全參數微調下壓縮版LoRA達到0.581,而原始版只有0.458;全參數微調下壓縮版也是0.702對原始版的0.671。這個反常結果并非壓縮質量更好,而是一個棘手的工程問題:Llama學生在原始記錄的情況下,有6.1%到15.4%的題目會"寫到一半就停筆"——因為原始記錄太長,超出了8192個token的最大輸出限制,導致答案根本沒寫完就被截斷了。壓縮版訓練出來的學生輸出更簡潔,幾乎不會出現這種截斷問題,因此反而能完整輸出答案,在這類極長題目上占了便宜。這個現象清楚地告訴我們:當學生本身的"輸出上限"成為瓶頸時,壓縮是有幫助的;但一旦擺脫了這個瓶頸(如9B和20B規模的學生截斷率低很多),原始版立即重新奪回優勢。
六、截斷實驗揭示的關鍵真相
研究團隊設計的截斷對照實驗,專門回答了一個關鍵問題:壓縮版學生成績比原始版低,是因為"訓練數據量少了",還是因為"壓縮本身帶來了信息損失"?
實驗結果給出了明確答案:截斷版——也就是機械地把原始記錄從末尾切掉、使長度與Ministral壓縮版相同的那個版本——通常比壓縮版的效果更差,尤其是對0.8B學生的LoRA微調和Llama-8B學生的兩種微調方式來說,截斷版都顯著弱于壓縮版。這說明壓縮版并不是僅僅因為"訓練數據量更少"才表現較好,而是因為AI壓縮師傅對內容做了有意義的篩選和重組,保留了對推理最關鍵的部分,這種智能化的精煉本身是有價值的。
不過,截斷實驗也揭示了另一面:對于9B規模的學生和20B規模的學生,截斷版與Ministral激進壓縮版之間的差距其實不大,甚至有時截斷版能與之持平。而截斷版與Llama溫和壓縮版相比,則通常仍處于劣勢。這說明在較大規模的學生上,壓縮的"質量優勢"隨著壓縮越來越激進而逐漸減弱——Llama的溫和壓縮保留了更多有用信息,所以優勢明顯;但Ministral的極度激進壓縮已經把內容壓縮得非常少,接近甚至趕不上只是隨機截斷前綴的效果。
還有一個有趣的發現:即便截斷版與壓縮版在準確率上相當,截斷版的推理輸出長度仍然比壓縮版長——例如Qwen-9B全參數微調下,截斷版的中位推理token數是316,而Ministral壓縮版只有148。這表明學生的輸出習慣取決于它所學習的樣本"結構",而非僅僅是樣本"長度":學完被智能壓縮過的記錄,學生自然會講得更簡潔;學完被機械截斷的記錄,學生并不會因此學會簡潔,仍然會寫出相對更長的答案。
七、純答案訓練的慘敗
研究團隊還測試了一種極端情況:完全去掉思考過程,只保留最終答案來訓練學生。這是所有方案中成本最低的,但結果也最慘烈。
在LoRA微調下,純答案訓練的最佳成績出現在9B學生上,全面準確率為0.781,而同樣設置下原始版是0.862,差了約8個百分點。8B學生的LoRA純答案版是0.590,0.8B學生更是只有0.390。
更糟糕的是全參數微調版本:9B學生準確率崩到0.550,幾乎每兩道題就有一道答錯;0.8B學生直接崩潰至0.001,可以說完全失去了解題能力;Llama-8B的全參數純答案版也只有0.181。此外,這些用純答案訓練的學生在推理時表現出嚴重的"強迫癥"——9B和0.8B的學生幾乎在每道題上都把8192個token的輸出上限全部填滿,卻仍然沒有給出正確答案,表現出完全失控的輸出行為。
這個發現清楚地說明:思考過程對于推理型AI的訓練至關重要,不能省略。直接喂答案不僅沒有教會學生如何思考,反而讓學生完全喪失了輸出的規范性。
八、壓縮之后,學生是否也變得簡潔?
這是一個令研究團隊感到欣慰的發現:學什么樣的教材,就會養成什么樣的輸出習慣。
用壓縮版記錄訓練出來的學生,推理時確實輸出了更短的內容。以Qwen大廚體系為例,原始版9B學生的中位推理字符數約為4219個字符,而Llama-70B壓縮版訓練的9B學生推理字符數中位數約為1004個字符,Ministral-14B壓縮版則約為700個字符。這個"簡潔風格"在四種不同規模的學生身上都穩定出現,且基本不受學生規模影響——不論是0.8B還是20B的學生,訓練數據的簡潔程度幾乎一對一地傳遞到了推理輸出上。
更重要的是,這種簡潔性是"干凈"的——用壓縮版訓練的8B和9B學生,推理輸出超出8192 token上限的比例僅約0%到1%,截斷幾乎消失了;相比之下,原始版訓練的學生在Llama-8B上的截斷率高達15.4%。這意味著壓縮不僅讓學生寫得更短,還實際上讓他們能夠寫完整每一道題的解答。
九、不同領域的差異:醫學最難壓縮
研究團隊對各領域的詳細成績進行了分析,發現了一個很有規律性的現象:不同學科領域對壓縮的承受能力差異顯著。
醫學領域是所有領域里壓縮代價最大的。在Qwen大廚、三個較大規模學生的全參數微調下,原始版與壓縮版之間的準確率差距達到4.7到8.5個百分點——這是所有領域中最大的差距。原因在于醫學題目的思考記錄里充滿了具體的藥品名稱、劑量數值、禁忌事項等高度專業化、信息密度極高的內容,幾乎每一句話都是有用的,壓縮師傅很難在不損失關鍵內容的前提下大幅刪減。
相比之下,科學領域的壓縮代價最小,差距僅約1.4到4個百分點。原因同樣符合直覺:科學推導過程往往更為結構化和線性,探索性的彎路和重復較少,壓縮師傅保留核心步驟后損失的有效信息相對更少。
數學領域由于前文提到的截斷問題而成為特例。在Llama-8B學生上,壓縮版不僅沒有損失,甚至因為避免了截斷問題而超過了原始版,但這是特殊情況,在不存在截斷問題的9B和20B學生上,數學領域仍然是原始版略占優勢。
這對實際應用有明確的指導意義:如果某項工作是醫學領域的問答,應當優先使用完整的原始思考記錄來訓練學生模型;如果純粹是推理速度和成本更重要、或者面對的是學生本身會產生截斷的情況,壓縮版則是更合適的選擇。
十、壓縮質量驗證:AI裁判給出了高分
研究團隊還專門用一個獨立的裁判模型(gpt-oss-120B)對所有壓縮后的思考記錄進行了"信息保真度"評分,以檢驗壓縮師傅是否在不該刪的地方也動了剪刀。
評分從"忠實度"、"覆蓋度"和"清晰度"三個維度對每一條壓縮記錄打1到5分,并給出"完全忠實"、"部分忠實"或"不忠實"三種裁定,以及一個布爾值判斷壓縮版記錄是否仍然支持正確答案。
結果相當令人放心。在全部283260條經Qwen大廚生成并經兩位壓縮師傅處理的記錄中,Llama-70B壓縮版有98.1%被裁定為"完全忠實",平均忠實度得分4.98分(滿分5分),97.4%的記錄仍然支持正確答案;Ministral-14B壓縮版有98.0%被裁定為"完全忠實",平均忠實度4.97分,97.2%支持正確答案。唯一明顯偏低的是GPQA Diamond這套研究生難度題目,"完全忠實"比例約為90%到93%,這與其題目難度大、推理復雜有直接關系。
剩下約2%的"不完全忠實"案例主要集中在三類問題上:遺漏了關鍵推理步驟、答案對應關系錯誤、引入了原文不支持的說法;過度壓縮、邏輯矛盾和語意不連貫的情況極為罕見。這2%的忠實度問題,相對于最終準確率上最多8.5個百分點的差距來說,只能解釋很小一部分。研究團隊因此認為,準確率下降的主要原因不是壓縮引入了"錯誤信息",而是那些被合理刪除的、看似冗余的探索性內容,實際上對學生的學習是有幫助的——學生在原始記錄中看到大師的"試錯過程",本身就是一種有價值的示范。
十一、效率與準確率的取舍:到底值不值?
說到底,這項研究最終指向了一個關于"取舍"的根本判斷,而非一個"誰更好"的簡單結論。
原始完整版:準確率最高,但訓練時間最長、推理輸出最冗長,在較小學生上甚至有截斷問題。Llama-70B壓縮版:準確率約保留96%(以9B學生為基準),訓練速度提升約3到5倍,推理輸出縮短約4到7倍,截斷問題幾乎消失。Ministral-14B壓縮版:準確率約保留94%,訓練速度提升約4到7倍,推理輸出最短,但在gpt-oss-20B學生上有少量輸出截斷異常。純答案版:訓練最快,但準確率嚴重下降,全參數微調下極不穩定。
用一個具體的數字來感受這個取舍:在9B規模的Qwen學生上,用Llama-70B壓縮版相比原始版,準確率差距約3.2個百分點,換來的是每1000個推理token的"準確率產出效率"從0.47提升到3.71(即每消耗同樣的推理資源,能正確回答的問題數量約增加了7.9倍)。如果業務場景對絕對準確率沒有苛刻要求,但對推理成本高度敏感,這個交換是完全合算的。
研究團隊把這種關系清楚地定性為"效率與準確率的帕累托前沿"而非"某種方案全面優于另一種方案":原始版在準確率上占有絕對優勢,壓縮版在效率上占有絕對優勢,兩者互不支配,選擇哪種取決于具體需求。
歸根結底,這項研究最重要的貢獻,不是證明了"壓縮比原始更好",也不是證明了"壓縮毫無價值",而是精確地量化了這種取舍在不同條件下的代價和收益,為工程實踐提供了堅實的經驗基礎。
對那些正在考慮如何高效訓練小型推理模型的團隊來說,這項來自比利時魯汶大學與Sophont公司的研究告訴我們:如果你的學生規模夠大、醫學內容不是主要任務、而且推理成本是首要考量,那么花時間讓一個AI先把老師的解題過程"濃縮"一遍,是一個有據可查的合理選擇;但如果你追求的是最高準確率,沒有任何捷徑可以繞過那份完整的原始思考記錄。有意深入了解完整實驗數據和方法細節的讀者,可以通過arXiv:2606.05988查閱原文。
Q&A
Q1:知識蒸餾中的"思維鏈壓縮"會讓學生模型損失多少準確率?
A:根據Compress-Distill的實驗結果,損失幅度取決于學生模型的規模和壓縮激進程度。以9B規模學生為例,Llama-70B溫和壓縮版保留了約96%的原始準確率,差距約3個百分點;Ministral-14B激進壓縮版保留約94%,差距約5個百分點。差距在醫學領域最大(4.7到8.5個百分點),在科學領域最小(1.4到4個百分點)。0.8B這類極小規模學生的差距反而最小,不到3個百分點。
Q2:Compress-Distill實驗里的截斷對照組說明了什么?
A:截斷對照組是把原始完整推理記錄直接從末尾機械截掉,使長度與Ministral壓縮版相同,以此區分"訓練數據量減少"和"智能壓縮本身"的效果。結果顯示,機械截斷版通常比AI壓縮版效果更差,尤其在小模型和Llama-8B上差距顯著,說明AI壓縮師傅對內容做了有意義的篩選,而非單純靠減少數據量獲益。不過即便是截斷版,也比純答案訓練要好得多。
Q3:推理型AI模型的思維鏈為什么不能直接去掉以節省訓練成本?
A:Compress-Distill的實驗明確回答了這個問題。完全去掉思維鏈只保留最終答案來訓練的結果相當糟糕:9B學生LoRA微調下準確率從0.862跌至0.781,全參數微調則崩潰至0.550;0.8B學生全參數微調更是跌至接近0。此外,純答案訓練的模型在推理時會失控輸出,把8192 token的上限全部填滿卻無法給出正確答案,說明思維鏈對于模型建立正確的"思考—輸出"模式不可或缺。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.