網易首頁 > 網易號 > 正文申請入駐

當AI"老師"的長篇教案被壓縮后，學生成績會下降嗎？

2026-06-12 17:17:04　來源: 科技行者

北京舉報

分享至

這項由比利時魯汶大學與Sophont公司聯合開展的研究，以預印本形式于2026年6月4日發布于arXiv平臺，論文編號為arXiv:2606.05988。感興趣的讀者可通過該編號檢索完整論文。

一、從一個煩惱說起：AI老師的教案寫得太長了

每當一位老師給學生布置作業時，都希望自己的講解筆記既清晰又簡潔。但如果這位老師特別喜歡寫長篇大論——洋洋灑灑寫了十頁，而其中真正關鍵的知識點其實只需要一頁就能講清楚——那么讓學生抄這份超長筆記，不僅費時費力，而且學生自己以后講題時也會養成啰嗦的習慣。

當前AI世界里恰好存在這樣的困境。以DeepSeek-R1、Qwen3這類"推理型AI模型"為代表的大型語言模型，被訓練成在回答問題之前先寫出一大段"思考過程"，就像在草稿紙上把推導步驟全部寫出來一樣。這種"思考過程"在AI領域被稱為"思維鏈"（Chain-of-Thought，CoT），它確實能讓AI回答得更準確，但代價是這段思考內容有時長得驚人。

在AI知識傳承體系中，存在一種叫做"知識蒸餾"的方法，通俗地說就是讓"大師級AI"（教師模型）教"學生級AI"（學生模型）。教法很簡單：把大師解題的全部過程記錄下來，讓小模型反復學習模仿。問題在于，大師的思考記錄動輒上千、甚至上萬個字符，用這些超長記錄來訓練小模型，不僅訓練成本極高，而且訓練出來的小模型自己回答問題時也會喋喋不休，推理費用居高不下。

研究團隊由此提出了一個聽起來很自然的想法：在讓小模型學習之前，先用另一個AI把大師的思考記錄"壓縮濃縮"一遍，去掉那些反復繞彎、無關緊要的部分，只保留邏輯骨架——這個方案被命名為Compress-Distill（壓縮蒸餾）。這個思路就好比把一部三小時的紀錄片剪成一部精華版，既保留核心內容，又大幅縮短時長，然后再拿給學生觀看。

然而，這個聽起來很美的方案究竟有沒有代價？學生看精華版之后，考試成績會不會比看完整版低？研究團隊用一套覆蓋面極廣的實驗，給出了清晰而誠實的答案。

二、實驗的"烹飪配方"：兩位大廚、四位學徒、兩種壓縮師傅

為了讓結論盡可能可靠，研究團隊設計了一套三階段流水線，就像一個標準化的烹飪流程，每道工序都有明確的輸入和輸出。

第一道工序是"大廚出菜"，也就是讓教師模型生成解題記錄。團隊選取了兩位"大廚"：一位是Qwen3.5-397B-A17B，一個參數規模極為龐大的混合專家架構模型，思考風格詳盡冗長；另一位是gpt-oss-120B，同樣是高推理能力模型，但天生話少，思考記錄比前者短約一半。兩位大廚分別在涵蓋數學、科學、醫學、邏輯常識等領域的十多個數據集上出題解答，只有答對了的題目才會被保留下來，最終各自積累了約28.3萬道經過驗證的正確解題記錄。

第二道工序是"壓縮提煉"，用專門的壓縮模型對這些解題記錄進行濃縮。團隊選用了兩位"壓縮師傅"：一位是Llama-3.3-70B-Instruct，另一位是Ministral-3-14B-Instruct-2512。給這兩位壓縮師傅的指令很簡單：用一個通用提示詞，要求它們保留推理的關鍵邏輯步驟和核心見解，去掉冗余探索，生成更短的版本。壓縮時溫度參數設為0.3，追求穩定可復現的輸出。兩位壓縮師傅獨立工作，產生兩套風格不同的壓縮結果。

研究團隊還特別設計了一個"對照實驗"——截斷版本（Truncated），專門用來檢驗壓縮的價值是否僅僅來自"訓練數據變少了"這一點。具體做法是：把原始的完整解題記錄，直接從末尾截掉一段，使其長度恰好等于Ministral壓縮版的長度，最終答案保持不變。這樣就能比較"被AI智能精煉過的短文本"和"被機械截斷的短文本"到底哪個更好，排除了純粹因為訓練數據量減少帶來的影響。

第三道工序是"學徒學習"，讓學生模型分別在原始完整版、兩種壓縮版、截斷版和純答案版（完全去掉思考過程，只保留最終答案）這五種數據上進行訓練。參與學習的學徒共有四位，分別是規模為0.8B（8億參數）的Qwen3.5-0.8B-Base、規模為8B的Llama-3.1-8B、規模為9B的Qwen3.5-9B-Base，以及規模達20B的gpt-oss-20B。每位學徒都分別嘗試了兩種學習方式：一種是"LoRA"微調（相當于只在模型的部分參數上做調整，就像給一本書加注釋而不重寫整本書），另一種是"全參數微調"（相當于徹底重新學習，從頭到尾全部更新）。整個實驗網格共產生了48個主要訓練運行，加上7個額外的截斷對照實驗，數據量相當可觀。

三、壓縮究竟壓掉了多少？

在搞清楚學生成績之前，先來看看壓縮師傅到底把內容壓縮到了什么程度。

以Qwen大廚的思考記錄為基準，兩位壓縮師傅的表現差異顯著。Llama-70B這位壓縮師傅較為溫和，把記錄壓縮到原來長度的平均14.2%；而Ministral-14B則更為激進，把記錄壓縮到原來長度的平均8.6%。換句話說，原來100頁的內容，Llama-70B給你留下約14頁，Ministral-14B只留8到9頁。

gpt-oss大廚的情況則不同，因為它本身就已經比較簡潔，原始記錄大約只有Qwen記錄長度的一半，所以壓縮空間自然更小——Llama-70B壓縮后保留了21%，Ministral-14B保留了14.7%。雖然壓縮比例看起來比Qwen的情況要高（保留比例更大），但這僅僅因為起點就已經更短了，絕對長度其實更小。

更有趣的是，壓縮效果因題目難度和類型差異極大。最難壓縮的是GPQA Diamond這套研究生級別的科學題——Qwen大廚對這類題目的解題思考記錄平均長達18734個字符，而Ministral壓縮后只剩平均1020個字符，壓縮比約5.4%；反觀簡單的MultiArith算術題，Qwen的思考記錄本來就只有1750個字符，壓縮后仍有221個字符，壓縮比約12.6%。這個規律說明了一個直覺上合理的道理：越難的題目，大師思考時就越容易產生大量探索性的"彎路"和反復推敲，這些內容可以被大量刪除；而簡單題目本就干凈利落，可刪除的冗余本來就少。

從分布圖來看，壓縮效果相當顯著。原始Qwen記錄的思考長度中位數約為1078個估算token（語言模型處理文本的基本單位，大致相當于一個詞或幾個字），分布有一條非常長的右尾——有大量極長的記錄。經過Llama-70B壓縮后，中位數降至242個token，Ministral-14B進一步降至142個token，絕大多數記錄都集中在500個token以下，長尾基本被消除。原始gpt-oss記錄的中位數本來就只有423個token，壓縮后分別降至177和123個token，縮短幅度沒那么戲劇化，但絕對值仍然更小。

四、訓練速度提升了多少？

壓縮帶來的第一個直接好處是訓練效率的大幅提升，這一點毋庸置疑。

以Qwen大廚、0.8B學徒為例，原始完整版訓練需要約1.1小時，訓練過程中共需處理約6.35億個token；而用Ministral壓縮版訓練，只需約0.1小時，處理約7400萬個token，速度提升了7.3到7.6倍，訓練數據量縮減到原來的約12%。8B和9B規模的學徒，速度提升幅度約為3.2到4.9倍；20B規模的gpt-oss學徒提升約5.1到6.3倍。

在gpt-oss大廚的體系下，因為原始記錄本就較短，提升效果相對溫和，各規模學徒的訓練速度提升約2.0到4.1倍，訓練數據量縮減到原來的22%到30%左右。

這個差異揭示了一個重要規律：壓縮的收益與原始內容的冗余程度成正比。大廚越啰嗦，壓縮帶來的效率紅利就越大。

五、學生成績如何？核心發現令人清醒

訓練效率提升了，但學生的實際解題能力是否受損？這才是整個實驗最關鍵的問題。

答案清晰而一致：在所有測試過的規模、所有教師、所有訓練方式下，用原始完整版思考記錄訓練出來的學生，成績都是最好的，沒有例外。

以Qwen大廚、9B規模學徒為例，三種數據源下的全面準確率分別為：原始版0.866、Llama-70B壓縮版0.834、Ministral-14B壓縮版0.817。換算成百分比，壓縮版學生分別保留了原始版約96.3%和94.3%的成績。對于20B規模的gpt-oss學徒在gpt-oss大廚體系下：原始版0.844、Llama-70B壓縮版0.776、Ministral-14B壓縮版0.767，差距有所拉大。

差距的大小與學生規模和訓練方式密切相關。在9B這個規模上，LoRA和全參數微調的結果都比較接近，壓縮版學生能保住較高比例的成績。但在8B的Llama學生上，差距就更明顯一些：原始版全參數微調達到0.715，而兩個壓縮版分別只有0.665和0.652。最小的0.8B學生情況最特殊——各版本之間的差距反而是最小的，原始版LoRA微調是0.528，兩個壓縮版是0.506和0.500，相差不到3個百分點。研究團隊認為，這是因為0.8B的小學生本來能力就有限，即便提供完整詳盡的思考記錄，它也沒有足夠的"腦容量"去充分利用那些額外的推理細節，所以原始版相對于壓縮版的優勢就被抹平了。

值得注意的是，在數學領域，Llama學生使用Qwen大廚的壓縮記錄訓練后，成績反而比原始版更好——全參數微調下壓縮版LoRA達到0.581，而原始版只有0.458；全參數微調下壓縮版也是0.702對原始版的0.671。這個反常結果并非壓縮質量更好，而是一個棘手的工程問題：Llama學生在原始記錄的情況下，有6.1%到15.4%的題目會"寫到一半就停筆"——因為原始記錄太長，超出了8192個token的最大輸出限制，導致答案根本沒寫完就被截斷了。壓縮版訓練出來的學生輸出更簡潔，幾乎不會出現這種截斷問題，因此反而能完整輸出答案，在這類極長題目上占了便宜。這個現象清楚地告訴我們：當學生本身的"輸出上限"成為瓶頸時，壓縮是有幫助的；但一旦擺脫了這個瓶頸（如9B和20B規模的學生截斷率低很多），原始版立即重新奪回優勢。

六、截斷實驗揭示的關鍵真相

研究團隊設計的截斷對照實驗，專門回答了一個關鍵問題：壓縮版學生成績比原始版低，是因為"訓練數據量少了"，還是因為"壓縮本身帶來了信息損失"？

實驗結果給出了明確答案：截斷版——也就是機械地把原始記錄從末尾切掉、使長度與Ministral壓縮版相同的那個版本——通常比壓縮版的效果更差，尤其是對0.8B學生的LoRA微調和Llama-8B學生的兩種微調方式來說，截斷版都顯著弱于壓縮版。這說明壓縮版并不是僅僅因為"訓練數據量更少"才表現較好，而是因為AI壓縮師傅對內容做了有意義的篩選和重組，保留了對推理最關鍵的部分，這種智能化的精煉本身是有價值的。

不過，截斷實驗也揭示了另一面：對于9B規模的學生和20B規模的學生，截斷版與Ministral激進壓縮版之間的差距其實不大，甚至有時截斷版能與之持平。而截斷版與Llama溫和壓縮版相比，則通常仍處于劣勢。這說明在較大規模的學生上，壓縮的"質量優勢"隨著壓縮越來越激進而逐漸減弱——Llama的溫和壓縮保留了更多有用信息，所以優勢明顯；但Ministral的極度激進壓縮已經把內容壓縮得非常少，接近甚至趕不上只是隨機截斷前綴的效果。

還有一個有趣的發現：即便截斷版與壓縮版在準確率上相當，截斷版的推理輸出長度仍然比壓縮版長——例如Qwen-9B全參數微調下，截斷版的中位推理token數是316，而Ministral壓縮版只有148。這表明學生的輸出習慣取決于它所學習的樣本"結構"，而非僅僅是樣本"長度"：學完被智能壓縮過的記錄，學生自然會講得更簡潔；學完被機械截斷的記錄，學生并不會因此學會簡潔，仍然會寫出相對更長的答案。

七、純答案訓練的慘敗

研究團隊還測試了一種極端情況：完全去掉思考過程，只保留最終答案來訓練學生。這是所有方案中成本最低的，但結果也最慘烈。

在LoRA微調下，純答案訓練的最佳成績出現在9B學生上，全面準確率為0.781，而同樣設置下原始版是0.862，差了約8個百分點。8B學生的LoRA純答案版是0.590，0.8B學生更是只有0.390。

更糟糕的是全參數微調版本：9B學生準確率崩到0.550，幾乎每兩道題就有一道答錯；0.8B學生直接崩潰至0.001，可以說完全失去了解題能力；Llama-8B的全參數純答案版也只有0.181。此外，這些用純答案訓練的學生在推理時表現出嚴重的"強迫癥"——9B和0.8B的學生幾乎在每道題上都把8192個token的輸出上限全部填滿，卻仍然沒有給出正確答案，表現出完全失控的輸出行為。

這個發現清楚地說明：思考過程對于推理型AI的訓練至關重要，不能省略。直接喂答案不僅沒有教會學生如何思考，反而讓學生完全喪失了輸出的規范性。

八、壓縮之后，學生是否也變得簡潔？

這是一個令研究團隊感到欣慰的發現：學什么樣的教材，就會養成什么樣的輸出習慣。

用壓縮版記錄訓練出來的學生，推理時確實輸出了更短的內容。以Qwen大廚體系為例，原始版9B學生的中位推理字符數約為4219個字符，而Llama-70B壓縮版訓練的9B學生推理字符數中位數約為1004個字符，Ministral-14B壓縮版則約為700個字符。這個"簡潔風格"在四種不同規模的學生身上都穩定出現，且基本不受學生規模影響——不論是0.8B還是20B的學生，訓練數據的簡潔程度幾乎一對一地傳遞到了推理輸出上。

更重要的是，這種簡潔性是"干凈"的——用壓縮版訓練的8B和9B學生，推理輸出超出8192 token上限的比例僅約0%到1%，截斷幾乎消失了；相比之下，原始版訓練的學生在Llama-8B上的截斷率高達15.4%。這意味著壓縮不僅讓學生寫得更短，還實際上讓他們能夠寫完整每一道題的解答。

九、不同領域的差異：醫學最難壓縮

研究團隊對各領域的詳細成績進行了分析，發現了一個很有規律性的現象：不同學科領域對壓縮的承受能力差異顯著。

醫學領域是所有領域里壓縮代價最大的。在Qwen大廚、三個較大規模學生的全參數微調下，原始版與壓縮版之間的準確率差距達到4.7到8.5個百分點——這是所有領域中最大的差距。原因在于醫學題目的思考記錄里充滿了具體的藥品名稱、劑量數值、禁忌事項等高度專業化、信息密度極高的內容，幾乎每一句話都是有用的，壓縮師傅很難在不損失關鍵內容的前提下大幅刪減。

相比之下，科學領域的壓縮代價最小，差距僅約1.4到4個百分點。原因同樣符合直覺：科學推導過程往往更為結構化和線性，探索性的彎路和重復較少，壓縮師傅保留核心步驟后損失的有效信息相對更少。

數學領域由于前文提到的截斷問題而成為特例。在Llama-8B學生上，壓縮版不僅沒有損失，甚至因為避免了截斷問題而超過了原始版，但這是特殊情況，在不存在截斷問題的9B和20B學生上，數學領域仍然是原始版略占優勢。

這對實際應用有明確的指導意義：如果某項工作是醫學領域的問答，應當優先使用完整的原始思考記錄來訓練學生模型；如果純粹是推理速度和成本更重要、或者面對的是學生本身會產生截斷的情況，壓縮版則是更合適的選擇。

十、壓縮質量驗證：AI裁判給出了高分

研究團隊還專門用一個獨立的裁判模型（gpt-oss-120B）對所有壓縮后的思考記錄進行了"信息保真度"評分，以檢驗壓縮師傅是否在不該刪的地方也動了剪刀。

評分從"忠實度"、"覆蓋度"和"清晰度"三個維度對每一條壓縮記錄打1到5分，并給出"完全忠實"、"部分忠實"或"不忠實"三種裁定，以及一個布爾值判斷壓縮版記錄是否仍然支持正確答案。

結果相當令人放心。在全部283260條經Qwen大廚生成并經兩位壓縮師傅處理的記錄中，Llama-70B壓縮版有98.1%被裁定為"完全忠實"，平均忠實度得分4.98分（滿分5分），97.4%的記錄仍然支持正確答案；Ministral-14B壓縮版有98.0%被裁定為"完全忠實"，平均忠實度4.97分，97.2%支持正確答案。唯一明顯偏低的是GPQA Diamond這套研究生難度題目，"完全忠實"比例約為90%到93%，這與其題目難度大、推理復雜有直接關系。

剩下約2%的"不完全忠實"案例主要集中在三類問題上：遺漏了關鍵推理步驟、答案對應關系錯誤、引入了原文不支持的說法；過度壓縮、邏輯矛盾和語意不連貫的情況極為罕見。這2%的忠實度問題，相對于最終準確率上最多8.5個百分點的差距來說，只能解釋很小一部分。研究團隊因此認為，準確率下降的主要原因不是壓縮引入了"錯誤信息"，而是那些被合理刪除的、看似冗余的探索性內容，實際上對學生的學習是有幫助的——學生在原始記錄中看到大師的"試錯過程"，本身就是一種有價值的示范。

十一、效率與準確率的取舍：到底值不值？

說到底，這項研究最終指向了一個關于"取舍"的根本判斷，而非一個"誰更好"的簡單結論。

原始完整版：準確率最高，但訓練時間最長、推理輸出最冗長，在較小學生上甚至有截斷問題。Llama-70B壓縮版：準確率約保留96%（以9B學生為基準），訓練速度提升約3到5倍，推理輸出縮短約4到7倍，截斷問題幾乎消失。Ministral-14B壓縮版：準確率約保留94%，訓練速度提升約4到7倍，推理輸出最短，但在gpt-oss-20B學生上有少量輸出截斷異常。純答案版：訓練最快，但準確率嚴重下降，全參數微調下極不穩定。

用一個具體的數字來感受這個取舍：在9B規模的Qwen學生上，用Llama-70B壓縮版相比原始版，準確率差距約3.2個百分點，換來的是每1000個推理token的"準確率產出效率"從0.47提升到3.71（即每消耗同樣的推理資源，能正確回答的問題數量約增加了7.9倍）。如果業務場景對絕對準確率沒有苛刻要求，但對推理成本高度敏感，這個交換是完全合算的。

研究團隊把這種關系清楚地定性為"效率與準確率的帕累托前沿"而非"某種方案全面優于另一種方案"：原始版在準確率上占有絕對優勢，壓縮版在效率上占有絕對優勢，兩者互不支配，選擇哪種取決于具體需求。

歸根結底，這項研究最重要的貢獻，不是證明了"壓縮比原始更好"，也不是證明了"壓縮毫無價值"，而是精確地量化了這種取舍在不同條件下的代價和收益，為工程實踐提供了堅實的經驗基礎。

對那些正在考慮如何高效訓練小型推理模型的團隊來說，這項來自比利時魯汶大學與Sophont公司的研究告訴我們：如果你的學生規模夠大、醫學內容不是主要任務、而且推理成本是首要考量，那么花時間讓一個AI先把老師的解題過程"濃縮"一遍，是一個有據可查的合理選擇；但如果你追求的是最高準確率，沒有任何捷徑可以繞過那份完整的原始思考記錄。有意深入了解完整實驗數據和方法細節的讀者，可以通過arXiv:2606.05988查閱原文。

Q&A

Q1：知識蒸餾中的"思維鏈壓縮"會讓學生模型損失多少準確率？

A：根據Compress-Distill的實驗結果，損失幅度取決于學生模型的規模和壓縮激進程度。以9B規模學生為例，Llama-70B溫和壓縮版保留了約96%的原始準確率，差距約3個百分點；Ministral-14B激進壓縮版保留約94%，差距約5個百分點。差距在醫學領域最大（4.7到8.5個百分點），在科學領域最小（1.4到4個百分點）。0.8B這類極小規模學生的差距反而最小，不到3個百分點。

Q2：Compress-Distill實驗里的截斷對照組說明了什么？

A：截斷對照組是把原始完整推理記錄直接從末尾機械截掉，使長度與Ministral壓縮版相同，以此區分"訓練數據量減少"和"智能壓縮本身"的效果。結果顯示，機械截斷版通常比AI壓縮版效果更差，尤其在小模型和Llama-8B上差距顯著，說明AI壓縮師傅對內容做了有意義的篩選，而非單純靠減少數據量獲益。不過即便是截斷版，也比純答案訓練要好得多。

Q3：推理型AI模型的思維鏈為什么不能直接去掉以節省訓練成本？

A：Compress-Distill的實驗明確回答了這個問題。完全去掉思維鏈只保留最終答案來訓練的結果相當糟糕：9B學生LoRA微調下準確率從0.862跌至0.781，全參數微調則崩潰至0.550；0.8B學生全參數微調更是跌至接近0。此外，純答案訓練的模型在推理時會失控輸出，把8192 token的上限全部填滿卻無法給出正確答案，說明思維鏈對于模型建立正確的"思考—輸出"模式不可或缺。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.