來源:市場資訊
(來源:PaperWeekly)
即使 SFT(Supervised Fine-Tuning,監督微調)訓練已收斂、loss 已平穩、所有超參都調無可調,你的模型在訓練集上重新測試——仍然有平均 15.3% 的樣本答不對。
這不是過擬合,不是災難性遺忘,不是數據噪聲。這是「不完全學習」。
![]()
什么是「不完全學習現象」(ILP)?
做過 SFT 的人都有過這種困惑:訓練 loss 已經趨近于零,eval loss 也很漂亮,benchmark 分數漲了 3-5 個點——一切看起來都很完美。
但你隨手從訓練集里抽幾條讓模型重新回答,它竟然答錯了。你以為是偶然,再多抽幾條——發現答錯的比例并不低。
這不是你的錯覺。騰訊混元與 UNSW 的聯合團隊在 ACL 2026 上發表的這篇論文,首次對這一現象進行了系統性研究,將其命名為 Incomplete Learning Phenomenon(ILP):訓練后模型未能內化部分監督信號的現象。
![]()
論文標題:
Why Supervised Fine-Tuning Fails to Learn: A Systematic Study of Incomplete Learning in Large Language Models
收錄會議:
ACL 2026
作者單位:
騰訊混元 × UNSW
論文鏈接:
https://arxiv.org/abs/2604.10079
![]()
ILP 到底有多普遍?
核心數據:15.3% ± 2.1%
在 10 個標準 SFT 數據集上,作者通過精心設計的檢測協議(后文詳述),發現平均有 15.3% ± 2.1% 的訓練樣本處于未學習狀態。這個比例在以下維度上驚人地穩定:
![]()
![]()
〓 圖1:不完全學習現象示意圖——微調后在訓練集上重新測試,部分樣本在 SFT 過程中并未被有效學習。
更令人警醒的是:未學習樣本不是隨機的。它們系統性地集中在——
涉及罕見實體/低頻知識:23.4% 未學習率
需要多步組合推理:19.8% 未學習率
與預訓練知識沖突:21.2% 未學習率
簡單陳述性知識:8.1% 未學習率(相對較低)
這意味著模型「選擇性放棄」的恰好是那些最有價值、最難標注的復雜樣本。
![]()
為什么這件事極其重要?
3.1 經濟賬:15%的標注預算可能白花了
醫療、法律、金融等垂直領域的 SFT 數據標注成本極高。如果 15% 的數據模型根本學不會,這 15% 的標注費用就是純浪費。
3.2 可靠性賬:關鍵場景的不均衡失效
未學習樣本不是均勻分布的——它們集中在罕見病診斷、邊緣法條適用、長尾金融產品等高價值但低頻的場景。這意味著模型在「看似正常」的整體表現下,隱藏著關鍵場景的系統性盲區。
3.3 評估賬:aggregate metrics 是遮羞布
傳統 SFT 評估只看 loss 曲線和最終 benchmark 分數。一個模型可以在 85% 的整體準確率下,對固定的 15% 訓練樣本永遠答錯——而 loss 曲線完全看不出來。
![]()
作者發現了什么?五大根因
本文最核心的貢獻是將未學習樣本歸因到五個可操作的原因:
![]()
![]()
〓 圖3:未學習樣本歸因框架——橫軸為「基模型是否已知」,縱軸為「SFT標簽是否正確」。
根因 I 與 II:知識層面的鴻溝
根因 I(知識缺失)是最「絕望」的情況:基模型根本沒接觸過相關知識,SFT 的有限梯度信號不足以從零構建知識表征。論文的實驗表明,單純增加 SFT 的 epoch 對該類樣本僅提升 1-2%。
根因 II(知識沖突)則更「頑固」:模型在預訓練階段形成了強烈的錯誤信念(比如某個已過時的事實),SFT 雖然給出了正確答案,但預訓練的先驗分布太強,模型「拒絕改變」。
在 OLMo2-7B 上,通過檢索 Dolma 5T token 預訓練語料,作者確認:19.3%的 SFT 知識在預訓練中根本不存在,14.5% 與預訓練知識沖突。僅這兩項就覆蓋了超過三分之一的不完全學習案例。
根因 III:數據自身的矛盾
SFT 數據中經常存在語義高度相似但標簽不一致的樣本對。比如兩個樣本都在問某疾病的潛伏期,一個標注為「3-7 天」,另一個是「1-14 天」。當它們出現在同一 batch 時,梯度方向相反——凈梯度接近零,兩個樣本都學不會。
根因 IV:多任務訓練的先后順序
當 SFT 數據按來源順序排列(先全部 MedQA,再全部 LegalBench...),模型在后期訓練中會「覆蓋」早期的學習成果。最嚴重的情況:前 10% 數據的 ROUGE-L 下降了 29%。
根因 V:簡單樣本「吃掉」梯度
雖然簡單樣本的梯度小,但數量多——累積梯度反而更大。難樣本數量少但梯度大,卻因為樣本量不足被平均掉了。
![]()
五類針對性解決方案
作者為每種病因設計了針對性的干預策略——注意,不是萬能藥,每種策略只對特定病因有效:
![]()
![]()
〓 圖4:引入 CPT 后各領域性能提升——醫療、法律、金融均有持續增長。
![]()
〓 表1:CPT 前后準確率對比——提升在跨模型規模和領域中均保持穩定。
![]()
研究的完整框架
![]()
〓 圖2:作者提出的「檢測→歸因→干預」三段式診斷框架。
這個框架將 SFT 評估從傳統的「平均分思維」推進到了 instance-level 的學習診斷。核心思想是:不再是「模型總體學得不錯」,而是「具體哪些樣本沒學會?為什么?怎么辦?」
![]()
一個重要的警醒:CPT 是手術刀,不是補藥
在 OLMo2-7B 上的實驗揭示了一個耐人尋味的現象:CPT 雖然在具體的知識沖突案例上成功糾正了輸出(時效性知識、跨文化法律差異、多語言地理實體),但在通用 benchmark(MMLU、BBH、HellaSwag)上性能反而下降了 1-2 個百分點。
作者的解釋是:CPT 引發了模型內部的「表征重校準」——舊的全局表征被擾動,通用能力暫時受損。這意味著 CPT 應該是精準的靶向治療,而非全局施加的萬能補藥。后續需要SFT重新調和。
![]()
對從業者的啟示
讀完這篇論文,每個做 SFT 的工程師都應該問自己幾個問題:
1. 你在 SFT 之后,有沒有把訓練集重新測試一遍?——如果沒有,你可能不知道有多少樣本根本沒學會。
2. 你的數據標注內部有沒有矛盾?——用 Sentence-BERT 掃一遍語義相似但標簽不同的樣本對。
3. 你的數據順序是怎么排的?——如果是按來源/任務線性排列,前面的數據大概率被遺忘了。
4. 你有沒有檢查過基模型對目標領域的 zero-shot 能力?——如果隨機化水平,SFT 救不了你,先做 CPT。
![]()
論文亮點速覽
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.