![]()
作者 | 薛超
編輯 | 蔡芳芳
每一篇定義新領域的論文,都會打開更多的研究問題。本文從不完全學習現象(ILP,Incomplete Learning Phenomenon)出發,展望 SFT 領域的未來研究方向——有些來自騰訊混元與 UNSW 聯合撰寫的論文,有些則從框架本身推導而來。
論文標題: Why Supervised Fine-Tuning Fails to Learn: A Systematic Study of Incomplete Learning in Large Language Models
arXiv 鏈接: https://arxiv.org/abs/2604.10079
1 方向一:未知根因——被 ILP 框架遺漏的 3%
論文承認約 3%的未學習樣本不屬于五大根因中的任何一個。這些樣本的特征是:
基模型 zero-shot 表現正常(>25%準確率)
SFT 標簽正確
訓練集中沒有 Sim>0.85 的矛盾樣本對
在訓練序列中的位置隨機
Loss 曲線正常(平穩收斂)
所有已知的歸因信號都“正常”,但模型就是沒學會。
可能的解釋:
樣本本身的“內在難度”過高——問題表述過于復雜,模型雖然具備知識但無法準確理解問題
多步推理缺失——樣本需要多步推理,但基模型在推理鏈中間步驟就出錯了
語義漂移——訓練集標注和預訓練知識在語義上不完全匹配,但又不是明顯的“沖突”
解碼策略的固有缺陷——某些樣本的正確答案在解碼空間中概率分布平坦,與采樣溫度相互作用后不穩定
研究價值:如果找到新的根因,ILP 的歸因覆蓋率可以從 97%提升到接近 100%。更重要的是,新根因可能會揭示 SFT 目前尚未被理解的深層限制。
實操建議:對于你的項目中那 3%的“疑難雜癥”樣本,建議單獨標注和追蹤。它們可能是下一個根因發現的第一批線索。
![]()
2 方向二:檢測方法的改進——從 MC 到自由文本
MC 轉換+pass@5 是論文提出的檢測方法,但它不是一個“最終方案”。有兩個可以改進的方向:
方向 2a:自由文本的自動判分
MC 轉換的核心局限是它改變了任務的格式——雖然論文用“訓練-評估解耦”規避了影響,但能否直接在自由文本輸出上做 pass@N 檢測?
關鍵是“如何判斷自由文本輸出是否等價于正確答案”。目前有三種思路:
基于 LLM 的自動判分(如 GPT-4 作為評判者)
基于語義嵌入的相似度計算(如 Sentence-BERT 余弦相似度)
基于信息覆蓋的判定(如輸出是否覆蓋了正確答案的所有關鍵信息)
論文選擇 MC 轉換的原因是它提供了客觀、可復現、跨模型可比的基線。自由文本判分方案如果能達到同樣的客觀性,將是檢測方法的重要進步。
方向 2b:動態溫度的選擇
論文使用的是固定溫度 0.7 做 pass@5 采樣。但不同樣本可能需要不同的溫度來展示其“靈活性”——有的樣本在低溫下就穩定正確,有的需要高溫才能展現多樣性。
一個可能的改進是:針對每條樣本動態選擇最佳檢測溫度,甚至使用多種溫度的 ensemble 結果。
3 方向三:歸因框架的深入——更精細的根因子類
根因 I 的子類化
根因 I(預訓練知識缺失)目前是一個統一類別。但“知識缺失”有不同層級:
完全缺失:預訓練語料中完全不存在相關知識——論文的 8.2%匹配率
部分缺失:預訓練語料中有部分相關信息但不夠形成完整表征
邊緣缺失:預訓練語料中有相關知識但不在 SFT 樣本所在的具體子領域
不同層級的缺失可能需要不同的 CPT 策略——是完全從零構建,還是在已有基礎上精煉?
根因 III 的細化
根因 III(數據內部矛盾)的定義目前依賴 Sim>0.85 的相似度閾值。但矛盾的具體類型可能不同:
標簽矛盾:兩樣本完全一樣但標簽不同
語義矛盾:樣本相似但標簽指向矛盾的結論
視角矛盾:樣本從不同角度描述同一事物,標簽看似不同但實際不矛盾
“假的”根因 III——表面上矛盾但實際不矛盾的樣本對——可能在某些數據集中被誤歸為根因 III。
根因 IV 的邊界
根因 IV(左側遺忘)目前關注訓練序列的位置效應。但“位置”的定義可以更精細:
絕對位置:在訓練序列中的絕對序號——最簡單
相對位置:在總長度中的相對比例——論文使用的方式
上下文位置:與該樣本語義相關的其他樣本的相對位置——更復雜但可能更精確
如果使用語義嵌入來定義“語義鄰居”的位置,可能會發現根因 IV 的本質是“被相似語義的后續樣本覆蓋”,而不簡單是“在序列前段”。
![]()
4 方向四:根因交互——多個根因同時存在時的處理
論文目前的分析是單根因分析——一個樣本被歸因為一個根因。但在實際項目中,一個未學習樣本可能同時涉及多個根因:
根因 I 樣本恰好位于訓練序列前段→根因 I+根因 IV
根因 II 樣本在訓練集中也有矛盾樣本對→根因 II+根因 III
根因 III 樣本同時是難樣本→根因 III+根因 V
論文目前把所有樣本歸入“主導根因”,但“主導”的含義可能不明確——哪些樣本真的是單根因,哪些只是被歸到最顯著的根因?
多根因處理策略
如果未來研究證實多根因樣本占相當比例,需要開發多根因處理策略:
并行修復:同時對涉及的多個根因執行對應方案
串行修復:按根因優先級逐一修復、逐一驗證
組合策略:設計一個方案同時處理多個根因(如全局打亂+動態分桶+漸進 Epoch 的方案組合)
5 方向五:泛化到其他訓練范式
論文的“檢測→歸因→干預→驗證”框架不只是針對 SFT 的。它可以被推廣到:
RLHF/DPO(基于人類反饋的強化學習/直接偏好優化)
檢測:模型的偏好是否被真正內化?RLHF 模型在偏好數據上的“通過率”是否也有 ILP?
歸因:偏好數據中的 ILP 根因是什么?預訓練知識沖突是否也是 RLHF 中“獎勵黑客”的原因?
干預:CPT 是否也能解決 RLHF 中的未學習問題?
持續學習
檢測:增量訓練中,新數據是否被真正學會?舊知識是否被覆蓋?
歸因:增量學習中的遺忘是根因 IV(位置)的變體嗎?
干預:重采樣策略是否也能用于持續學習的遺忘緩解?
多模態訓練
檢測:多模態模型中,“語言對齊→視覺理解”的轉換中是否有 ILP?
歸因:未對齊的根因是視覺編碼器知識缺失(根因 I 變體),還是文本沖突(根因 II 變體)?
干預:CPT 在視覺語言模型中的模擬——對比學習是否需要“知識增強”?
6 方向六:CPT 的精細化研究
論文證明了 CPT 對根因 I/II 有效,但 CPT 本身還有很多未解決的問題:
CPT 數據選擇
如何自動選擇最優的 CPT 語料?——相關性+質量+覆蓋率的平衡
是否需要領域特異性?——通用語料 vs 完全領域特異的語料
CPT 的“配比”——目標語料和通用語料的比例
CPT 訓練策略
CPT 的訓練步數對效果和代價的影響——論文使用 5B token,但多少是最優的?
CPT 的學習率選擇——太低無效,太高導致通用能力災難性下降
CPT 的早停策略——何時停止 CPT 可以最大化領域知識增量、最小化通用能力損失
CPT 的代價減輕
如何減少 CPT 帶來的 MMLU 下降?——論文混合了~15%通用語料
混合配比的精細實驗——10%、15%、20%、25%的最優配比是多少?
CPT 后的“恢復訓練”——用少量通用語料重新訓練能否恢復通用能力?
7 方向七:ILP 的行業應用與標準化
建立 ILP 檢測的行業標準
論文展示了 ILP 檢測的價值,但行業標準還沒有建立:
是否需要統一的檢測流程?——MC 轉換+pass@5 是否應該成為 SFT 評估的標準組件?
是否需要建立 ILP 的 benchmark?——如同 MMLU、HumanEval 一樣?
ILP 與模型安全
ILP 可能對 AI 安全有重要啟示:
未學習樣本是否也是“安全對齊未成功”的樣本?——如果模型對 15%的樣本“沒學會”,那 15%的安全規則是否也“沒被對齊”?
ILP 檢測能否作為“紅隊測試”的前置篩選——先跑 pass@5 找出未對齊樣本,再做人工紅隊測試?
降低 ILP 檢測的門檻
論文的 ILP 檢測需要 GPT-4(干擾項生成)和一定的計算資源。降低門檻也是重要的推進方向:
用開源模型替代 GPT-4 進行干擾項生成
開發一鍵式 ILP 檢測工具
將 ILP 檢測集成到主流的 SFT 訓練框架中
8 寫在最后:ILP 研究的“無窮遠方”
ACL 2026 論文對 ILP 的發現不是終點,而是起點。
它打開了一個全新的研究方向——“SFT 病理學”:ILP 是癥狀,五大根因是病因,五種方案是處方,“檢測→歸因→干預→驗證”是診療流程。
這個框架可以被推廣到 RLHF、DPO、多模態、持續學習等所有涉及“訓練數據是否被有效學習”的場景。每一步推廣都會產生新的科學問題。
對研究者:篇篇論文都有做——每一個“方向”都是一篇新論文的核心內容。未知根因、多根因交互、CPT 精細化、RLHF 推廣、自由文本檢測……隨便選一個方向深挖,就是一篇新的頂會論文。
對工程師:這些方向中最有工程價值的是 ILP 檢測標準化和 CPT 精細化。把 ILP 檢測集成到 SFT 訓練框架中,就像把 unit test 集成到軟件開發流程中一樣自然。這可能是未來 1-2 年內 SFT 工程領域最重要的基礎設施升級。
ILP 不只是這篇論文的發現,它是整個后訓練研究范式的起點。
未來的研究議程
基于對 ILP 框架的完整理解,我列出未來研究中應該優先推動的方向:
Tier 1(高優先級,1-2 年內有望突破)
未知根因的發現與驗證——論文已確定的 3%樣本
自由文本 pass@N 檢測——替代 MC 轉換的局限性
ILP 檢測的標準化工具——讓檢測流程可以一鍵運行
Tier 2(中優先級,2-3 年內有望突破)
多根因樣本的聯合歸因與修復策略
CPT 數據選擇的精細化——自動尋找最優語料
ILP 在 RLHF/DPO 中的推廣
Tier 3(長期目標,3 年以上)
ILP 與 AI 安全交叉——未對齊樣本檢測
預訓練階段 ILP——大模型在預訓練階段的“”不完全學習“”
跨模態 ILP——視覺語言對齊中的未學習現象
對研究社區的建議
ILP 的出現,讓 SFT 研究從“怎么做更好”進入了“為什么沒做好”的階段。這個范式轉變需要社區共同努力:
建立 ILP 的通用 benchmark:統一的檢測標準、歸因標準、評估標準,讓不同研究的成果可以公平比較
開發 ILP 的開源工具包:包括 MC 轉換、pass@5 檢測、2x2 歸因矩陣、干預方案驗證等模塊
共享根因分布數據:不同領域、不同模型、不同數據集上的根因分布數據,幫助社區建立更完整的 ILP 認知地圖
這是一條新的研究道路,但不是最后一條。
論文: Why Supervised Fine-Tuning Fails to Learn: A Systematic Study of Incomplete Learning in Large Language Models 會議: ACL 2026 | 單位: 騰訊混元 與 UNSW arXiv: https://arxiv.org/abs/2604.10079
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.