網易首頁 > 網易號 > 正文申請入駐

SFT「不完全學習」之后，研究的下一個前沿在哪？ACL 2026 騰訊混元論文未來方向展望

2026-07-01 10:18:16　來源: InfoQ

北京舉報

分享至

作者 | 薛超

編輯 | 蔡芳芳

每一篇定義新領域的論文，都會打開更多的研究問題。本文從不完全學習現象（ILP，Incomplete Learning Phenomenon）出發，展望 SFT 領域的未來研究方向——有些來自騰訊混元與 UNSW 聯合撰寫的論文，有些則從框架本身推導而來。

論文標題: Why Supervised Fine-Tuning Fails to Learn: A Systematic Study of Incomplete Learning in Large Language Models
arXiv 鏈接: https://arxiv.org/abs/2604.10079

1 方向一：未知根因——被 ILP 框架遺漏的 3%

論文承認約 3%的未學習樣本不屬于五大根因中的任何一個。這些樣本的特征是：

基模型 zero-shot 表現正常（>25%準確率）

SFT 標簽正確
訓練集中沒有 Sim>0.85 的矛盾樣本對
在訓練序列中的位置隨機
Loss 曲線正常（平穩收斂）

所有已知的歸因信號都“正常”，但模型就是沒學會。

可能的解釋：

樣本本身的“內在難度”過高——問題表述過于復雜，模型雖然具備知識但無法準確理解問題
多步推理缺失——樣本需要多步推理，但基模型在推理鏈中間步驟就出錯了
語義漂移——訓練集標注和預訓練知識在語義上不完全匹配，但又不是明顯的“沖突”
解碼策略的固有缺陷——某些樣本的正確答案在解碼空間中概率分布平坦，與采樣溫度相互作用后不穩定

研究價值：如果找到新的根因，ILP 的歸因覆蓋率可以從 97%提升到接近 100%。更重要的是，新根因可能會揭示 SFT 目前尚未被理解的深層限制。

實操建議：對于你的項目中那 3%的“疑難雜癥”樣本，建議單獨標注和追蹤。它們可能是下一個根因發現的第一批線索。

2 方向二：檢測方法的改進——從 MC 到自由文本

MC 轉換+pass@5 是論文提出的檢測方法，但它不是一個“最終方案”。有兩個可以改進的方向：

方向 2a：自由文本的自動判分

MC 轉換的核心局限是它改變了任務的格式——雖然論文用“訓練-評估解耦”規避了影響，但能否直接在自由文本輸出上做 pass@N 檢測？

關鍵是“如何判斷自由文本輸出是否等價于正確答案”。目前有三種思路：

基于 LLM 的自動判分（如 GPT-4 作為評判者）
基于語義嵌入的相似度計算（如 Sentence-BERT 余弦相似度）
基于信息覆蓋的判定（如輸出是否覆蓋了正確答案的所有關鍵信息）

論文選擇 MC 轉換的原因是它提供了客觀、可復現、跨模型可比的基線。自由文本判分方案如果能達到同樣的客觀性，將是檢測方法的重要進步。

方向 2b：動態溫度的選擇

論文使用的是固定溫度 0.7 做 pass@5 采樣。但不同樣本可能需要不同的溫度來展示其“靈活性”——有的樣本在低溫下就穩定正確，有的需要高溫才能展現多樣性。

一個可能的改進是：針對每條樣本動態選擇最佳檢測溫度，甚至使用多種溫度的 ensemble 結果。

3 方向三：歸因框架的深入——更精細的根因子類

根因 I 的子類化

根因 I（預訓練知識缺失）目前是一個統一類別。但“知識缺失”有不同層級：

完全缺失：預訓練語料中完全不存在相關知識——論文的 8.2%匹配率
部分缺失：預訓練語料中有部分相關信息但不夠形成完整表征
邊緣缺失：預訓練語料中有相關知識但不在 SFT 樣本所在的具體子領域

不同層級的缺失可能需要不同的 CPT 策略——是完全從零構建，還是在已有基礎上精煉？

根因 III 的細化

根因 III（數據內部矛盾）的定義目前依賴 Sim>0.85 的相似度閾值。但矛盾的具體類型可能不同：

標簽矛盾：兩樣本完全一樣但標簽不同
語義矛盾：樣本相似但標簽指向矛盾的結論
視角矛盾：樣本從不同角度描述同一事物，標簽看似不同但實際不矛盾

“假的”根因 III——表面上矛盾但實際不矛盾的樣本對——可能在某些數據集中被誤歸為根因 III。

根因 IV 的邊界

根因 IV（左側遺忘）目前關注訓練序列的位置效應。但“位置”的定義可以更精細：

絕對位置：在訓練序列中的絕對序號——最簡單
相對位置：在總長度中的相對比例——論文使用的方式
上下文位置：與該樣本語義相關的其他樣本的相對位置——更復雜但可能更精確

如果使用語義嵌入來定義“語義鄰居”的位置，可能會發現根因 IV 的本質是“被相似語義的后續樣本覆蓋”，而不簡單是“在序列前段”。

4 方向四：根因交互——多個根因同時存在時的處理

論文目前的分析是單根因分析——一個樣本被歸因為一個根因。但在實際項目中，一個未學習樣本可能同時涉及多個根因：

根因 I 樣本恰好位于訓練序列前段→根因 I+根因 IV
根因 II 樣本在訓練集中也有矛盾樣本對→根因 II+根因 III
根因 III 樣本同時是難樣本→根因 III+根因 V

論文目前把所有樣本歸入“主導根因”，但“主導”的含義可能不明確——哪些樣本真的是單根因，哪些只是被歸到最顯著的根因？

多根因處理策略

如果未來研究證實多根因樣本占相當比例，需要開發多根因處理策略：

并行修復：同時對涉及的多個根因執行對應方案
串行修復：按根因優先級逐一修復、逐一驗證
組合策略：設計一個方案同時處理多個根因（如全局打亂+動態分桶+漸進 Epoch 的方案組合）

5 方向五：泛化到其他訓練范式

論文的“檢測→歸因→干預→驗證”框架不只是針對 SFT 的。它可以被推廣到：

RLHF/DPO（基于人類反饋的強化學習/直接偏好優化）

檢測：模型的偏好是否被真正內化？RLHF 模型在偏好數據上的“通過率”是否也有 ILP？
歸因：偏好數據中的 ILP 根因是什么？預訓練知識沖突是否也是 RLHF 中“獎勵黑客”的原因？
干預：CPT 是否也能解決 RLHF 中的未學習問題？

持續學習

檢測：增量訓練中，新數據是否被真正學會？舊知識是否被覆蓋？
歸因：增量學習中的遺忘是根因 IV（位置）的變體嗎？
干預：重采樣策略是否也能用于持續學習的遺忘緩解？

多模態訓練

檢測：多模態模型中，“語言對齊→視覺理解”的轉換中是否有 ILP？
歸因：未對齊的根因是視覺編碼器知識缺失（根因 I 變體），還是文本沖突（根因 II 變體）？
干預：CPT 在視覺語言模型中的模擬——對比學習是否需要“知識增強”？

6 方向六：CPT 的精細化研究

論文證明了 CPT 對根因 I/II 有效，但 CPT 本身還有很多未解決的問題：

CPT 數據選擇

如何自動選擇最優的 CPT 語料？——相關性+質量+覆蓋率的平衡
是否需要領域特異性？——通用語料 vs 完全領域特異的語料
CPT 的“配比”——目標語料和通用語料的比例

CPT 訓練策略

CPT 的訓練步數對效果和代價的影響——論文使用 5B token，但多少是最優的？
CPT 的學習率選擇——太低無效，太高導致通用能力災難性下降
CPT 的早停策略——何時停止 CPT 可以最大化領域知識增量、最小化通用能力損失

CPT 的代價減輕

如何減少 CPT 帶來的 MMLU 下降？——論文混合了~15%通用語料
混合配比的精細實驗——10%、15%、20%、25%的最優配比是多少？
CPT 后的“恢復訓練”——用少量通用語料重新訓練能否恢復通用能力？

7 方向七：ILP 的行業應用與標準化

建立 ILP 檢測的行業標準

論文展示了 ILP 檢測的價值，但行業標準還沒有建立：
是否需要統一的檢測流程？——MC 轉換+pass@5 是否應該成為 SFT 評估的標準組件？
是否需要建立 ILP 的 benchmark？——如同 MMLU、HumanEval 一樣？

ILP 與模型安全

ILP 可能對 AI 安全有重要啟示：
未學習樣本是否也是“安全對齊未成功”的樣本？——如果模型對 15%的樣本“沒學會”，那 15%的安全規則是否也“沒被對齊”？
ILP 檢測能否作為“紅隊測試”的前置篩選——先跑 pass@5 找出未對齊樣本，再做人工紅隊測試？

降低 ILP 檢測的門檻

論文的 ILP 檢測需要 GPT-4（干擾項生成）和一定的計算資源。降低門檻也是重要的推進方向：

用開源模型替代 GPT-4 進行干擾項生成
開發一鍵式 ILP 檢測工具
將 ILP 檢測集成到主流的 SFT 訓練框架中

8 寫在最后：ILP 研究的“無窮遠方”

ACL 2026 論文對 ILP 的發現不是終點，而是起點。

它打開了一個全新的研究方向——“SFT 病理學”：ILP 是癥狀，五大根因是病因，五種方案是處方，“檢測→歸因→干預→驗證”是診療流程。

這個框架可以被推廣到 RLHF、DPO、多模態、持續學習等所有涉及“訓練數據是否被有效學習”的場景。每一步推廣都會產生新的科學問題。

對研究者：篇篇論文都有做——每一個“方向”都是一篇新論文的核心內容。未知根因、多根因交互、CPT 精細化、RLHF 推廣、自由文本檢測……隨便選一個方向深挖，就是一篇新的頂會論文。

對工程師：這些方向中最有工程價值的是 ILP 檢測標準化和 CPT 精細化。把 ILP 檢測集成到 SFT 訓練框架中，就像把 unit test 集成到軟件開發流程中一樣自然。這可能是未來 1-2 年內 SFT 工程領域最重要的基礎設施升級。

ILP 不只是這篇論文的發現，它是整個后訓練研究范式的起點。

未來的研究議程

基于對 ILP 框架的完整理解，我列出未來研究中應該優先推動的方向：

Tier 1（高優先級，1-2 年內有望突破）

未知根因的發現與驗證——論文已確定的 3%樣本
自由文本 pass@N 檢測——替代 MC 轉換的局限性
ILP 檢測的標準化工具——讓檢測流程可以一鍵運行

Tier 2（中優先級，2-3 年內有望突破）

多根因樣本的聯合歸因與修復策略
CPT 數據選擇的精細化——自動尋找最優語料
ILP 在 RLHF/DPO 中的推廣

Tier 3（長期目標，3 年以上）

ILP 與 AI 安全交叉——未對齊樣本檢測
預訓練階段 ILP——大模型在預訓練階段的“”不完全學習“”
跨模態 ILP——視覺語言對齊中的未學習現象

對研究社區的建議

ILP 的出現，讓 SFT 研究從“怎么做更好”進入了“為什么沒做好”的階段。這個范式轉變需要社區共同努力：

建立 ILP 的通用 benchmark：統一的檢測標準、歸因標準、評估標準，讓不同研究的成果可以公平比較

開發 ILP 的開源工具包：包括 MC 轉換、pass@5 檢測、2x2 歸因矩陣、干預方案驗證等模塊

共享根因分布數據：不同領域、不同模型、不同數據集上的根因分布數據，幫助社區建立更完整的 ILP 認知地圖

這是一條新的研究道路，但不是最后一條。

論文: Why Supervised Fine-Tuning Fails to Learn: A Systematic Study of Incomplete Learning in Large Language Models 會議: ACL 2026 | 單位: 騰訊混元與 UNSW arXiv: https://arxiv.org/abs/2604.10079

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.