網易首頁 > 網易號 > 正文申請入駐

ACL 2026 | 騰訊混元發現「不完全學習」，SFT仍漏學15%訓練數據

2026-06-19 21:42:38　來源: 新浪財經

北京舉報

分享至

來源：市場資訊

（來源：PaperWeekly）

即使 SFT（Supervised Fine-Tuning，監督微調）訓練已收斂、loss 已平穩、所有超參都調無可調，你的模型在訓練集上重新測試——仍然有平均 15.3% 的樣本答不對。

這不是過擬合，不是災難性遺忘，不是數據噪聲。這是「不完全學習」。

什么是「不完全學習現象」（ILP）？

做過 SFT 的人都有過這種困惑：訓練 loss 已經趨近于零，eval loss 也很漂亮，benchmark 分數漲了 3-5 個點——一切看起來都很完美。

但你隨手從訓練集里抽幾條讓模型重新回答，它竟然答錯了。你以為是偶然，再多抽幾條——發現答錯的比例并不低。

這不是你的錯覺。騰訊混元與 UNSW 的聯合團隊在 ACL 2026 上發表的這篇論文，首次對這一現象進行了系統性研究，將其命名為 Incomplete Learning Phenomenon（ILP）：訓練后模型未能內化部分監督信號的現象。

論文標題：

Why Supervised Fine-Tuning Fails to Learn: A Systematic Study of Incomplete Learning in Large Language Models

收錄會議：

ACL 2026

作者單位：

騰訊混元 × UNSW

論文鏈接：

https://arxiv.org/abs/2604.10079

ILP 到底有多普遍？

核心數據：15.3% ± 2.1%

在 10 個標準 SFT 數據集上，作者通過精心設計的檢測協議（后文詳述），發現平均有 15.3% ± 2.1% 的訓練樣本處于未學習狀態。這個比例在以下維度上驚人地穩定：

〓圖1：不完全學習現象示意圖——微調后在訓練集上重新測試，部分樣本在 SFT 過程中并未被有效學習。

更令人警醒的是：未學習樣本不是隨機的。它們系統性地集中在——

涉及罕見實體/低頻知識：23.4% 未學習率
需要多步組合推理：19.8% 未學習率
與預訓練知識沖突：21.2% 未學習率
簡單陳述性知識：8.1% 未學習率（相對較低）

這意味著模型「選擇性放棄」的恰好是那些最有價值、最難標注的復雜樣本。

為什么這件事極其重要？

3.1 經濟賬：15%的標注預算可能白花了

醫療、法律、金融等垂直領域的 SFT 數據標注成本極高。如果 15% 的數據模型根本學不會，這 15% 的標注費用就是純浪費。

3.2 可靠性賬：關鍵場景的不均衡失效

未學習樣本不是均勻分布的——它們集中在罕見病診斷、邊緣法條適用、長尾金融產品等高價值但低頻的場景。這意味著模型在「看似正常」的整體表現下，隱藏著關鍵場景的系統性盲區。

3.3 評估賬：aggregate metrics 是遮羞布

傳統 SFT 評估只看 loss 曲線和最終 benchmark 分數。一個模型可以在 85% 的整體準確率下，對固定的 15% 訓練樣本永遠答錯——而 loss 曲線完全看不出來。

作者發現了什么？五大根因

本文最核心的貢獻是將未學習樣本歸因到五個可操作的原因：

〓圖3：未學習樣本歸因框架——橫軸為「基模型是否已知」，縱軸為「SFT標簽是否正確」。

根因 I 與 II：知識層面的鴻溝

根因 I（知識缺失）是最「絕望」的情況：基模型根本沒接觸過相關知識，SFT 的有限梯度信號不足以從零構建知識表征。論文的實驗表明，單純增加 SFT 的 epoch 對該類樣本僅提升 1-2%。

根因 II（知識沖突）則更「頑固」：模型在預訓練階段形成了強烈的錯誤信念（比如某個已過時的事實），SFT 雖然給出了正確答案，但預訓練的先驗分布太強，模型「拒絕改變」。

在 OLMo2-7B 上，通過檢索 Dolma 5T token 預訓練語料，作者確認：19.3%的 SFT 知識在預訓練中根本不存在，14.5% 與預訓練知識沖突。僅這兩項就覆蓋了超過三分之一的不完全學習案例。

根因 III：數據自身的矛盾

SFT 數據中經常存在語義高度相似但標簽不一致的樣本對。比如兩個樣本都在問某疾病的潛伏期，一個標注為「3-7 天」，另一個是「1-14 天」。當它們出現在同一 batch 時，梯度方向相反——凈梯度接近零，兩個樣本都學不會。

根因 IV：多任務訓練的先后順序

當 SFT 數據按來源順序排列（先全部 MedQA，再全部 LegalBench...），模型在后期訓練中會「覆蓋」早期的學習成果。最嚴重的情況：前 10% 數據的 ROUGE-L 下降了 29%。

根因 V：簡單樣本「吃掉」梯度

雖然簡單樣本的梯度小，但數量多——累積梯度反而更大。難樣本數量少但梯度大，卻因為樣本量不足被平均掉了。

五類針對性解決方案

作者為每種病因設計了針對性的干預策略——注意，不是萬能藥，每種策略只對特定病因有效：

〓圖4：引入 CPT 后各領域性能提升——醫療、法律、金融均有持續增長。

〓表1：CPT 前后準確率對比——提升在跨模型規模和領域中均保持穩定。

研究的完整框架

〓圖2：作者提出的「檢測→歸因→干預」三段式診斷框架。

這個框架將 SFT 評估從傳統的「平均分思維」推進到了 instance-level 的學習診斷。核心思想是：不再是「模型總體學得不錯」，而是「具體哪些樣本沒學會？為什么？怎么辦？」

一個重要的警醒：CPT 是手術刀，不是補藥

在 OLMo2-7B 上的實驗揭示了一個耐人尋味的現象：CPT 雖然在具體的知識沖突案例上成功糾正了輸出（時效性知識、跨文化法律差異、多語言地理實體），但在通用 benchmark（MMLU、BBH、HellaSwag）上性能反而下降了 1-2 個百分點。

作者的解釋是：CPT 引發了模型內部的「表征重校準」——舊的全局表征被擾動，通用能力暫時受損。這意味著 CPT 應該是精準的靶向治療，而非全局施加的萬能補藥。后續需要SFT重新調和。

對從業者的啟示

讀完這篇論文，每個做 SFT 的工程師都應該問自己幾個問題：

1. 你在 SFT 之后，有沒有把訓練集重新測試一遍？——如果沒有，你可能不知道有多少樣本根本沒學會。

2. 你的數據標注內部有沒有矛盾？——用 Sentence-BERT 掃一遍語義相似但標簽不同的樣本對。

3. 你的數據順序是怎么排的？——如果是按來源/任務線性排列，前面的數據大概率被遺忘了。

4. 你有沒有檢查過基模型對目標領域的 zero-shot 能力？——如果隨機化水平，SFT 救不了你，先做 CPT。

論文亮點速覽

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

立陶宛總統向外長發"最后通牒":搞不好對華關系就走人

參考消息 2026-06-20 13:21:11
7077 跟貼 7077
時隔44年試射洲際導彈專家：機動打擊能力達實戰標準

央視新聞 2026-06-20 14:53:11
11600 跟貼 11600

演員張頌文深夜街頭救人，獲評“見義勇為先進個人”；此前本人回應：該幫就幫，該扶就扶，有什么可怕的呢？

極目新聞 2026-06-20 18:01:24
2573 跟貼 2573

柬埔寨對華免簽落地首日即有老廣團出發

新快報新聞 2026-06-16 08:19:02
22624 跟貼 22624
巴西3比0海地，拿到關鍵3分，桑巴軍團卷土重來

澎湃新聞 2026-06-20 10:32:27
394 跟貼 394

小鵬副總裁回應“L3L4自動駕駛強制使用激光雷達”：新國標連激光雷達這個詞都沒提到

紅星資本局 2026-06-20 12:58:06
1773 跟貼 1773

國道為何改成景區內部路？記者實地探訪綿陽梓潼七曲山景區

極目新聞 2026-06-19 22:13:08
210 跟貼 210
周冬雨看著提詞器演話劇導演回應：沒要求演員背詞

新民周刊 2026-06-20 15:57:56
717 跟貼 717

對話佛得角華商：和“門神”沃奇尼亞相識多年，他很善良！

新民周刊 2026-06-20 21:49:43
78 跟貼 78
導航軟件開屏"搖一搖"廣告影響行車安全客服回應

極目新聞 2026-06-20 18:09:43
618 跟貼 618
首次、首批、全球最大！本周，我國多領域創新成果亮眼

齊魯壹點 2026-06-20 07:27:14
495 跟貼 495
ESPN：已有多名內線球員希望加盟馬刺聯手文班

北青網-北京青年報 2026-06-20 10:55:03
170 跟貼 170
剛剛，“蘇超”積分榜更新

揚子晚報 2026-06-20 22:40:40
11 跟貼 11
演員李現將為西班牙隊vs沙特隊開球

大象新聞 2026-06-20 11:26:25
518 跟貼 518
三名中國裁判將在同場比賽亮相

新京報 2026-06-20 07:37:32
455 跟貼 455
王樹國辟謠“福耀科技大學不發課本只發崗位清單”：我們對學生的知識基礎要求很嚴，數學用的都是英文原版教材，老師是來自歐洲的數學家

瀟湘晨報 2026-06-20 18:56:12
339 跟貼 339
濟南一小區配套小學被租給民辦高中，區教體局：為盤活國有資產

澎湃新聞 2026-06-20 08:12:27
68 跟貼 68
Meta 士氣跌至歷史冰點，高管承認管理失誤并推零食福利試圖挽回

環球網資訊 2026-06-20 12:32:07
115 跟貼 115
外資機構：越來越開放的中國市場越來越有吸引力

每日經濟新聞 2026-06-20 20:19:05
240 跟貼 240
蓉城足協杯首戰4-0勝中冠球隊晉級韋世豪兩記世界波建功

封面新聞 2026-06-20 23:08:39
8 跟貼 8
首屆華東地區老年人臺球賽在滬開桿，臺球明星丁俊暉與潘曉婷的父親均參賽

文匯報 2026-06-21 00:19:24
1 跟貼 1

新浪財經

新浪財經是一家創建于1999年8月的財經平臺

3703493文章數 8216關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

健康

數碼

房產

軍事航空

手機 / 數碼

房產 / 家居

ACL 2026 | 騰訊混元發現「不完全學習」，SFT仍漏學15%訓練數據

杜絕孩子沉迷AI，家長只需做好兩件事

女子被困電梯跳出后墜入20米深電梯井身亡 女兒目睹

女子被困電梯跳出后墜入20米深電梯井身亡 女兒目睹

全隊抱頭痛哭!5億歐土耳其出局 2場轟62腳0進球

張凱麗被罵到關評！

金飾克價年內大跌近450元 跌幅最高達26%

DeepSeek上線識圖模式，看誰都像梁文鋒

驚出冷汗！重慶實測奧迪A5L，華為智駕這波操作絕了…

態度原創

T1分部官宣人員變動，韓網炸鍋黑歷史被扒！粉絲炮轟：這種人也要

吃粽子的3條保胃法則，消化科醫生推薦

SK海力士參展HPED 2026：HBM4、CXL 3.2內存齊亮相

商業清零式退潮，大量住宅登場！三亞又要大規模調規！

美伊瑞士談判因以色列攪局泡湯

女子被困電梯跳出后墜入20米深電梯井身亡女兒目睹

女子被困電梯跳出后墜入20米深電梯井身亡女兒目睹

金飾克價年內大跌近450元跌幅最高達26%