无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

DPO「只看總分不看細節」?TI-DPO用Token重要性重塑大模型對齊

0
分享至



在當今的大模型后訓練(Post-training)階段,DPO(直接偏好優化) 憑借其無需訓練獨立 Reward Model 的優雅設計和高效性,成功取代 PPO 成為業界的 「版本之子」,被廣泛應用于 Llama-3、Mistral 等頂流開源模型的對齊中。

然而,隨著對模型能力要求的日益嚴苛,DPO 的缺陷逐漸浮出水面。

究竟該如何讓 DPO 學會「去偽存真」,精準識別出那些真正決定勝負的 Critical Tokens

針對這一問題,來自中國科學院自動化研究所、字節跳動、微軟亞洲研究院和北京科技大學的研究者們在被選為 ICLR 2026 Oral 的新工作中聯合提出了一種全新的 TI-DPO 框架。



  • 論文:《Token-Importance Guided Direct Preference Optimization》
  • 論文地址:https://arxiv.org/abs/2505.19653
  • 開源地址:https://github.com/gracefulning/TIDPO

研究背景與意義

主流方法正面臨兩個核心難題,這使得模型難以實現真正精細化的語義控制:

  • 痛點一:序列級的「二元對立」陷阱。傳統方法依然停留在序列級別(Sequence-level)的粗粒度優化上,簡單粗暴地將數據劃分為好與壞。這種二元監督信號極度匱乏,因為它掩蓋高質量回復中可能混雜著瑕疵 Token 的事實,導致了模型在連續語義空間中微調效果差,甚至引發采樣分布偏移(Distribution Shift)。
  • 痛點二:被偏差綁架的「偽」重要性。即使試圖下沉到 Token 級別,現有的重要性評估手段也存在問題。許多方法依賴概率預測或簡單加權,這導致它們直接繼承了模型架構的固有缺陷 ——「U 型注意力偏差」(Lost in the Middle),模型天生傾向于過度關注首尾 Token 而忽略中間的核心語義。

TI-DPO 的核心機制

TI-DPO 的核心思想是:既然 Token 生而不同,那就給它們「加權」。 通過引入混合加權機制和三元組損失,TI-DPO 能夠精準識別并放大「關鍵 Token」的信號,同時抑制噪聲,從而實現比傳統 DPO 更準、更穩的對齊效果。它主要包含兩大核心機制:

1. 混合加權機制 (Hybrid Weighting)

為了找出誰才是決定回復質量的「勝負手」,TI-DPO 設計了一套數據驅動與先驗結構相結合的權重計算法:

  • 梯度歸因:計算 Loss 對每個 Token Embedding 的梯度范數。簡單來說,誰對最終輸出貢獻大,誰的權重就高。
  • 高斯先驗:針對 LLM 常見的「U 型注意力偏差」(過度關注開頭結尾),引入高斯分布強制模型關注中間的語義核心。

最終的 Token 權重 ,是這兩者的凸組合:



新的 Token 級 DPO 加權損失函數如下:



2. 三元組損失 (Triplet Loss)

TI-DPO 不再滿足于非黑即白的二元對比,而是引入了度量學習中的神器Triplet Loss。它在訓練過程中構建了三個角色:







TI-DPO 損失函數:TI-DPO 的最終優化目標便是兩者的加權和:



實驗結果

為了驗證 TI-DPO 的實際戰力,研究團隊在 Llama-3 (8B/3B) 和 Mistral-7B 等多個主流基座模型上進行了測試,對比了包括 DPO、SimPO 以及最近大火的 GRPO 等 10+ 種對齊算法。

1. 綜合能力評估

如圖 1,在 Llama-3.1-8B-Instruct 基座上,TI-DPO 的綜合平均分達到 62.3,超過 GRPO (62.1) 和 DPO (60.8) 。



2. 細分領域表現優秀

在 IFEval(指令遵循)、TruthfulQA(真實性)和 HumanEval(代碼生成) 這三大最考驗細節把握的任務上,TI-DPO 的表現大幅超越了 DPO、SimPO 以及 GRPO。





3. 消融實驗:核心組件缺一不可

Table 2 的消融實驗結果表明,TI-DPO 的所有核心組件(包括混合加權機制、高斯先驗和三元組損失)對于模型性能都至關重要,移除任意模塊均會導致在通用能力、數學推理及代碼生成等各項指標上的顯著下降。



4. 案例展示:一眼看懂「關鍵 Token」

為了驗證 TI-DPO 是否真的學會了「抓重點」,作者展示了一個醫療咨詢案例(「頭痛該怎么辦?」)的權重可視化熱力圖。

  • 在 Preferred 回復中(左):模型給「seek medical attention」和「promptly」分配了極高的權重(紅色深色區域),抓住了「安全第一」的核心。
  • 在 Non-Preferred 回復中(右):模型精準「抓包」了「painkillers casually」這種潛在的高風險建議,并賦予高權重加以懲罰。
  • Intermediate Response是模型當前的自我水平:「建議多休息,如果惡化再看醫生」。TI-DPO 引導模型在生成過程中,不斷向 Preferred 的價值觀靠攏,同時規避 Non-preferred 的陷阱,從而完成從粗放向精細的進化。



這種有力地證明 TI-DPO 不是在死記硬背,而是真的讀懂了人類價值觀。

總結與貢獻

TI-DPO 的提出,為大模型對齊從粗放的序列級優化向更精細的 Token 級控制轉變提供了一個有力的嘗試。它不再滿足于籠統地判斷回答的「好壞」,而是試圖厘清每一個 Token 在價值對齊中的真實貢獻。

實驗結果表明,TI-DPO 在指令遵循、真實性與代碼生成等任務上,相比 GRPO 等基線取得了穩定的性能提升,驗證了提升數據利用的「顆粒度」是增強模型能力的有效路徑。

TI-DPO 以其在去噪和細節控制上的特性,為后續的 RLHF 研究提供了一個值得關注的新方向。我們期待看到更多圍繞「細粒度價值對齊」的探索,推動大模型向著更精準、更可控的方向進化。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
今日賽事!6月14日16:30,CCTV5、CCTV5+直播,中國男排PK古巴

今日賽事!6月14日16:30,CCTV5、CCTV5+直播,中國男排PK古巴

薇說體育
2026-06-14 10:44:41
難怪敢一個勁挑釁中國,原來馬科斯早已知道,菲防長早就留好退路

難怪敢一個勁挑釁中國,原來馬科斯早已知道,菲防長早就留好退路

軒逸阿II
2026-06-14 10:02:46
震驚!武漢某大學食堂貼出提示稱“燒鵝飯為廣東俗稱,實為烤鴨”

震驚!武漢某大學食堂貼出提示稱“燒鵝飯為廣東俗稱,實為烤鴨”

火山詩話
2026-06-13 08:00:03
中際旭創:受匯兌影響業績暴雷傳聞不屬實

中際旭創:受匯兌影響業績暴雷傳聞不屬實

財聯社
2026-06-14 13:21:40
日本軍事專家:一旦中日開戰,日本要對中國“三路打擊”。

日本軍事專家:一旦中日開戰,日本要對中國“三路打擊”。

阿七說史
2026-06-04 15:43:29
不忍了,懷特塞德發文話里有話!

不忍了,懷特塞德發文話里有話!

體育哲人
2026-06-13 23:26:32
這一次,印度終于活成了國際棋局里最尷尬的笑話

這一次,印度終于活成了國際棋局里最尷尬的笑話

浪子的煙火人間
2026-06-14 12:54:43
“李梅燒烤”:燒死近50萬人,800萬人流離失所,比原子彈還可怕

“李梅燒烤”:燒死近50萬人,800萬人流離失所,比原子彈還可怕

史之銘
2026-06-12 09:55:26
2家A股公司火了!超200家機構上門調研!

2家A股公司火了!超200家機構上門調研!

證券時報e公司
2026-06-14 12:37:01
我加班三天沒洗碗,婆婆拍照發給我母親,我母親:想要退貨晚了

我加班三天沒洗碗,婆婆拍照發給我母親,我母親:想要退貨晚了

茶余飯后故事會
2026-06-11 19:46:09
中國女排更新大名單!兩人出局,王藝竹無緣,王夢潔將打主攻

中國女排更新大名單!兩人出局,王藝竹無緣,王夢潔將打主攻

跑者排球視角
2026-06-13 23:45:54
領證時男友去挪車,工作人員小聲說:他4套房全公證后我愣住了

領證時男友去挪車,工作人員小聲說:他4套房全公證后我愣住了

曉艾故事匯
2026-06-12 08:55:29
年利潤125億股價卻下跌60%,市盈率18倍,社保基金逆勢加倉40億

年利潤125億股價卻下跌60%,市盈率18倍,社保基金逆勢加倉40億

投資觀
2026-06-14 07:20:06
布達拉宮地下世界復雜得嚇人!
金碧輝煌下藏著1200多個“地壟”

布達拉宮地下世界復雜得嚇人! 金碧輝煌下藏著1200多個“地壟”

西樓知趣雜談
2026-06-12 08:54:44
你們都是什么時候對男女之事開竅的?網友:果然還是攔不住有心人

你們都是什么時候對男女之事開竅的?網友:果然還是攔不住有心人

夜深愛雜談
2026-02-21 21:37:02
20歲大學生被蜈蚣咬傷,整夜失眠、胡言亂語!家長誤以為心理壓力大,送醫才發現全身炎癥,醫生:病例極具警示性

20歲大學生被蜈蚣咬傷,整夜失眠、胡言亂語!家長誤以為心理壓力大,送醫才發現全身炎癥,醫生:病例極具警示性

上海約飯局
2026-06-13 13:23:47
到底真的假的?網傳幾乎所有大學專業都在勸退…

到底真的假的?網傳幾乎所有大學專業都在勸退…

慧翔百科
2026-06-12 17:40:37
王光美追悼會上劉源罕見失態,李訥見狀囑咐兒子:快去幫幫你劉叔

王光美追悼會上劉源罕見失態,李訥見狀囑咐兒子:快去幫幫你劉叔

歷史龍元閣
2026-06-14 09:30:33
吳為山為湖南省委書記、省長、省政協主席等省領導授課

吳為山為湖南省委書記、省長、省政協主席等省領導授課

政知新媒體
2026-06-14 10:38:13
上海中小學2026學年校歷公布:寒暑假安排來了!第二學期將在元宵節后開學

上海中小學2026學年校歷公布:寒暑假安排來了!第二學期將在元宵節后開學

上海黃浦
2026-06-14 12:15:20
2026-06-14 14:44:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13247文章數 142669關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

中國裁判本屆世界杯首次執法 澳大利亞2比0戰勝土耳其

頭條要聞

中國裁判本屆世界杯首次執法 澳大利亞2比0戰勝土耳其

體育要聞

8年8隊奪冠,鄧肯那句話,現在還給了馬刺

娛樂要聞

具俊曄曝大S離世前虛弱照,難怪小s退讓

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

綜合續航超1600km/零百加速4秒級 2027款星途ES預售18.99萬起

態度原創

房產
旅游
本地
公開課
軍事航空

房產要聞

海南最賺錢行業曝光!最快4年半,海口全款買三房!

旅游要聞

潮起閩東,洞見福建文旅的“下半場”

本地新聞

AK劉彰邂逅河北南大港濕地

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:美伊協議周日簽 還有終極手段

無障礙瀏覽 進入關懷版