網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

訓(xùn)練數(shù)據(jù)枯竭怎么辦？首篇「數(shù)據(jù)價(jià)值密度」綜述理清思路

2026-05-14 18:10:09　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

本文由來(lái)自上海交通大學(xué)和上海人工智能實(shí)驗(yàn)室的多位研究者共同完成，受到上海市“通用人工智能大模型”基礎(chǔ)研究專(zhuān)項(xiàng)支持。共同第一作者為孫亦劉、陸彥超與曹家熙，共同通訊作者為來(lái)自上海交通大學(xué)自動(dòng)化與感知學(xué)院的宮辰教授與劉偉副教授。團(tuán)隊(duì)長(zhǎng)期致力于機(jī)器學(xué)習(xí)及大模型方面的研究。

當(dāng)訓(xùn)練數(shù)據(jù)枯竭、訓(xùn)練成本飆升，大語(yǔ)言模型（LLM）訓(xùn)練之路該何去何從？

作為提升 LLM 性能的主流核心范式，持續(xù)擴(kuò)充訓(xùn)練數(shù)據(jù)量的傳統(tǒng)做法正面臨嚴(yán)峻挑戰(zhàn)（如圖 1 所示）。研究表明，目前互聯(lián)網(wǎng)上可獲取的高質(zhì)量數(shù)據(jù)年增長(zhǎng)率不足 10 %，難以滿(mǎn)足 LLM 訓(xùn)練數(shù)據(jù)大規(guī)模增加的需求。同時(shí)，該范式引導(dǎo)的 LLM 訓(xùn)練動(dòng)輒需要數(shù)千萬(wàn) GPU 小時(shí)的算力開(kāi)銷(xiāo)，產(chǎn)生了巨額資源消耗與碳排放，讓堆數(shù)據(jù)策略難以為繼。

圖 1：左：大模型數(shù)據(jù)擴(kuò)展面臨的三大挑戰(zhàn)。右：互聯(lián)網(wǎng)可用數(shù)據(jù)量與 LLM 訓(xùn)練數(shù)據(jù)量的增長(zhǎng)趨勢(shì)對(duì)比。

因而，如何在有限的數(shù)據(jù)規(guī)模下獲取更多的訓(xùn)練收益，已經(jīng)成為 LLM 訓(xùn)練的關(guān)鍵問(wèn)題！

目前，研究者在該領(lǐng)域已展開(kāi)了大量的探索，例如 s1、Less-Is-More Reasoning (LIMO) Hypothesis 和 Rho-1，但該領(lǐng)域仍缺乏統(tǒng)一的研究視角和系統(tǒng)的工作梳理，導(dǎo)致研究目標(biāo)界定模糊，研究方法呈現(xiàn)零散化、碎片化的格局，尚未形成完備、統(tǒng)一的理論與方法體系。

在這一背景下，來(lái)自上海交通大學(xué)與上海人工智能實(shí)驗(yàn)室的研究團(tuán)隊(duì)發(fā)布了該領(lǐng)域的首篇系統(tǒng)性綜述。該綜述首次提出了 “數(shù)據(jù)價(jià)值密度”（Data Value Density，DVD）這一核心概念并給出數(shù)學(xué)定義。基于該定義，該綜述建立了系統(tǒng)的分類(lèi)框架，梳理了該領(lǐng)域的現(xiàn)有工作，為學(xué)術(shù)界和工業(yè)界繪制了一份詳盡的指南。

論文標(biāo)題：Data Value Density Enhancement for Large Language Model Training: A Comprehensive Survey
論文鏈接：https://ssrn.com/abstract=6618802

核心概念與主要貢獻(xiàn)

本篇 Survey 從底層邏輯出發(fā)，首次提出了 “數(shù)據(jù)價(jià)值密度”（Data Value Density，DVD）這一核心概念，并給出了嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)定義：

其中，D 表示 LLM 訓(xùn)練所使用的數(shù)據(jù)集，C 表示評(píng)估數(shù)據(jù)價(jià)值所必須的上下文信息，例如當(dāng)前 LLM 能力分布、目標(biāo)任務(wù)特征等。

V (D∣C) 衡量數(shù)據(jù)集 D 在訓(xùn)練上下文 C 下對(duì)模型性能提升的總貢獻(xiàn)價(jià)值，而 μ(D) 衡量數(shù)據(jù)集 D 的規(guī)模。該領(lǐng)域研究的目標(biāo)，就是構(gòu)建一個(gè)新數(shù)據(jù)集，使其價(jià)值密度大于原數(shù)據(jù)集（Δf>0）。

基于這一核心概念，作者系統(tǒng)性地梳理了現(xiàn)有文獻(xiàn)，作出了四大核心貢獻(xiàn)：

貢獻(xiàn)一：首次提出 “DVD” 這一概念，為大模型訓(xùn)練全階段的數(shù)據(jù)優(yōu)化確立了明確的研究目標(biāo)，即增強(qiáng)訓(xùn)練數(shù)據(jù)的價(jià)值密度；
貢獻(xiàn)二：基于 DVD 的定義，將現(xiàn)有方法劃分為五大方向，厘清了技術(shù)發(fā)展的完整脈絡(luò)；
貢獻(xiàn)三：梳理了目前用于數(shù)據(jù)價(jià)值密度增強(qiáng)領(lǐng)域的代表性數(shù)據(jù)集，深度剖析了不同任務(wù)的數(shù)據(jù)內(nèi)在特性；
貢獻(xiàn)四：指出了數(shù)據(jù)價(jià)值密度增強(qiáng)領(lǐng)域所面臨的挑戰(zhàn)，為學(xué)術(shù)界和工業(yè)界在本領(lǐng)域的探索指明了有潛力的方向。

框架介紹

基于 DVD 的數(shù)學(xué)定義中分子 V (D∣C) 與分母 μ(D) 的動(dòng)態(tài)變化關(guān)系，作者將數(shù)據(jù)價(jià)值密度增強(qiáng)領(lǐng)域劃分為五大類(lèi)別（如圖 2 所示）：

V (D∣C) 提升，μ(D) 不變：在數(shù)據(jù)規(guī)模固定的情況下，提升數(shù)據(jù)總體價(jià)值，包含數(shù)據(jù)調(diào)度，數(shù)據(jù)混合，增強(qiáng)式生成等策略；
V (D∣C) 不變，μ(D) 下降：在數(shù)據(jù)總體價(jià)值不變的情況下，降低數(shù)據(jù)規(guī)模，包含重復(fù)數(shù)據(jù)去除，數(shù)據(jù)蒸餾等策略；
V (D∣C) 提升，μ(D) 下降：在數(shù)據(jù)總體價(jià)值提升的情況下，降低數(shù)據(jù)規(guī)模，包括負(fù)價(jià)值數(shù)據(jù)去除等策略；
V (D∣C) 略降，μ(D) 暴降：在數(shù)據(jù)總體價(jià)值輕微下降的情況下，數(shù)據(jù)規(guī)模大幅度下降，包括高價(jià)值數(shù)據(jù)篩選等策略；
V (D∣C) 暴增，μ(D) 略增：在數(shù)據(jù)規(guī)模輕微上升的情況下，數(shù)據(jù)總體價(jià)值大幅度上升，包括數(shù)據(jù)進(jìn)化等策略。

圖 2：DVD 增強(qiáng)方法分類(lèi)框架

為了更好地理解各類(lèi) DVD 增強(qiáng)策略，作者用一張清晰的示意圖進(jìn)行形象化的展示，示意了不同類(lèi)型的 DVD 增強(qiáng)策略實(shí)施前后數(shù)據(jù)集內(nèi)部發(fā)生的變化（如圖 3 所示）。

圖 3：五類(lèi) DVD 增強(qiáng)策略的實(shí)現(xiàn)原理

主流數(shù)據(jù)集

除去方法論相關(guān)介紹，本篇 Survey 同時(shí)整理了 DVD 增強(qiáng)研究中高頻使用的數(shù)據(jù)集，并根據(jù)任務(wù)特性將其分為三大板塊（如表 1 所示）：

文本理解：從高達(dá)上萬(wàn)億 Token 的無(wú)標(biāo)簽預(yù)訓(xùn)練語(yǔ)料，到少而精的有標(biāo)簽后訓(xùn)練數(shù)據(jù)；
復(fù)雜推理：針對(duì)不同類(lèi)型的推理任務(wù)（如邏輯推理與常識(shí)推理），收錄了包含 MATH, GPQA, OpenThoughts、AIME 等主流的推理數(shù)據(jù)集；
垂直領(lǐng)域：梳理了醫(yī)療、法律、金融等多個(gè)領(lǐng)域的相關(guān)數(shù)據(jù)集。

表 1：DVD 增強(qiáng)領(lǐng)域的主流數(shù)據(jù)集

同時(shí)，文章還將 DVD 增強(qiáng)與當(dāng)前火熱的上下文學(xué)習(xí)（In-Context Learning）、能力密度（Capacity Density）、樣本效率（Sample Efficiency）和主動(dòng)學(xué)習(xí)（Active Learning）進(jìn)行了深度對(duì)比，打通了不同研究范式之間的底層邏輯。

前路與挑戰(zhàn)

盡管 DVD 增強(qiáng)技術(shù)已經(jīng)取得了一定的成果，本文指出了 DVD 增強(qiáng)當(dāng)前面臨的四大挑戰(zhàn)（如圖 4 所示）：

“黑盒” 可解釋性差：現(xiàn)有方法高度依賴(lài)人類(lèi)經(jīng)驗(yàn)，數(shù)據(jù)對(duì)模型能力分布的影響、數(shù)據(jù)點(diǎn)之間的交互模式等仍缺乏嚴(yán)謹(jǐn)?shù)睦碚摽蚣苤危?/li>
實(shí)施成本昂貴：雖然大量方法減少了模型訓(xùn)練所需的數(shù)據(jù)量，降低了訓(xùn)練成本，但為了達(dá)成這一目的所產(chǎn)生的額外成本開(kāi)銷(xiāo)可能是巨大的，例如調(diào)用 LLM 進(jìn)行大規(guī)模采樣、訓(xùn)練打分模型等；
人工與自動(dòng)化的兩難：現(xiàn)有 DVD 增強(qiáng)策略通常涉及大量的數(shù)據(jù)操作。若選擇專(zhuān)家標(biāo)注，其質(zhì)量可控但成本極高，若選擇模型自動(dòng)化處理，其效率極高但極易引入幻覺(jué)。因而 DVD 增強(qiáng)技術(shù)中的相關(guān)數(shù)據(jù)操作需要在人工和自動(dòng)化之間做好平衡，在保證數(shù)據(jù)質(zhì)量的前提下降低數(shù)據(jù)操作成本；
垂直領(lǐng)域研究空白：由于專(zhuān)業(yè)性、安全隱私、獲取成本等因素，垂直領(lǐng)域的數(shù)據(jù)往往是稀缺的，其更需要 DVD 增強(qiáng)策略來(lái)緩解這一困境。然而，目前針對(duì)垂直領(lǐng)域的 DVD 增強(qiáng)策略較少。并且，由于垂直領(lǐng)域的數(shù)據(jù)具有獨(dú)特的特征，針對(duì)通用任務(wù)的方法在應(yīng)用于垂直領(lǐng)域時(shí)，性能往往較差。因而，工業(yè)界急需針對(duì)垂直領(lǐng)域的 DVD 增強(qiáng)策略。

圖 4：DVD 增強(qiáng)面臨的四大挑戰(zhàn)

結(jié)語(yǔ)

本篇 Survey 從首創(chuàng)的 DVD 視角出發(fā)，系統(tǒng)地梳理了大模型訓(xùn)練數(shù)據(jù)價(jià)值密度增強(qiáng)領(lǐng)域的完整路線(xiàn)圖。這一領(lǐng)域的研究有助于解決當(dāng)下 LLM 訓(xùn)練數(shù)據(jù)枯竭與算力開(kāi)銷(xiāo)大等問(wèn)題。

期待這篇 Survey 能為社區(qū)提供一份實(shí)用的參考指南，幫助研究者快速把握數(shù)據(jù)價(jià)值密度增強(qiáng)的底層邏輯，推動(dòng)大模型訓(xùn)練模式從粗放式數(shù)據(jù)消耗向精準(zhǔn)化知識(shí)萃取的根本性跨越。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.