![]()
本文由來(lái)自上海交通大學(xué)和上海人工智能實(shí)驗(yàn)室的多位研究者共同完成,受到上海市“通用人工智能大模型”基礎(chǔ)研究專(zhuān)項(xiàng)支持。共同第一作者為孫亦劉、陸彥超與曹家熙,共同通訊作者為來(lái)自上海交通大學(xué)自動(dòng)化與感知學(xué)院的宮辰教授與劉偉副教授。團(tuán)隊(duì)長(zhǎng)期致力于機(jī)器學(xué)習(xí)及大模型方面的研究。
當(dāng)訓(xùn)練數(shù)據(jù)枯竭、訓(xùn)練成本飆升,大語(yǔ)言模型(LLM)訓(xùn)練之路該何去何從?
作為提升 LLM 性能的主流核心范式,持續(xù)擴(kuò)充訓(xùn)練數(shù)據(jù)量的傳統(tǒng)做法正面臨嚴(yán)峻挑戰(zhàn)(如圖 1 所示)。研究表明,目前互聯(lián)網(wǎng)上可獲取的高質(zhì)量數(shù)據(jù)年增長(zhǎng)率不足 10 %,難以滿(mǎn)足 LLM 訓(xùn)練數(shù)據(jù)大規(guī)模增加的需求。同時(shí),該范式引導(dǎo)的 LLM 訓(xùn)練動(dòng)輒需要數(shù)千萬(wàn) GPU 小時(shí)的算力開(kāi)銷(xiāo), 產(chǎn)生了巨額資源消耗與碳排放,讓堆數(shù)據(jù)策略難以為繼。
![]()
圖 1:左:大模型數(shù)據(jù)擴(kuò)展面臨的三大挑戰(zhàn)。右:互聯(lián)網(wǎng)可用數(shù)據(jù)量與 LLM 訓(xùn)練數(shù)據(jù)量的增長(zhǎng)趨勢(shì)對(duì)比。
因而,如何在有限的數(shù)據(jù)規(guī)模下獲取更多的訓(xùn)練收益,已經(jīng)成為 LLM 訓(xùn)練的關(guān)鍵問(wèn)題!
目前,研究者在該領(lǐng)域已展開(kāi)了大量的探索,例如 s1、Less-Is-More Reasoning (LIMO) Hypothesis 和 Rho-1,但該領(lǐng)域仍缺乏統(tǒng)一的研究視角和系統(tǒng)的工作梳理,導(dǎo)致研究目標(biāo)界定模糊,研究方法呈現(xiàn)零散化、碎片化的格局,尚未形成完備、統(tǒng)一的理論與方法體系。
在這一背景下,來(lái)自上海交通大學(xué)與上海人工智能實(shí)驗(yàn)室的研究團(tuán)隊(duì)發(fā)布了該領(lǐng)域的首篇系統(tǒng)性綜述。該綜述首次提出了 “數(shù)據(jù)價(jià)值密度”(Data Value Density,DVD)這一核心概念并給出數(shù)學(xué)定義。基于該定義,該綜述建立了系統(tǒng)的分類(lèi)框架,梳理了該領(lǐng)域的現(xiàn)有工作,為學(xué)術(shù)界和工業(yè)界繪制了一份詳盡的指南。
![]()
- 論文標(biāo)題:Data Value Density Enhancement for Large Language Model Training: A Comprehensive Survey
- 論文鏈接:https://ssrn.com/abstract=6618802
核心概念與主要貢獻(xiàn)
本篇 Survey 從底層邏輯出發(fā),首次提出了 “數(shù)據(jù)價(jià)值密度”(Data Value Density,DVD)這一核心概念,并給出了嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)定義:
![]()
其中,D 表示 LLM 訓(xùn)練所使用的數(shù)據(jù)集,C 表示評(píng)估數(shù)據(jù)價(jià)值所必須的上下文信息,例如當(dāng)前 LLM 能力分布、目標(biāo)任務(wù)特征等。
V (D∣C) 衡量數(shù)據(jù)集 D 在訓(xùn)練上下文 C 下對(duì)模型性能提升的總貢獻(xiàn)價(jià)值,而 μ(D) 衡量數(shù)據(jù)集 D 的規(guī)模。該領(lǐng)域研究的目標(biāo),就是構(gòu)建一個(gè)新數(shù)據(jù)集,使其價(jià)值密度大于原數(shù)據(jù)集(Δf>0)。
基于這一核心概念,作者系統(tǒng)性地梳理了現(xiàn)有文獻(xiàn),作出了四大核心貢獻(xiàn):
- 貢獻(xiàn)一:首次提出 “DVD” 這一概念,為大模型訓(xùn)練全階段的數(shù)據(jù)優(yōu)化確立了明確的研究目標(biāo),即增強(qiáng)訓(xùn)練數(shù)據(jù)的價(jià)值密度;
- 貢獻(xiàn)二:基于 DVD 的定義,將現(xiàn)有方法劃分為五大方向,厘清了技術(shù)發(fā)展的完整脈絡(luò);
- 貢獻(xiàn)三:梳理了目前用于數(shù)據(jù)價(jià)值密度增強(qiáng)領(lǐng)域的代表性數(shù)據(jù)集,深度剖析了不同任務(wù)的數(shù)據(jù)內(nèi)在特性;
- 貢獻(xiàn)四:指出了數(shù)據(jù)價(jià)值密度增強(qiáng)領(lǐng)域所面臨的挑戰(zhàn),為學(xué)術(shù)界和工業(yè)界在本領(lǐng)域的探索指明了有潛力的方向。
框架介紹
基于 DVD 的數(shù)學(xué)定義中分子 V (D∣C) 與分母 μ(D) 的動(dòng)態(tài)變化關(guān)系,作者將數(shù)據(jù)價(jià)值密度增強(qiáng)領(lǐng)域劃分為五大類(lèi)別(如圖 2 所示):
- V (D∣C) 提升,μ(D) 不變:在數(shù)據(jù)規(guī)模固定的情況下,提升數(shù)據(jù)總體價(jià)值,包含數(shù)據(jù)調(diào)度,數(shù)據(jù)混合,增強(qiáng)式生成等策略;
- V (D∣C) 不變,μ(D) 下降:在數(shù)據(jù)總體價(jià)值不變的情況下,降低數(shù)據(jù)規(guī)模,包含重復(fù)數(shù)據(jù)去除,數(shù)據(jù)蒸餾等策略;
- V (D∣C) 提升,μ(D) 下降:在數(shù)據(jù)總體價(jià)值提升的情況下,降低數(shù)據(jù)規(guī)模,包括負(fù)價(jià)值數(shù)據(jù)去除等策略;
- V (D∣C) 略降,μ(D) 暴降:在數(shù)據(jù)總體價(jià)值輕微下降的情況下,數(shù)據(jù)規(guī)模大幅度下降,包括高價(jià)值數(shù)據(jù)篩選等策略;
- V (D∣C) 暴增,μ(D) 略增:在數(shù)據(jù)規(guī)模輕微上升的情況下,數(shù)據(jù)總體價(jià)值大幅度上升,包括數(shù)據(jù)進(jìn)化等策略。
![]()
圖 2:DVD 增強(qiáng)方法分類(lèi)框架
為了更好地理解各類(lèi) DVD 增強(qiáng)策略,作者用一張清晰的示意圖進(jìn)行形象化的展示,示意了不同類(lèi)型的 DVD 增強(qiáng)策略實(shí)施前后數(shù)據(jù)集內(nèi)部發(fā)生的變化(如圖 3 所示)。
![]()
圖 3:五類(lèi) DVD 增強(qiáng)策略的實(shí)現(xiàn)原理
主流數(shù)據(jù)集
除去方法論相關(guān)介紹,本篇 Survey 同時(shí)整理了 DVD 增強(qiáng)研究中高頻使用的數(shù)據(jù)集,并根據(jù)任務(wù)特性將其分為三大板塊(如表 1 所示):
- 文本理解: 從高達(dá)上萬(wàn)億 Token 的無(wú)標(biāo)簽預(yù)訓(xùn)練語(yǔ)料,到少而精的有標(biāo)簽后訓(xùn)練數(shù)據(jù);
- 復(fù)雜推理: 針對(duì)不同類(lèi)型的推理任務(wù)(如邏輯推理與常識(shí)推理),收錄了包含 MATH, GPQA, OpenThoughts、AIME 等主流的推理數(shù)據(jù)集;
- 垂直領(lǐng)域: 梳理了醫(yī)療、法律、金融等多個(gè)領(lǐng)域的相關(guān)數(shù)據(jù)集。
![]()
表 1:DVD 增強(qiáng)領(lǐng)域的主流數(shù)據(jù)集
同時(shí),文章還將 DVD 增強(qiáng)與當(dāng)前火熱的上下文學(xué)習(xí)(In-Context Learning)、能力密度(Capacity Density)、樣本效率(Sample Efficiency)和主動(dòng)學(xué)習(xí)(Active Learning)進(jìn)行了深度對(duì)比,打通了不同研究范式之間的底層邏輯。
前路與挑戰(zhàn)
盡管 DVD 增強(qiáng)技術(shù)已經(jīng)取得了一定的成果,本文指出了 DVD 增強(qiáng)當(dāng)前面臨的四大挑戰(zhàn)(如圖 4 所示):
- “黑盒” 可解釋性差:現(xiàn)有方法高度依賴(lài)人類(lèi)經(jīng)驗(yàn),數(shù)據(jù)對(duì)模型能力分布的影響、數(shù)據(jù)點(diǎn)之間的交互模式等仍缺乏嚴(yán)謹(jǐn)?shù)睦碚摽蚣苤危?/li>
- 實(shí)施成本昂貴:雖然大量方法減少了模型訓(xùn)練所需的數(shù)據(jù)量,降低了訓(xùn)練成本,但為了達(dá)成這一目的所產(chǎn)生的額外成本開(kāi)銷(xiāo)可能是巨大的,例如調(diào)用 LLM 進(jìn)行大規(guī)模采樣、訓(xùn)練打分模型等;
- 人工與自動(dòng)化的兩難:現(xiàn)有 DVD 增強(qiáng)策略通常涉及大量的數(shù)據(jù)操作。若選擇專(zhuān)家標(biāo)注,其質(zhì)量可控但成本極高,若選擇模型自動(dòng)化處理,其效率極高但極易引入幻覺(jué)。因而 DVD 增強(qiáng)技術(shù)中的相關(guān)數(shù)據(jù)操作需要在人工和自動(dòng)化之間做好平衡,在保證數(shù)據(jù)質(zhì)量的前提下降低數(shù)據(jù)操作成本;
- 垂直領(lǐng)域研究空白:由于專(zhuān)業(yè)性、安全隱私、獲取成本等因素,垂直領(lǐng)域的數(shù)據(jù)往往是稀缺的,其更需要 DVD 增強(qiáng)策略來(lái)緩解這一困境。然而,目前針對(duì)垂直領(lǐng)域的 DVD 增強(qiáng)策略較少。并且,由于垂直領(lǐng)域的數(shù)據(jù)具有獨(dú)特的特征,針對(duì)通用任務(wù)的方法在應(yīng)用于垂直領(lǐng)域時(shí),性能往往較差。因而,工業(yè)界急需針對(duì)垂直領(lǐng)域的 DVD 增強(qiáng)策略。
![]()
圖 4:DVD 增強(qiáng)面臨的四大挑戰(zhàn)
結(jié)語(yǔ)
本篇 Survey 從首創(chuàng)的 DVD 視角出發(fā),系統(tǒng)地梳理了大模型訓(xùn)練數(shù)據(jù)價(jià)值密度增強(qiáng)領(lǐng)域的完整路線(xiàn)圖。這一領(lǐng)域的研究有助于解決當(dāng)下 LLM 訓(xùn)練數(shù)據(jù)枯竭與算力開(kāi)銷(xiāo)大等問(wèn)題。
期待這篇 Survey 能為社區(qū)提供一份實(shí)用的參考指南,幫助研究者快速把握數(shù)據(jù)價(jià)值密度增強(qiáng)的底層邏輯,推動(dòng)大模型訓(xùn)練模式從粗放式數(shù)據(jù)消耗向精準(zhǔn)化知識(shí)萃取的根本性跨越。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.