无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

訓(xùn)練數(shù)據(jù)枯竭怎么辦?首篇「數(shù)據(jù)價(jià)值密度」綜述理清思路

0
分享至



本文由來(lái)自上海交通大學(xué)和上海人工智能實(shí)驗(yàn)室的多位研究者共同完成,受到上海市“通用人工智能大模型”基礎(chǔ)研究專(zhuān)項(xiàng)支持。共同第一作者為孫亦劉、陸彥超與曹家熙,共同通訊作者為來(lái)自上海交通大學(xué)自動(dòng)化與感知學(xué)院的宮辰教授與劉偉副教授。團(tuán)隊(duì)長(zhǎng)期致力于機(jī)器學(xué)習(xí)及大模型方面的研究。

當(dāng)訓(xùn)練數(shù)據(jù)枯竭、訓(xùn)練成本飆升,大語(yǔ)言模型(LLM)訓(xùn)練之路該何去何從?

作為提升 LLM 性能的主流核心范式,持續(xù)擴(kuò)充訓(xùn)練數(shù)據(jù)量的傳統(tǒng)做法正面臨嚴(yán)峻挑戰(zhàn)(如圖 1 所示)。研究表明,目前互聯(lián)網(wǎng)上可獲取的高質(zhì)量數(shù)據(jù)年增長(zhǎng)率不足 10 %,難以滿(mǎn)足 LLM 訓(xùn)練數(shù)據(jù)大規(guī)模增加的需求。同時(shí),該范式引導(dǎo)的 LLM 訓(xùn)練動(dòng)輒需要數(shù)千萬(wàn) GPU 小時(shí)的算力開(kāi)銷(xiāo), 產(chǎn)生了巨額資源消耗與碳排放,讓堆數(shù)據(jù)策略難以為繼。



圖 1:左:大模型數(shù)據(jù)擴(kuò)展面臨的三大挑戰(zhàn)。右:互聯(lián)網(wǎng)可用數(shù)據(jù)量與 LLM 訓(xùn)練數(shù)據(jù)量的增長(zhǎng)趨勢(shì)對(duì)比。

因而,如何在有限的數(shù)據(jù)規(guī)模下獲取更多的訓(xùn)練收益,已經(jīng)成為 LLM 訓(xùn)練的關(guān)鍵問(wèn)題!

目前,研究者在該領(lǐng)域已展開(kāi)了大量的探索,例如 s1、Less-Is-More Reasoning (LIMO) Hypothesis 和 Rho-1,但該領(lǐng)域仍缺乏統(tǒng)一的研究視角和系統(tǒng)的工作梳理,導(dǎo)致研究目標(biāo)界定模糊,研究方法呈現(xiàn)零散化、碎片化的格局,尚未形成完備、統(tǒng)一的理論與方法體系。

在這一背景下,來(lái)自上海交通大學(xué)與上海人工智能實(shí)驗(yàn)室的研究團(tuán)隊(duì)發(fā)布了該領(lǐng)域的首篇系統(tǒng)性綜述。該綜述首次提出了 “數(shù)據(jù)價(jià)值密度”(Data Value Density,DVD)這一核心概念并給出數(shù)學(xué)定義。基于該定義,該綜述建立了系統(tǒng)的分類(lèi)框架,梳理了該領(lǐng)域的現(xiàn)有工作,為學(xué)術(shù)界和工業(yè)界繪制了一份詳盡的指南。



  • 論文標(biāo)題:Data Value Density Enhancement for Large Language Model Training: A Comprehensive Survey
  • 論文鏈接:https://ssrn.com/abstract=6618802

核心概念與主要貢獻(xiàn)

本篇 Survey 從底層邏輯出發(fā),首次提出了 “數(shù)據(jù)價(jià)值密度”(Data Value Density,DVD)這一核心概念,并給出了嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)定義:



其中,D 表示 LLM 訓(xùn)練所使用的數(shù)據(jù)集,C 表示評(píng)估數(shù)據(jù)價(jià)值所必須的上下文信息,例如當(dāng)前 LLM 能力分布、目標(biāo)任務(wù)特征等。

V (D∣C) 衡量數(shù)據(jù)集 D 在訓(xùn)練上下文 C 下對(duì)模型性能提升的總貢獻(xiàn)價(jià)值,而 μ(D) 衡量數(shù)據(jù)集 D 的規(guī)模。該領(lǐng)域研究的目標(biāo),就是構(gòu)建一個(gè)新數(shù)據(jù)集,使其價(jià)值密度大于原數(shù)據(jù)集(Δf>0)。

基于這一核心概念,作者系統(tǒng)性地梳理了現(xiàn)有文獻(xiàn),作出了四大核心貢獻(xiàn):

  • 貢獻(xiàn)一:首次提出 “DVD” 這一概念,為大模型訓(xùn)練全階段的數(shù)據(jù)優(yōu)化確立了明確的研究目標(biāo),即增強(qiáng)訓(xùn)練數(shù)據(jù)的價(jià)值密度;
  • 貢獻(xiàn)二:基于 DVD 的定義,將現(xiàn)有方法劃分為五大方向,厘清了技術(shù)發(fā)展的完整脈絡(luò);
  • 貢獻(xiàn)三:梳理了目前用于數(shù)據(jù)價(jià)值密度增強(qiáng)領(lǐng)域的代表性數(shù)據(jù)集,深度剖析了不同任務(wù)的數(shù)據(jù)內(nèi)在特性;
  • 貢獻(xiàn)四:指出了數(shù)據(jù)價(jià)值密度增強(qiáng)領(lǐng)域所面臨的挑戰(zhàn),為學(xué)術(shù)界和工業(yè)界在本領(lǐng)域的探索指明了有潛力的方向。

框架介紹

基于 DVD 的數(shù)學(xué)定義中分子 V (D∣C) 與分母 μ(D) 的動(dòng)態(tài)變化關(guān)系,作者將數(shù)據(jù)價(jià)值密度增強(qiáng)領(lǐng)域劃分為五大類(lèi)別(如圖 2 所示):

  • V (D∣C) 提升,μ(D) 不變:在數(shù)據(jù)規(guī)模固定的情況下,提升數(shù)據(jù)總體價(jià)值,包含數(shù)據(jù)調(diào)度,數(shù)據(jù)混合,增強(qiáng)式生成等策略;
  • V (D∣C) 不變,μ(D) 下降:在數(shù)據(jù)總體價(jià)值不變的情況下,降低數(shù)據(jù)規(guī)模,包含重復(fù)數(shù)據(jù)去除,數(shù)據(jù)蒸餾等策略;
  • V (D∣C) 提升,μ(D) 下降:在數(shù)據(jù)總體價(jià)值提升的情況下,降低數(shù)據(jù)規(guī)模,包括負(fù)價(jià)值數(shù)據(jù)去除等策略;
  • V (D∣C) 略降,μ(D) 暴降:在數(shù)據(jù)總體價(jià)值輕微下降的情況下,數(shù)據(jù)規(guī)模大幅度下降,包括高價(jià)值數(shù)據(jù)篩選等策略;
  • V (D∣C) 暴增,μ(D) 略增:在數(shù)據(jù)規(guī)模輕微上升的情況下,數(shù)據(jù)總體價(jià)值大幅度上升,包括數(shù)據(jù)進(jìn)化等策略。



圖 2:DVD 增強(qiáng)方法分類(lèi)框架

為了更好地理解各類(lèi) DVD 增強(qiáng)策略,作者用一張清晰的示意圖進(jìn)行形象化的展示,示意了不同類(lèi)型的 DVD 增強(qiáng)策略實(shí)施前后數(shù)據(jù)集內(nèi)部發(fā)生的變化(如圖 3 所示)。



圖 3:五類(lèi) DVD 增強(qiáng)策略的實(shí)現(xiàn)原理

主流數(shù)據(jù)集

除去方法論相關(guān)介紹,本篇 Survey 同時(shí)整理了 DVD 增強(qiáng)研究中高頻使用的數(shù)據(jù)集,并根據(jù)任務(wù)特性將其分為三大板塊(如表 1 所示):

  • 文本理解: 從高達(dá)上萬(wàn)億 Token 的無(wú)標(biāo)簽預(yù)訓(xùn)練語(yǔ)料,到少而精的有標(biāo)簽后訓(xùn)練數(shù)據(jù);
  • 復(fù)雜推理: 針對(duì)不同類(lèi)型的推理任務(wù)(如邏輯推理與常識(shí)推理),收錄了包含 MATH, GPQA, OpenThoughts、AIME 等主流的推理數(shù)據(jù)集;
  • 垂直領(lǐng)域: 梳理了醫(yī)療、法律、金融等多個(gè)領(lǐng)域的相關(guān)數(shù)據(jù)集。



表 1:DVD 增強(qiáng)領(lǐng)域的主流數(shù)據(jù)集

同時(shí),文章還將 DVD 增強(qiáng)與當(dāng)前火熱的上下文學(xué)習(xí)(In-Context Learning)、能力密度(Capacity Density)、樣本效率(Sample Efficiency)和主動(dòng)學(xué)習(xí)(Active Learning)進(jìn)行了深度對(duì)比,打通了不同研究范式之間的底層邏輯。

前路與挑戰(zhàn)

盡管 DVD 增強(qiáng)技術(shù)已經(jīng)取得了一定的成果,本文指出了 DVD 增強(qiáng)當(dāng)前面臨的四大挑戰(zhàn)(如圖 4 所示):

  • “黑盒” 可解釋性差:現(xiàn)有方法高度依賴(lài)人類(lèi)經(jīng)驗(yàn),數(shù)據(jù)對(duì)模型能力分布的影響、數(shù)據(jù)點(diǎn)之間的交互模式等仍缺乏嚴(yán)謹(jǐn)?shù)睦碚摽蚣苤危?/li>
  • 實(shí)施成本昂貴:雖然大量方法減少了模型訓(xùn)練所需的數(shù)據(jù)量,降低了訓(xùn)練成本,但為了達(dá)成這一目的所產(chǎn)生的額外成本開(kāi)銷(xiāo)可能是巨大的,例如調(diào)用 LLM 進(jìn)行大規(guī)模采樣、訓(xùn)練打分模型等;
  • 人工與自動(dòng)化的兩難:現(xiàn)有 DVD 增強(qiáng)策略通常涉及大量的數(shù)據(jù)操作。若選擇專(zhuān)家標(biāo)注,其質(zhì)量可控但成本極高,若選擇模型自動(dòng)化處理,其效率極高但極易引入幻覺(jué)。因而 DVD 增強(qiáng)技術(shù)中的相關(guān)數(shù)據(jù)操作需要在人工和自動(dòng)化之間做好平衡,在保證數(shù)據(jù)質(zhì)量的前提下降低數(shù)據(jù)操作成本;
  • 垂直領(lǐng)域研究空白:由于專(zhuān)業(yè)性、安全隱私、獲取成本等因素,垂直領(lǐng)域的數(shù)據(jù)往往是稀缺的,其更需要 DVD 增強(qiáng)策略來(lái)緩解這一困境。然而,目前針對(duì)垂直領(lǐng)域的 DVD 增強(qiáng)策略較少。并且,由于垂直領(lǐng)域的數(shù)據(jù)具有獨(dú)特的特征,針對(duì)通用任務(wù)的方法在應(yīng)用于垂直領(lǐng)域時(shí),性能往往較差。因而,工業(yè)界急需針對(duì)垂直領(lǐng)域的 DVD 增強(qiáng)策略。



圖 4:DVD 增強(qiáng)面臨的四大挑戰(zhàn)

結(jié)語(yǔ)

本篇 Survey 從首創(chuàng)的 DVD 視角出發(fā),系統(tǒng)地梳理了大模型訓(xùn)練數(shù)據(jù)價(jià)值密度增強(qiáng)領(lǐng)域的完整路線(xiàn)圖。這一領(lǐng)域的研究有助于解決當(dāng)下 LLM 訓(xùn)練數(shù)據(jù)枯竭與算力開(kāi)銷(xiāo)大等問(wèn)題。

期待這篇 Survey 能為社區(qū)提供一份實(shí)用的參考指南,幫助研究者快速把握數(shù)據(jù)價(jià)值密度增強(qiáng)的底層邏輯,推動(dòng)大模型訓(xùn)練模式從粗放式數(shù)據(jù)消耗向精準(zhǔn)化知識(shí)萃取的根本性跨越。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊朗外長(zhǎng):關(guān)于伊朗不存在任何軍事解決方案

伊朗外長(zhǎng):關(guān)于伊朗不存在任何軍事解決方案

界面新聞
2026-05-14 14:50:23
對(duì)象當(dāng)初是這么把我騙到手的,網(wǎng)友:評(píng)論區(qū)個(gè)個(gè)都是高手啊

對(duì)象當(dāng)初是這么把我騙到手的,網(wǎng)友:評(píng)論區(qū)個(gè)個(gè)都是高手啊

夜深?lèi)?ài)雜談
2026-05-13 07:37:46
成都樓市反轉(zhuǎn)了,成都房東惜售,成都金融城房?jī)r(jià)從4萬(wàn)降至3.2萬(wàn)

成都樓市反轉(zhuǎn)了,成都房東惜售,成都金融城房?jī)r(jià)從4萬(wàn)降至3.2萬(wàn)

靚仔情感
2026-05-14 16:34:57
張藝謀未料陳婷會(huì)親手否認(rèn)27年婚姻關(guān)系

張藝謀未料陳婷會(huì)親手否認(rèn)27年婚姻關(guān)系

觀(guān)察者海風(fēng)
2026-05-14 05:37:04
網(wǎng)傳自助餐有“飽腹劑”?蘸料里加壓縮餅干、桃酥碎讓人快速吃撐回不了本?

網(wǎng)傳自助餐有“飽腹劑”?蘸料里加壓縮餅干、桃酥碎讓人快速吃撐回不了本?

上觀(guān)新聞
2026-05-13 19:31:06
為什么比亞迪越來(lái)越像“工業(yè)怪獸”,而吉利越來(lái)越像“中國(guó)大眾”

為什么比亞迪越來(lái)越像“工業(yè)怪獸”,而吉利越來(lái)越像“中國(guó)大眾”

別讓往昔的悲傷和對(duì)未來(lái)的恐懼
2026-05-13 16:03:22
河南信陽(yáng)警方:一小轎車(chē)發(fā)生剮蹭后失控致1死5傷,司機(jī)涉嫌醉駕

河南信陽(yáng)警方:一小轎車(chē)發(fā)生剮蹭后失控致1死5傷,司機(jī)涉嫌醉駕

澎湃新聞
2026-05-14 02:24:09
日本考察團(tuán)來(lái)華,中國(guó):不接待,不見(jiàn)面!

日本考察團(tuán)來(lái)華,中國(guó):不接待,不見(jiàn)面!

達(dá)文西看世界
2026-05-13 10:47:32
于丹被北師大免職,跌落神壇后竟活成這樣!人人都該警醒...

于丹被北師大免職,跌落神壇后竟活成這樣!人人都該警醒...

華人星光
2024-11-07 13:39:41
薄一波的兩位親家,一個(gè)是開(kāi)國(guó)將軍,一個(gè)官至副國(guó)級(jí),他們是誰(shuí)?

薄一波的兩位親家,一個(gè)是開(kāi)國(guó)將軍,一個(gè)官至副國(guó)級(jí),他們是誰(shuí)?

凡人侃史
2026-05-12 14:39:35
開(kāi)了十年麻將館我算看透了!天天泡牌桌上的人,沒(méi)一個(gè)命好的

開(kāi)了十年麻將館我算看透了!天天泡牌桌上的人,沒(méi)一個(gè)命好的

欣悅廣場(chǎng)舞
2026-04-17 16:25:41
阿坎吉:決賽是五五開(kāi)的,希望我們的奪冠經(jīng)驗(yàn)?zāi)軟Q定比賽

阿坎吉:決賽是五五開(kāi)的,希望我們的奪冠經(jīng)驗(yàn)?zāi)軟Q定比賽

懂球帝
2026-05-14 02:58:08
姆巴佩徹底慌了!皇馬早已備好接班人,穆里尼奧若上任就敢動(dòng)他

姆巴佩徹底慌了!皇馬早已備好接班人,穆里尼奧若上任就敢動(dòng)他

瀾歸序
2026-05-14 02:28:03
山姆排長(zhǎng)隊(duì),一上架遭搶購(gòu)!有商戶(hù)一天賣(mài)了9000斤,網(wǎng)友:猝不及防

山姆排長(zhǎng)隊(duì),一上架遭搶購(gòu)!有商戶(hù)一天賣(mài)了9000斤,網(wǎng)友:猝不及防

上海約飯局
2026-05-14 18:50:04
丁海峰夫婦凌晨1點(diǎn)機(jī)場(chǎng)接娃,兒子身高超190,長(zhǎng)相隨媽比爸爸還帥

丁海峰夫婦凌晨1點(diǎn)機(jī)場(chǎng)接娃,兒子身高超190,長(zhǎng)相隨媽比爸爸還帥

八怪娛
2026-05-14 11:08:39
陪玩陪睡根本不夠!認(rèn)干爹、舔手指,背地里的陰暗面完全藏不住了

陪玩陪睡根本不夠!認(rèn)干爹、舔手指,背地里的陰暗面完全藏不住了

杰絲聊古今
2026-05-03 13:35:27
雅思宣布:中國(guó)大陸地區(qū),9月1日起取消紙筆考試

雅思宣布:中國(guó)大陸地區(qū),9月1日起取消紙筆考試

南方都市報(bào)
2026-05-10 23:34:08
U17國(guó)足VS沙特:4231最強(qiáng)出擊,萬(wàn)項(xiàng)領(lǐng)銜前場(chǎng)進(jìn)攻,海歸新星沖鋒

U17國(guó)足VS沙特:4231最強(qiáng)出擊,萬(wàn)項(xiàng)領(lǐng)銜前場(chǎng)進(jìn)攻,海歸新星沖鋒

零度眼看球
2026-05-14 06:46:02
太諷刺!許家印獄中等判決,前妻卻在倫敦豪宅養(yǎng)31歲“小鮮肉”

太諷刺!許家印獄中等判決,前妻卻在倫敦豪宅養(yǎng)31歲“小鮮肉”

未曾青梅
2026-05-11 22:14:44
女學(xué)霸發(fā)明“咯噔字體”,老師低分警告:別用個(gè)性挑戰(zhàn)考試底線(xiàn)

女學(xué)霸發(fā)明“咯噔字體”,老師低分警告:別用個(gè)性挑戰(zhàn)考試底線(xiàn)

蝴蝶花雨話(huà)教育
2026-05-07 00:05:04
2026-05-14 19:44:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
12996文章數(shù) 142648關(guān)注度
往期回顧 全部

科技要聞

馬斯克說(shuō)會(huì)談很順利 黃仁勛點(diǎn)贊 庫(kù)克比耶

頭條要聞

外媒詢(xún)問(wèn)中方對(duì)魯比奧的制裁是否已經(jīng)解除 外交部回應(yīng)

頭條要聞

外媒詢(xún)問(wèn)中方對(duì)魯比奧的制裁是否已經(jīng)解除 外交部回應(yīng)

體育要聞

爭(zhēng)議抽象天王山,和季后賽最穩(wěn)定中鋒

娛樂(lè)要聞

何九華官宣當(dāng)爸!全程不提孩子?jì)?/h3>

財(cái)經(jīng)要聞

李強(qiáng)會(huì)見(jiàn)美國(guó)工商界代表

汽車(chē)要聞

雙零重力座椅/AI智能體/調(diào)光天幕 啟境GT7內(nèi)飾發(fā)布

態(tài)度原創(chuàng)

數(shù)碼
本地
家居
時(shí)尚
公開(kāi)課

數(shù)碼要聞

萬(wàn)色生輝入畫(huà)屏:實(shí)拍海信UX2026款RGB-Mini LED時(shí)代旗艦電視

本地新聞

用蘇繡的方式,打開(kāi)江西婺源

家居要聞

精神奢享 對(duì)話(huà)塔尖需求

T恤+低腰闊腿褲、襯衫+低腰半裙,今年夏天最時(shí)髦的搭配,誰(shuí)穿誰(shuí)好看!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版