无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

DataMaster:當AI開始成為自己的數據工程師

0
分享至



當 AI 開始參與訓練 AI

過去,AI 研發基本是一條由人主導的流水線。

人類收集數據、清洗數據、寫訓練代碼、設計實驗,再把整理好的數據交給模型學習。但現在,這條流程正在發生變化。

AI 開始進入 AI 研發流程本身:它會寫代碼,會修 bug,會調用工具,會跑實驗,也能圍繞一個目標持續試錯,把失敗結果變成下一輪改進的線索。

過去幾年,這個趨勢最先出現在代碼和實驗側。編碼智能體讓軟件開發的一部分流程變得自動化,科研智能體也開始嘗試在長程任務中不斷探索、驗證和修正方向。

但如果 AI 真的要參與訓練 AI,還有一個更底層的問題繞不開。

數據。

在真實機器學習開發里,模型和訓練流程往往不是每天都能動的?;A模型已經選好,訓練方法已經跑通,大改一次就意味著更高成本、更長驗證周期和新的工程風險。

相比之下,真正被反復調整的,常常是數據:找哪些樣本、過濾哪些噪聲、怎樣清洗轉換、如何組合不同來源,訓練效果不好時下一輪該改規模、質量還是分布。

換句話說,當模型和訓練方法越來越標準化,數據就成了最現實、也最關鍵的優化空間。

這篇來自上海交通大學、卡內基梅隆大學、浙江大學、北京航空航天大學等機構的工作,提出一個新的角色:AI 數據工程師。



  • 論文標題:DataMaster: Data-Centric Autonomous AI Research
  • 項目地址:https://github.com/sjtu-sai-agents/DataMaster
  • 論文地址:https://arxiv.org/abs/2605.10906



它讓智能體圍繞一個給定任務,自動尋找外部數據、篩選數據源、清洗和轉換數據、構建訓練輸入,并根據下游模型反饋繼續迭代。

更關鍵的是,整個過程中,模型不變,訓練算法也不變。

換句話說,DataMaster 問的不是“怎樣設計一個更強的模型”,而是:當模型和訓練流程都固定時,AI 能不能通過自己準備更好的數據,把模型繼續訓強?

為什么數據工程不能只靠一次生成

數據工程看起來像是在 “調數據”,但它并不是一條直線。

首先,它有很多分支。同一個任務可以先找新數據,也可以先清洗舊數據;可以擴大數據規模,也可以提高數據質量;可以改變樣本比例,也可以改變輸入格式。每一步選擇,都會打開新的可能路徑。

其次,它高度依賴前面的選擇。前面選了什么數據,會影響后面哪些清洗方法有效;前面做了什么特征,也會影響模型最終能學到什么。數據工程不是孤立操作,而是一連串相互影響的決策。

最后,它的效果很難提前判斷。一份數據看起來相關,不代表訓練后一定有用;一次清洗看起來合理,也不代表模型分數一定提升。很多時候,只有真正跑完訓練和評估,才能知道這次數據改動有沒有價值。

所以,DataMaster 沒有把數據工程當成一次性生成任務,而是把它變成了一場可以分叉、可以回看、可以持續優化的搜索。

一棵數據樹,一個數據池,一段全局記憶

為了完成這件事,DataMaster 設計了三個核心部件:一棵數據樹、一個數據池,以及一段全局記憶。

數據樹負責探索不同的數據改造路徑。樹上的每個節點,都是一次數據工程嘗試。紅色節點負責向外尋找潛在有用的數據源,黑色節點負責把數據清洗、轉換、組合成可以真正訓練的版本。

這兩個角色很像一個數據團隊里的分工:紅色節點是 “偵察兵”,負責擴大搜索范圍;黑色節點是 “工程兵”,負責把找到的數據真正變成模型能吃的訓練輸入。

數據池負責保存所有已經發現的數據源。一個分支找到的數據,不會只服務于當前嘗試,而是會變成整個系統都能復用的數據資產。后續節點可以繼續從這里讀取、組合和改造候選數據。

全局記憶則負責記錄每一次嘗試的結果:用了什么數據,做了什么處理,訓練分數有沒有提升,失敗原因是什么,哪些處理策略值得復用。下一次系統再做決策時,就不必從零開始。

三者合在一起,讓 DataMaster 不再像一個一次性腳本,而更像一個會積累經驗的數據工程團隊。



圖 1:DataMaster 框架圖。數據樹負責分叉探索,數據池負責共享候選數據,全局記憶負責沉淀成功和失敗經驗。

只動數據,能漲多少?

DataMaster 最關鍵的實驗,不是證明它 “能自動跑流程”,而是證明數據側自動迭代本身就能帶來真實收益。

論文在兩個場景中驗證了這一點。

第一個是MLE-Bench Lite。這個場景更接近傳統機器學習工程:任務本身給定了數據和初始訓練方案,智能體不能隨意改訓練代碼,只能圍繞數據做選擇、清洗、特征構造和格式適配。

結果很直接:初始方案的獎牌率是 35.91%,DataMaster 提升到 68.18%,提高 32.27 個百分點;金牌率也從 22.73% 提升到 45.45%。

第二個是PostTrainBench。這個場景更接近大模型后訓練:基礎模型固定,訓練流程固定,而且沒有現成訓練數據,智能體必須自己發現和整理后訓練數據。

在這里,DataMaster 把平均分從基礎模型的 8.47% 提升到31.17%,提高 22.70 個百分點。和其他基線相比,它也取得了最高平均分。

實驗結果速覽:



更值得注意的是 GPQA 結果。

GPQA 是 PostTrainBench 中最能體現高難專業能力的任務之一。它考察的是研究生級別的科學知識和推理能力,覆蓋物理、化學、生物等領域,并不只是簡單的常識問答。

在這個任務下,DataMaster 的 GPQA 分數從基礎模型的 18.75% 一路提升到31.02%。論文里的測試時擴展分析顯示,這個提升不是一次性發生的,而是隨著搜索預算增加逐步出現:DataMaster 在迭代過程中不斷發現并整合更相關的科學數據、推理數據和 MedQA 數據,最終形成了更適合 GPQA 的訓練數據配置。

這個結果最有意思的地方在于,DataMaster 沒有更換基礎模型,也沒有重新設計訓練算法。它做的只是圍繞數據側持續試錯:找什么數據、怎么篩選、如何組合、如何適配訓練。最終,它在 GPQA 上達到 31.02%,超過了專家訓練的指令模型參考分數 30.35%,也超過了 Codex、DataFlex、ML-Master 2.0 等基線在該任務上的結果。



圖 3:GPQA 上的測試時擴展曲線。隨著數據搜索和訓練預算增加,DataMaster 的最佳節點分數持續上升,并最終超過指令模型參考線。

當然,這不意味著 DataMaster 在所有能力上都超過人工后訓練模型。PostTrainBench 的整體平均分上,專家指令模型仍然更高。更準確的理解是:在 GPQA 這樣一個需要專業科學數據和復雜推理能力的任務上,自動化數據工程已經能夠找到足夠有效的數據配置,在單項能力上接近甚至超過人工設計的后訓練數據參考。

為了避免這個結果被理解成 “訓練到了測試集”,論文還專門做了 GPQA 的數據泄漏檢查:包括屏蔽 benchmark 和 test-split 相關來源、基于測試集哈希去重、記錄外部數據來源和內容哈希;在 7479 條發現的訓練樣本上,沒有發現精確匹配或模糊匹配,3 到 5 元詞組重疊率也保持在 0.08% 到 1.06% 的較低水平。



圖 2:不同大模型作為智能體底座時,DataMaster 在 PostTrainBench 七項任務上的表現。

這也是 DataMaster 想傳遞的關鍵信號:數據工程不是訓練前的輔助步驟,也不是簡單把數據量堆大。對于特定能力來說,真正重要的可能是能不能找到更相關的數據,能不能把不同來源的數據組織成適合模型學習的形式,以及能不能根據訓練反饋持續修正數據策略。

當數據也成為 AI 的決策對象

DataMaster 的意義,不只是提出了一個新的智能體系統。

更重要的是,它把一個長期被當作 “前置準備” 的環節,變成了 AI 可以主動搜索、比較、驗證和復用的對象。

過去,數據通常被看作訓練開始之前就已經準備好的東西。模型訓練得好不好,當然和數據有關,但數據工程本身往往被放在模型研發流程之外:先由人類收集、清洗、整理,再交給訓練算法使用。

DataMaster 改變的是這個位置關系。

在它的設定里,數據不再只是訓練流程的輸入,而是進入了智能體的決策循環:系統會決定找什么數據、如何處理數據、如何組合數據,并根據下游反饋繼續調整數據策略。

這讓“以數據為中心” 的 AI 研發變得更加具體。它不只是說數據重要,而是進一步追問:數據能不能像代碼、模型和實驗一樣,被智能體持續優化?

當然,一旦數據工程開始自動化,新的問題也會變得更重要。外部數據從哪里來,是否合規,是否污染測試集,是否能追蹤來源,系統為什么選擇這批數據而不是另一批數據,都需要被記錄和審計。

也就是說,自主數據工程真正走向真實世界,不只是要讓 AI 更會做數據,還要讓 AI 的數據決策過程本身變得透明、可控、可復盤。

這可能是 DataMaster 留下的更大問題:當 AI 開始管理數據時,人類真正需要管理的,是 AI 管理數據的方式。

如果說過去的模型是在學習人類準備好的數據,那么 DataMaster 指向的是下一步:AI 開始參與決定自己應該學習什么數據。

這也是它最值得關注的地方。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
制裁不到48小時,菲律賓開始內訌:軍方公開站隊,并選擇對抗中國

制裁不到48小時,菲律賓開始內訌:軍方公開站隊,并選擇對抗中國

銘記歷史呀
2026-06-13 16:02:30
上海炒股冠軍罕見發聲:如果現在開始逢低建倉,這兩類股值得擁有

上海炒股冠軍罕見發聲:如果現在開始逢低建倉,這兩類股值得擁有

股經縱橫談
2026-06-13 16:44:29
最新戰報:亞洲冠軍3-0首勝、日本3-2世界第1、中國隊恐3連敗

最新戰報:亞洲冠軍3-0首勝、日本3-2世界第1、中國隊恐3連敗

小七說籃球
2026-06-13 09:59:04
草臺班子?世界杯開幕式離譜翻車:大力神杯氣球漏氣 當眾癟掉降落

草臺班子?世界杯開幕式離譜翻車:大力神杯氣球漏氣 當眾癟掉降落

風過鄉
2026-06-13 05:35:13
裁判馬寧成世界杯最大笑點?意外出圈原因曝光,所有人都沒想到

裁判馬寧成世界杯最大笑點?意外出圈原因曝光,所有人都沒想到

史行途
2026-06-13 17:28:24
意想不到!美國主導比賽,巴拉圭疲于奔命,美國4比1大勝

意想不到!美國主導比賽,巴拉圭疲于奔命,美國4比1大勝

澎湃新聞
2026-06-13 11:06:27
電訊報:巴洛貢能拿到美國護照,是因為其母親被拒絕登機

電訊報:巴洛貢能拿到美國護照,是因為其母親被拒絕登機

懂球帝
2026-06-13 23:16:06
河南一國企領導疑值班期間在辦公室飲酒,被紀委人員突擊檢查?河南省國資委回應

河南一國企領導疑值班期間在辦公室飲酒,被紀委人員突擊檢查?河南省國資委回應

極目新聞
2026-06-13 20:47:12
遇見小面起訴后續!索賠八千為何突然認慫,吃相難看結局大快人心

遇見小面起訴后續!索賠八千為何突然認慫,吃相難看結局大快人心

大魚簡科
2026-06-13 19:14:22
顛覆認知!山大最新研究:初次性行為每早一年,壽命縮短0.33年

顛覆認知!山大最新研究:初次性行為每早一年,壽命縮短0.33年

思思夜話
2026-06-13 11:30:01
日菲沒料到,中方把“劃界”當真了,海警駛入琉球群島,信號強烈

日菲沒料到,中方把“劃界”當真了,海警駛入琉球群島,信號強烈

孟彥說
2026-06-13 19:11:59
中國贊助商大撤退!本屆世界杯為何滿是“中國制造”卻沒中國身影

中國贊助商大撤退!本屆世界杯為何滿是“中國制造”卻沒中國身影

禁止讀書
2026-06-12 20:17:07
男子體檢查出2.1厘米肺結節,多家醫院診斷為“肺癌”;醫生切開笑了:是個紅色辣椒尖,“辣椒在CT下與肺組織密度幾乎一致”

男子體檢查出2.1厘米肺結節,多家醫院診斷為“肺癌”;醫生切開笑了:是個紅色辣椒尖,“辣椒在CT下與肺組織密度幾乎一致”

揚子晚報
2026-06-13 15:44:05
黃日華回應主動上前擁抱劉德華但對方“黑臉”:演唱會結束后,他們通過電話,二人關系絕非網友所猜測

黃日華回應主動上前擁抱劉德華但對方“黑臉”:演唱會結束后,他們通過電話,二人關系絕非網友所猜測

臺州交通廣播
2026-06-13 18:19:03
摩根士丹利:更多跡象顯示中國二手房銷售走弱

摩根士丹利:更多跡象顯示中國二手房銷售走弱

新浪財經
2026-06-13 18:15:03
時隔近2年再戰250賽!諾丁漢站簽表出爐:鄭欽文首輪戰前世界第3

時隔近2年再戰250賽!諾丁漢站簽表出爐:鄭欽文首輪戰前世界第3

全景體育V
2026-06-13 21:41:23
哈佛10年追蹤:俯臥撐比血壓更準!每周2-3次力竭,給全身換系統

哈佛10年追蹤:俯臥撐比血壓更準!每周2-3次力竭,給全身換系統

健身狂人
2026-06-13 20:30:47
最可怕的不是不生娃,是現在的年輕人,不覺得“斷子絕孫”很可怕

最可怕的不是不生娃,是現在的年輕人,不覺得“斷子絕孫”很可怕

杰絲聊古今
2026-06-13 03:07:21
海風:賴清德“第二個家”傳來噩耗

海風:賴清德“第二個家”傳來噩耗

環球網資訊
2026-06-13 17:02:08
八村:姚明退役時曾說遺憾后繼無人,如今我終于明白同樣感受

八村:姚明退役時曾說遺憾后繼無人,如今我終于明白同樣感受

懂球帝
2026-06-13 22:18:05
2026-06-14 04:48:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13246文章數 142669關注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

特朗普:美伊協議計劃周日簽署 霍爾木茲海峽立即開放

頭條要聞

特朗普:美伊協議計劃周日簽署 霍爾木茲海峽立即開放

體育要聞

美國4比1巴拉圭:這統治力真是美國隊?!

娛樂要聞

鄧超曬孫儷親手織的帽子,笑瘋全網!

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

家居
教育
手機
時尚
軍事航空

家居要聞

空間微調 移形換境

教育要聞

基礎不好建議避開的超恐怖院校。

手機要聞

比華為三折疊還稀缺!iPhone Ultra國行備貨量不足:博主直言搶到賺到

夏天穿衣要杜絕土氣感!試試精致的小香風,優雅與俏皮并存

軍事要聞

伊外長披露伊美諒解備忘錄草案部分內容

無障礙瀏覽 進入關懷版