網易首頁 > 網易號 > 正文申請入駐

DataMaster：當AI開始成為自己的數據工程師

2026-06-02 14:51:10　來源: 機器之心Pro

北京舉報

分享至

當 AI 開始參與訓練 AI

過去，AI 研發基本是一條由人主導的流水線。

人類收集數據、清洗數據、寫訓練代碼、設計實驗，再把整理好的數據交給模型學習。但現在，這條流程正在發生變化。

AI 開始進入 AI 研發流程本身：它會寫代碼，會修 bug，會調用工具，會跑實驗，也能圍繞一個目標持續試錯，把失敗結果變成下一輪改進的線索。

過去幾年，這個趨勢最先出現在代碼和實驗側。編碼智能體讓軟件開發的一部分流程變得自動化，科研智能體也開始嘗試在長程任務中不斷探索、驗證和修正方向。

但如果 AI 真的要參與訓練 AI，還有一個更底層的問題繞不開。

數據。

在真實機器學習開發里，模型和訓練流程往往不是每天都能動的?；A模型已經選好，訓練方法已經跑通，大改一次就意味著更高成本、更長驗證周期和新的工程風險。

相比之下，真正被反復調整的，常常是數據：找哪些樣本、過濾哪些噪聲、怎樣清洗轉換、如何組合不同來源，訓練效果不好時下一輪該改規模、質量還是分布。

換句話說，當模型和訓練方法越來越標準化，數據就成了最現實、也最關鍵的優化空間。

這篇來自上海交通大學、卡內基梅隆大學、浙江大學、北京航空航天大學等機構的工作，提出一個新的角色：AI 數據工程師。

論文標題：DataMaster: Data-Centric Autonomous AI Research
項目地址：https://github.com/sjtu-sai-agents/DataMaster
論文地址：https://arxiv.org/abs/2605.10906

它讓智能體圍繞一個給定任務，自動尋找外部數據、篩選數據源、清洗和轉換數據、構建訓練輸入，并根據下游模型反饋繼續迭代。

更關鍵的是，整個過程中，模型不變，訓練算法也不變。

換句話說，DataMaster 問的不是“怎樣設計一個更強的模型”，而是：當模型和訓練流程都固定時，AI 能不能通過自己準備更好的數據，把模型繼續訓強？

為什么數據工程不能只靠一次生成

數據工程看起來像是在 “調數據”，但它并不是一條直線。

首先，它有很多分支。同一個任務可以先找新數據，也可以先清洗舊數據；可以擴大數據規模，也可以提高數據質量；可以改變樣本比例，也可以改變輸入格式。每一步選擇，都會打開新的可能路徑。

其次，它高度依賴前面的選擇。前面選了什么數據，會影響后面哪些清洗方法有效；前面做了什么特征，也會影響模型最終能學到什么。數據工程不是孤立操作，而是一連串相互影響的決策。

最后，它的效果很難提前判斷。一份數據看起來相關，不代表訓練后一定有用；一次清洗看起來合理，也不代表模型分數一定提升。很多時候，只有真正跑完訓練和評估，才能知道這次數據改動有沒有價值。

所以，DataMaster 沒有把數據工程當成一次性生成任務，而是把它變成了一場可以分叉、可以回看、可以持續優化的搜索。

一棵數據樹，一個數據池，一段全局記憶

為了完成這件事，DataMaster 設計了三個核心部件：一棵數據樹、一個數據池，以及一段全局記憶。

數據樹負責探索不同的數據改造路徑。樹上的每個節點，都是一次數據工程嘗試。紅色節點負責向外尋找潛在有用的數據源，黑色節點負責把數據清洗、轉換、組合成可以真正訓練的版本。

這兩個角色很像一個數據團隊里的分工：紅色節點是 “偵察兵”，負責擴大搜索范圍；黑色節點是 “工程兵”，負責把找到的數據真正變成模型能吃的訓練輸入。

數據池負責保存所有已經發現的數據源。一個分支找到的數據，不會只服務于當前嘗試，而是會變成整個系統都能復用的數據資產。后續節點可以繼續從這里讀取、組合和改造候選數據。

全局記憶則負責記錄每一次嘗試的結果：用了什么數據，做了什么處理，訓練分數有沒有提升，失敗原因是什么，哪些處理策略值得復用。下一次系統再做決策時，就不必從零開始。

三者合在一起，讓 DataMaster 不再像一個一次性腳本，而更像一個會積累經驗的數據工程團隊。

圖 1：DataMaster 框架圖。數據樹負責分叉探索，數據池負責共享候選數據，全局記憶負責沉淀成功和失敗經驗。

只動數據，能漲多少？

DataMaster 最關鍵的實驗，不是證明它 “能自動跑流程”，而是證明數據側自動迭代本身就能帶來真實收益。

論文在兩個場景中驗證了這一點。

第一個是MLE-Bench Lite。這個場景更接近傳統機器學習工程：任務本身給定了數據和初始訓練方案，智能體不能隨意改訓練代碼，只能圍繞數據做選擇、清洗、特征構造和格式適配。

結果很直接：初始方案的獎牌率是 35.91%，DataMaster 提升到 68.18%，提高 32.27 個百分點；金牌率也從 22.73% 提升到 45.45%。

第二個是PostTrainBench。這個場景更接近大模型后訓練：基礎模型固定，訓練流程固定，而且沒有現成訓練數據，智能體必須自己發現和整理后訓練數據。

在這里，DataMaster 把平均分從基礎模型的 8.47% 提升到31.17%，提高 22.70 個百分點。和其他基線相比，它也取得了最高平均分。

實驗結果速覽：

更值得注意的是 GPQA 結果。

GPQA 是 PostTrainBench 中最能體現高難專業能力的任務之一。它考察的是研究生級別的科學知識和推理能力，覆蓋物理、化學、生物等領域，并不只是簡單的常識問答。

在這個任務下，DataMaster 的 GPQA 分數從基礎模型的 18.75% 一路提升到31.02%。論文里的測試時擴展分析顯示，這個提升不是一次性發生的，而是隨著搜索預算增加逐步出現：DataMaster 在迭代過程中不斷發現并整合更相關的科學數據、推理數據和 MedQA 數據，最終形成了更適合 GPQA 的訓練數據配置。

這個結果最有意思的地方在于，DataMaster 沒有更換基礎模型，也沒有重新設計訓練算法。它做的只是圍繞數據側持續試錯：找什么數據、怎么篩選、如何組合、如何適配訓練。最終，它在 GPQA 上達到 31.02%，超過了專家訓練的指令模型參考分數 30.35%，也超過了 Codex、DataFlex、ML-Master 2.0 等基線在該任務上的結果。

圖 3：GPQA 上的測試時擴展曲線。隨著數據搜索和訓練預算增加，DataMaster 的最佳節點分數持續上升，并最終超過指令模型參考線。

當然，這不意味著 DataMaster 在所有能力上都超過人工后訓練模型。PostTrainBench 的整體平均分上，專家指令模型仍然更高。更準確的理解是：在 GPQA 這樣一個需要專業科學數據和復雜推理能力的任務上，自動化數據工程已經能夠找到足夠有效的數據配置，在單項能力上接近甚至超過人工設計的后訓練數據參考。

為了避免這個結果被理解成 “訓練到了測試集”，論文還專門做了 GPQA 的數據泄漏檢查：包括屏蔽 benchmark 和 test-split 相關來源、基于測試集哈希去重、記錄外部數據來源和內容哈希；在 7479 條發現的訓練樣本上，沒有發現精確匹配或模糊匹配，3 到 5 元詞組重疊率也保持在 0.08% 到 1.06% 的較低水平。

圖 2：不同大模型作為智能體底座時，DataMaster 在 PostTrainBench 七項任務上的表現。

這也是 DataMaster 想傳遞的關鍵信號：數據工程不是訓練前的輔助步驟，也不是簡單把數據量堆大。對于特定能力來說，真正重要的可能是能不能找到更相關的數據，能不能把不同來源的數據組織成適合模型學習的形式，以及能不能根據訓練反饋持續修正數據策略。

當數據也成為 AI 的決策對象

DataMaster 的意義，不只是提出了一個新的智能體系統。

更重要的是，它把一個長期被當作 “前置準備” 的環節，變成了 AI 可以主動搜索、比較、驗證和復用的對象。

過去，數據通常被看作訓練開始之前就已經準備好的東西。模型訓練得好不好，當然和數據有關，但數據工程本身往往被放在模型研發流程之外：先由人類收集、清洗、整理，再交給訓練算法使用。

DataMaster 改變的是這個位置關系。

在它的設定里，數據不再只是訓練流程的輸入，而是進入了智能體的決策循環：系統會決定找什么數據、如何處理數據、如何組合數據，并根據下游反饋繼續調整數據策略。

這讓“以數據為中心” 的 AI 研發變得更加具體。它不只是說數據重要，而是進一步追問：數據能不能像代碼、模型和實驗一樣，被智能體持續優化？

當然，一旦數據工程開始自動化，新的問題也會變得更重要。外部數據從哪里來，是否合規，是否污染測試集，是否能追蹤來源，系統為什么選擇這批數據而不是另一批數據，都需要被記錄和審計。

也就是說，自主數據工程真正走向真實世界，不只是要讓 AI 更會做數據，還要讓 AI 的數據決策過程本身變得透明、可控、可復盤。

這可能是 DataMaster 留下的更大問題：當 AI 開始管理數據時，人類真正需要管理的，是 AI 管理數據的方式。

如果說過去的模型是在學習人類準備好的數據，那么 DataMaster 指向的是下一步：AI 開始參與決定自己應該學習什么數據。

這也是它最值得關注的地方。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.