![]()
機器之心發(fā)布
科研,能被 AI 全程加速嗎?
過去兩年,Auto Research 被寄予厚望:讀論文、找方向、寫代碼、跑實驗,甚至生成新假設 ——AI 仿佛要成為科研全能助手。
但做過科研的人都知道,真正燒腦、耗時間的不是「能跑」,而是「夠好」:調參數、改代碼、看輸出,再跑,再調…… 每一次優(yōu)化都瑣碎又重復,卻幾乎無法跳過。
于是問題來了:能不能把這些繁瑣的迭代交給 AI?Researcher 只提供方向,后續(xù)的「看反饋 → 調代碼 → 逼近最優(yōu)」,全交給 Agent 自動完成?
Einsia AI 旗下 Navers Lab 的最新論文 Frontier-Eng 盯上的就是這件事。
![]()
- 論文題目:Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization
- 項目主頁:https://lab.einsia.ai/frontier-eng/
- Arxiv: https://arxiv.org/abs/2604.12290
- Github repo: https://github.com/EinsiaLab/Frontier-Engineering
這不是又一個「模型會不會做題」的 benchmark。恰恰相反,它在問一個更接近真實 Auto Research 的問題:AI 到底能把一個可行方案優(yōu)化到多好?
當 Agent 不再只「答題」,而是真正開始做優(yōu)化
過去兩年,大家見過太多 Agent benchmark:有的考檢索,有的考代碼,有的看任務能不能完成。但這些測試,大多還是「對就是對,錯就是錯」的二元評估邏輯。
可真實世界里的 Research 從來不是這樣的。
很多時候,一個方法已經能跑,結果也說得過去,但真正決定它有沒有競爭力的,是后面那一點點持續(xù)「拱」出來的提升。
- 實驗快一點,意味著 researcher 少等幾輪結果;
- 顯存省一點,意味著更大的模型、更長的上下文、更復雜的設置終于能跑起來;
- 指標漲一點,意味著離 SOTA 更近一步,離榜單前排更近一步,甚至可能就是 paper 能不能站得住的差別。
在 Auto Research 里,最重要的不是 Agent 能不能一次性給出一個看起來合理的答案,而是它能不能接過這段漫長的迭代過程:持續(xù)讀反饋、改方案、跑實驗、壓指標,把研究員們從最重復、最煩人的調優(yōu)里解放出來。
而 Frontier-Eng Bench 想測的,正是 AI 能不能接過這一段過程。
![]()
Frontier-Eng 總覽
論文把這類問題定義為一種新的評測范式:Generative Optimization(生成式優(yōu)化)。它本質上是在讓 Agent 不再只「交一次答案」,而是真正進入一個工程閉環(huán):
- 提出方案
- 運行程序或仿真器
- 獲取詳細反饋
- 繼續(xù)修改方案
- 在固定預算內不斷逼近更優(yōu)解
這其實就是科研人員和工程師們每天都在做的事情。不是拍腦袋給出一個最終答案,而是不斷試、不斷調、不斷被現(xiàn)實打臉,再反過來修。
把 Agent 扔進大量真實工程問題里
為了把這件事做成一個靠譜的 benchmark,Navers Lab 搭了一個相當硬核的評測系統(tǒng)。
研究團隊邀請了各個工程領域的 PhD 、Master student,提供他們在各自領域經常遇到的真實問題,并將其轉化成安全、可靠、可驗證的代碼庫。換句話說,F(xiàn)rontier-Eng 背后的每一個任務,都來自領域專家的一手經驗。
Frontier-Eng v1 一共覆蓋 47 個任務,橫跨 5 大工程方向,包括:
- 計算與量子信息
- 運籌與決策科學
- 機器人 / 控制 / 能源系統(tǒng)
- 光學與通信系統(tǒng)
- 物理科學與工程設計
任務類型也不是紙上談兵,而是直接把 Agent 扔進了大量真實工程問題里,包括:
- GPU kernel 優(yōu)化
- 電池快充策略
- 機械臂運動時間壓縮
- 量子線路優(yōu)化
- 數據中心控制
- 結構拓撲設計
- 作業(yè)車間調度
- 光學相位設計
- 單細胞分析
- 化學反應優(yōu)化
![]()
Frontier-Eng Bench 與已有評測基準的對比
這意味著 Frontier-Eng Bench 測的不是某一個窄領域里的「技巧題」,而是在問:
當 Agent 面對不同學科、不同目標函數、不同仿真器、不同硬約束時,它持續(xù)優(yōu)化的能力到底怎么樣
一個專門防止 Agent「鉆空子」,只拼「硬實力」的 Benchmark
Frontier-Eng Bench 明顯吸取了過去很多評測容易 “被鉆空子” 的教訓。在這里:
- 評測器和參考數據是只讀的,Agent 改不了;
- 候選方案在隔離環(huán)境里跑,沒法直接碰評分器;
- 最終分數來自 verifier 自己吐出來的日志,而不是 Agent 自己報喜不報憂。
也就是說,想拿高分,只有一條路:真的把方案做得更好
這件事為什么難?因為它要求的已經不是單點能力,而是能力的組合。
模型既要懂領域知識,知道電池為什么會析鋰、機械臂為什么會撞、庫存策略為什么會失效;又要會寫和改代碼,把這些想法變成可執(zhí)行方案;還要會讀反饋,理解 simulator 給出的結果到底意味著什么;最后還得在有限預算里做搜索決策:是大改一版,還是小修一刀?
論文里舉了一個很典型的例子:電池快充任務。目標很簡單,大家都能聽懂 —— 充得越快越好。
但現(xiàn)實一點都不簡單:電壓、溫度、析鋰、老化全是硬約束。Agent 不能只為了快一路猛沖,它必須在充電速度、熱安全和壽命損耗之間找平衡。
這就不是「會不會寫一個函數」的問題了,而是能不能在真實物理反饋里做優(yōu)化決策
這也是 Frontier-Eng 最有意思的地方:
它不再問「答案對不對」,而是問「你能不能在現(xiàn)實約束里持續(xù)變好」。
![]()
不同模型的詳細評測結果
結果揭示:gpt 5.4 最穩(wěn)健,但前路尚遠
從結果看,這套 benchmark 也確實夠難。
論文系統(tǒng)評測了多種前沿模型和代表性搜索框架,結論很直接:gpt 5.4整體表現(xiàn)最穩(wěn)健,但對所有模型來說,F(xiàn)rontier-Eng 都遠沒被做穿
換句話說,今天最強的一批模型,已經能在一些工程任務上展現(xiàn)出明顯的優(yōu)化能力,但距離「像資深工程師一樣穩(wěn)定地跨領域做復雜優(yōu)化」,還差得很遠。
比排名更有意思的,是這篇論文順手揭示出的兩個規(guī)律。
![]()
工程優(yōu)化的雙重冪律衰減
第一個規(guī)律是:越往后,提升越難
論文發(fā)現(xiàn),Agent 的改進頻率和幅度都呈現(xiàn)冪律衰減:改進頻率 ∝ 1 / 迭代輪數,改進幅度 ∝ 1 / 改進次數。簡單說就是:前面幾輪漲得最快,后面越來越難、越來越小。
這很像真實研發(fā):第一版能干掉大量低垂果實,但越往后越接近瓶頸,想再摳一點性能都得下狠功夫。
那是不是多開幾條路并行試會更劃算?答案在第二個規(guī)律。
![]()
深度 vs 寬度
第二個規(guī)律:寬度有用,但深度不可或缺
并行多跑幾條線能避免卡殼,但預算固定時,每多開一條鏈就會壓淺深度。很多工程突破不是靠「多試幾次」,而是靠持續(xù)積累、不斷修正,才出現(xiàn)結構性躍遷。
這提示了下一代 Agent 的方向:不是「一次出答案」的模型,而是能在長程反饋里持續(xù)迭代、自我進化的系統(tǒng)。
Frontier-Eng Bench:意義不止于榜單
Frontier-Eng Bench 把行業(yè)注意力從「能不能答對」拽到了更現(xiàn)實的問題上:AI 能不能替人扛下科研里那些最惡心、最瑣碎、又繞不開的活兒
評測尺度變了 —— 不再是「對或錯」,而是「你能優(yōu)化到什么程度」。
從這個角度看,F(xiàn)rontier-Eng Bench 測的是:AI 距離成為幫人類干臟活累活的工程優(yōu)化執(zhí)行者,還有多遠?
迭代優(yōu)化是 Research 中永遠無法規(guī)避的一環(huán)。繞開它,方案永遠停在「差不多」。如果 AI 能扛下這一環(huán)呢?
對科研人員來說,意味著從磨人的調優(yōu)中解放出來
對 Auto Research,則意味著能把方案落地到極致,才能真正地開啟飛輪。
這比又一組刷榜數字,更值得行業(yè)認真對待。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.