无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Auto Research最后一塊拼圖,Frontier-Eng Bench,工程閉環(huán)里最優(yōu)

0
分享至




機器之心發(fā)布

科研,能被 AI 全程加速嗎?

過去兩年,Auto Research 被寄予厚望:讀論文、找方向、寫代碼、跑實驗,甚至生成新假設 ——AI 仿佛要成為科研全能助手。

但做過科研的人都知道,真正燒腦、耗時間的不是「能跑」,而是「夠好」:調參數、改代碼、看輸出,再跑,再調…… 每一次優(yōu)化都瑣碎又重復,卻幾乎無法跳過。

于是問題來了:能不能把這些繁瑣的迭代交給 AI?Researcher 只提供方向,后續(xù)的「看反饋 → 調代碼 → 逼近最優(yōu)」,全交給 Agent 自動完成?

Einsia AI 旗下 Navers Lab 的最新論文 Frontier-Eng 盯上的就是這件事。



  • 論文題目:Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization
  • 項目主頁:https://lab.einsia.ai/frontier-eng/
  • Arxiv: https://arxiv.org/abs/2604.12290
  • Github repo: https://github.com/EinsiaLab/Frontier-Engineering

這不是又一個「模型會不會做題」的 benchmark。恰恰相反,它在問一個更接近真實 Auto Research 的問題:AI 到底能把一個可行方案優(yōu)化到多好?

當 Agent 不再只「答題」,而是真正開始做優(yōu)化

過去兩年,大家見過太多 Agent benchmark:有的考檢索,有的考代碼,有的看任務能不能完成。但這些測試,大多還是「對就是對,錯就是錯」的二元評估邏輯。

可真實世界里的 Research 從來不是這樣的。

很多時候,一個方法已經能跑,結果也說得過去,但真正決定它有沒有競爭力的,是后面那一點點持續(xù)「拱」出來的提升。

  • 實驗快一點,意味著 researcher 少等幾輪結果;
  • 顯存省一點,意味著更大的模型、更長的上下文、更復雜的設置終于能跑起來;
  • 指標漲一點,意味著離 SOTA 更近一步,離榜單前排更近一步,甚至可能就是 paper 能不能站得住的差別。

在 Auto Research 里,最重要的不是 Agent 能不能一次性給出一個看起來合理的答案,而是它能不能接過這段漫長的迭代過程:持續(xù)讀反饋、改方案、跑實驗、壓指標,把研究員們從最重復、最煩人的調優(yōu)里解放出來。

而 Frontier-Eng Bench 想測的,正是 AI 能不能接過這一段過程。



Frontier-Eng 總覽

論文把這類問題定義為一種新的評測范式:Generative Optimization(生成式優(yōu)化)。它本質上是在讓 Agent 不再只「交一次答案」,而是真正進入一個工程閉環(huán):

  1. 提出方案
  2. 運行程序或仿真器
  3. 獲取詳細反饋
  4. 繼續(xù)修改方案
  5. 在固定預算內不斷逼近更優(yōu)解

這其實就是科研人員和工程師們每天都在做的事情。不是拍腦袋給出一個最終答案,而是不斷試、不斷調、不斷被現(xiàn)實打臉,再反過來修。

把 Agent 扔進大量真實工程問題里

為了把這件事做成一個靠譜的 benchmark,Navers Lab 搭了一個相當硬核的評測系統(tǒng)。

研究團隊邀請了各個工程領域的 PhD 、Master student,提供他們在各自領域經常遇到的真實問題,并將其轉化成安全、可靠、可驗證的代碼庫。換句話說,F(xiàn)rontier-Eng 背后的每一個任務,都來自領域專家的一手經驗。

Frontier-Eng v1 一共覆蓋 47 個任務,橫跨 5 大工程方向,包括:

  • 計算與量子信息
  • 運籌與決策科學
  • 機器人 / 控制 / 能源系統(tǒng)
  • 光學與通信系統(tǒng)
  • 物理科學與工程設計

任務類型也不是紙上談兵,而是直接把 Agent 扔進了大量真實工程問題里,包括:

  • GPU kernel 優(yōu)化
  • 電池快充策略
  • 機械臂運動時間壓縮
  • 量子線路優(yōu)化
  • 數據中心控制
  • 結構拓撲設計
  • 作業(yè)車間調度
  • 光學相位設計
  • 單細胞分析
  • 化學反應優(yōu)化



Frontier-Eng Bench 與已有評測基準的對比

這意味著 Frontier-Eng Bench 測的不是某一個窄領域里的「技巧題」,而是在問:

當 Agent 面對不同學科、不同目標函數、不同仿真器、不同硬約束時,它持續(xù)優(yōu)化的能力到底怎么樣

一個專門防止 Agent「鉆空子」,只拼「硬實力」的 Benchmark

Frontier-Eng Bench 明顯吸取了過去很多評測容易 “被鉆空子” 的教訓。在這里:

  • 評測器和參考數據是只讀的,Agent 改不了;
  • 候選方案在隔離環(huán)境里跑,沒法直接碰評分器;
  • 最終分數來自 verifier 自己吐出來的日志,而不是 Agent 自己報喜不報憂。

也就是說,想拿高分,只有一條路:真的把方案做得更好

這件事為什么難?因為它要求的已經不是單點能力,而是能力的組合。

模型既要懂領域知識,知道電池為什么會析鋰、機械臂為什么會撞、庫存策略為什么會失效;又要會寫和改代碼,把這些想法變成可執(zhí)行方案;還要會讀反饋,理解 simulator 給出的結果到底意味著什么;最后還得在有限預算里做搜索決策:是大改一版,還是小修一刀?

論文里舉了一個很典型的例子:電池快充任務。目標很簡單,大家都能聽懂 —— 充得越快越好。

但現(xiàn)實一點都不簡單:電壓、溫度、析鋰、老化全是硬約束。Agent 不能只為了快一路猛沖,它必須在充電速度、熱安全和壽命損耗之間找平衡。

這就不是「會不會寫一個函數」的問題了,而是能不能在真實物理反饋里做優(yōu)化決策

這也是 Frontier-Eng 最有意思的地方:

它不再問「答案對不對」,而是問「你能不能在現(xiàn)實約束里持續(xù)變好」。



不同模型的詳細評測結果

結果揭示:gpt 5.4 最穩(wěn)健,但前路尚遠

從結果看,這套 benchmark 也確實夠難。

論文系統(tǒng)評測了多種前沿模型和代表性搜索框架,結論很直接:gpt 5.4整體表現(xiàn)最穩(wěn)健,但對所有模型來說,F(xiàn)rontier-Eng 都遠沒被做穿

換句話說,今天最強的一批模型,已經能在一些工程任務上展現(xiàn)出明顯的優(yōu)化能力,但距離「像資深工程師一樣穩(wěn)定地跨領域做復雜優(yōu)化」,還差得很遠。

比排名更有意思的,是這篇論文順手揭示出的兩個規(guī)律。



工程優(yōu)化的雙重冪律衰減

第一個規(guī)律是:越往后,提升越難

論文發(fā)現(xiàn),Agent 的改進頻率和幅度都呈現(xiàn)冪律衰減:改進頻率 ∝ 1 / 迭代輪數,改進幅度 ∝ 1 / 改進次數。簡單說就是:前面幾輪漲得最快,后面越來越難、越來越小。

這很像真實研發(fā):第一版能干掉大量低垂果實,但越往后越接近瓶頸,想再摳一點性能都得下狠功夫。

那是不是多開幾條路并行試會更劃算?答案在第二個規(guī)律。



深度 vs 寬度

第二個規(guī)律:寬度有用,但深度不可或缺

并行多跑幾條線能避免卡殼,但預算固定時,每多開一條鏈就會壓淺深度。很多工程突破不是靠「多試幾次」,而是靠持續(xù)積累、不斷修正,才出現(xiàn)結構性躍遷。

這提示了下一代 Agent 的方向:不是「一次出答案」的模型,而是能在長程反饋里持續(xù)迭代、自我進化的系統(tǒng)。

Frontier-Eng Bench:意義不止于榜單

Frontier-Eng Bench 把行業(yè)注意力從「能不能答對」拽到了更現(xiàn)實的問題上:AI 能不能替人扛下科研里那些最惡心、最瑣碎、又繞不開的活兒

評測尺度變了 —— 不再是「對或錯」,而是「你能優(yōu)化到什么程度」。

從這個角度看,F(xiàn)rontier-Eng Bench 測的是:AI 距離成為幫人類干臟活累活的工程優(yōu)化執(zhí)行者,還有多遠?

迭代優(yōu)化是 Research 中永遠無法規(guī)避的一環(huán)。繞開它,方案永遠停在「差不多」。如果 AI 能扛下這一環(huán)呢?

對科研人員來說,意味著從磨人的調優(yōu)中解放出來

對 Auto Research,則意味著能把方案落地到極致,才能真正地開啟飛輪。

這比又一組刷榜數字,更值得行業(yè)認真對待。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
遼籃動態(tài)更新!三名小將將升入第一梯隊,球隊不會放趙繼偉離開

遼籃動態(tài)更新!三名小將將升入第一梯隊,球隊不會放趙繼偉離開

蘭亭墨未干
2026-05-12 13:02:31
英國成伊斯蘭國家了?斯塔默宣布:穆斯林是現(xiàn)代英國的標志性面孔

英國成伊斯蘭國家了?斯塔默宣布:穆斯林是現(xiàn)代英國的標志性面孔

步論天下事
2026-05-10 10:36:05
首次驅逐!NBA介入調查,文班G5出戰(zhàn)資格敲定,馬刺等來好消息!

首次驅逐!NBA介入調查,文班G5出戰(zhàn)資格敲定,馬刺等來好消息!

體育大朋說
2026-05-12 13:55:03
贏1球就進世界杯?U17國足今夜背水一戰(zhàn)!

贏1球就進世界杯?U17國足今夜背水一戰(zhàn)!

有態(tài)度的體育小白
2026-05-12 13:11:06
終于確認,特朗普將登上訪華專機,英媒斷言:美國的時代已經結束

終于確認,特朗普將登上訪華專機,英媒斷言:美國的時代已經結束

知法而形
2026-05-11 13:08:11
追夢:文班肘擊這事如果是我做的,你們早喊著讓我退役了

追夢:文班肘擊這事如果是我做的,你們早喊著讓我退役了

懂球帝
2026-05-12 09:55:30
深圳最新規(guī)劃,都市圈要加速了!8條跨市軌道+50條跨市道路要來了

深圳最新規(guī)劃,都市圈要加速了!8條跨市軌道+50條跨市道路要來了

深圳夢
2026-05-12 12:14:15
三星One UI 8.5全球正式推送

三星One UI 8.5全球正式推送

叮當當科技
2026-05-12 13:11:01
“小馬云”18歲成年首播,直播間和女生熱吻,稱想找個老婆

“小馬云”18歲成年首播,直播間和女生熱吻,稱想找個老婆

逍遙浪騰云
2026-05-11 14:09:53
衛(wèi)健委已將左氧氟沙星列為重點監(jiān)控藥!醫(yī)生:服用千萬注意7點

衛(wèi)健委已將左氧氟沙星列為重點監(jiān)控藥!醫(yī)生:服用千萬注意7點

健康科普365
2026-05-10 18:45:06
一個冰冷現(xiàn)實:中印沖突正全方位升級,中國越避讓,印度越對抗

一個冰冷現(xiàn)實:中印沖突正全方位升級,中國越避讓,印度越對抗

時光漫游志
2026-05-12 06:09:49
天津一廣場“胸口碎大石”表演錘頭突然脫把飛出一孩童被砸,當地政府:小朋友沒什么大問題

天津一廣場“胸口碎大石”表演錘頭突然脫把飛出一孩童被砸,當地政府:小朋友沒什么大問題

觀威海
2026-05-11 21:50:11
烏軍指揮官:前線士兵月薪不到1400美元,誰還守1500公里戰(zhàn)線

烏軍指揮官:前線士兵月薪不到1400美元,誰還守1500公里戰(zhàn)線

桂系007
2026-05-12 05:26:17
魯尼談阿森納爭議判罰:只要看回放,就知道那肯定是個犯規(guī)

魯尼談阿森納爭議判罰:只要看回放,就知道那肯定是個犯規(guī)

懂球帝
2026-05-11 15:10:21
2-2!本菲卡葡超不敗卻跌第3 歐冠資格告急 63歲穆帥或帶遺憾告別

2-2!本菲卡葡超不敗卻跌第3 歐冠資格告急 63歲穆帥或帶遺憾告別

我愛英超
2026-05-12 06:53:08
米切爾太狠!就在今天,NBA過去80年季后賽歷史紀錄,被他達成了

米切爾太狠!就在今天,NBA過去80年季后賽歷史紀錄,被他達成了

星Xin辰大海
2026-05-12 12:38:40
有沒有人敢爆自己的瓜?網友:確定玩這么大嗎?

有沒有人敢爆自己的瓜?網友:確定玩這么大嗎?

夜深愛雜談
2026-02-18 20:55:58
心理學發(fā)現(xiàn):一個不被任何人拿捏的方法,不要回答別人的問題,要回答別人的目的

心理學發(fā)現(xiàn):一個不被任何人拿捏的方法,不要回答別人的問題,要回答別人的目的

心理觀察局
2026-05-12 09:17:08
女子4S店找母嬰室喂奶遭嘲笑,理想客服:門店已主動道歉,承諾將在215家門店增設母嬰室

女子4S店找母嬰室喂奶遭嘲笑,理想客服:門店已主動道歉,承諾將在215家門店增設母嬰室

觀威海
2026-05-12 10:10:07
離婚不離家?看到陳思誠和阮巨現(xiàn)狀,才知道佟麗婭的做法有多高明

離婚不離家?看到陳思誠和阮巨現(xiàn)狀,才知道佟麗婭的做法有多高明

史鹷的生活科普
2026-05-11 13:41:39
2026-05-12 14:28:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12976文章數 142648關注度
往期回顧 全部

科技要聞

納德拉法庭爆料:拒當“AI時代的IBM”

頭條要聞

特朗普訪華企業(yè)團名單披露:馬斯克在列 沒有黃仁勛

頭條要聞

特朗普訪華企業(yè)團名單披露:馬斯克在列 沒有黃仁勛

體育要聞

梁靖崑:可能是最后一屆了,想讓大家記住這個我

娛樂要聞

劉濤曬媽祖誕辰活動照 評論區(qū)變許愿池

財經要聞

特朗普要來了,我們且淡定

汽車要聞

吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

態(tài)度原創(chuàng)

房產
親子
手機
藝術
公開課

房產要聞

50億資本布局!寧德時代,突然重倉三亞!

親子要聞

爸爸自己的錯誤,強加給不會說話的兒子,關鍵老婆還真相信!

手機要聞

三星手機可限制廣告推送過多的App發(fā)送通知,全新攔截功能曝光

藝術要聞

這位畫家的油畫美人讓人驚嘆不已!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版