上海團(tuán)隊用對抗式多智能體框架破解代碼可靠生成難題

2026-04-23 15:24:14　來源: ScienceAI

河北舉報

分享至

作者 |聯(lián)合研究團(tuán)隊

編輯丨ScienceAI

在大語言模型的助推之下，從模擬仿真到數(shù)據(jù)分析，AI 正在幫助科研人員自動寫代碼。但現(xiàn)實是，領(lǐng)域科學(xué)家往往缺乏計算機(jī)背景，寫出的提示詞模糊不清、隱含大量專業(yè)假設(shè)；科學(xué)計算流程復(fù)雜，一個小錯誤就能引發(fā)連鎖反應(yīng)；更致命的是，大模型會產(chǎn)生「幻覺」—— 輸出看起來合理，實則暗藏致命缺陷。

在多智能體協(xié)作中，一個環(huán)節(jié)的錯誤會被下游無條件接受，層層放大。現(xiàn)有的提示優(yōu)化和自我修正技術(shù)面對這種微妙的錯誤模式往往束手無策。科學(xué)家們迫切需要可靠的代碼，卻困在「不會寫好提示詞」的尷尬境地。這一困境直接制約了 AI4S（AI for Science, 科學(xué)智能）研究的普惠化進(jìn)程，大量關(guān)鍵科學(xué)問題因較高的技術(shù)門檻而無法被 AI 有效賦能。

為此，復(fù)旦大學(xué)、上海科學(xué)智能研究院（下稱上智院）、上海創(chuàng)智學(xué)院的聯(lián)合研究團(tuán)隊提出了一種貝葉斯對抗式多智能體框架，用一種全新的思路解決上述難題。該框架不依賴單一模型的自我修正能力，而是通過多角色分工與對抗博弈，讓系統(tǒng)在持續(xù)的「攻防演練」中自發(fā)涌現(xiàn)出更高的代碼質(zhì)量。

論文標(biāo)題：AI-for-Science Low-code Platform with Bayesian Adversarial Multi-Agent Framework

論文地址：https://openreview.net/forum?id=Cug26Y0RlT

相關(guān)論文已被 ICLR 2026 接收。復(fù)旦大學(xué)及上海創(chuàng)智學(xué)院博士生曾子航、張家銓，為共同第一作者；復(fù)旦大學(xué)人工智能創(chuàng)新與產(chǎn)業(yè)研究院教授、上智院 AI 科學(xué)家陳曦，為本文通訊作者；上智院首席科學(xué)家、復(fù)旦大學(xué)特聘教授漆遠(yuǎn)，及復(fù)旦大學(xué)博士生李朋澤，為本文共同作者。

出題人 vs 答題人：對抗循環(huán)驅(qū)動的貝葉斯迭代機(jī)制

框架的核心是一個「出題人 vs 答題人」的對抗循環(huán)。任務(wù)管理器（TM）扮演「出題人」，負(fù)責(zé)設(shè)計具有挑戰(zhàn)性的測試用例，不斷探測當(dāng)前代碼的邊界；方案生成器（SG）扮演「答題人」，根據(jù)測試反饋持續(xù)改進(jìn)代碼；評估器（Eval）則擔(dān)任「裁判」，對雙方表現(xiàn)進(jìn)行客觀打分。兩者在對抗中共同進(jìn)化，出題人越出越精，答題人越答越好。

更關(guān)鍵的是，框架引入了貝葉斯更新機(jī)制。每一次迭代后，系統(tǒng)會根據(jù)得分動態(tài)調(diào)整測試用例和代碼方案的概率分布，自動聚焦最有價值的探索方向。通俗來講就是，每一次迭代都讓系統(tǒng)更聰明地選擇最有價值的測試和代碼組合，而不是盲目嘗試。這種機(jī)制將「試錯」轉(zhuǎn)化為了「有指導(dǎo)的探索」—— 系統(tǒng)不會在已經(jīng)驗證無效的方向上浪費時間，而是像經(jīng)驗豐富的研究者一樣，根據(jù)已有證據(jù)不斷縮小搜索范圍，逐步逼近最優(yōu)解。

該框架的第一大貢獻(xiàn)在于：提出了一種面向 AI4S 的低代碼平臺，結(jié)合貝葉斯對抗式遞歸代碼生成機(jī)制，顯著提升 AI4S 項目的代碼生成可靠性。與傳統(tǒng)多智能體系統(tǒng)完全依賴大模型做決策不同，本低代碼平臺采用非大模型的對抗性評分機(jī)制，從根本上降低了對基礎(chǔ)模型智能水平的依賴。同時，框架讓不懂編程的科學(xué)家只需用自然語言描述研究需求，系統(tǒng)即可輔助生成更高質(zhì)量的科研代碼。

小模型逆襲大模型：基準(zhǔn)測試驗證框架有效性

實驗結(jié)果令人振奮：

在 SciCode 基準(zhǔn)測試中，8B 模型使用該框架后性能相對提升87.1%（子問題求解率從 13.2% 躍升至 24.7%）；
32B 開源模型配合該框架，在 SciCode 上達(dá)到 33.0% 的求解率，直接超越了 235B 模型的基線表現(xiàn)（30.6%）—— 小模型逆襲大模型；
在 ScienceAgentBench 上，框架達(dá)到90.2%的有效執(zhí)行率，刷新當(dāng)前最佳（SOTA）紀(jì)錄。

這些數(shù)字背后反映的是一個關(guān)鍵趨勢：通過合理的框架設(shè)計，開源小模型完全可以在特定科學(xué)任務(wù)上匹敵甚至超越商業(yè)大模型，這為科研團(tuán)隊降低算力成本提供了切實可行的路徑。

更值得注意的是，框架對提示詞質(zhì)量展現(xiàn)出極強(qiáng)的魯棒性。研究團(tuán)隊對比了「基礎(chǔ)提示」和「專家精心編寫提示」兩種條件下的表現(xiàn)：基線模型的性能差距巨大，嚴(yán)重依賴提示詞質(zhì)量；而使用該框架后，這一差距被大幅壓縮。即使用戶只提供基礎(chǔ)描述，框架的表現(xiàn)依然大幅超越專家提示詞的基線模型。

這驗證了框架的第二大貢獻(xiàn)：顯著提升編碼智能體性能，且不受基礎(chǔ)模型能力限制。未來，該框架有望擴(kuò)展至更多科學(xué)計算場景，為 AI4S 生態(tài)提供更廣泛且可靠的技術(shù)支撐。

展望：AI4S 普惠化的可行路徑

在這種貝葉斯對抗式多智能體框架的助力之下，更多領(lǐng)域?qū)＜夷軌蚪柚?AI 工具高效開展科研工作。比如，當(dāng)一位海洋學(xué)家只需用自然語言描述研究問題，系統(tǒng)就能通過多輪對抗迭代生成更可靠的科研代碼。隨著這一范式的推廣，更多領(lǐng)域的研究者能夠?qū)Ｗ⒂诳茖W(xué)問題核心，而非陷入編程細(xì)節(jié)，從而加速 AI 與基礎(chǔ)科學(xué)的深度融合。

聲明：包含AI生成內(nèi)容

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.