![]()
作者 |聯(lián)合研究團(tuán)隊
編輯丨ScienceAI
在大語言模型的助推之下,從模擬仿真到數(shù)據(jù)分析,AI 正在幫助科研人員自動寫代碼。但現(xiàn)實是,領(lǐng)域科學(xué)家往往缺乏計算機(jī)背景,寫出的提示詞模糊不清、隱含大量專業(yè)假設(shè);科學(xué)計算流程復(fù)雜,一個小錯誤就能引發(fā)連鎖反應(yīng);更致命的是,大模型會產(chǎn)生「幻覺」—— 輸出看起來合理,實則暗藏致命缺陷。
在多智能體協(xié)作中,一個環(huán)節(jié)的錯誤會被下游無條件接受,層層放大。現(xiàn)有的提示優(yōu)化和自我修正技術(shù)面對這種微妙的錯誤模式往往束手無策。科學(xué)家們迫切需要可靠的代碼,卻困在「不會寫好提示詞」的尷尬境地。這一困境直接制約了 AI4S(AI for Science, 科學(xué)智能)研究的普惠化進(jìn)程,大量關(guān)鍵科學(xué)問題因較高的技術(shù)門檻而無法被 AI 有效賦能。
為此,復(fù)旦大學(xué)、上海科學(xué)智能研究院(下稱上智院)、上海創(chuàng)智學(xué)院的聯(lián)合研究團(tuán)隊提出了一種貝葉斯對抗式多智能體框架,用一種全新的思路解決上述難題。該框架不依賴單一模型的自我修正能力,而是通過多角色分工與對抗博弈,讓系統(tǒng)在持續(xù)的「攻防演練」中自發(fā)涌現(xiàn)出更高的代碼質(zhì)量。
![]()
論文標(biāo)題:AI-for-Science Low-code Platform with Bayesian Adversarial Multi-Agent Framework
論文地址:https://openreview.net/forum?id=Cug26Y0RlT
相關(guān)論文已被 ICLR 2026 接收。復(fù)旦大學(xué)及上海創(chuàng)智學(xué)院博士生曾子航、張家銓,為共同第一作者;復(fù)旦大學(xué)人工智能創(chuàng)新與產(chǎn)業(yè)研究院教授、上智院 AI 科學(xué)家陳曦,為本文通訊作者;上智院首席科學(xué)家、復(fù)旦大學(xué)特聘教授漆遠(yuǎn),及復(fù)旦大學(xué)博士生李朋澤,為本文共同作者。
出題人 vs 答題人:對抗循環(huán)驅(qū)動的貝葉斯迭代機(jī)制
框架的核心是一個「出題人 vs 答題人」的對抗循環(huán)。任務(wù)管理器(TM)扮演「出題人」,負(fù)責(zé)設(shè)計具有挑戰(zhàn)性的測試用例,不斷探測當(dāng)前代碼的邊界;方案生成器(SG)扮演「答題人」,根據(jù)測試反饋持續(xù)改進(jìn)代碼;評估器(Eval)則擔(dān)任「裁判」,對雙方表現(xiàn)進(jìn)行客觀打分。兩者在對抗中共同進(jìn)化,出題人越出越精,答題人越答越好。
更關(guān)鍵的是,框架引入了貝葉斯更新機(jī)制。每一次迭代后,系統(tǒng)會根據(jù)得分動態(tài)調(diào)整測試用例和代碼方案的概率分布,自動聚焦最有價值的探索方向。通俗來講就是,每一次迭代都讓系統(tǒng)更聰明地選擇最有價值的測試和代碼組合,而不是盲目嘗試。這種機(jī)制將「試錯」轉(zhuǎn)化為了「有指導(dǎo)的探索」—— 系統(tǒng)不會在已經(jīng)驗證無效的方向上浪費時間,而是像經(jīng)驗豐富的研究者一樣,根據(jù)已有證據(jù)不斷縮小搜索范圍,逐步逼近最優(yōu)解。
![]()
該框架的第一大貢獻(xiàn)在于:提出了一種面向 AI4S 的低代碼平臺,結(jié)合貝葉斯對抗式遞歸代碼生成機(jī)制,顯著提升 AI4S 項目的代碼生成可靠性。與傳統(tǒng)多智能體系統(tǒng)完全依賴大模型做決策不同,本低代碼平臺采用非大模型的對抗性評分機(jī)制,從根本上降低了對基礎(chǔ)模型智能水平的依賴。同時,框架讓不懂編程的科學(xué)家只需用自然語言描述研究需求,系統(tǒng)即可輔助生成更高質(zhì)量的科研代碼。
小模型逆襲大模型:基準(zhǔn)測試驗證框架有效性
實驗結(jié)果令人振奮:
- 在 SciCode 基準(zhǔn)測試中,8B 模型使用該框架后性能相對提升87.1%(子問題求解率從 13.2% 躍升至 24.7%);
- 32B 開源模型配合該框架,在 SciCode 上達(dá)到 33.0% 的求解率,直接超越了 235B 模型的基線表現(xiàn)(30.6%)—— 小模型逆襲大模型;
- 在 ScienceAgentBench 上,框架達(dá)到90.2%的有效執(zhí)行率,刷新當(dāng)前最佳(SOTA)紀(jì)錄。
這些數(shù)字背后反映的是一個關(guān)鍵趨勢:通過合理的框架設(shè)計,開源小模型完全可以在特定科學(xué)任務(wù)上匹敵甚至超越商業(yè)大模型,這為科研團(tuán)隊降低算力成本提供了切實可行的路徑。
![]()
更值得注意的是,框架對提示詞質(zhì)量展現(xiàn)出極強(qiáng)的魯棒性。研究團(tuán)隊對比了「基礎(chǔ)提示」和「專家精心編寫提示」兩種條件下的表現(xiàn):基線模型的性能差距巨大,嚴(yán)重依賴提示詞質(zhì)量;而使用該框架后,這一差距被大幅壓縮。即使用戶只提供基礎(chǔ)描述,框架的表現(xiàn)依然大幅超越專家提示詞的基線模型。
這驗證了框架的第二大貢獻(xiàn):顯著提升編碼智能體性能,且不受基礎(chǔ)模型能力限制。未來,該框架有望擴(kuò)展至更多科學(xué)計算場景,為 AI4S 生態(tài)提供更廣泛且可靠的技術(shù)支撐。
展望:AI4S 普惠化的可行路徑
在這種貝葉斯對抗式多智能體框架的助力之下,更多領(lǐng)域?qū)<夷軌蚪柚?AI 工具高效開展科研工作。比如,當(dāng)一位海洋學(xué)家只需用自然語言描述研究問題,系統(tǒng)就能通過多輪對抗迭代生成更可靠的科研代碼。隨著這一范式的推廣,更多領(lǐng)域的研究者能夠?qū)W⒂诳茖W(xué)問題核心,而非陷入編程細(xì)節(jié),從而加速 AI 與基礎(chǔ)科學(xué)的深度融合。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.