无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

上海團(tuán)隊用對抗式多智能體框架破解代碼可靠生成難題

0
分享至



作者 |聯(lián)合研究團(tuán)隊

編輯丨ScienceAI

在大語言模型的助推之下,從模擬仿真到數(shù)據(jù)分析,AI 正在幫助科研人員自動寫代碼。但現(xiàn)實是,領(lǐng)域科學(xué)家往往缺乏計算機(jī)背景,寫出的提示詞模糊不清、隱含大量專業(yè)假設(shè);科學(xué)計算流程復(fù)雜,一個小錯誤就能引發(fā)連鎖反應(yīng);更致命的是,大模型會產(chǎn)生「幻覺」—— 輸出看起來合理,實則暗藏致命缺陷。

在多智能體協(xié)作中,一個環(huán)節(jié)的錯誤會被下游無條件接受,層層放大。現(xiàn)有的提示優(yōu)化和自我修正技術(shù)面對這種微妙的錯誤模式往往束手無策。科學(xué)家們迫切需要可靠的代碼,卻困在「不會寫好提示詞」的尷尬境地。這一困境直接制約了 AI4S(AI for Science, 科學(xué)智能)研究的普惠化進(jìn)程,大量關(guān)鍵科學(xué)問題因較高的技術(shù)門檻而無法被 AI 有效賦能。

為此,復(fù)旦大學(xué)、上海科學(xué)智能研究院(下稱上智院)、上海創(chuàng)智學(xué)院的聯(lián)合研究團(tuán)隊提出了一種貝葉斯對抗式多智能體框架,用一種全新的思路解決上述難題。該框架不依賴單一模型的自我修正能力,而是通過多角色分工與對抗博弈,讓系統(tǒng)在持續(xù)的「攻防演練」中自發(fā)涌現(xiàn)出更高的代碼質(zhì)量。



論文標(biāo)題:AI-for-Science Low-code Platform with Bayesian Adversarial Multi-Agent Framework

論文地址:https://openreview.net/forum?id=Cug26Y0RlT

相關(guān)論文已被 ICLR 2026 接收。復(fù)旦大學(xué)及上海創(chuàng)智學(xué)院博士生曾子航、張家銓,為共同第一作者;復(fù)旦大學(xué)人工智能創(chuàng)新與產(chǎn)業(yè)研究院教授、上智院 AI 科學(xué)家陳曦,為本文通訊作者;上智院首席科學(xué)家、復(fù)旦大學(xué)特聘教授漆遠(yuǎn),及復(fù)旦大學(xué)博士生李朋澤,為本文共同作者。

出題人 vs 答題人:對抗循環(huán)驅(qū)動的貝葉斯迭代機(jī)制

框架的核心是一個「出題人 vs 答題人」的對抗循環(huán)。任務(wù)管理器(TM)扮演「出題人」,負(fù)責(zé)設(shè)計具有挑戰(zhàn)性的測試用例,不斷探測當(dāng)前代碼的邊界;方案生成器(SG)扮演「答題人」,根據(jù)測試反饋持續(xù)改進(jìn)代碼;評估器(Eval)則擔(dān)任「裁判」,對雙方表現(xiàn)進(jìn)行客觀打分。兩者在對抗中共同進(jìn)化,出題人越出越精,答題人越答越好。

更關(guān)鍵的是,框架引入了貝葉斯更新機(jī)制。每一次迭代后,系統(tǒng)會根據(jù)得分動態(tài)調(diào)整測試用例和代碼方案的概率分布,自動聚焦最有價值的探索方向。通俗來講就是,每一次迭代都讓系統(tǒng)更聰明地選擇最有價值的測試和代碼組合,而不是盲目嘗試。這種機(jī)制將「試錯」轉(zhuǎn)化為了「有指導(dǎo)的探索」—— 系統(tǒng)不會在已經(jīng)驗證無效的方向上浪費時間,而是像經(jīng)驗豐富的研究者一樣,根據(jù)已有證據(jù)不斷縮小搜索范圍,逐步逼近最優(yōu)解。



該框架的第一大貢獻(xiàn)在于:提出了一種面向 AI4S 的低代碼平臺,結(jié)合貝葉斯對抗式遞歸代碼生成機(jī)制,顯著提升 AI4S 項目的代碼生成可靠性。與傳統(tǒng)多智能體系統(tǒng)完全依賴大模型做決策不同,本低代碼平臺采用非大模型的對抗性評分機(jī)制,從根本上降低了對基礎(chǔ)模型智能水平的依賴。同時,框架讓不懂編程的科學(xué)家只需用自然語言描述研究需求,系統(tǒng)即可輔助生成更高質(zhì)量的科研代碼。

小模型逆襲大模型:基準(zhǔn)測試驗證框架有效性

實驗結(jié)果令人振奮:

  • 在 SciCode 基準(zhǔn)測試中,8B 模型使用該框架后性能相對提升87.1%(子問題求解率從 13.2% 躍升至 24.7%);
  • 32B 開源模型配合該框架,在 SciCode 上達(dá)到 33.0% 的求解率,直接超越了 235B 模型的基線表現(xiàn)(30.6%)—— 小模型逆襲大模型;
  • 在 ScienceAgentBench 上,框架達(dá)到90.2%的有效執(zhí)行率,刷新當(dāng)前最佳(SOTA)紀(jì)錄。

這些數(shù)字背后反映的是一個關(guān)鍵趨勢:通過合理的框架設(shè)計,開源小模型完全可以在特定科學(xué)任務(wù)上匹敵甚至超越商業(yè)大模型,這為科研團(tuán)隊降低算力成本提供了切實可行的路徑。



更值得注意的是,框架對提示詞質(zhì)量展現(xiàn)出極強(qiáng)的魯棒性。研究團(tuán)隊對比了「基礎(chǔ)提示」和「專家精心編寫提示」兩種條件下的表現(xiàn):基線模型的性能差距巨大,嚴(yán)重依賴提示詞質(zhì)量;而使用該框架后,這一差距被大幅壓縮。即使用戶只提供基礎(chǔ)描述,框架的表現(xiàn)依然大幅超越專家提示詞的基線模型。

這驗證了框架的第二大貢獻(xiàn):顯著提升編碼智能體性能,且不受基礎(chǔ)模型能力限制。未來,該框架有望擴(kuò)展至更多科學(xué)計算場景,為 AI4S 生態(tài)提供更廣泛且可靠的技術(shù)支撐。

展望:AI4S 普惠化的可行路徑

在這種貝葉斯對抗式多智能體框架的助力之下,更多領(lǐng)域?qū)<夷軌蚪柚?AI 工具高效開展科研工作。比如,當(dāng)一位海洋學(xué)家只需用自然語言描述研究問題,系統(tǒng)就能通過多輪對抗迭代生成更可靠的科研代碼。隨著這一范式的推廣,更多領(lǐng)域的研究者能夠?qū)W⒂诳茖W(xué)問題核心,而非陷入編程細(xì)節(jié),從而加速 AI 與基礎(chǔ)科學(xué)的深度融合。

聲明:包含AI生成內(nèi)容

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
“你找媒體,我們就不幫你了”:30多萬買的問界,12天增程器壞了

“你找媒體,我們就不幫你了”:30多萬買的問界,12天增程器壞了

漢史趣聞
2026-05-21 11:05:32
女子在高鐵靜音車廂連打20分鐘電話 乘客:乘務(wù)員一直舉牌勸阻卻被忽視

女子在高鐵靜音車廂連打20分鐘電話 乘客:乘務(wù)員一直舉牌勸阻卻被忽視

封面新聞
2026-05-21 12:12:47
繼蘿卜崗后,又出來“祖墳”崗?網(wǎng)友:誰能考上,一輩子有的吹了

繼蘿卜崗后,又出來“祖墳”崗?網(wǎng)友:誰能考上,一輩子有的吹了

社會日日鮮
2026-05-21 09:22:29
胡歌被正式確診為早F晚E,粉絲們都痛心不已

胡歌被正式確診為早F晚E,粉絲們都痛心不已

LULU生活家
2026-05-21 08:43:17
19歲男生凌晨2點多騎摩托被殺害,家屬稱兇手已被判處死刑!兇手:長期被噪音影響,想報復(fù);死者父親:他遇害前一個月未騎摩托

19歲男生凌晨2點多騎摩托被殺害,家屬稱兇手已被判處死刑!兇手:長期被噪音影響,想報復(fù);死者父親:他遇害前一個月未騎摩托

都市快報橙柿互動
2026-05-20 17:07:55
普京回去了,給人一種莫名的傷感!

普京回去了,給人一種莫名的傷感!

達(dá)文西看世界
2026-05-21 09:48:14
網(wǎng)戀10天奔現(xiàn)4天領(lǐng)證!安徽離異女子攜子與新婚丈夫露營走紅網(wǎng)絡(luò)

網(wǎng)戀10天奔現(xiàn)4天領(lǐng)證!安徽離異女子攜子與新婚丈夫露營走紅網(wǎng)絡(luò)

火山詩話
2026-05-21 06:43:02
被判賠三家車企共226萬元,知名汽車博主回應(yīng):正籌錢賠償,沒收任何黑心錢!律師:批評性言論須有可信證據(jù)支撐

被判賠三家車企共226萬元,知名汽車博主回應(yīng):正籌錢賠償,沒收任何黑心錢!律師:批評性言論須有可信證據(jù)支撐

每日經(jīng)濟(jì)新聞
2026-05-21 00:51:17
楊梅才剛撲街,荔枝又被曝用藥!添加劑包裝曝光,評論區(qū)人心惶惶

楊梅才剛撲街,荔枝又被曝用藥!添加劑包裝曝光,評論區(qū)人心惶惶

譚談社會
2026-05-21 11:24:12
我定居日本20年,娶過3個妻子,發(fā)現(xiàn)日本的女人都有一個共同特點

我定居日本20年,娶過3個妻子,發(fā)現(xiàn)日本的女人都有一個共同特點

千秋文化
2026-05-20 20:33:05
職業(yè)運動員究竟有多厲害?網(wǎng)友:在天賦面前,努力一文不值!

職業(yè)運動員究竟有多厲害?網(wǎng)友:在天賦面前,努力一文不值!

另子維愛讀史
2026-05-21 08:03:05
A股:今天沖到4198后突然跳水,種種跡象表明,A股反彈浪已接近尾聲?

A股:今天沖到4198后突然跳水,種種跡象表明,A股反彈浪已接近尾聲?

趨勢清風(fēng)俠
2026-05-21 11:13:14
越扒瓜越大!交大女學(xué)生吞獎金再添猛料,不止想進(jìn)體制內(nèi)這么簡單

越扒瓜越大!交大女學(xué)生吞獎金再添猛料,不止想進(jìn)體制內(nèi)這么簡單

觀史搜尋著
2026-05-21 05:41:15
恐怖!深圳深中通道雨水倒灌、大面積積水,有網(wǎng)友發(fā)帖一針見血

恐怖!深圳深中通道雨水倒灌、大面積積水,有網(wǎng)友發(fā)帖一針見血

火山詩話
2026-05-21 16:07:16
爭議!國際足聯(lián)重大錯誤:U17世界杯抽簽分檔公布 竟然漏掉中國隊

爭議!國際足聯(lián)重大錯誤:U17世界杯抽簽分檔公布 竟然漏掉中國隊

念洲
2026-05-21 08:02:07
光速失業(yè)!禁足名單內(nèi)10人目前仍為現(xiàn)役球員或在足球行業(yè)從事

光速失業(yè)!禁足名單內(nèi)10人目前仍為現(xiàn)役球員或在足球行業(yè)從事

懂球帝
2026-05-21 15:41:08
三大元兇引發(fā)跳水 后期策略

三大元兇引發(fā)跳水 后期策略

趨勢巡航
2026-05-21 14:55:48
上海工大男生課堂喊殺后續(xù):大四重修生,老師道歉,學(xué)校回應(yīng)來了

上海工大男生課堂喊殺后續(xù):大四重修生,老師道歉,學(xué)校回應(yīng)來了

奇思妙想草葉君
2026-05-21 02:23:55
今天直接跌成股災(zāi)了

今天直接跌成股災(zāi)了

曹多魚的財經(jīng)世界
2026-05-21 15:35:37
為了給中國人留下好印象,一生出訪無數(shù)的普京,這次終于破了例

為了給中國人留下好印象,一生出訪無數(shù)的普京,這次終于破了例

福建睿平
2026-05-20 14:09:24
2026-05-21 18:11:00
ScienceAI incentive-icons
ScienceAI
關(guān)注人工智能與其他前沿技術(shù)
1307文章數(shù) 227關(guān)注度
往期回顧 全部

科技要聞

好到離譜也不夠!英偉達(dá)交出816億美元營收

頭條要聞

中紀(jì)委連打三"虎":一人被指違規(guī)核發(fā)機(jī)動車號牌

頭條要聞

中紀(jì)委連打三"虎":一人被指違規(guī)核發(fā)機(jī)動車號牌

體育要聞

常住人口7000的小鎮(zhèn),擁有了一支德甲球隊

娛樂要聞

反轉(zhuǎn)!金秀賢與金賽綸未成年時交往不實

財經(jīng)要聞

英偉達(dá)業(yè)績超預(yù)!指引再新高仍不夠亮眼

汽車要聞

小鵬正在研發(fā)"高達(dá)" 融合機(jī)器人技術(shù)的主動懸架

態(tài)度原創(chuàng)

時尚
本地
手機(jī)
數(shù)碼
家居

全網(wǎng)首檔挑戰(zhàn)Al設(shè)備拍攝短劇現(xiàn)場直播!

本地新聞

用云錦的方式,打開江蘇南京

手機(jī)要聞

蘋果史詩級大改!20周年iPhone測試四曲面屏:告別直屏?xí)r代

數(shù)碼要聞

AMD攜手多家中國臺灣地區(qū)OSAT企業(yè)推進(jìn)新一代EFB技術(shù)研發(fā)

家居要聞

風(fēng)格碰撞 個性與藝術(shù)

無障礙瀏覽 進(jìn)入關(guān)懷版