无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

首個(gè)長(zhǎng)程Doc2Repo訓(xùn)練集!代碼Agent不止修bug,開(kāi)始造倉(cāng)庫(kù)

0
分享至


新智元報(bào)道


【新智元導(dǎo)讀】DeNovoSWE是一個(gè)用于訓(xùn)練代碼智能體從零生成完整倉(cāng)庫(kù)的數(shù)據(jù)集,包含4818個(gè)真實(shí)任務(wù)實(shí)例。它通過(guò)結(jié)構(gòu)化文檔和嚴(yán)格驗(yàn)證機(jī)制,幫助智能體掌握復(fù)雜系統(tǒng)構(gòu)建能力,而不僅僅是修復(fù)代碼。這為代碼智能體邁向更高階的軟件工程任務(wù)提供了關(guān)鍵支持。

隨著LLM Code Agent能力的不斷提升,越來(lái)越多的研究者意識(shí)到現(xiàn)在是時(shí)候邁向下一個(gè)階段更接近真實(shí)場(chǎng)景需求的長(zhǎng)程任務(wù)了。于是涌現(xiàn)出了一些長(zhǎng)程任務(wù)評(píng)測(cè)的Benchmark比如NL2RepoBench以及BeyondSWE等等。大家對(duì)Code Agent預(yù)期承擔(dān)的角色逐漸從倉(cāng)庫(kù)維護(hù)者變成了架構(gòu)師,能夠做規(guī)劃完成整個(gè)倉(cāng)庫(kù)的代碼的長(zhǎng)程任務(wù)。

近日,中國(guó)人民大學(xué)高瓴人工智能學(xué)院完成相關(guān)研究,重磅發(fā)布DeNovoSWE數(shù)據(jù)集,專(zhuān)注于長(zhǎng)程軟件工程任務(wù),尤其是倉(cāng)庫(kù)級(jí)別代碼從零生成任務(wù)。


論文鏈接:https://arxiv.org/pdf/2606.10728

倉(cāng)庫(kù)鏈接:https://github.com/AweAI-Team/DeNovoSWE

數(shù)據(jù)鏈接:https://huggingface.co/collections/AweAI-Team/denovoswe

通過(guò)Divide & ConquerCritic & Repair機(jī)制構(gòu)造高質(zhì)量數(shù)據(jù)集,并且成功實(shí)現(xiàn)長(zhǎng)程SWE任務(wù)的Scaling,構(gòu)建起包含4,818真實(shí)數(shù)據(jù)的開(kāi)源高質(zhì)量長(zhǎng)程SWE任務(wù)數(shù)據(jù)集——這一成果為 Code Agent 長(zhǎng)程能力訓(xùn)練提供了大規(guī)模數(shù)據(jù),大幅提升Code Agent長(zhǎng)程任務(wù)能力。


論文中也提供了根據(jù)題目難度打分過(guò)濾的手段,有效緩解了困難題目比例與軌跡質(zhì)量的權(quán)衡問(wèn)題。


實(shí)驗(yàn)顯示,基于DeNovoSWE訓(xùn)練的Qwen3-30B-A3B-Instruct在BeyondSWE-Doc2Repo上從5.8%提升到47.2%,在 NL2RepoBench 上從 4.3% 提升到 23.0%,展示了長(zhǎng)程數(shù)據(jù)對(duì)倉(cāng)庫(kù)級(jí)代碼生成能力的顯著提升。

從一份文檔開(kāi)始

重建整個(gè)倉(cāng)庫(kù)

過(guò)去一年,隨著像Scale-SWE等工作的大規(guī)模SWE數(shù)據(jù)的scaling,代碼智能體在 SWE-bench 這類(lèi)真實(shí)軟件工程任務(wù)上快速進(jìn)步。但當(dāng)模型越來(lái)越擅長(zhǎng)「修一個(gè) issue」「改幾行 bug」之后,一個(gè)更關(guān)鍵的問(wèn)題開(kāi)始浮現(xiàn):智能體真的具備長(zhǎng)程軟件工程能力了嗎?從BeyondSWE-Doc2Repo以及NL2RepoBench前沿模型的效果來(lái)看,效果并不理想。

真實(shí)世界的軟件開(kāi)發(fā),往往不是改一個(gè)函數(shù)、補(bǔ)一個(gè)條件判斷,而是理解需求、規(guī)劃架構(gòu)、創(chuàng)建文件、設(shè)計(jì) API、處理依賴(lài)、打通模塊,并最終讓整個(gè)倉(cāng)庫(kù)在測(cè)試中跑通。

換句話說(shuō),困難的是 long-horizon repository-level generation:從一份任務(wù)文檔出發(fā),生成一個(gè)完整、可執(zhí)行、可驗(yàn)證的軟件倉(cāng)庫(kù)。這正是 DeNovoSWE 想要解決的問(wèn)題。

高質(zhì)量的「從頭生成倉(cāng)庫(kù)」任務(wù)文檔

在document-to-repository generation中,文檔不只是README,也不是簡(jiǎn)單的API列表。它本質(zhì)上是智能體重建整個(gè)倉(cāng)庫(kù)的唯一任務(wù)入口。

一份高質(zhì)量的任務(wù)文檔,至少需要滿足兩個(gè)核心標(biāo)準(zhǔn)。

第一,它必須是well-organized的。

倉(cāng)庫(kù)級(jí)任務(wù)天然復(fù)雜,包含多個(gè)模塊、接口、配置、數(shù)據(jù)結(jié)構(gòu)和交互流程。如果文檔只是把函數(shù)說(shuō)明堆在一起,智能體很容易迷失在碎片信息中。因此,文檔應(yīng)該先給出清晰的倉(cāng)庫(kù)總覽,再按照能力或工作流拆分章節(jié),讓每一部分都對(duì)應(yīng)明確的功能邊界。

第二,它必須從可靠evaluation的角度出發(fā)。

文檔既不能太少,否則任務(wù)變成欠定義問(wèn)題,可能使得模型需要靠漫無(wú)邊際猜才能通過(guò)evaluation;也不能太多,否則直接泄漏實(shí)現(xiàn)細(xì)節(jié),讓任務(wù)失去挑戰(zhàn)。

真正高質(zhì)量的文檔應(yīng)該描述evaluation所依賴(lài)的關(guān)鍵行為:包括import path、公開(kāi) API、輸入輸出、默認(rèn)參數(shù)、異常行為、配置項(xiàng)、模式字符串、返回字段等,也描述出大致需要完成的功能。也就是說(shuō),文檔要足以讓智能體復(fù)現(xiàn)可測(cè)試行為,但不能變成實(shí)現(xiàn)代碼的拷貝。

這也是DeNovoSWE的核心思想:讓文檔既可讀、可實(shí)現(xiàn),又可驗(yàn)證。

DeNovoSWE方法

DeNovoSWE 將「從文檔生成完整倉(cāng)庫(kù)」構(gòu)造成一個(gè)大規(guī)模、可驗(yàn)證的長(zhǎng)程軟件工程任務(wù)。它不是人工手寫(xiě)文檔,而是通過(guò)一個(gè)sandboxed multi-agent workflow 自動(dòng)構(gòu)建高質(zhì)量實(shí)例。整個(gè)方法可以概括為兩步:Divide和Conquer。

在Divide階段,系統(tǒng)首先分析目標(biāo)倉(cāng)庫(kù),將其拆解為多個(gè)repository capabilities。

每個(gè)capability對(duì)應(yīng)倉(cāng)庫(kù)中的一個(gè)核心能力或工作流,例如認(rèn)證與連接、數(shù)據(jù)讀寫(xiě)、批處理、導(dǎo)出流程等。這樣,原本龐大的倉(cāng)庫(kù)生成問(wèn)題被拆成若干結(jié)構(gòu)清晰的文檔章節(jié)。

同時(shí),DeNovoSWE會(huì)運(yùn)行原始單元測(cè)試并收集執(zhí)行trace,識(shí)別哪些函數(shù)、類(lèi)和接口真正影響 evaluation,進(jìn)一步區(qū)分direct components、core indirect components和non-core indirect components:直接被測(cè)試調(diào)用的接口必須詳細(xì)記錄;會(huì)影響可觀察行為的核心間接組件也需要覆蓋;而非核心內(nèi)部實(shí)現(xiàn)則可以留給智能體自由發(fā)揮。

在Conquer階段,DeNovoSWE 使用 Draft-Critic-Repair 機(jī)制逐能力生成文檔。Draft agent 先寫(xiě)出初稿;Critic agent檢查文檔是否遺漏關(guān)鍵 API、行為契約或結(jié)構(gòu)信息;Repair agent 再根據(jù)反饋修復(fù)文檔。這個(gè)循環(huán)不斷迭代,直到每個(gè)能力章節(jié)足夠清晰、完整、與 evaluation 對(duì)齊。

最終,不同能力文檔會(huì)被合并成一份完整的任務(wù)文檔,作為智能體從零生成倉(cāng)庫(kù)的唯一依據(jù)。

難度:為什么這是長(zhǎng)程任務(wù)?

DeNovoSWE的任務(wù)難度來(lái)自一個(gè)根本變化:它不再是issue-level fixing,而是whole-repository generation。

在傳統(tǒng) SWE 任務(wù)中,智能體通常面對(duì)的是一個(gè)已有倉(cāng)庫(kù),只需要定位 bug、修改局部代碼、通過(guò)測(cè)試即可。

在 DeNovoSWE 中,智能體面對(duì)的是一個(gè)被清理后的環(huán)境:原始源碼和測(cè)試被移除,git 歷史被重置,緩存、site-packages 殘留、pip wheel、臨時(shí)編譯產(chǎn)物等潛在泄漏渠道也會(huì)被清除。這意味著智能體必須真正依賴(lài)文檔來(lái)完成整個(gè)倉(cāng)庫(kù)的重建。它需要規(guī)劃項(xiàng)目結(jié)構(gòu),創(chuàng)建模塊文件,定義公開(kāi)接口,實(shí)現(xiàn)跨文件交互,處理依賴(lài)和配置,并在多輪編輯與測(cè)試反饋中不斷修復(fù)錯(cuò)誤。

任何一個(gè) API 簽名、返回字段、異常類(lèi)型或默認(rèn)行為的偏差,都可能導(dǎo)致測(cè)試失敗。錯(cuò)誤還會(huì)在長(zhǎng)程過(guò)程中累積:一個(gè)早期設(shè)計(jì)不合理的模塊,可能影響后續(xù)多個(gè)文件和調(diào)用鏈。

為了進(jìn)一步處理不同倉(cāng)庫(kù)難度差異,DeNovoSWE 還提出了 difficulty-aware trajectory filtering。簡(jiǎn)單地說(shuō),容易任務(wù)應(yīng)該要求更高通過(guò)率,困難任務(wù)則不能因?yàn)闆](méi)有達(dá)到完美分?jǐn)?shù)就被全部丟棄。DeNovoSWE 根據(jù)結(jié)構(gòu)復(fù)雜度和 LLM 難度判斷,為不同難度區(qū)間設(shè)置不同過(guò)濾閾值,從而在質(zhì)量和多樣性之間取得平衡。

這對(duì)于長(zhǎng)程任務(wù)尤其重要:越復(fù)雜的倉(cāng)庫(kù),越難一次性完全通過(guò)所有測(cè)試,但其中的困難倉(cāng)庫(kù)、低分、部分成功的軌跡仍然包含寶貴的長(zhǎng)程規(guī)劃與實(shí)現(xiàn)能力。


實(shí)驗(yàn)結(jié)果

DeNovoSWE最終構(gòu)建了4818個(gè)高質(zhì)量document-to-repository任務(wù)實(shí)例。是可執(zhí)行、可評(píng)估、可訓(xùn)練的長(zhǎng)程軟件工程環(huán)境。



實(shí)驗(yàn)結(jié)果顯示,DeNovoSWE對(duì)模型的長(zhǎng)程倉(cāng)庫(kù)生成能力帶來(lái)了顯著提升。在Qwen3-30B-A3B-Instruct上,原始模型在BeyondSWE-Doc2Repo上只有5.8%,在NL2RepoBench上只有4.3%。使用常規(guī)issue-level SWE數(shù)據(jù)訓(xùn)練的Scale-SWE-Agent可以提升到29.2%和18.3%,說(shuō)明普通 SWE 數(shù)據(jù)確實(shí)有遷移效果。但當(dāng)模型使用 DeNovoSWE 訓(xùn)練后,性能進(jìn)一步提升到 47.2% 和 23.0%。

這說(shuō)明,面向「修 bug」的數(shù)據(jù)并不能完全替代面向「生成完整倉(cāng)庫(kù)」的長(zhǎng)程數(shù)據(jù)。想讓智能體真正學(xué)會(huì)repository-level engineering,需要專(zhuān)門(mén)面向長(zhǎng)程任務(wù)構(gòu)建訓(xùn)練環(huán)境。

在更強(qiáng)的Qwen3.5-35B-A3B backbone上,DeNovoSWE同樣帶來(lái)穩(wěn)定收益:BeyondSWE-Doc2Repo從43.8%提升到50.0%,NL2RepoBench從23.5%提升到27.1%。這進(jìn)一步說(shuō)明DeNovoSWE的收益不是偶然適配某一個(gè)模型,而是來(lái)自高質(zhì)量長(zhǎng)程數(shù)據(jù)本身。

結(jié)語(yǔ)

代碼智能體的下一階段,不只是更快地修復(fù)單個(gè) issue,而是能夠理解文檔、規(guī)劃架構(gòu)、組織模塊、實(shí)現(xiàn)接口,并最終生成一個(gè)完整可運(yùn)行的軟件倉(cāng)庫(kù)。

DeNovoSWE 將這個(gè)目標(biāo)系統(tǒng)化地構(gòu)造成了可訓(xùn)練、可驗(yàn)證、可擴(kuò)展的數(shù)據(jù)集。它回答了一個(gè)關(guān)鍵問(wèn)題:什么樣的數(shù)據(jù),才能真正訓(xùn)練出具備長(zhǎng)程軟件工程能力的智能體?

答案不是更多碎片化代碼,也不是更簡(jiǎn)單的題目,而是高質(zhì)量、結(jié)構(gòu)化、evaluation-aligned、anti-leakage 的全倉(cāng)庫(kù)生成任務(wù)。

從一份文檔開(kāi)始,重建整個(gè)repository。這是長(zhǎng)程代碼智能體需要跨越的門(mén)檻。

參考資料:

https://arxiv.org/pdf/2606.10728

編輯:LRST

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
002965宣布:擬收購(gòu)資產(chǎn),快速切入液冷散熱賽道!

002965宣布:擬收購(gòu)資產(chǎn),快速切入液冷散熱賽道!

證券時(shí)報(bào)e公司
2026-06-25 02:10:50
梅西說(shuō)只要身體好就會(huì)繼續(xù)踢,計(jì)劃退役后轉(zhuǎn)戰(zhàn)商界,其凈資產(chǎn)約為11億美元,已投資個(gè)人服裝品牌、餐廳、連鎖酒店等

梅西說(shuō)只要身體好就會(huì)繼續(xù)踢,計(jì)劃退役后轉(zhuǎn)戰(zhàn)商界,其凈資產(chǎn)約為11億美元,已投資個(gè)人服裝品牌、餐廳、連鎖酒店等

臺(tái)州交通廣播
2026-06-25 00:32:12
TVB前一線男星相隔11年再拍港劇!傳有10億身家!無(wú)奈回應(yīng):其實(shí)我好坎坷

TVB前一線男星相隔11年再拍港劇!傳有10億身家!無(wú)奈回應(yīng):其實(shí)我好坎坷

我愛(ài)追港劇
2026-06-25 01:48:40
巴坎布:謝謝國(guó)安球迷支持我;北京國(guó)安一直在我心里

巴坎布:謝謝國(guó)安球迷支持我;北京國(guó)安一直在我心里

懂球帝
2026-06-24 18:33:35
武漢監(jiān)委原委員之子香港洗錢(qián):472萬(wàn)賄賂款牽出父子貪腐鏈

武漢監(jiān)委原委員之子香港洗錢(qián):472萬(wàn)賄賂款牽出父子貪腐鏈

互聯(lián)網(wǎng)大觀
2026-06-24 18:40:11
Netflix新作:黑人警長(zhǎng)+賽博義體+西部荒野

Netflix新作:黑人警長(zhǎng)+賽博義體+西部荒野

宇宙來(lái)信發(fā)
2026-06-24 02:12:22
我國(guó)最“不靠譜”的三位專(zhuān)家,公開(kāi)在央視“忽悠”人,卻爆火多年

我國(guó)最“不靠譜”的三位專(zhuān)家,公開(kāi)在央視“忽悠”人,卻爆火多年

混沌錄
2026-06-18 19:03:29
空腹血糖6.3,我以為沒(méi)事,醫(yī)生卻說(shuō)肝可能已經(jīng)“泡在糖水里”了

空腹血糖6.3,我以為沒(méi)事,醫(yī)生卻說(shuō)肝可能已經(jīng)“泡在糖水里”了

觀星賞月
2026-06-25 00:39:31
我媽讓我給舅舅養(yǎng)老,我反問(wèn)舅舅的兒子在哪里,她當(dāng)場(chǎng)說(shuō)不出話

我媽讓我給舅舅養(yǎng)老,我反問(wèn)舅舅的兒子在哪里,她當(dāng)場(chǎng)說(shuō)不出話

楓紅染山徑
2026-06-24 16:37:35
重大揭秘,兩年前中國(guó)用洲際導(dǎo)彈顛覆了世界局勢(shì)

重大揭秘,兩年前中國(guó)用洲際導(dǎo)彈顛覆了世界局勢(shì)

楓冷慕詩(shī)
2026-06-22 15:25:43
唐山機(jī)場(chǎng)“假空姐”深航制服國(guó)航航徽,推銷(xiāo)“中航空”儲(chǔ)值卡

唐山機(jī)場(chǎng)“假空姐”深航制服國(guó)航航徽,推銷(xiāo)“中航空”儲(chǔ)值卡

聽(tīng)心堂
2026-06-24 20:00:06
背刺?超200名智己車(chē)主發(fā)聯(lián)名信公開(kāi)維權(quán)!

背刺?超200名智己車(chē)主發(fā)聯(lián)名信公開(kāi)維權(quán)!

鞭牛士
2026-06-23 19:57:07
韓國(guó)隊(duì)打平=出線!亞洲首支出線隊(duì)即將誕生,CCTV5直播

韓國(guó)隊(duì)打平=出線!亞洲首支出線隊(duì)即將誕生,CCTV5直播

何老師呀
2026-06-24 13:38:00
朝陽(yáng)突發(fā)!知名餐飲直營(yíng)店疑似集體跑路?!

朝陽(yáng)突發(fā)!知名餐飲直營(yíng)店疑似集體跑路?!

朝陽(yáng)通
2026-06-24 16:58:13
攜手晉級(jí)卻留遺憾!瑞士2-1加拿大奪頭名,東道主痛失主場(chǎng)優(yōu)勢(shì)

攜手晉級(jí)卻留遺憾!瑞士2-1加拿大奪頭名,東道主痛失主場(chǎng)優(yōu)勢(shì)

智道足球
2026-06-25 06:19:41
牡丹花下死!12個(gè)女友5個(gè)娃,41歲C羅浪蕩半生,最后為柜姐收心

牡丹花下死!12個(gè)女友5個(gè)娃,41歲C羅浪蕩半生,最后為柜姐收心

卷史
2026-06-24 08:07:05
價(jià)格暴漲!山姆、盒馬已限購(gòu)!

價(jià)格暴漲!山姆、盒馬已限購(gòu)!

廣州生活美食圈
2026-06-24 12:29:42
謊稱(chēng)陰陽(yáng)雙修可化煞,江湖假大師性侵女子及其15歲的女兒,法院從重判刑九年

謊稱(chēng)陰陽(yáng)雙修可化煞,江湖假大師性侵女子及其15歲的女兒,法院從重判刑九年

揚(yáng)子晚報(bào)
2026-06-24 07:36:38
發(fā)現(xiàn)一個(gè)殘酷現(xiàn)實(shí):條件好的孩子不愿將就不說(shuō),家境差的甚至漸漸在婚戀市場(chǎng)上“銷(xiāo)聲匿跡”了

發(fā)現(xiàn)一個(gè)殘酷現(xiàn)實(shí):條件好的孩子不愿將就不說(shuō),家境差的甚至漸漸在婚戀市場(chǎng)上“銷(xiāo)聲匿跡”了

心理觀察局
2026-06-25 07:11:31
李楠上任第一把火狠抓訓(xùn)練,北京夏訓(xùn)熱火朝天,曉川趙睿最來(lái)勁

李楠上任第一把火狠抓訓(xùn)練,北京夏訓(xùn)熱火朝天,曉川趙睿最來(lái)勁

7號(hào)觀察室
2026-06-25 07:13:15
2026-06-25 07:56:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
15525文章數(shù) 66935關(guān)注度
往期回顧 全部

科技要聞

豆包專(zhuān)業(yè)版上線:定價(jià)68-500元每月

頭條要聞

小伙酒店按摩從房間墜亡 酒店:用刀威脅技師脫衣服

頭條要聞

小伙酒店按摩從房間墜亡 酒店:用刀威脅技師脫衣服

體育要聞

字母哥,會(huì)把凱爾特人拆了嗎?

娛樂(lè)要聞

向佐向佑兄弟合體直播!母子終于和解

財(cái)經(jīng)要聞

逃稅23億:審計(jì)署年報(bào)直指七家機(jī)構(gòu)

汽車(chē)要聞

施鵬澤:為什么奧迪E7X強(qiáng)調(diào)座艙氣味安全?

態(tài)度原創(chuàng)

旅游
游戲
教育
數(shù)碼
軍事航空

旅游要聞

服務(wù)393家TMC后,發(fā)現(xiàn)國(guó)際酒店業(yè)務(wù)拼的不只是價(jià)格和庫(kù)存!

三國(guó)望神州:徐晃先遣實(shí)測(cè)報(bào)告+抽取價(jià)值分析!和那誰(shuí)是不有點(diǎn)像

教育要聞

2026年高考地理廣東卷綜合題評(píng)析及其答案

數(shù)碼要聞

宇樹(shù)R1人形機(jī)器人大降價(jià):2.99萬(wàn)元起!現(xiàn)貨發(fā)售

軍事要聞

伊朗代表:霍爾木茲海峽已免費(fèi)開(kāi)放

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版