![]()
機器之心發(fā)布
分布式系統(tǒng)的 “圣杯”—— 共識協(xié)議(Consensus Protocols),長久以來都是頂級基礎(chǔ)設(shè)施工程師的 “Bug 地獄”。由于其狀態(tài)極其復(fù)雜、多節(jié)點交織,傳統(tǒng)測試和單體 LLM 對硬核的Deep Bug(深層邏輯漏洞)幾乎束手無策。
近日,最新 ICML 2026 中稿論文,來自0G Labs以及新加坡國立大學(xué)、北京大學(xué)、北京郵電大學(xué)等頂尖學(xué)術(shù)與產(chǎn)業(yè)團隊的研究人員提出首個將領(lǐng)域知識與大模型多 Agent 協(xié)同深度融合的自動化測試框架 ——Agora
該框架通過創(chuàng)新的架構(gòu),直擊協(xié)議痛點,在 Raft、EPaxos、HotStuff、BullShark 等工業(yè)級和學(xué)術(shù)界核心協(xié)議中,一口氣狂砍 15 個前所未知的協(xié)議級 Deep Bug! 相比之下,強如 GPT-5.2、Claude 4.5 等原生大模型紛紛折戟,掛了零蛋。在多智能體(Multi-Agent)系統(tǒng)與” 智能體化安全審計”(Agentic Quality Control)雙雙成為 2026 年最熱賽道的當(dāng)下,Agora 給出的不只是一篇論文,更是一套可落地的工業(yè)級解法。
![]()
- 論文:《Agora: Toward Autonomous Bug Detection in Production-Level Consensus Protocols with LLM Agents》
- 鏈接:https://arxiv.org/abs/2605.29910v1
1. 背景
0G 與 NUS 強強聯(lián)手,長期系統(tǒng)知識積累與 Multi-Agent 范式的跨界跨代融合
分布式共識協(xié)議的演進,既是天才的創(chuàng)新史,又是無數(shù)頂尖工程師血淋淋的踩坑史。正如圖靈獎得主 Lamport 所言,保證分布式協(xié)議實現(xiàn)的正確性,其難度不亞于在一座不斷晃動的迷宮中蒙眼穿行。而就在這條” 地獄級” 賽道上,市場正悄然轉(zhuǎn)向:據(jù) Gartner 觀察,多智能體系統(tǒng)的企業(yè)咨詢量在一年多內(nèi)暴漲逾十倍,多智能體平臺市場也步入每年近翻倍的高速擴張期 —— 把” 多 Agent 協(xié)同” 用于最硬核的底層系統(tǒng)驗證,正從前沿設(shè)想變成產(chǎn)業(yè)剛需。
面對這一地獄級賽道,頭頂光環(huán)的科技巨頭們率先展開了重資產(chǎn)式的探索。例如行業(yè)頂尖的 Anthropic 近期在Claude Code中內(nèi)部推進的Glasswing項目,雖然嘗試用 Agent 觸碰底層基礎(chǔ)設(shè)施測試,但其架構(gòu)依然極度依賴最高規(guī)格的頭部商業(yè)大模型,項目細(xì)節(jié)語宛不詳,且僅定向與極少數(shù)大科技機構(gòu)和跨國巨頭開展閉門合作。更致命的是,這類巨頭方案可能在運行中展現(xiàn)出恐怖的 Token 吞噬量,這種高昂的算力壁壘和重資產(chǎn)路線,直接將預(yù)算有限的初創(chuàng)公司和中小企業(yè)拒之門外。
難道小公司、開源社區(qū)就注定用不起頂級的自動化漏洞審計工具嗎?
來自 0G Labs 的工程師們和新加坡國立大學(xué)的劉祥、北京郵電大學(xué)的宋颯,孫勇老師聯(lián)合北京大學(xué)智能學(xué)院的博士生張釗為和研究員張策堯?qū)⒆约?Agent 領(lǐng)域的深厚知識賦能系統(tǒng),展開了一場 “以小博大” 的顛覆式創(chuàng)新,其工作已經(jīng)中稿 2026AI 頂會 ICML。
學(xué)術(shù)界的 “長期系統(tǒng)知識沉淀”,遇到了產(chǎn)業(yè)界的 “痛點與敏銳嗅覺”,如何才能引爆下一代系統(tǒng)安全革命?
0G 團隊在區(qū)塊鏈共識協(xié)議落地中積累了極為豐富的生產(chǎn)級攻防經(jīng)驗;而團隊在高性能分布式系統(tǒng)、底層并發(fā)控制以及系統(tǒng)形式化驗證領(lǐng)域有著極為深厚的學(xué)術(shù)沉淀。他們深知傳統(tǒng)方法(如 Fuzzing 模糊測試)在面對工業(yè)級代碼庫時常常受限于狀態(tài)空間爆炸。多方研究人員決定,將長期積累的分布式系統(tǒng)全局 invariants(不變性)邏輯推演知識作為 “靈魂”,注入到最前沿的多智能體協(xié)同范式與自動化 Harness 架構(gòu)之中,推出了開源平權(quán)的 Agora 框架。
與此同時,作為行業(yè)前沿的模塊化 AI 基礎(chǔ)設(shè)施與高性能去中心化數(shù)據(jù)可用性網(wǎng)絡(luò),0G 團隊在區(qū)塊鏈共識協(xié)議、高并發(fā) BFT(拜占庭容錯)架構(gòu)的產(chǎn)業(yè)落地中,積累了極為豐富的生產(chǎn)級攻防經(jīng)驗與真實世界的協(xié)議缺陷樣本。
這種跨界融合徹底改變了游戲規(guī)則:它既不是盲目的暴力測試,也不是缺乏領(lǐng)域常識的大模型 “盲人摸象”,而是通過專業(yè)化的 Agent 分工,將老道系統(tǒng)專家?guī)资甑倪壿嬐蒲葜庇X,轉(zhuǎn)化為 Agent 之間的博弈與協(xié)同,從而具備了降維打擊傳統(tǒng)測試工具的硬核實力。
與 Glasswing 動輒吞噬巨額頂級 Token 的重資產(chǎn)路線不同,Agora 帶來了一種對中小企業(yè)極其友好的平替方案 —— 它證明了即使在基座模型 “差一點”、性價比更高的情況下,通過精妙的領(lǐng)域感知多 Agent 協(xié)同架構(gòu),依然能夠把硬核的 Deep Bug 揪出來!
2. 痛點
單體 LLM 難越雷池,分布式系統(tǒng)高懸 “深層邏輯達摩克利斯之劍”
在大數(shù)據(jù)、區(qū)塊鏈與分布式數(shù)據(jù)庫只手遮天的今天,共識協(xié)議(如 Paxos、Raft、PBFT 等)就是整個數(shù)字世界的底層地基。然而,共識協(xié)議的實現(xiàn)是出了名的 “地獄級難度”。哪怕是像 etcd 這樣經(jīng)過全球無數(shù)頂尖工程師錘煉、運行多年的工業(yè)級標(biāo)桿項目,依然隱藏著讓人冷汗直流的Deep Bug(深層邏輯漏洞)
這類漏洞不同于內(nèi)存泄漏、整數(shù)溢出等普通的低級實現(xiàn)漏洞(Implementation Bugs),它們橫跨多個執(zhí)行階段、依賴復(fù)雜的并發(fā)狀態(tài)。一旦被惡意觸發(fā),不僅會導(dǎo)致核心數(shù)據(jù)損壞,甚至?xí)l(fā)災(zāi)難性的金融級損失。
近年大火的大語言模型(LLM)雖然在普通代碼分析上表現(xiàn)亮眼,但面對分布式共識時卻顯得 “智商捉急”。它們頂多能找出局部代碼的淺層缺陷,而面對依賴全局狀態(tài)的協(xié)議級邏輯漏洞,單體 LLM 往往陷入局部代碼的泥潭,完全無法進行全局時序推理。
3. 破局
Agora 的三 Agent 乾坤大挪移與核心 Harness 架構(gòu)
為了打破這一僵局,Agora 首次將學(xué)術(shù)界經(jīng)典的假說驅(qū)動測試(Hypothesis-Driven Testing, HDT)范式引入到大模型 Agent 系統(tǒng)中。為了實現(xiàn)高效的全局推理,Agora 徹底摒棄了傳統(tǒng)的 “單兵作戰(zhàn)” 模式,將工作流精妙地解耦為三個各司其職的高度專業(yè)化 Agent:
- Orchestrator Agent(協(xié)調(diào)者):負(fù)責(zé)全局狀態(tài)維護與已知漏洞舉一反三的 “漏洞剝削”;
- Strategy Agent(策略家):負(fù)責(zé)注入分布式領(lǐng)域知識,針對 CFT 和 BFT 協(xié)議生成極具攻擊性的異常場景。
- TestGen Agent(代碼官):實干派。而讓 Agora 真正能夠落地、閉環(huán)生成有效測試的關(guān)鍵,在于其核心的自動化測試架構(gòu)。
其架構(gòu)如圖所示:
![]()
Agora的整體設(shè)計中,這種 “以小博大” 的平權(quán)魔法并非憑空而來,而是源于其精妙的智能體交互機制與測試 Harness 架構(gòu)的深度融合
研究團隊在系統(tǒng)框架內(nèi)部專門設(shè)計了一套極簡、高效的通信與內(nèi)存機制(Succinct Memory & Communication),在保證各 Agent 專注于自身核心任務(wù)的同時,將冗余的上下文傳輸開銷降到了最低。在這種極致的通信約束下,Orchestrator Agent(負(fù)責(zé)全局協(xié)調(diào)與狀態(tài)控制)Strategy Agent(負(fù)責(zé)分布式異常環(huán)境與場景生成)以及TestGen Agent(負(fù)責(zé)代碼測試與動態(tài)評估 Evaluation)完美交織,共同驅(qū)動并滿足了Harness 架構(gòu)
- 雙劍合璧的自動化閉環(huán):當(dāng) Strategy Agent 推演出抽象的分布式攻擊場景后,依托于高度解耦的交互框架,TestGen Agent 能夠立刻拉起底層的測試 。該架構(gòu)不僅具備強大的環(huán)境自適應(yīng)能力,能夠跨越 Go、Rust 等不同編程語言環(huán)境,將攻擊假說轉(zhuǎn)化為真實可運行的單元測試,更內(nèi)置了高效的反射循環(huán)(Reflection-Loop) 技術(shù)。
- 一旦測試在環(huán)境中運行報錯,系統(tǒng)會精準(zhǔn)、實時地捕捉調(diào)用棧和執(zhí)行日志,并將其精簡地回傳給 Agent 進行定向自我修正。這種 “多 Agent 極簡交互 + 動態(tài) Harness 閉環(huán)” 的有機結(jié)合,不僅讓 Agora 能夠以極低的 Token 成本精準(zhǔn)捕捉到最隱蔽的深層邏輯 Bug,更產(chǎn)出了誤報率極低的詳盡分析報告。
其最終運行的 overview 如圖所示:
![]()
4. 戰(zhàn)果
斬獲 15 個頂級零日 Deep Bug,大模型 baseline 全線掛零
評估結(jié)果令人震撼。研究團隊在四個大名鼎鼎的共識協(xié)議庫(包括生產(chǎn)級的 etcd 和新興公鏈核心 Sui 的底層組件)上展開了全方位的大閱兵,并對比了 GPT-5.2、Gemini 3.0 Pro Preview、Claude Sonnet 4.5 以及 Qwen3 Coder 等地表最強模型。
結(jié)果不僅僅使得 0G 本身運行的共識系統(tǒng)更加安全,而且呈現(xiàn)出壓倒性的降維打擊:
- 15 個全新 Logic Deep Bug 浮出水面:Agora 成功發(fā)現(xiàn)了15 個先前無人知曉的協(xié)議級深層邏輯漏洞。這些漏洞橫跨執(zhí)行分歧、單調(diào)性違反、拓?fù)淙毕荨⒑灻┒吹雀呶nI(lǐng)域。
- 原生大模型全線剃光頭:反觀基線模型(哪怕配備了先進的 ReAct 動態(tài)工具鏈),在面對這類深層邏輯漏洞時全部開天窗(0/15)。它們消耗了大量的 Token,卻只能在低級代碼實現(xiàn) Bug 上打轉(zhuǎn)。
- 極低的誤報率與超高性價比:在 Agora 產(chǎn)出的所有 Bug 報告中,真實邏輯漏洞占比高達73.9%(誤報率僅 26.1%)。更令人驚嘆的是,平均每挖出一個讓資深架構(gòu)師掉光頭發(fā)的頂級邏輯 Bug,僅需消耗約 5.32M tokens(約合 40 美元),性價比極高。
在多個 LLM 上的結(jié)果如下所示:
![]()
5. 未來
高可推廣性,進軍更多底層硬核 “無人區(qū)”
Agora 的成功,不僅給分布式系統(tǒng)的安全性打了一劑強心針,更為大模型落地垂直工業(yè)級應(yīng)用指明了方向。
尤為關(guān)鍵的是,Agora 的架構(gòu)設(shè)計展現(xiàn)出了極高的可推廣性與通用性。研究團隊強調(diào),Agora 還可以以插件或者 skill 的形式迅速被廣大用戶復(fù)現(xiàn)使用,我們的代碼中(github.com/0gfoundation/agora)提供了相應(yīng)的 skills 幫助復(fù)現(xiàn)。不僅僅如此Agora 的 “大模型 + 多 Agent 協(xié)同 + 假說驅(qū)動 “范式并非僅能用于共識協(xié)議。由于其底層工作流控制與上層領(lǐng)域知識庫、測試 實現(xiàn)了深度解耦。這意味著該架構(gòu)不僅僅可以幫助眾多用戶迅速利用進行共識協(xié)議 debug,還可以以 “插拔式”(Plug-and-Play)的方式快速推廣到其他同樣飽受 “深層邏輯漏洞地獄” 折磨的硬核領(lǐng)域:
- 數(shù)據(jù)庫并發(fā)控制(Concurrency Control):用于測試分布式數(shù)據(jù)庫在極端隔離級別(如串行化 Serializable)下的復(fù)雜事務(wù)沖突缺陷。
- 操作系統(tǒng)內(nèi)核 / 并發(fā)系統(tǒng):深入發(fā)現(xiàn)多線程基礎(chǔ)設(shè)施中隱蔽的死鎖與競態(tài)條件。
- Web3 智能合約審計:針對涉及復(fù)雜經(jīng)濟模型的跨鏈協(xié)議和 DeFi 邏輯進行深度安全邊界探查。區(qū)塊鏈安全市場預(yù)計 2026 年規(guī)模已達約 85 億美元,且已出現(xiàn)以” 多智能體安全系統(tǒng)” 做智能合約審計、將審計周期從數(shù)周壓縮到數(shù)小時的商業(yè)產(chǎn)品,市場需求正在爆發(fā)。
工業(yè)級底層基礎(chǔ)設(shè)施的 AI 自動化安全時代,或許正由 Agora 和它的 Harness 架構(gòu)正式開啟。
我們有理由相信,Agora 可以通過在各個領(lǐng)域發(fā)現(xiàn)的更多地 deep bug 幫助更好地測試 coding LLM 的能力,其發(fā)現(xiàn)的 deep bug 用例也可以幫助 coding LLM 提升代碼理解能力。
gora 可以大大提升共識協(xié)議、并發(fā)控制、智能合約等等作為金融安全交易的基礎(chǔ)的代碼倉庫的安全。而且 Agora 也可以幫助更多的科技公司發(fā)現(xiàn)更深的 logic bug, 但是消耗更少的 tokens, 節(jié)約資金卻更加高效!
更重要的是,這恰好踩中了當(dāng)下最熱的兩條賽道:一是多智能體系統(tǒng)正從實驗走向生產(chǎn)——Gartner 預(yù)計到 2028 年將有超過三成企業(yè)軟件內(nèi)置 agentic AI,多智能體平臺市場規(guī)模數(shù)年內(nèi)將從百億美元級別沖向數(shù)百億美元;二是” 用智能體審查智能體” 的智能體化質(zhì)量管控(Agentic Quality Control)正成為 2026 年的行業(yè)標(biāo)配。
在 Veracode 2025 報告指出約 45% 的 AI 生成代碼含有安全漏洞、agentic AI 安全市場以約 42% 年復(fù)合增速狂奔的背景下,Agora 讓科技公司能以更低的 token 成本挖出更深的 Logic Bug,把安全審計從” 按周計費的人力活” 升級為” 按小時交付的自動化能力”。
而當(dāng)這條賽道的格局逐漸清晰,真正占住先機的,往往不是聲量最大的巨頭,而是那支最早把方法論跑通、并能持續(xù)復(fù)制的團隊。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.