網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

讓 Agent 真正協(xié)同作戰(zhàn)：GoS 為多智能體推理構(gòu)建共享信念狀態(tài)

2026-06-07 17:00:52　來源: 機(jī)器之心Pro

天津舉報(bào)

分享至

近年來，大語言模型在數(shù)學(xué)、代碼等任務(wù)上的表現(xiàn)不斷刷新上限，但到了醫(yī)療診斷、故障排查這類真實(shí)世界任務(wù)里，真正困難的是讓多個(gè)智能體在不確定的動(dòng)態(tài)環(huán)境中持續(xù)協(xié)作推理。

以醫(yī)療診斷為例，主治醫(yī)生不可能一開始就讓病人把所有檢查都做一遍，而是要根據(jù)當(dāng)前診斷方向，動(dòng)態(tài)安排影像科、檢驗(yàn)科等不同科室逐步開展檢查、持續(xù)補(bǔ)充證據(jù)，并在過程中不斷修正判斷。

相比之下，現(xiàn)有多智能體推理方法雖然看起來做了分工，但常常要么停留在簡(jiǎn)單串聯(lián)多個(gè)智能體的層面，只是把前一個(gè)智能體的輸出交給下一個(gè)繼續(xù)處理；要么默認(rèn)所有證據(jù)都已經(jīng)提前備好，缺乏真正的自主調(diào)查和動(dòng)態(tài)決策能力。

論文指出，也正因如此，現(xiàn)有 CoT、ToT、GoT、FoT 等推理框架在遷移到醫(yī)療診斷、分布式系統(tǒng)故障排查等場(chǎng)景時(shí)，往往會(huì)進(jìn)一步暴露出四類失敗模式：證據(jù)偽造、上下文漂移、回溯失敗和過早停止。

圖 1: 傳統(tǒng)推理框架在溯因任務(wù)中的四類典型問題

這些失敗并不是偶然現(xiàn)象，而是來自兩個(gè)結(jié)構(gòu)性缺陷：

很多現(xiàn)有方法把假設(shè)、證據(jù)和推理進(jìn)展混在非結(jié)構(gòu)化自然語言上下文里，缺乏顯式狀態(tài)表示；
缺少狀態(tài)控制機(jī)制，使得智能體是否選擇回溯、下鉆、終止，幾乎都只能靠自由發(fā)揮。

因此，在長(zhǎng)程推理過程中，智能體往往難以穩(wěn)定維護(hù)推理狀態(tài)，容易偏離正確方向，或過早停留在表層結(jié)論。

南開大學(xué)研究團(tuán)隊(duì)和聯(lián)想合作提出了Graph of States（GoS），一個(gè)面向通用溯因推理任務(wù)的神經(jīng)符號(hào)框架，其核心目標(biāo)是為溯因任務(wù)顯式構(gòu)建一個(gè)可維護(hù)、可回退、可收斂的推理狀態(tài)空間，把原本隱式、松散的推理過程，轉(zhuǎn)化為受約束的有向搜索。該工作已被 ICML 2026 正式接收。

論文標(biāo)題： Graph of States: Solving Abductive Tasks with Large Language Models
論文鏈接：https://arxiv.org/pdf/2603.21250
代碼地址： https://github.com/gaorch85/Graph-of-States

目前，xCloud 聯(lián)想智能云正加速將 GoS 技術(shù)融入其智能運(yùn)維產(chǎn)品體系，助力企業(yè)構(gòu)建零故障、自愈合、業(yè)務(wù)感知的智能運(yùn)維體系。

01 GoS：給推理加上 “顯式信念狀態(tài)”

GoS 的核心思想，是把多智能體協(xié)作與顯式信念狀態(tài)建模結(jié)合起來。整個(gè)系統(tǒng)分為兩層：上層是認(rèn)知層，負(fù)責(zé)具體領(lǐng)域內(nèi)的多智能體協(xié)作；下層是符號(hào)層，負(fù)責(zé)維護(hù)結(jié)構(gòu)化推理狀態(tài)，并對(duì)過程進(jìn)行導(dǎo)航和約束。

在認(rèn)知層中，GoS 不再采用零散的功能原子，而是讓中心智能體和專家智能體分別對(duì)應(yīng)現(xiàn)實(shí)世界中的專業(yè)角色。比如在醫(yī)療場(chǎng)景中，可以對(duì)應(yīng)主治醫(yī)生、影像科醫(yī)生、病理科醫(yī)生；在分布式系統(tǒng)場(chǎng)景中，則對(duì)應(yīng)應(yīng)用運(yùn)維、Linux 運(yùn)維、網(wǎng)絡(luò)運(yùn)維和數(shù)據(jù)庫運(yùn)維。這樣做的目的，是讓推理流程更貼近真實(shí)世界中的協(xié)作分工，也更便于人理解和審查其推理過程。

圖 2: GoS 總體框架：雙層神經(jīng)符號(hào)架構(gòu)與整體推理流程

GoS 最關(guān)鍵的部分是符號(hào)層。它不再把調(diào)查過程隱藏在非結(jié)構(gòu)化歷史對(duì)話里，而是顯式維護(hù)一個(gè)由因果圖和狀態(tài)機(jī)組成的信念狀態(tài)。前者記錄癥狀、證據(jù)、假設(shè)及其支持、反駁和細(xì)化關(guān)系；后者控制當(dāng)前推理層級(jí)，決定系統(tǒng)是繼續(xù)搜集證據(jù)、向更細(xì)粒度下鉆，還是在出現(xiàn)沖突證據(jù)時(shí)回退到更早層重新判斷。

與此同時(shí)，GoS 還引入了一個(gè)很關(guān)鍵的機(jī)制：推理焦點(diǎn)（reasoning focus）。系統(tǒng)在每一步都不會(huì)平均地看待所有可能方向，而是聚焦當(dāng)前層級(jí)中置信度最高的假設(shè)，把調(diào)查預(yù)算和推理資源集中到最值得追蹤的分支上。這樣做有利于把原本容易發(fā)散的探索，變成更像 “有導(dǎo)航的調(diào)查”。

02 雙層閉環(huán)：從推理焦點(diǎn)到證據(jù)更新

GoS 的推理過程不是簡(jiǎn)單的‘先計(jì)劃、再執(zhí)行’，而是一個(gè)持續(xù)循環(huán)的雙向閉環(huán)。首先，符號(hào)層會(huì)根據(jù)當(dāng)前信念狀態(tài)找到推理焦點(diǎn)，并將其轉(zhuǎn)化為對(duì)認(rèn)知層的調(diào)查指令；隨后，認(rèn)知層調(diào)用工具、獲取證據(jù)并完成分析，再將結(jié)果返回給符號(hào)層，用于更新因果圖、重新校準(zhǔn)假設(shè)置信度，并觸發(fā)下一輪狀態(tài)轉(zhuǎn)換。

這一閉環(huán)使多智能體協(xié)作不再是無約束的自由發(fā)揮，而是始終圍繞當(dāng)前最有價(jià)值的假設(shè)前進(jìn)；新獲得的證據(jù)也不再只是停留在文本里，而會(huì)成為后續(xù)推理的依據(jù)。

圖 3: 雙向神經(jīng) - 符號(hào)交互：從推理焦點(diǎn)引導(dǎo)調(diào)查，到新證據(jù)反向更新信念狀態(tài)

03 關(guān)鍵機(jī)制：該回溯時(shí)回溯，該下鉆時(shí)下鉆

對(duì)于溯因任務(wù)來說，真正困難的往往不是 “生成一個(gè)答案”，而是在推理過程中根據(jù)證據(jù)變化，按規(guī)則決定狀態(tài)轉(zhuǎn)移。為此，GoS 設(shè)計(jì)了兩類核心狀態(tài)轉(zhuǎn)換機(jī)制：Backtracking和Drill-Down。

不同于把這些決策完全交給智能體自由發(fā)揮，GoS 為狀態(tài)演化引入了清晰的轉(zhuǎn)移規(guī)則。具體來說，當(dāng)當(dāng)前推理路徑上的某個(gè)上層祖先假設(shè)在置信度重估后不再是該層最優(yōu)候選時(shí)，系統(tǒng)會(huì)回退到對(duì)應(yīng)層級(jí)并剪除建立在錯(cuò)誤前提上的后續(xù)分支；而下鉆也不是 “覺得差不多了就繼續(xù)往下想”，而是只有當(dāng)當(dāng)前最優(yōu)假設(shè)同時(shí)滿足足夠的置信度優(yōu)勢(shì)和足夠的支持證據(jù)數(shù)量時(shí)，系統(tǒng)才會(huì)進(jìn)一步細(xì)化到更具體的子假設(shè)。正是這種帶有明確約束的狀態(tài)控制，使 GoS 在面對(duì)非單調(diào)、動(dòng)態(tài)演化的信息時(shí)，不再只是生成連貫文本，而是能夠以更穩(wěn)定、更可控的方式逐步逼近真正可執(zhí)行的根因。

圖 4: 狀態(tài)轉(zhuǎn)換：回溯（Backtracking）與下鉆（Drill-Down）

04 實(shí)驗(yàn)：在兩個(gè)高風(fēng)險(xiǎn)真實(shí)場(chǎng)景中驗(yàn)證 GoS

為了驗(yàn)證 GoS 的有效性和通用性，論文選擇了兩個(gè)非常具有現(xiàn)實(shí)意義的溯因場(chǎng)景：醫(yī)療診斷和分布式系統(tǒng)故障診斷。在醫(yī)療診斷任務(wù)中，作者基于 DiagnosisArena 基準(zhǔn)做了一個(gè)關(guān)鍵改造：不再一開始就提供完整輔助檢查結(jié)果，而是只給病人主訴和基礎(chǔ)體格檢查，讓智能體像真實(shí)醫(yī)生一樣主動(dòng)申請(qǐng)檢查、逐步獲取外部信息，再完成診斷，從而恢復(fù) “主動(dòng)取證、動(dòng)態(tài)推理” 的溯因本質(zhì)。在這一任務(wù)上，GoS 在 Human-as-a-Judge 評(píng)估下取得了39.86% 的 Match和78.99% 的 Relevant，明顯優(yōu)于所有基線方法，并在更低成本下實(shí)現(xiàn)了更好的結(jié)果。

在分布式系統(tǒng)故障診斷任務(wù)中，論文基于真實(shí)生產(chǎn)環(huán)境構(gòu)建了 150 個(gè) incident，要求智能體從初始告警出發(fā)，主動(dòng)查詢?nèi)罩尽⒅笜?biāo)和 shell 輸出，逐步恢復(fù)故障上下文并定位 root cause。實(shí)驗(yàn)結(jié)果顯示，GoS 取得了70.67% 的 Match和88.00% 的 Relevant，其中 Match 比最強(qiáng)基線高出36.67 個(gè)百分點(diǎn)。這說明，很多方法雖然能判斷 “問題大概在哪個(gè)方向”，因此 Relevant 并不低，但要進(jìn)一步收斂到真正可執(zhí)行的細(xì)粒度根因，仍然需要持續(xù)調(diào)查、狀態(tài)控制和層級(jí)下鉆，而這正是 GoS 的優(yōu)勢(shì)。

表 1: 醫(yī)療診斷結(jié)果：GoS 在 Match 與 Relevant 上均優(yōu)于所有基線

表 2: 分布式系統(tǒng)故障診斷結(jié)果：GoS 顯著提升細(xì)粒度根因定位能力

作者還進(jìn)一步進(jìn)行了較為全面的消融實(shí)驗(yàn)與參數(shù)敏感性分析。結(jié)果表明，GoS 的性能提升并非來自某個(gè)偶然技巧，而是確實(shí)依賴于推理焦點(diǎn)、因果圖和狀態(tài)機(jī)等關(guān)鍵模塊的協(xié)同作用；同時(shí)，隨著神經(jīng)符號(hào)交互輪數(shù)、檢索預(yù)算以及狀態(tài)轉(zhuǎn)移閾值的變化，GoS 也表現(xiàn)出清晰且可解釋的性能趨勢(shì)，說明該框架不僅有效，而且具備較好的穩(wěn)定性與可控性。

表 3: 消融實(shí)驗(yàn)：顯式因果圖、狀態(tài)機(jī)與推理焦點(diǎn)缺一不可

圖 5: 敏感性分析：GoS 在不同預(yù)算和閾值配置下的性能變化

05 意義：從垂直場(chǎng)景方法走向通用推理框架

從更大的角度看，GoS 的意義不只是把醫(yī)療和 AIOps 兩個(gè)任務(wù)做得更好，而是向前推進(jìn)了一個(gè)更根本的問題：對(duì)于真實(shí)世界中的高風(fēng)險(xiǎn)任務(wù)，智能體需要的并不只是更多知識(shí)、更多工具、更多上下文，還需要能在不完整信息下顯式維護(hù)信念狀態(tài)，處理沖突證據(jù)，在必要時(shí)回溯，在合適時(shí)下鉆，最終把搜索過程穩(wěn)定地導(dǎo)向真實(shí)根因。從這個(gè)角度看，GoS 所面向的其實(shí)也是當(dāng)前智能體研究中非常關(guān)鍵的一類問題，即long-horizon reasoning與multi-turn interaction：智能體不只是回答一次，而是要在持續(xù)調(diào)查和多輪交互中保持狀態(tài)一致，并逐步收斂。

論文也指出，GoS 并不排斥已有的領(lǐng)域特化方法，反而與它們互補(bǔ)。無論是醫(yī)療中的高質(zhì)量知識(shí)庫和 RAG，還是 AIOps 中的多模態(tài)預(yù)處理和 SOP 檢索，都可以與 GoS 結(jié)合，提升其在垂直場(chǎng)景中的搜索效率和決策可靠性。換句話說，GoS 提供的不是某一個(gè)專用智能體，而是一套面向溯因推理、也面向智能體長(zhǎng)程推理的通用推理骨架。

作者簡(jiǎn)介

本文第一作者為羅宇，南開大學(xué)智能運(yùn)維課題組博士一年級(jí)，主要研究方向?yàn)橹悄荏w長(zhǎng)程推理、自進(jìn)化智能體和根因分析。本文通訊作者為南開大學(xué)軟件學(xué)院副教授、博士生導(dǎo)師孫永謙。他長(zhǎng)期深耕智能運(yùn)維（AIOps）領(lǐng)域，聚焦云原生、數(shù)據(jù)中心、超算、智算等領(lǐng)域的故障機(jī)理研究，同時(shí)致力于多智能體協(xié)作與大模型推理優(yōu)化等前沿方向，持續(xù)推動(dòng)面向復(fù)雜系統(tǒng)的智能決策研究。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.