![]()
近年來,大語言模型在數(shù)學(xué)、代碼等任務(wù)上的表現(xiàn)不斷刷新上限,但到了醫(yī)療診斷、故障排查這類真實(shí)世界任務(wù)里,真正困難的是讓多個(gè)智能體在不確定的動(dòng)態(tài)環(huán)境中持續(xù)協(xié)作推理。
以醫(yī)療診斷為例,主治醫(yī)生不可能一開始就讓病人把所有檢查都做一遍,而是要根據(jù)當(dāng)前診斷方向,動(dòng)態(tài)安排影像科、檢驗(yàn)科等不同科室逐步開展檢查、持續(xù)補(bǔ)充證據(jù),并在過程中不斷修正判斷。
相比之下,現(xiàn)有多智能體推理方法雖然看起來做了分工,但常常要么停留在簡(jiǎn)單串聯(lián)多個(gè)智能體的層面,只是把前一個(gè)智能體的輸出交給下一個(gè)繼續(xù)處理;要么默認(rèn)所有證據(jù)都已經(jīng)提前備好,缺乏真正的自主調(diào)查和動(dòng)態(tài)決策能力。
論文指出,也正因如此,現(xiàn)有 CoT、ToT、GoT、FoT 等推理框架在遷移到醫(yī)療診斷、分布式系統(tǒng)故障排查等場(chǎng)景時(shí),往往會(huì)進(jìn)一步暴露出四類失敗模式:證據(jù)偽造、上下文漂移、回溯失敗和過早停止。
![]()
圖 1: 傳統(tǒng)推理框架在溯因任務(wù)中的四類典型問題
這些失敗并不是偶然現(xiàn)象,而是來自兩個(gè)結(jié)構(gòu)性缺陷:
- 很多現(xiàn)有方法把假設(shè)、證據(jù)和推理進(jìn)展混在非結(jié)構(gòu)化自然語言上下文里,缺乏顯式狀態(tài)表示;
- 缺少狀態(tài)控制機(jī)制,使得智能體是否選擇回溯、下鉆、終止,幾乎都只能靠自由發(fā)揮。
因此,在長(zhǎng)程推理過程中,智能體往往難以穩(wěn)定維護(hù)推理狀態(tài),容易偏離正確方向,或過早停留在表層結(jié)論。
南開大學(xué)研究團(tuán)隊(duì)和聯(lián)想合作提出了Graph of States(GoS),一個(gè)面向通用溯因推理任務(wù)的神經(jīng)符號(hào)框架,其核心目標(biāo)是為溯因任務(wù)顯式構(gòu)建一個(gè)可維護(hù)、可回退、可收斂的推理狀態(tài)空間,把原本隱式、松散的推理過程,轉(zhuǎn)化為受約束的有向搜索。該工作已被 ICML 2026 正式接收。
![]()
- 論文標(biāo)題: Graph of States: Solving Abductive Tasks with Large Language Models
- 論文鏈接:https://arxiv.org/pdf/2603.21250
- 代碼地址: https://github.com/gaorch85/Graph-of-States
目前,xCloud 聯(lián)想智能云正加速將 GoS 技術(shù)融入其智能運(yùn)維產(chǎn)品體系,助力企業(yè)構(gòu)建零故障、自愈合、業(yè)務(wù)感知的智能運(yùn)維體系。
01 GoS:給推理加上 “顯式信念狀態(tài)”
GoS 的核心思想,是把多智能體協(xié)作與顯式信念狀態(tài)建模結(jié)合起來。整個(gè)系統(tǒng)分為兩層:上層是認(rèn)知層,負(fù)責(zé)具體領(lǐng)域內(nèi)的多智能體協(xié)作;下層是符號(hào)層,負(fù)責(zé)維護(hù)結(jié)構(gòu)化推理狀態(tài),并對(duì)過程進(jìn)行導(dǎo)航和約束。
在認(rèn)知層中,GoS 不再采用零散的功能原子,而是讓中心智能體和專家智能體分別對(duì)應(yīng)現(xiàn)實(shí)世界中的專業(yè)角色。比如在醫(yī)療場(chǎng)景中,可以對(duì)應(yīng)主治醫(yī)生、影像科醫(yī)生、病理科醫(yī)生;在分布式系統(tǒng)場(chǎng)景中,則對(duì)應(yīng)應(yīng)用運(yùn)維、Linux 運(yùn)維、網(wǎng)絡(luò)運(yùn)維和數(shù)據(jù)庫運(yùn)維。這樣做的目的,是讓推理流程更貼近真實(shí)世界中的協(xié)作分工,也更便于人理解和審查其推理過程。
![]()
圖 2: GoS 總體框架:雙層神經(jīng)符號(hào)架構(gòu)與整體推理流程
GoS 最關(guān)鍵的部分是符號(hào)層。它不再把調(diào)查過程隱藏在非結(jié)構(gòu)化歷史對(duì)話里,而是顯式維護(hù)一個(gè)由因果圖和狀態(tài)機(jī)組成的信念狀態(tài)。前者記錄癥狀、證據(jù)、假設(shè)及其支持、反駁和細(xì)化關(guān)系;后者控制當(dāng)前推理層級(jí),決定系統(tǒng)是繼續(xù)搜集證據(jù)、向更細(xì)粒度下鉆,還是在出現(xiàn)沖突證據(jù)時(shí)回退到更早層重新判斷。
與此同時(shí),GoS 還引入了一個(gè)很關(guān)鍵的機(jī)制:推理焦點(diǎn)(reasoning focus)。系統(tǒng)在每一步都不會(huì)平均地看待所有可能方向,而是聚焦當(dāng)前層級(jí)中置信度最高的假設(shè),把調(diào)查預(yù)算和推理資源集中到最值得追蹤的分支上。這樣做有利于把原本容易發(fā)散的探索,變成更像 “有導(dǎo)航的調(diào)查”。
02 雙層閉環(huán):從推理焦點(diǎn)到證據(jù)更新
GoS 的推理過程不是簡(jiǎn)單的‘先計(jì)劃、再執(zhí)行’,而是一個(gè)持續(xù)循環(huán)的雙向閉環(huán)。首先,符號(hào)層會(huì)根據(jù)當(dāng)前信念狀態(tài)找到推理焦點(diǎn),并將其轉(zhuǎn)化為對(duì)認(rèn)知層的調(diào)查指令;隨后,認(rèn)知層調(diào)用工具、獲取證據(jù)并完成分析,再將結(jié)果返回給符號(hào)層,用于更新因果圖、重新校準(zhǔn)假設(shè)置信度,并觸發(fā)下一輪狀態(tài)轉(zhuǎn)換。
這一閉環(huán)使多智能體協(xié)作不再是無約束的自由發(fā)揮,而是始終圍繞當(dāng)前最有價(jià)值的假設(shè)前進(jìn);新獲得的證據(jù)也不再只是停留在文本里,而會(huì)成為后續(xù)推理的依據(jù)。
![]()
圖 3: 雙向神經(jīng) - 符號(hào)交互:從推理焦點(diǎn)引導(dǎo)調(diào)查,到新證據(jù)反向更新信念狀態(tài)
03 關(guān)鍵機(jī)制:該回溯時(shí)回溯,該下鉆時(shí)下鉆
對(duì)于溯因任務(wù)來說,真正困難的往往不是 “生成一個(gè)答案”,而是在推理過程中根據(jù)證據(jù)變化,按規(guī)則決定狀態(tài)轉(zhuǎn)移。為此,GoS 設(shè)計(jì)了兩類核心狀態(tài)轉(zhuǎn)換機(jī)制:Backtracking和Drill-Down。
不同于把這些決策完全交給智能體自由發(fā)揮,GoS 為狀態(tài)演化引入了清晰的轉(zhuǎn)移規(guī)則。具體來說,當(dāng)當(dāng)前推理路徑上的某個(gè)上層祖先假設(shè)在置信度重估后不再是該層最優(yōu)候選時(shí),系統(tǒng)會(huì)回退到對(duì)應(yīng)層級(jí)并剪除建立在錯(cuò)誤前提上的后續(xù)分支;而下鉆也不是 “覺得差不多了就繼續(xù)往下想”,而是只有當(dāng)當(dāng)前最優(yōu)假設(shè)同時(shí)滿足足夠的置信度優(yōu)勢(shì)和足夠的支持證據(jù)數(shù)量時(shí),系統(tǒng)才會(huì)進(jìn)一步細(xì)化到更具體的子假設(shè)。正是這種帶有明確約束的狀態(tài)控制,使 GoS 在面對(duì)非單調(diào)、動(dòng)態(tài)演化的信息時(shí),不再只是生成連貫文本,而是能夠以更穩(wěn)定、更可控的方式逐步逼近真正可執(zhí)行的根因。
![]()
圖 4: 狀態(tài)轉(zhuǎn)換:回溯(Backtracking)與下鉆(Drill-Down)
04 實(shí)驗(yàn):在兩個(gè)高風(fēng)險(xiǎn)真實(shí)場(chǎng)景中驗(yàn)證 GoS
為了驗(yàn)證 GoS 的有效性和通用性,論文選擇了兩個(gè)非常具有現(xiàn)實(shí)意義的溯因場(chǎng)景:醫(yī)療診斷和分布式系統(tǒng)故障診斷。在醫(yī)療診斷任務(wù)中,作者基于 DiagnosisArena 基準(zhǔn)做了一個(gè)關(guān)鍵改造:不再一開始就提供完整輔助檢查結(jié)果,而是只給病人主訴和基礎(chǔ)體格檢查,讓智能體像真實(shí)醫(yī)生一樣主動(dòng)申請(qǐng)檢查、逐步獲取外部信息,再完成診斷,從而恢復(fù) “主動(dòng)取證、動(dòng)態(tài)推理” 的溯因本質(zhì)。在這一任務(wù)上,GoS 在 Human-as-a-Judge 評(píng)估下取得了39.86% 的 Match和78.99% 的 Relevant,明顯優(yōu)于所有基線方法,并在更低成本下實(shí)現(xiàn)了更好的結(jié)果。
在分布式系統(tǒng)故障診斷任務(wù)中,論文基于真實(shí)生產(chǎn)環(huán)境構(gòu)建了 150 個(gè) incident,要求智能體從初始告警出發(fā),主動(dòng)查詢?nèi)罩尽⒅笜?biāo)和 shell 輸出,逐步恢復(fù)故障上下文并定位 root cause。實(shí)驗(yàn)結(jié)果顯示,GoS 取得了70.67% 的 Match和88.00% 的 Relevant,其中 Match 比最強(qiáng)基線高出36.67 個(gè)百分點(diǎn)。這說明,很多方法雖然能判斷 “問題大概在哪個(gè)方向”,因此 Relevant 并不低,但要進(jìn)一步收斂到真正可執(zhí)行的細(xì)粒度根因,仍然需要持續(xù)調(diào)查、狀態(tài)控制和層級(jí)下鉆,而這正是 GoS 的優(yōu)勢(shì)。
![]()
表 1: 醫(yī)療診斷結(jié)果:GoS 在 Match 與 Relevant 上均優(yōu)于所有基線
![]()
表 2: 分布式系統(tǒng)故障診斷結(jié)果:GoS 顯著提升細(xì)粒度根因定位能力
作者還進(jìn)一步進(jìn)行了較為全面的消融實(shí)驗(yàn)與參數(shù)敏感性分析。結(jié)果表明,GoS 的性能提升并非來自某個(gè)偶然技巧,而是確實(shí)依賴于推理焦點(diǎn)、因果圖和狀態(tài)機(jī)等關(guān)鍵模塊的協(xié)同作用;同時(shí),隨著神經(jīng)符號(hào)交互輪數(shù)、檢索預(yù)算以及狀態(tài)轉(zhuǎn)移閾值的變化,GoS 也表現(xiàn)出清晰且可解釋的性能趨勢(shì),說明該框架不僅有效,而且具備較好的穩(wěn)定性與可控性。
![]()
表 3: 消融實(shí)驗(yàn):顯式因果圖、狀態(tài)機(jī)與推理焦點(diǎn)缺一不可
![]()
圖 5: 敏感性分析:GoS 在不同預(yù)算和閾值配置下的性能變化
05 意義:從垂直場(chǎng)景方法走向通用推理框架
從更大的角度看,GoS 的意義不只是把醫(yī)療和 AIOps 兩個(gè)任務(wù)做得更好,而是向前推進(jìn)了一個(gè)更根本的問題:對(duì)于真實(shí)世界中的高風(fēng)險(xiǎn)任務(wù),智能體需要的并不只是更多知識(shí)、更多工具、更多上下文,還需要能在不完整信息下顯式維護(hù)信念狀態(tài),處理沖突證據(jù),在必要時(shí)回溯,在合適時(shí)下鉆,最終把搜索過程穩(wěn)定地導(dǎo)向真實(shí)根因。從這個(gè)角度看,GoS 所面向的其實(shí)也是當(dāng)前智能體研究中非常關(guān)鍵的一類問題,即long-horizon reasoning與multi-turn interaction:智能體不只是回答一次,而是要在持續(xù)調(diào)查和多輪交互中保持狀態(tài)一致,并逐步收斂。
論文也指出,GoS 并不排斥已有的領(lǐng)域特化方法,反而與它們互補(bǔ)。無論是醫(yī)療中的高質(zhì)量知識(shí)庫和 RAG,還是 AIOps 中的多模態(tài)預(yù)處理和 SOP 檢索,都可以與 GoS 結(jié)合,提升其在垂直場(chǎng)景中的搜索效率和決策可靠性。換句話說,GoS 提供的不是某一個(gè)專用智能體,而是一套面向溯因推理、也面向智能體長(zhǎng)程推理的通用推理骨架。
作者簡(jiǎn)介
本文第一作者為羅宇,南開大學(xué)智能運(yùn)維課題組博士一年級(jí),主要研究方向?yàn)橹悄荏w長(zhǎng)程推理、自進(jìn)化智能體和根因分析。本文通訊作者為南開大學(xué)軟件學(xué)院副教授、博士生導(dǎo)師孫永謙。他長(zhǎng)期深耕智能運(yùn)維(AIOps)領(lǐng)域,聚焦云原生、數(shù)據(jù)中心、超算、智算等領(lǐng)域的故障機(jī)理研究,同時(shí)致力于多智能體協(xié)作與大模型推理優(yōu)化等前沿方向,持續(xù)推動(dòng)面向復(fù)雜系統(tǒng)的智能決策研究。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.