網易首頁 > 網易號 > 正文申請入駐

紐約大學與清華大學聯手打造"會逛圖譜"的AI偵探

2026-04-16 20:12:07　來源: 科技行者

北京舉報

分享至

這項由紐約大學上海校區、紐約大學以及清華大學聯合開展的研究，以預印本形式發布于2026年4月，論文編號為arXiv:2604.05846。有興趣深入了解的讀者可通過該編號在arXiv平臺上查閱完整論文。

現實世界里的知識從來不是孤立存在的。一篇學術論文引用了另一篇，一件商品常常被同一批顧客一起購買，一個Reddit帖子的作者也會在其他版塊留下痕跡。這些"誰和誰有關系"的信息，構成了一張張錯綜復雜的關系網絡，專業上稱為"圖"（Graph）。然而，目前最強大的人工智能——大語言模型（Large Language Models，簡稱LLM，GPT系列、Qwen系列都屬于此類）——面對這類關系網絡時，卻有些像一位只會死記硬背教科書的學生：它能讀懂單篇文章的內容，卻無法主動去查閱"這篇文章的上下游關聯文獻"來輔助判斷。

研究團隊把這個問題比作偵探破案。一個只靠腦子里已有知識的偵探，在面對復雜案件時難以應對；真正高明的偵探會主動走訪現場、查閱檔案、追蹤線索，在證據的積累中一步步逼近真相。AgentGL就是這樣一個"會主動走訪圖譜現場"的AI偵探，它是目前第一個將強化學習（Reinforcement Learning，RL）與圖譜學習結合起來的框架，能讓大語言模型像偵探一樣，在關系網絡中自主導航、收集證據、推理決策。

一、為什么普通的AI讀不懂"關系"

要理解這個問題，可以用一個生活場景來類比。假設你要判斷一本書是不是科幻小說，僅憑書的封面簡介，你或許能猜個七八分。但如果你還能看到"購買這本書的讀者同時也買了《三體》《基地》《沙丘》"，那你的判斷會更加準確——因為這些購買關系本身就是有力的旁證。

現有的AI處理這類問題時，大致分為兩種路子。一種是傳統的圖神經網絡（GNN），這類模型很擅長處理節點之間的拓撲關系，但對文字內容的理解能力有限，像是一個只看地圖卻不讀情報的偵探。另一種是基于大語言模型的方法，又分為"一次性塞入靜態信息"的GraphLLM和"先重建知識圖譜再檢索"的GraphRAG兩類。GraphLLM的做法是推理前把鄰居信息一次性打包交給模型，之后就不再更新，好比偵探開案前領到一份固定的卷宗，卷宗發完就不能再追加新證據了。GraphRAG則是把原始文本重新構建成一個人工知識圖譜，再從中檢索，代價高昂，而且重建出來的圖譜并不保留原始數據中真實的拓撲關聯。

這兩條路都有明顯的短板：面對復雜、動態的關系網絡時，它們都缺乏"邊推理邊追查新線索"的能力。正是這個缺口，催生了研究團隊提出的"主動圖譜學習"（Agentic Graph Learning，AGL）范式，而AgentGL就是實現這一范式的具體框架。

二、偵探的工具箱：四種圖譜搜索技能

一位合格的偵探需要有趁手的調查工具。AgentGL給大語言模型配備了四種專門針對圖譜結構的搜索工具，每種工具對應不同的調查思路。

第一種叫"一跳鄰居搜索"。偵探在調查一個嫌疑人時，首先會去問他的直接鄰居——住在同一棟樓的人、他常去的店鋪老板。在圖譜里，這就是查詢與目標節點直接相連的節點。對于鏈接預測任務（判斷兩個節點之間是否應該有邊），這個工具會優先尋找兩個節點的"共同鄰居"，再補充各自的獨有鄰居，并通過一個結合語義相似度和查詢相關度的評分機制，挑出最有價值的鄰居節點。這里有一個細節值得關注：評分時有一個參數λr來平衡"根據查詢內容找相關節點"和"根據目標節點本身找相關節點"兩種傾向，實驗證明兩者各占一半（λr=0.5）時效果最好，純粹依賴任何一方都會導致性能下滑。

第二種叫"二跳鄰居搜索"，邏輯和第一種完全相同，只是調查范圍擴大到"鄰居的鄰居"，就像偵探不只問樓里的人，還去問了那些人的朋友。這種擴展有時能發現直接鄰居無法提供的間接證據。

第三種叫"結構顯著性搜索"，借助一種叫做PPR（個性化PageRank）的圖譜算法，從整張圖中挑出結構上最重要、最具影響力的節點。PageRank最初是谷歌用來給網頁排名的算法，道理類似：一個被很多重要節點連接的節點，本身也更重要。這個工具相當于偵探去查案子里的"關鍵人物"——那些認識很多人、消息最靈通的節點，往往能提供宏觀視角。

第四種叫"圖譜密集搜索"，原理類似RAG（檢索增強生成）在文本領域的做法，通過節點的語義嵌入向量來找語義上最相似的節點，彌補前幾種基于結構的搜索在語義上的不足。即便兩個節點在圖譜中相距甚遠、沒有直接的拓撲連接，如果它們描述的內容高度相似，這個工具也能把它們關聯起來。

這四種工具覆蓋了兩個關鍵維度：局部對全局、結構對語義，確保偵探不會因為視角單一而錯過關鍵證據。

三、學徒偵探的養成：兩階段強化訓練

配備了調查工具之后，偵探還需要學會什么時候用哪種工具、怎么解讀證據。AgentGL采用強化學習來訓練這套決策能力，整個訓練分為兩個階段，就像培養一名偵探先要打基礎、再要精打細算一樣。

第一階段叫"圖譜原生搜索策略引導"，目標是讓模型學會使用工具。訓練時，模型對每道題生成多個不同的偵查軌跡，然后根據最終答案是否正確來評分。獎勵由三部分構成：格式獎勵保證模型輸出的搜索指令和答案格式正確、機器可解析；準確率獎勵直接獎勵答對；覆蓋率獎勵則鼓勵模型在早期探索中把四種工具都用上，防止模型偷懶只依賴某一種工具（或者干脆不搜索）。

覆蓋率獎勵的設計非常關鍵。實驗發現，如果去掉這個獎勵，模型在訓練過程中會越來越少地使用搜索工具，最終退化成"完全不搜索"的狀態，答題正確率也隨之大幅下滑。這好比一個學徒偵探如果從一開始就不鼓勵他多嘗試不同調查手段，他會慢慢養成只靠拍腦袋猜的壞習慣。

第二階段叫"抑制過度搜索"，目標是讓模型學會適可而止。第一階段結束后，模型已經掌握了使用工具的能力，但它傾向于把所有搜索額度都用滿——即使證據已經足夠充分，也要繼續搜索。這不僅浪費算力，還會引入不必要的噪聲，干擾推理。

為了讓模型學會"夠了就停"，研究團隊引入了"受約束思維"機制。具體做法是在每次工具調用完成后，向模型注入一句提示："請先仔細回顧剛才搜索到的文檔，然后再決定是否需要繼續搜索。"這句話強迫模型在每次行動前先做反思，把搜索過程從"習慣性連續行動"變成"有意識的逐步決策"。

與此同時，訓練還引入了"認知密度正則化"：如果模型在搜索到證據之后的推理段落太短（少于100個詞），就會受到懲罰。這是為了防止模型走另一個極端——雖然減少了搜索次數，但每次只是草草看一眼證據就跳過，推理不夠深入。第二階段的獎勵不再包含覆蓋率獎勵，而是把格式獎勵、準確率獎勵和認知密度獎勵結合起來，引導模型在減少搜索次數的同時，真正把每次獲取的證據消化透徹。

實驗數據驗證了這套兩階段設計的必要性。單獨只做第一階段，模型搜索次數多、準確率較高，但搜索成本高；單獨只做第二階段，模型會直接崩潰，退化成完全不搜索的狀態，準確率反而最差；只有把兩個階段串聯起來，才能實現"比第一階段少搜索約17.5%的次數，同時平均準確率還提高了約2.4%"的最優效果。

四、由易到難的練級路線：圖譜條件課程學習

偵探學校不會一上來就讓學徒去破殺人案，而是從簡單的偷盜案開始練手，逐步提升難度。AgentGL也設計了類似的訓練課程，叫做"圖譜條件課程學習"（GCCL）。

關鍵在于，怎么定義哪道題"簡單"、哪道題"難"？研究團隊充分利用了圖譜本身攜帶的信息。對于節點分類任務（判斷一個節點屬于哪個類別），難度取決于兩個因素：一是"同質性"，即這個節點的鄰居里有多少比例和它同類——鄰居大多同類的節點容易判斷，鄰居類別混雜的節點難以判斷；二是節點的度數，即它連接了多少其他節點——連接很多鄰居的"樞紐"節點信息更豐富。研究團隊用一個叫做"Wilson下界"的統計公式把這兩點合并成一個難度分數，把訓練數據分成簡單、中等、困難三檔，按順序訓練。

對于鏈接預測任務（判斷兩個節點之間是否應該有邊），難度的定義也很巧妙。"簡單"的案例是那些文本內容相似、實際上也有邊的正樣本，以及文本內容差異大、實際上沒有邊的負樣本——因為這類案例"語義和結構一致"，偵探容易判斷。"困難"的案例是"文本內容相似卻實際上沒有邊"的負樣本——語義上像有邊，但結構上沒有，這是最容易迷惑偵探的情形。

實驗證明，GCCL能顯著加快訓練收斂速度，減少訓練過程中的獎勵波動，并在最終準確率上帶來約0.65%的提升。雖然數字看起來不大，但在競爭激烈的基準測試中，這個提升相當穩定。

五、在決策交叉口上的推理流程

把以上所有部分拼在一起，AgentGL的工作方式就像一個偵探在審訊室里的推理過程。給定一道題（比如"這篇論文屬于哪個cs子領域？"），模型在思考塊（think標簽）內展開推理：先根據已有信息形成初步假設，然后決定調用哪種搜索工具、用什么關鍵詞查詢，圖譜環境執行搜索并返回證據文檔，模型讀取證據后再次評估當前假設是否需要調整，決定是繼續搜索還是直接給出答案。整個過程在answer標簽關閉時終止，或者在達到最大搜索預算（默認為4次）時強制終止。

這套"推理—行動—觀察"的循環，和人類偵探的工作節奏高度一致：有了初步判斷之后不急著下結論，而是主動尋找能證偽或證實的新證據，直到證據鏈足夠完整才收案。

六、實驗結果：偵探比"死記硬背"的學生強多少

研究團隊在7個文本屬性圖數據集上進行了系統評測，覆蓋引文網絡（OGB-Arxiv、PubMed、Arxiv-2023）、亞馬遜商品圖（OGB-Products、Amazon-Photo、Amazon-Computers）和社交網絡（Reddit），涉及節點分類和鏈接預測兩類任務，并分別用Qwen2.5-3B和Qwen2.5-7B作為主干模型。對手包括傳統GNN（GCN、RevGAT、GraphSAGE）、多種GraphLLM方法（LLaGA、GraphGPT、GraphPrompter、GraphICL）、GraphRAG方法（LinearRAG、HippoRAG2、GraphCoT）以及通用搜索智能體（Search-R1、Search-O1）。

訓練只在OGB-Arxiv和OGB-Products上進行，然后在所有數據集上測試，包括從未見過的零樣本遷移場景。結果非常清晰：以7B模型為主干時，AgentGL在域內節點分類上平均比最強基線高出12.7%，在零樣本遷移場景下高出24.4%；在域內鏈接預測上平均高出26.3%，在零樣本遷移場景下高出22.4%。3B模型的表現同樣穩定，域內節點分類高出14.5%，鏈接預測高出26.3%，零樣本遷移分別高出26.6%和22.4%。

單項極值同樣令人印象深刻：節點分類最大絕對提升達17.5%，鏈接預測最大絕對提升達28.4%。

從backbone規模的影響來看，從3B升級到7B，AgentGL的節點分類域內平均提升9.0%，零樣本提升11.8%；鏈接預測域內提升5.6%，零樣本提升8.7%。規模提升在零樣本場景下收益更大，說明更大的模型更能把學到的工具使用策略泛化到陌生數據上。

兩種強化學習算法（GRPO和REINFORCE++）也呈現出有趣的互補特性：GRPO在節點分類上平均高出0.9%，REINFORCE++在鏈接預測上平均高出3.3%。根據目標任務選擇算法，可以進一步榨取性能。

七、從案例看偵探如何思考

研究附有真實的推理案例，讓人得以一窺AgentGL的思考過程。在一個亞馬遜商品分類案例中，目標商品的描述是"三腳架不夠穩固，腿部會晃動、鉸鏈偏弱，不推薦用于步槍或跪射"。模型讀完描述后，直接調用一跳搜索，查詢與該商品常被一起購買的商品，返回了五條記錄，全都是各種三腳架評測，提到穩定性、載重和鉸鏈耐久度等相似主題。模型隨后判斷這批鄰居強烈指向"三腳架"品類，但為保險起見進一步調用二跳搜索，確認鄰居的鄰居仍以三腳架生態為主（包括腳架頭、快裝板等配件），沒有出現偏離的信號。最后調用PageRank搜索做全局確認，結果一致。模型在第四次搜索之前主動判斷"繼續搜索可能是多余的"，直接給出答案"Tripods & Monopods"，正確。

在一個Reddit鏈接預測案例中，兩個節點分別是"拉格獵隼在拉賈斯坦邦的目擊記錄"和"大鳳頭百靈在古吉拉特邦的求偶行為記錄"。模型識別出兩者都是印度鳥類觀察帖，調用一跳搜索尋找共同鄰居，返回了五個共同鄰居，全部是來自古吉拉特-庫奇地區的鳥類觀察帖，與兩個目標節點高度一致。模型判斷"共同鄰居密集且主題高度一致，是典型的共同發帖模式，說明兩個節點屬于同一個緊密的社群"，直接輸出"yes"，正確。整個推理只用了一次搜索，比允許的最大次數少了三次。

這兩個案例完整展示了AgentGL的偵探邏輯：先有初步判斷，再用工具收集旁證，證據充分時果斷收案，不做多余的調查。

說到底，AgentGL解決的問題歸根結底是：如何讓AI在面對關系密布的真實世界數據時，不再只依賴"死背書"，而是學會主動翻檔案、查關系、追線索。研究團隊用強化學習訓練出來的這套兩階段策略，讓模型在"敢用工具"和"用夠就停"之間找到了一個穩定的平衡點，而圖譜條件課程學習則讓這個平衡點的訓練過程更加平穩可靠。

當然，這套框架目前也存在一些局限。它還只能處理"文字屬性"的圖譜，對于節點還帶有圖片、音頻等多模態信息的圖譜，尚無法支持。此外，兩個訓練階段的數據比例需要仔細調配，這個超參數的魯棒性還有待進一步研究。對于節點極多、邊極密的超大圖譜，效率問題也是未來需要面對的挑戰。

這些局限并不妨礙這項研究所指向的方向：讓AI像有經驗的偵探一樣，在復雜的關系網絡中既能主動調查，又能在證據充分時果斷作判。這對于依賴關系數據的金融風控、學術推薦、社交網絡分析等領域，都有相當直接的參考價值。有興趣深入了解技術細節的讀者，可以通過arXiv編號2604.05846查閱完整論文，代碼已在GitHub上公開，地址可通過論文內鏈接訪問。

Q&A

Q1：AgentGL和普通的圖神經網絡有什么區別？

A：圖神經網絡（GNN）擅長處理節點之間的拓撲連接關系，但對節點上的文字內容理解有限，也不能在推理過程中主動追加新的信息。AgentGL則是讓大語言模型在推理時主動調用圖譜搜索工具，邊思考邊收集證據，更像一個動態調查的過程，而不是一次性讀完卷宗就下結論。兩者的核心差別在于：GNN是"靜態聚合"，AgentGL是"動態導航"。

Q2：強化學習在AgentGL里具體是怎么工作的？

A：AgentGL不需要人工標注"第一步該用哪個工具、第二步該用哪個工具"這種逐步驟的監督數據，而是讓模型自己嘗試不同的搜索策略，最后根據答案對不對來給整條推理路徑打分。打分高的路徑被鼓勵重復，打分低的被抑制。兩個訓練階段分別用不同的獎勵組合引導模型先學會用工具、再學會適可而止。

Q3：圖譜條件課程學習對訓練有多大幫助？

A：實驗表明，GCCL能加快獎勵收斂速度、減少訓練中的波動，并帶來約0.65%的準確率提升。更關鍵的是，它讓模型在第二訓練階段能夠更穩定地維持較低的搜索次數，而不是在訓練后期又退回到大量搜索的狀態。這個機制的優勢在于完全依賴圖譜自身的拓撲和語義屬性來估算難度，無需額外的人工標注或昂貴的預實驗。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.