網易首頁 > 網易號 > 正文 申請入駐

紐約大學與清華大學聯手打造"會逛圖譜"的AI偵探

0
分享至


這項由紐約大學上海校區、紐約大學以及清華大學聯合開展的研究,以預印本形式發布于2026年4月,論文編號為arXiv:2604.05846。有興趣深入了解的讀者可通過該編號在arXiv平臺上查閱完整論文。

現實世界里的知識從來不是孤立存在的。一篇學術論文引用了另一篇,一件商品常常被同一批顧客一起購買,一個Reddit帖子的作者也會在其他版塊留下痕跡。這些"誰和誰有關系"的信息,構成了一張張錯綜復雜的關系網絡,專業上稱為"圖"(Graph)。然而,目前最強大的人工智能——大語言模型(Large Language Models,簡稱LLM,GPT系列、Qwen系列都屬于此類)——面對這類關系網絡時,卻有些像一位只會死記硬背教科書的學生:它能讀懂單篇文章的內容,卻無法主動去查閱"這篇文章的上下游關聯文獻"來輔助判斷。

研究團隊把這個問題比作偵探破案。一個只靠腦子里已有知識的偵探,在面對復雜案件時難以應對;真正高明的偵探會主動走訪現場、查閱檔案、追蹤線索,在證據的積累中一步步逼近真相。AgentGL就是這樣一個"會主動走訪圖譜現場"的AI偵探,它是目前第一個將強化學習(Reinforcement Learning,RL)與圖譜學習結合起來的框架,能讓大語言模型像偵探一樣,在關系網絡中自主導航、收集證據、推理決策。

一、為什么普通的AI讀不懂"關系"

要理解這個問題,可以用一個生活場景來類比。假設你要判斷一本書是不是科幻小說,僅憑書的封面簡介,你或許能猜個七八分。但如果你還能看到"購買這本書的讀者同時也買了《三體》《基地》《沙丘》",那你的判斷會更加準確——因為這些購買關系本身就是有力的旁證。

現有的AI處理這類問題時,大致分為兩種路子。一種是傳統的圖神經網絡(GNN),這類模型很擅長處理節點之間的拓撲關系,但對文字內容的理解能力有限,像是一個只看地圖卻不讀情報的偵探。另一種是基于大語言模型的方法,又分為"一次性塞入靜態信息"的GraphLLM和"先重建知識圖譜再檢索"的GraphRAG兩類。GraphLLM的做法是推理前把鄰居信息一次性打包交給模型,之后就不再更新,好比偵探開案前領到一份固定的卷宗,卷宗發完就不能再追加新證據了。GraphRAG則是把原始文本重新構建成一個人工知識圖譜,再從中檢索,代價高昂,而且重建出來的圖譜并不保留原始數據中真實的拓撲關聯。

這兩條路都有明顯的短板:面對復雜、動態的關系網絡時,它們都缺乏"邊推理邊追查新線索"的能力。正是這個缺口,催生了研究團隊提出的"主動圖譜學習"(Agentic Graph Learning,AGL)范式,而AgentGL就是實現這一范式的具體框架。

二、偵探的工具箱:四種圖譜搜索技能

一位合格的偵探需要有趁手的調查工具。AgentGL給大語言模型配備了四種專門針對圖譜結構的搜索工具,每種工具對應不同的調查思路。

第一種叫"一跳鄰居搜索"。偵探在調查一個嫌疑人時,首先會去問他的直接鄰居——住在同一棟樓的人、他常去的店鋪老板。在圖譜里,這就是查詢與目標節點直接相連的節點。對于鏈接預測任務(判斷兩個節點之間是否應該有邊),這個工具會優先尋找兩個節點的"共同鄰居",再補充各自的獨有鄰居,并通過一個結合語義相似度和查詢相關度的評分機制,挑出最有價值的鄰居節點。這里有一個細節值得關注:評分時有一個參數λr來平衡"根據查詢內容找相關節點"和"根據目標節點本身找相關節點"兩種傾向,實驗證明兩者各占一半(λr=0.5)時效果最好,純粹依賴任何一方都會導致性能下滑。

第二種叫"二跳鄰居搜索",邏輯和第一種完全相同,只是調查范圍擴大到"鄰居的鄰居",就像偵探不只問樓里的人,還去問了那些人的朋友。這種擴展有時能發現直接鄰居無法提供的間接證據。

第三種叫"結構顯著性搜索",借助一種叫做PPR(個性化PageRank)的圖譜算法,從整張圖中挑出結構上最重要、最具影響力的節點。PageRank最初是谷歌用來給網頁排名的算法,道理類似:一個被很多重要節點連接的節點,本身也更重要。這個工具相當于偵探去查案子里的"關鍵人物"——那些認識很多人、消息最靈通的節點,往往能提供宏觀視角。

第四種叫"圖譜密集搜索",原理類似RAG(檢索增強生成)在文本領域的做法,通過節點的語義嵌入向量來找語義上最相似的節點,彌補前幾種基于結構的搜索在語義上的不足。即便兩個節點在圖譜中相距甚遠、沒有直接的拓撲連接,如果它們描述的內容高度相似,這個工具也能把它們關聯起來。

這四種工具覆蓋了兩個關鍵維度:局部對全局、結構對語義,確保偵探不會因為視角單一而錯過關鍵證據。

三、學徒偵探的養成:兩階段強化訓練

配備了調查工具之后,偵探還需要學會什么時候用哪種工具、怎么解讀證據。AgentGL采用強化學習來訓練這套決策能力,整個訓練分為兩個階段,就像培養一名偵探先要打基礎、再要精打細算一樣。

第一階段叫"圖譜原生搜索策略引導",目標是讓模型學會使用工具。訓練時,模型對每道題生成多個不同的偵查軌跡,然后根據最終答案是否正確來評分。獎勵由三部分構成:格式獎勵保證模型輸出的搜索指令和答案格式正確、機器可解析;準確率獎勵直接獎勵答對;覆蓋率獎勵則鼓勵模型在早期探索中把四種工具都用上,防止模型偷懶只依賴某一種工具(或者干脆不搜索)。

覆蓋率獎勵的設計非常關鍵。實驗發現,如果去掉這個獎勵,模型在訓練過程中會越來越少地使用搜索工具,最終退化成"完全不搜索"的狀態,答題正確率也隨之大幅下滑。這好比一個學徒偵探如果從一開始就不鼓勵他多嘗試不同調查手段,他會慢慢養成只靠拍腦袋猜的壞習慣。

第二階段叫"抑制過度搜索",目標是讓模型學會適可而止。第一階段結束后,模型已經掌握了使用工具的能力,但它傾向于把所有搜索額度都用滿——即使證據已經足夠充分,也要繼續搜索。這不僅浪費算力,還會引入不必要的噪聲,干擾推理。

為了讓模型學會"夠了就停",研究團隊引入了"受約束思維"機制。具體做法是在每次工具調用完成后,向模型注入一句提示:"請先仔細回顧剛才搜索到的文檔,然后再決定是否需要繼續搜索。"這句話強迫模型在每次行動前先做反思,把搜索過程從"習慣性連續行動"變成"有意識的逐步決策"。

與此同時,訓練還引入了"認知密度正則化":如果模型在搜索到證據之后的推理段落太短(少于100個詞),就會受到懲罰。這是為了防止模型走另一個極端——雖然減少了搜索次數,但每次只是草草看一眼證據就跳過,推理不夠深入。第二階段的獎勵不再包含覆蓋率獎勵,而是把格式獎勵、準確率獎勵和認知密度獎勵結合起來,引導模型在減少搜索次數的同時,真正把每次獲取的證據消化透徹。

實驗數據驗證了這套兩階段設計的必要性。單獨只做第一階段,模型搜索次數多、準確率較高,但搜索成本高;單獨只做第二階段,模型會直接崩潰,退化成完全不搜索的狀態,準確率反而最差;只有把兩個階段串聯起來,才能實現"比第一階段少搜索約17.5%的次數,同時平均準確率還提高了約2.4%"的最優效果。

四、由易到難的練級路線:圖譜條件課程學習

偵探學校不會一上來就讓學徒去破殺人案,而是從簡單的偷盜案開始練手,逐步提升難度。AgentGL也設計了類似的訓練課程,叫做"圖譜條件課程學習"(GCCL)。

關鍵在于,怎么定義哪道題"簡單"、哪道題"難"?研究團隊充分利用了圖譜本身攜帶的信息。對于節點分類任務(判斷一個節點屬于哪個類別),難度取決于兩個因素:一是"同質性",即這個節點的鄰居里有多少比例和它同類——鄰居大多同類的節點容易判斷,鄰居類別混雜的節點難以判斷;二是節點的度數,即它連接了多少其他節點——連接很多鄰居的"樞紐"節點信息更豐富。研究團隊用一個叫做"Wilson下界"的統計公式把這兩點合并成一個難度分數,把訓練數據分成簡單、中等、困難三檔,按順序訓練。

對于鏈接預測任務(判斷兩個節點之間是否應該有邊),難度的定義也很巧妙。"簡單"的案例是那些文本內容相似、實際上也有邊的正樣本,以及文本內容差異大、實際上沒有邊的負樣本——因為這類案例"語義和結構一致",偵探容易判斷。"困難"的案例是"文本內容相似卻實際上沒有邊"的負樣本——語義上像有邊,但結構上沒有,這是最容易迷惑偵探的情形。

實驗證明,GCCL能顯著加快訓練收斂速度,減少訓練過程中的獎勵波動,并在最終準確率上帶來約0.65%的提升。雖然數字看起來不大,但在競爭激烈的基準測試中,這個提升相當穩定。

五、在決策交叉口上的推理流程

把以上所有部分拼在一起,AgentGL的工作方式就像一個偵探在審訊室里的推理過程。給定一道題(比如"這篇論文屬于哪個cs子領域?"),模型在思考塊(think標簽)內展開推理:先根據已有信息形成初步假設,然后決定調用哪種搜索工具、用什么關鍵詞查詢,圖譜環境執行搜索并返回證據文檔,模型讀取證據后再次評估當前假設是否需要調整,決定是繼續搜索還是直接給出答案。整個過程在answer標簽關閉時終止,或者在達到最大搜索預算(默認為4次)時強制終止。

這套"推理—行動—觀察"的循環,和人類偵探的工作節奏高度一致:有了初步判斷之后不急著下結論,而是主動尋找能證偽或證實的新證據,直到證據鏈足夠完整才收案。

六、實驗結果:偵探比"死記硬背"的學生強多少

研究團隊在7個文本屬性圖數據集上進行了系統評測,覆蓋引文網絡(OGB-Arxiv、PubMed、Arxiv-2023)、亞馬遜商品圖(OGB-Products、Amazon-Photo、Amazon-Computers)和社交網絡(Reddit),涉及節點分類和鏈接預測兩類任務,并分別用Qwen2.5-3B和Qwen2.5-7B作為主干模型。對手包括傳統GNN(GCN、RevGAT、GraphSAGE)、多種GraphLLM方法(LLaGA、GraphGPT、GraphPrompter、GraphICL)、GraphRAG方法(LinearRAG、HippoRAG2、GraphCoT)以及通用搜索智能體(Search-R1、Search-O1)。

訓練只在OGB-Arxiv和OGB-Products上進行,然后在所有數據集上測試,包括從未見過的零樣本遷移場景。結果非常清晰:以7B模型為主干時,AgentGL在域內節點分類上平均比最強基線高出12.7%,在零樣本遷移場景下高出24.4%;在域內鏈接預測上平均高出26.3%,在零樣本遷移場景下高出22.4%。3B模型的表現同樣穩定,域內節點分類高出14.5%,鏈接預測高出26.3%,零樣本遷移分別高出26.6%和22.4%。

單項極值同樣令人印象深刻:節點分類最大絕對提升達17.5%,鏈接預測最大絕對提升達28.4%。

從backbone規模的影響來看,從3B升級到7B,AgentGL的節點分類域內平均提升9.0%,零樣本提升11.8%;鏈接預測域內提升5.6%,零樣本提升8.7%。規模提升在零樣本場景下收益更大,說明更大的模型更能把學到的工具使用策略泛化到陌生數據上。

兩種強化學習算法(GRPO和REINFORCE++)也呈現出有趣的互補特性:GRPO在節點分類上平均高出0.9%,REINFORCE++在鏈接預測上平均高出3.3%。根據目標任務選擇算法,可以進一步榨取性能。

七、從案例看偵探如何思考

研究附有真實的推理案例,讓人得以一窺AgentGL的思考過程。在一個亞馬遜商品分類案例中,目標商品的描述是"三腳架不夠穩固,腿部會晃動、鉸鏈偏弱,不推薦用于步槍或跪射"。模型讀完描述后,直接調用一跳搜索,查詢與該商品常被一起購買的商品,返回了五條記錄,全都是各種三腳架評測,提到穩定性、載重和鉸鏈耐久度等相似主題。模型隨后判斷這批鄰居強烈指向"三腳架"品類,但為保險起見進一步調用二跳搜索,確認鄰居的鄰居仍以三腳架生態為主(包括腳架頭、快裝板等配件),沒有出現偏離的信號。最后調用PageRank搜索做全局確認,結果一致。模型在第四次搜索之前主動判斷"繼續搜索可能是多余的",直接給出答案"Tripods & Monopods",正確。

在一個Reddit鏈接預測案例中,兩個節點分別是"拉格獵隼在拉賈斯坦邦的目擊記錄"和"大鳳頭百靈在古吉拉特邦的求偶行為記錄"。模型識別出兩者都是印度鳥類觀察帖,調用一跳搜索尋找共同鄰居,返回了五個共同鄰居,全部是來自古吉拉特-庫奇地區的鳥類觀察帖,與兩個目標節點高度一致。模型判斷"共同鄰居密集且主題高度一致,是典型的共同發帖模式,說明兩個節點屬于同一個緊密的社群",直接輸出"yes",正確。整個推理只用了一次搜索,比允許的最大次數少了三次。

這兩個案例完整展示了AgentGL的偵探邏輯:先有初步判斷,再用工具收集旁證,證據充分時果斷收案,不做多余的調查。

說到底,AgentGL解決的問題歸根結底是:如何讓AI在面對關系密布的真實世界數據時,不再只依賴"死背書",而是學會主動翻檔案、查關系、追線索。研究團隊用強化學習訓練出來的這套兩階段策略,讓模型在"敢用工具"和"用夠就停"之間找到了一個穩定的平衡點,而圖譜條件課程學習則讓這個平衡點的訓練過程更加平穩可靠。

當然,這套框架目前也存在一些局限。它還只能處理"文字屬性"的圖譜,對于節點還帶有圖片、音頻等多模態信息的圖譜,尚無法支持。此外,兩個訓練階段的數據比例需要仔細調配,這個超參數的魯棒性還有待進一步研究。對于節點極多、邊極密的超大圖譜,效率問題也是未來需要面對的挑戰。

這些局限并不妨礙這項研究所指向的方向:讓AI像有經驗的偵探一樣,在復雜的關系網絡中既能主動調查,又能在證據充分時果斷作判。這對于依賴關系數據的金融風控、學術推薦、社交網絡分析等領域,都有相當直接的參考價值。有興趣深入了解技術細節的讀者,可以通過arXiv編號2604.05846查閱完整論文,代碼已在GitHub上公開,地址可通過論文內鏈接訪問。

Q&A

Q1:AgentGL和普通的圖神經網絡有什么區別?

A:圖神經網絡(GNN)擅長處理節點之間的拓撲連接關系,但對節點上的文字內容理解有限,也不能在推理過程中主動追加新的信息。AgentGL則是讓大語言模型在推理時主動調用圖譜搜索工具,邊思考邊收集證據,更像一個動態調查的過程,而不是一次性讀完卷宗就下結論。兩者的核心差別在于:GNN是"靜態聚合",AgentGL是"動態導航"。

Q2:強化學習在AgentGL里具體是怎么工作的?

A:AgentGL不需要人工標注"第一步該用哪個工具、第二步該用哪個工具"這種逐步驟的監督數據,而是讓模型自己嘗試不同的搜索策略,最后根據答案對不對來給整條推理路徑打分。打分高的路徑被鼓勵重復,打分低的被抑制。兩個訓練階段分別用不同的獎勵組合引導模型先學會用工具、再學會適可而止。

Q3:圖譜條件課程學習對訓練有多大幫助?

A:實驗表明,GCCL能加快獎勵收斂速度、減少訓練中的波動,并帶來約0.65%的準確率提升。更關鍵的是,它讓模型在第二訓練階段能夠更穩定地維持較低的搜索次數,而不是在訓練后期又退回到大量搜索的狀態。這個機制的優勢在于完全依賴圖譜自身的拓撲和語義屬性來估算難度,無需額外的人工標注或昂貴的預實驗。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
連車企的名字都不敢報道,這樣的新聞有什么意義

連車企的名字都不敢報道,這樣的新聞有什么意義

林中木白
2026-04-21 15:51:28
廣東“美女主持”李泳:做貪官情婦被判3年,出獄后依然風光無限

廣東“美女主持”李泳:做貪官情婦被判3年,出獄后依然風光無限

墨羽怪談
2026-04-22 03:55:10
河北一地用“冰紅茶”澆灌農作物 已持續幾年 自己不吃售賣

河北一地用“冰紅茶”澆灌農作物 已持續幾年 自己不吃售賣

原某報記者
2026-04-21 17:49:54
有些品牌的壞,是從娘胎里帶出來的那種壞

有些品牌的壞,是從娘胎里帶出來的那種壞

細雨中的呼喊
2026-04-21 21:19:33
中方不再伺候了!對荷光刻機優待全部取消,450億芯片不做了!

中方不再伺候了!對荷光刻機優待全部取消,450億芯片不做了!

錯過美好
2026-04-21 19:01:41
蘋果在印度養了9年,三哥終于下刀收割了!380億天價罰單來了

蘋果在印度養了9年,三哥終于下刀收割了!380億天價罰單來了

阿晪美食
2026-04-21 15:56:15
女子穿漢服乘地鐵被拒后吐槽:我們是中國人又不是日本人

女子穿漢服乘地鐵被拒后吐槽:我們是中國人又不是日本人

映射生活的身影
2026-04-21 15:27:03
關鍵先生!官方:亞歷山大當選年度最佳關鍵球員

關鍵先生!官方:亞歷山大當選年度最佳關鍵球員

懂球帝
2026-04-22 06:55:26
0-3!11.7億豪門5連敗0進球 114年恥辱紀錄誕生 歐冠門票漸行漸遠

0-3!11.7億豪門5連敗0進球 114年恥辱紀錄誕生 歐冠門票漸行漸遠

狍子歪解體壇
2026-04-22 04:59:21
震驚!濟南一國企總工的優質男,將未接種新冠疫苗列為擇偶硬條件

震驚!濟南一國企總工的優質男,將未接種新冠疫苗列為擇偶硬條件

火山詩話
2026-04-21 08:54:26
中國高校只剩7年窗口期 學生數量斷崖式塌方后一半高校都得死

中國高校只剩7年窗口期 學生數量斷崖式塌方后一半高校都得死

六子吃涼粉
2026-04-20 19:10:49
格力回應鋁線電機爭議:相關工程機已停產,海信稱靠多三兩銅多500元時代已終結

格力回應鋁線電機爭議:相關工程機已停產,海信稱靠多三兩銅多500元時代已終結

紅星資本局
2026-04-21 20:40:16
庫明加登老鷹海報扎心科爾!美媒曝主帥信任差距大:還曬分數對比

庫明加登老鷹海報扎心科爾!美媒曝主帥信任差距大:還曬分數對比

顏小白的籃球夢
2026-04-21 15:40:44
伊朗外長:美國封鎖港口是戰爭行為 伊朗能夠“化解限制”

伊朗外長:美國封鎖港口是戰爭行為 伊朗能夠“化解限制”

環球網資訊
2026-04-22 06:13:40
俄羅斯刪除20年法院數據:審判記錄一夜清空,戰爭信息正在被封住

俄羅斯刪除20年法院數據:審判記錄一夜清空,戰爭信息正在被封住

桂系007
2026-04-21 23:55:34
特朗普宣布延長對伊朗停火

特朗普宣布延長對伊朗停火

財聯社
2026-04-22 04:18:10
笑麻了!長大了竟然能理解反派了,網友:現在真的能共情容嬤嬤

笑麻了!長大了竟然能理解反派了,網友:現在真的能共情容嬤嬤

夜深愛雜談
2026-04-21 20:11:53
“法院干警配偶低價拍得銀行6000萬債權”引質疑,多方回應

“法院干警配偶低價拍得銀行6000萬債權”引質疑,多方回應

澎湃新聞
2026-04-21 14:58:02
龍珠,日本男子花160萬還原布爾瑪19,簡直太絕了!

龍珠,日本男子花160萬還原布爾瑪19,簡直太絕了!

動漫心世界
2026-04-21 17:33:31
退休安排有變!公務員彈性延遲退休取消,新方案已確定

退休安排有變!公務員彈性延遲退休取消,新方案已確定

一口娛樂
2026-04-22 05:02:00
2026-04-22 08:11:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業世界
8088文章數 562關注度
往期回顧 全部

科技要聞

創造4萬億帝國、訪華20次,庫克留下了什么

頭條要聞

伊朗極限拉扯拒絕談判 特朗普宣布:延長停火期限

頭條要聞

伊朗極限拉扯拒絕談判 特朗普宣布:延長停火期限

體育要聞

一到NBA季后賽,四屆DPOY就成了主角

娛樂要聞

宋承炫曬寶寶B超照,宣布老婆懷孕

財經要聞

現實是最大的荒誕:千億平臺的沖突始末

汽車要聞

全新坦克700正式上市 售價42.8萬-50.8萬元

態度原創

時尚
游戲
手機
房產
教育

頂流復工,已判若兩人

漲價兩周即回調!索尼官方PS5數字版定價重回399美元

手機要聞

11999元!OPPO Find X9 Ultra哈蘇大地探索家大師套裝閃電售罄:黃牛加價賣

房產要聞

年薪40-50萬!海南地產圈還在猛招人

教育要聞

相似三角形與圓的壓軸題,一個視頻學會!

無障礙瀏覽 進入關懷版