網易首頁 > 網易號 > 正文申請入駐

約翰斯·霍普金斯大學讓AI"查閱法規"而非死記硬背,準確率飆升30%

2026-06-10 21:17:23　來源: 科技行者

天津舉報

分享至

這項由約翰斯·霍普金斯大學與法國巴黎理工學院電信學院聯合開展的研究，于2026年6月以預印本形式發布，論文編號為arXiv:2606.05009。研究聚焦于一個乍聽之下頗為"法律感"的問題：當你把一部復雜的法律法規丟給AI，讓它幫你算稅、判斷移民資格、或者弄清楚航空公司的行李規定時，AI到底應該把整部法規"塞進腦袋"一次性讀完，還是應該像一個真正的律師那樣，隨時翻查相關條文？兩種策略的差距，遠比你以為的要大得多。

一、一個熟悉卻被忽視的難題：法規太長，AI記不住關鍵的那一條

假設你是一名稅務律師，桌上擺著一份厚達數百頁的美國聯邦稅法。你的客戶阿麗斯問你：她2017年和丈夫共同申報，年收入36,266美元，要繳多少稅？

一個經驗老道的律師不會把整部稅法從頭背到尾，而是會直接翻到適用的條款——比如第1條（d）款關于已婚分別申報的稅率表，再去查第63條關于應稅收入的定義，最后用計算器算出答案。這個"先找條款，再推理"的過程，正是人類處理復雜規則體系的自然方式。

然而，現有的AI系統在處理這類問題時，走的卻是一條截然不同的路：把整部法規、案件事實和問題全部塞進一個超長的提示詞，讓模型在"一口氣"中完成所有工作。這種方式被研究團隊稱為"直接推理"。問題在于，法規文本往往極其冗長且互相交叉引用，大量條款對于當前具體問題毫不相關，模型很容易在海量文本中找不到真正關鍵的那幾句話，就像你被要求在一座圖書館里找一本特定的書，但不能自由行走，只能從入口一直走到出口，希望書會"自然出現在你面前"。

正因如此，研究團隊提出了一套全新的框架，名為"規范性主動推理"（Deontic Agentic Reasoning，簡稱DAR）。核心思路很簡單：不再把法規文本塞進AI的"腦子"，而是把它放在一個文件夾里，讓AI像真正的律師一樣，根據需要隨時去翻查。

二、兩種截然不同的工作方式：一次性閱讀 vs. 按需查閱

研究團隊用一個直觀的對比來說明兩種方式的本質區別。

在"直接推理"模式下，模型收到的是一個巨大的提示詞，里面同時包含完整的法規文本、案件事實和問題，模型需要在一次推理中完成"閱讀理解 + 邏輯推理 + 數值計算"的全部工作。這就好比讓一個學生在閉卷考試中，憑記憶應對一道涉及數百條規則的綜合題。

在DAR模式下，情況完全不同。法規文本被存放為一個獨立的文件（statute.txt），模型只接收案件事實和問題。當模型需要查閱某個條款時，它可以主動發出指令——比如用grep命令搜索"§63"找到應稅收入的定義，用sed命令讀取文件的特定行，或者用cat命令查看某一章節。每一次查閱的結果都會被追加到模型的工作記憶中，供后續推理使用。當需要進行數值計算時，模型還可以直接運行Python代碼，就像一個律師在旁邊開著計算器一樣。

這種設計的本質，是將"查閱法規"和"推理判斷"這兩個任務解耦。模型不再需要在一片汪洋的文本中碰運氣，而是可以精準地、按需地提取自己需要的信息。研究團隊借鑒了"主動語料庫交互"（Direct Corpus Interaction）的思路——這一方法此前已在事實檢索任務中被證明有效，但在以"推理"為核心的規范性任務中是否同樣有效，此前從未有人系統驗證過。

三、測試場地與參賽選手：四類任務，九款模型，三種比較框架

為了讓實驗結論足夠可信，研究團隊選擇了DeonticBench這個專門為規范性推理設計的評測基準，涵蓋四類難度各異的任務。

第一類是SARA數值任務，要求模型根據美國聯邦稅法計算具體的稅款金額，評分標準是精確匹配的準確率，容不得半點誤差。第二類是SARA二分類任務，要求模型判斷某一法律主張是否成立，用宏平均F1值衡量。第三類是航空行李政策任務，要求模型根據各航空公司的行李收費規定，判斷特定情境下應收取的費用，同樣以準確率計分。第四類是USCIS移民行政任務，要求模型預測移民上訴案件的最終結果，用宏平均F1值衡量。

參與測試的模型共九款，橫跨開源與閉源兩大陣營。開源陣營包括來自阿里巴巴的Qwen3.5系列三款（參數量分別為35B、122B、397B）、Qwen3-Coder-480B、Qwen3-235B，以及月之暗面的Kimi K2。閉源陣營則包括OpenAI的GPT-5.1和GPT-5.2（推理努力程度設置為"無"），以及Anthropic的Claude Sonnet 4.5。

比較框架共三種：直接推理（基線）、Terminus-2（一個基礎的終端型主動框架，讓模型在沙箱環境中通過交互式終端操作文件）、以及Terminus-KIRA（在Terminus-2基礎上改進的增強版框架，專門針對模型常見的幾種失敗模式進行了修復，包括提交不完整工作、在任務未完成時錯誤地確認完成，以及在獲得新信息后無法調整計劃等問題）。

為了確保公平，每道題有10分鐘的時間預算，超時、解析失敗或框架運行錯誤的試驗均計為答錯。

四、頂級模型的逆襲：框架加持下，準確率最高飆升30個百分點

實驗結果中最引人注目的發現，來自三款閉源頂級模型在數值任務上的表現變化。

以GPT-5.2為例，在直接推理模式下，它在SARA數值任務上的準確率僅有30%。換上Terminus-2框架后，這一數字跳升至51%。而在Terminus-KIRA框架下，它進一步攀升到60%，整整翻了一倍。Claude Sonnet 4.5的軌跡同樣令人印象深刻：直接推理下36%，Terminus-KIRA下54%，漲幅接近20個百分點。GPT-5.1本身基礎就較強（直接推理54%），在Terminus-KIRA下進一步升至69%。

航空行李任務則呈現出另一番景象。GPT-5.1在直接推理下已經表現出色（86%），框架加持后依然保持在86%到89%的高位，可以說近乎飽和。GPT-5.2則從直接推理下的2%（幾乎完全失敗），在Terminus-KIRA下躍升至36%，這個漲幅簡直是天壤之別。

在分類任務上，頂級模型的表現也整體呈上升趨勢。比如在SARA二分類任務中，Qwen3.5-397B（開源中最強的一款）在Terminus-KIRA下從78%提升到91%，Kimi K2從68%提升到89%，均創下各自的最高分。

研究團隊用"被誤管的天才假說"來解釋這一現象：這些頂級模型其實具備足夠的法規閱讀能力，只是在一次性塞入大量文本的傳統模式下，這種能力無法得到充分發揮。框架的作用，正是讓它們能夠以自己最擅長的方式工作——主動查閱，而非被動接收。

五、開源模型的崩塌：框架反而成了"加速錯誤"的催化劑

然而，同樣的框架套在開源模型身上，結果幾乎完全相反。

Qwen3.5-35B在直接推理下的SARA數值準確率是34%，放進Terminus-2后降到23%，進入Terminus-KIRA后更是跌至11%，比起初下降了超過20個百分點。Qwen3.5-122B的情況類似：直接推理37%，Terminus-2下20%，Terminus-KIRA下仍然是20%，沒有任何改善。

航空行李任務更是一場災難。幾乎所有開源模型在直接推理下都有一些非零的基礎表現（比如Qwen3.5-35B有14%，Qwen3.5-122B有15%），但一旦進入Terminus-2或Terminus-KIRA，準確率幾乎全部歸零。Qwen3-Coder-480B、Qwen3-235B、Kimi K2在這兩個框架下的航空任務準確率均為0或接近0。

為什么會這樣？研究團隊給出的解釋是：框架為模型提供了"多輪交互"的機會，但能否善用這個機會，取決于模型是否具備足夠的判斷力。對于頂級模型而言，多輪交互意味著能糾錯、能精準檢索；對于較弱的模型而言，多輪交互卻變成了一種"信心放大器"——模型會在錯誤的推理路徑上越走越深，用更多的文字和更多的步驟，堅定地得出同一個錯誤答案，而不是聰明地及時叫停。

這一現象在token消耗數據上得到了直觀印證。在Terminus-2框架下，Qwen3.5-122B平均每道題消耗40.1萬個token，Qwen3-235B消耗30.3萬個。相比之下，GPT-5.1平均只消耗5.5萬個，GPT-5.2消耗3.1萬個——開源模型的消耗量是頂級閉源模型的4倍以上。用更多的計算，換來更差的答案，這恰恰是"框架放大能力"這一論點的最有力佐證。

六、三款額外框架與兩種特殊方案的測試

除了Terminus-2和Terminus-KIRA，研究團隊還補充測試了Claude Code和Codex CLI這兩款框架，以及一種被稱為"遞歸語言模型"（Recursive Language Models，簡稱RLM）的特殊架構。

Claude Code的表現出乎意料地給力，尤其是對開源模型而言。在Qwen系列模型中，Claude Code在SARA數值任務上的表現，有三款模型都是所有框架中最好的（Qwen3.5-397B是例外，它在Terminus-KIRA下更強）。更關鍵的是，Claude Code是唯一能讓開源模型在航空行李任務上恢復一定準確率的框架——Qwen3.5-35B、122B、397B、Coder-480B在Claude Code下的航空準確率分別為8.8%、11.3%、10%、5%，雖然依然偏低，但至少不是零。然而，即便如此，直接推理仍然是許多弱模型在部分任務上的最強基線，Claude Code并沒有對所有情況都帶來提升。

Codex CLI的表現則比較平淡。對大多數模型來說，它的SARA數值準確率低于其他可用框架，航空任務上開源模型同樣接近歸零。研究團隊將其解讀為"Codex在數值任務上并沒有在基礎模型之上增加太多結構"，行為上和直接推理差距不大。

遞歸語言模型的測試結果則有些出人意料地令人失望。這種架構由一個"監督者"模型和一個"工人"模型組成，兩者可以是同一個模型，通過最多10輪迭代、50次工人調用來協作完成任務。測試結果顯示，RLM對幾乎所有模型的SARA數值和航空任務都造成了嚴重拖累。以GPT-5.1為例，直接推理下航空準確率86%、Terminus-KIRA下89%，但在RLM下驟降至12.5%；SARA數值則從69%跌至11%。Qwen3-Coder-480B呈現出完全相同的崩潰模式。唯一表現相對穩健的是SARA二分類任務，GPT-5.1在RLM下的F1值（68.3%）與直接推理（70%）相差不大，Qwen3-Coder-480B甚至略有提升（從59.1%升至69.7%）。

七、錯誤分析：超時是真正的元兇，而非模型本身

研究團隊對所有失敗案例進行了細致的分類統計，將錯誤分為三種：超時（模型在10分鐘內未能給出答案）、運行時錯誤（框架自身出現故障）和解析失敗（模型輸出格式不符合要求）。

統計結果揭示了一個有趣的規律：閉源頂級模型在所有三個框架下的綜合錯誤率只有0.7%，幾乎沒有運行時錯誤或解析失敗，僅有極少數超時發生在Terminus-KIRA框架下。相比之下，開源模型的綜合錯誤率高達12.1%，是閉源模型的約17倍。在這些錯誤中，超時占了絕大多數（10.6%），解析失敗次之（1.5%），運行時錯誤幾乎可以忽略不計。

更值得關注的是，錯誤率隨框架復雜度的增加而顯著上升。Terminus-2框架下，開源模型的錯誤率為3.6%；Codex CLI下升至11.8%；Terminus-KIRA下則飆升至27.8%。這意味著，框架越復雜、交互輪次越多，開源模型就越容易陷入無止境的循環而超時。研究團隊的結論是：開源模型表現不穩定的根本原因，是它們的推理速度較慢、生成文本較長，導致頻繁超出時間限制，而非框架本身或模型架構的根本性缺陷。

八、研究的局限與未來的方向

研究團隊對自身工作的局限性保持了充分的清醒認識。

在規模上，當前的DAR方案把整部法規存放為單一文件，依賴模型通過grep和sed等工具自行導航。對于DeonticBench中的法規而言，這是可行的，但面對真正龐大的規則體系——比如完整的美國《國內稅收法典》或多司法管轄區的綜合監管文件——即便是頂級模型也需要翻閱大量文件內容才能定位相關條款，消耗極多的token。一個更具擴展性的設計，應該將DAR與高效的檢索系統結合起來，比如分層法規查找或學習型章節級檢索，在主動推理開始之前就先提取出相關規則集。

在覆蓋范圍上，所有實驗都基于DeonticBench這一個基準，涵蓋美國聯邦稅法、移民行政和航空行李政策三個領域。真實世界的規范性推理遠不止于此，研究結論的普適性需要在更廣泛的規則推理基準上加以驗證。

在框架設計上，研究評測的四個框架都是為通用主動任務設計的，并沒有針對法規推理進行專門優化。一個專門為規范性推理設計的框架——比如內置條款感知導航功能或自動交叉引用工具——可能會為弱模型帶來截然不同的結果。Meta-Harness這類通過外層搜索自動發現任務特定框架的元框架，或許是探索這一方向的一條可行路徑。

此外，實驗中GPT-5.1和GPT-5.2的推理努力程度被設置為"無"，更高的推理努力設置可能會顯著改變頂級模型的表現，從而影響頂級與開源模型之間差距的大小。

歸根結底，這項研究告訴我們的核心信息，其實并不復雜：給AI一部法規讓它"查閱"，比讓它"背誦"更聰明——但前提是這個AI本身足夠聰明，知道怎么查、查什么、什么時候停下來。對于今天最頂級的閉源模型，這套方案能帶來真實可觀的提升；對于能力稍弱的開源模型，同樣的工具卻可能適得其反，讓它們用更多時間、更多算力，更自信地犯同樣的錯誤。

這種"能力門檻效應"對所有計劃在高風險領域（稅務、法律、移民）部署AI系統的從業者來說，都是一個值得認真對待的警示：工具增強了能力，但無法創造能力。無論是否配備了主動推理框架，當前的語言模型在這些任務上的準確率依然遠稱不上可以信賴，它們是研究工具，而不是人類專業人士的替代品。

有興趣深入探索這項研究細節的讀者，可以通過論文編號arXiv:2606.05009查閱完整原文。

Q&A

Q1：DAR（規范性主動推理）和傳統的直接推理有什么區別？

A：傳統直接推理是把整部法規文本和問題一起塞進AI的提示詞，讓模型一次性完成所有工作。DAR則把法規存成獨立文件，AI根據需要隨時用grep、sed等工具主動查閱相關條款，類似于律師翻查法規而非背誦整部法典。核心區別在于：一個是被動接收大量文本，一個是主動按需檢索特定信息。

Q2：為什么開源模型在DAR框架下反而表現更差？

A：開源模型能力相對有限，給它多輪交互的機會反而成了負擔。它們不知道何時停下來，會在錯誤的推理路徑上越走越深，生成大量文字卻得出同樣的錯誤答案。數據上看，開源模型在Terminus-2框架下每題平均消耗30-40萬token，是頂級模型的4倍以上，但準確率卻更低，大量試驗因超出10分鐘時限而直接計為答錯。

Q3：DeonticBench測試的四類任務分別是什么？

A：DeonticBench包含四類任務：一是SARA數值任務，根據美國稅法計算精確稅款；二是SARA二分類任務，判斷某法律主張是否成立；三是航空行李任務，判斷特定場景下的行李收費；四是USCIS移民任務，預測移民上訴案件結果。前兩類來自美國聯邦稅法，后兩類分別來自航空公司政策和移民行政法規。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.