![]()
這項由約翰斯·霍普金斯大學與法國巴黎理工學院電信學院聯合開展的研究,于2026年6月以預印本形式發布,論文編號為arXiv:2606.05009。研究聚焦于一個乍聽之下頗為"法律感"的問題:當你把一部復雜的法律法規丟給AI,讓它幫你算稅、判斷移民資格、或者弄清楚航空公司的行李規定時,AI到底應該把整部法規"塞進腦袋"一次性讀完,還是應該像一個真正的律師那樣,隨時翻查相關條文?兩種策略的差距,遠比你以為的要大得多。
一、一個熟悉卻被忽視的難題:法規太長,AI記不住關鍵的那一條
假設你是一名稅務律師,桌上擺著一份厚達數百頁的美國聯邦稅法。你的客戶阿麗斯問你:她2017年和丈夫共同申報,年收入36,266美元,要繳多少稅?
一個經驗老道的律師不會把整部稅法從頭背到尾,而是會直接翻到適用的條款——比如第1條(d)款關于已婚分別申報的稅率表,再去查第63條關于應稅收入的定義,最后用計算器算出答案。這個"先找條款,再推理"的過程,正是人類處理復雜規則體系的自然方式。
然而,現有的AI系統在處理這類問題時,走的卻是一條截然不同的路:把整部法規、案件事實和問題全部塞進一個超長的提示詞,讓模型在"一口氣"中完成所有工作。這種方式被研究團隊稱為"直接推理"。問題在于,法規文本往往極其冗長且互相交叉引用,大量條款對于當前具體問題毫不相關,模型很容易在海量文本中找不到真正關鍵的那幾句話,就像你被要求在一座圖書館里找一本特定的書,但不能自由行走,只能從入口一直走到出口,希望書會"自然出現在你面前"。
正因如此,研究團隊提出了一套全新的框架,名為"規范性主動推理"(Deontic Agentic Reasoning,簡稱DAR)。核心思路很簡單:不再把法規文本塞進AI的"腦子",而是把它放在一個文件夾里,讓AI像真正的律師一樣,根據需要隨時去翻查。
二、兩種截然不同的工作方式:一次性閱讀 vs. 按需查閱
研究團隊用一個直觀的對比來說明兩種方式的本質區別。
在"直接推理"模式下,模型收到的是一個巨大的提示詞,里面同時包含完整的法規文本、案件事實和問題,模型需要在一次推理中完成"閱讀理解 + 邏輯推理 + 數值計算"的全部工作。這就好比讓一個學生在閉卷考試中,憑記憶應對一道涉及數百條規則的綜合題。
在DAR模式下,情況完全不同。法規文本被存放為一個獨立的文件(statute.txt),模型只接收案件事實和問題。當模型需要查閱某個條款時,它可以主動發出指令——比如用grep命令搜索"§63"找到應稅收入的定義,用sed命令讀取文件的特定行,或者用cat命令查看某一章節。每一次查閱的結果都會被追加到模型的工作記憶中,供后續推理使用。當需要進行數值計算時,模型還可以直接運行Python代碼,就像一個律師在旁邊開著計算器一樣。
這種設計的本質,是將"查閱法規"和"推理判斷"這兩個任務解耦。模型不再需要在一片汪洋的文本中碰運氣,而是可以精準地、按需地提取自己需要的信息。研究團隊借鑒了"主動語料庫交互"(Direct Corpus Interaction)的思路——這一方法此前已在事實檢索任務中被證明有效,但在以"推理"為核心的規范性任務中是否同樣有效,此前從未有人系統驗證過。
三、測試場地與參賽選手:四類任務,九款模型,三種比較框架
為了讓實驗結論足夠可信,研究團隊選擇了DeonticBench這個專門為規范性推理設計的評測基準,涵蓋四類難度各異的任務。
第一類是SARA數值任務,要求模型根據美國聯邦稅法計算具體的稅款金額,評分標準是精確匹配的準確率,容不得半點誤差。第二類是SARA二分類任務,要求模型判斷某一法律主張是否成立,用宏平均F1值衡量。第三類是航空行李政策任務,要求模型根據各航空公司的行李收費規定,判斷特定情境下應收取的費用,同樣以準確率計分。第四類是USCIS移民行政任務,要求模型預測移民上訴案件的最終結果,用宏平均F1值衡量。
參與測試的模型共九款,橫跨開源與閉源兩大陣營。開源陣營包括來自阿里巴巴的Qwen3.5系列三款(參數量分別為35B、122B、397B)、Qwen3-Coder-480B、Qwen3-235B,以及月之暗面的Kimi K2。閉源陣營則包括OpenAI的GPT-5.1和GPT-5.2(推理努力程度設置為"無"),以及Anthropic的Claude Sonnet 4.5。
比較框架共三種:直接推理(基線)、Terminus-2(一個基礎的終端型主動框架,讓模型在沙箱環境中通過交互式終端操作文件)、以及Terminus-KIRA(在Terminus-2基礎上改進的增強版框架,專門針對模型常見的幾種失敗模式進行了修復,包括提交不完整工作、在任務未完成時錯誤地確認完成,以及在獲得新信息后無法調整計劃等問題)。
為了確保公平,每道題有10分鐘的時間預算,超時、解析失敗或框架運行錯誤的試驗均計為答錯。
四、頂級模型的逆襲:框架加持下,準確率最高飆升30個百分點
實驗結果中最引人注目的發現,來自三款閉源頂級模型在數值任務上的表現變化。
以GPT-5.2為例,在直接推理模式下,它在SARA數值任務上的準確率僅有30%。換上Terminus-2框架后,這一數字跳升至51%。而在Terminus-KIRA框架下,它進一步攀升到60%,整整翻了一倍。Claude Sonnet 4.5的軌跡同樣令人印象深刻:直接推理下36%,Terminus-KIRA下54%,漲幅接近20個百分點。GPT-5.1本身基礎就較強(直接推理54%),在Terminus-KIRA下進一步升至69%。
航空行李任務則呈現出另一番景象。GPT-5.1在直接推理下已經表現出色(86%),框架加持后依然保持在86%到89%的高位,可以說近乎飽和。GPT-5.2則從直接推理下的2%(幾乎完全失敗),在Terminus-KIRA下躍升至36%,這個漲幅簡直是天壤之別。
在分類任務上,頂級模型的表現也整體呈上升趨勢。比如在SARA二分類任務中,Qwen3.5-397B(開源中最強的一款)在Terminus-KIRA下從78%提升到91%,Kimi K2從68%提升到89%,均創下各自的最高分。
研究團隊用"被誤管的天才假說"來解釋這一現象:這些頂級模型其實具備足夠的法規閱讀能力,只是在一次性塞入大量文本的傳統模式下,這種能力無法得到充分發揮。框架的作用,正是讓它們能夠以自己最擅長的方式工作——主動查閱,而非被動接收。
五、開源模型的崩塌:框架反而成了"加速錯誤"的催化劑
然而,同樣的框架套在開源模型身上,結果幾乎完全相反。
Qwen3.5-35B在直接推理下的SARA數值準確率是34%,放進Terminus-2后降到23%,進入Terminus-KIRA后更是跌至11%,比起初下降了超過20個百分點。Qwen3.5-122B的情況類似:直接推理37%,Terminus-2下20%,Terminus-KIRA下仍然是20%,沒有任何改善。
航空行李任務更是一場災難。幾乎所有開源模型在直接推理下都有一些非零的基礎表現(比如Qwen3.5-35B有14%,Qwen3.5-122B有15%),但一旦進入Terminus-2或Terminus-KIRA,準確率幾乎全部歸零。Qwen3-Coder-480B、Qwen3-235B、Kimi K2在這兩個框架下的航空任務準確率均為0或接近0。
為什么會這樣?研究團隊給出的解釋是:框架為模型提供了"多輪交互"的機會,但能否善用這個機會,取決于模型是否具備足夠的判斷力。對于頂級模型而言,多輪交互意味著能糾錯、能精準檢索;對于較弱的模型而言,多輪交互卻變成了一種"信心放大器"——模型會在錯誤的推理路徑上越走越深,用更多的文字和更多的步驟,堅定地得出同一個錯誤答案,而不是聰明地及時叫停。
這一現象在token消耗數據上得到了直觀印證。在Terminus-2框架下,Qwen3.5-122B平均每道題消耗40.1萬個token,Qwen3-235B消耗30.3萬個。相比之下,GPT-5.1平均只消耗5.5萬個,GPT-5.2消耗3.1萬個——開源模型的消耗量是頂級閉源模型的4倍以上。用更多的計算,換來更差的答案,這恰恰是"框架放大能力"這一論點的最有力佐證。
六、三款額外框架與兩種特殊方案的測試
除了Terminus-2和Terminus-KIRA,研究團隊還補充測試了Claude Code和Codex CLI這兩款框架,以及一種被稱為"遞歸語言模型"(Recursive Language Models,簡稱RLM)的特殊架構。
Claude Code的表現出乎意料地給力,尤其是對開源模型而言。在Qwen系列模型中,Claude Code在SARA數值任務上的表現,有三款模型都是所有框架中最好的(Qwen3.5-397B是例外,它在Terminus-KIRA下更強)。更關鍵的是,Claude Code是唯一能讓開源模型在航空行李任務上恢復一定準確率的框架——Qwen3.5-35B、122B、397B、Coder-480B在Claude Code下的航空準確率分別為8.8%、11.3%、10%、5%,雖然依然偏低,但至少不是零。然而,即便如此,直接推理仍然是許多弱模型在部分任務上的最強基線,Claude Code并沒有對所有情況都帶來提升。
Codex CLI的表現則比較平淡。對大多數模型來說,它的SARA數值準確率低于其他可用框架,航空任務上開源模型同樣接近歸零。研究團隊將其解讀為"Codex在數值任務上并沒有在基礎模型之上增加太多結構",行為上和直接推理差距不大。
遞歸語言模型的測試結果則有些出人意料地令人失望。這種架構由一個"監督者"模型和一個"工人"模型組成,兩者可以是同一個模型,通過最多10輪迭代、50次工人調用來協作完成任務。測試結果顯示,RLM對幾乎所有模型的SARA數值和航空任務都造成了嚴重拖累。以GPT-5.1為例,直接推理下航空準確率86%、Terminus-KIRA下89%,但在RLM下驟降至12.5%;SARA數值則從69%跌至11%。Qwen3-Coder-480B呈現出完全相同的崩潰模式。唯一表現相對穩健的是SARA二分類任務,GPT-5.1在RLM下的F1值(68.3%)與直接推理(70%)相差不大,Qwen3-Coder-480B甚至略有提升(從59.1%升至69.7%)。
七、錯誤分析:超時是真正的元兇,而非模型本身
研究團隊對所有失敗案例進行了細致的分類統計,將錯誤分為三種:超時(模型在10分鐘內未能給出答案)、運行時錯誤(框架自身出現故障)和解析失敗(模型輸出格式不符合要求)。
統計結果揭示了一個有趣的規律:閉源頂級模型在所有三個框架下的綜合錯誤率只有0.7%,幾乎沒有運行時錯誤或解析失敗,僅有極少數超時發生在Terminus-KIRA框架下。相比之下,開源模型的綜合錯誤率高達12.1%,是閉源模型的約17倍。在這些錯誤中,超時占了絕大多數(10.6%),解析失敗次之(1.5%),運行時錯誤幾乎可以忽略不計。
更值得關注的是,錯誤率隨框架復雜度的增加而顯著上升。Terminus-2框架下,開源模型的錯誤率為3.6%;Codex CLI下升至11.8%;Terminus-KIRA下則飆升至27.8%。這意味著,框架越復雜、交互輪次越多,開源模型就越容易陷入無止境的循環而超時。研究團隊的結論是:開源模型表現不穩定的根本原因,是它們的推理速度較慢、生成文本較長,導致頻繁超出時間限制,而非框架本身或模型架構的根本性缺陷。
八、研究的局限與未來的方向
研究團隊對自身工作的局限性保持了充分的清醒認識。
在規模上,當前的DAR方案把整部法規存放為單一文件,依賴模型通過grep和sed等工具自行導航。對于DeonticBench中的法規而言,這是可行的,但面對真正龐大的規則體系——比如完整的美國《國內稅收法典》或多司法管轄區的綜合監管文件——即便是頂級模型也需要翻閱大量文件內容才能定位相關條款,消耗極多的token。一個更具擴展性的設計,應該將DAR與高效的檢索系統結合起來,比如分層法規查找或學習型章節級檢索,在主動推理開始之前就先提取出相關規則集。
在覆蓋范圍上,所有實驗都基于DeonticBench這一個基準,涵蓋美國聯邦稅法、移民行政和航空行李政策三個領域。真實世界的規范性推理遠不止于此,研究結論的普適性需要在更廣泛的規則推理基準上加以驗證。
在框架設計上,研究評測的四個框架都是為通用主動任務設計的,并沒有針對法規推理進行專門優化。一個專門為規范性推理設計的框架——比如內置條款感知導航功能或自動交叉引用工具——可能會為弱模型帶來截然不同的結果。Meta-Harness這類通過外層搜索自動發現任務特定框架的元框架,或許是探索這一方向的一條可行路徑。
此外,實驗中GPT-5.1和GPT-5.2的推理努力程度被設置為"無",更高的推理努力設置可能會顯著改變頂級模型的表現,從而影響頂級與開源模型之間差距的大小。
歸根結底,這項研究告訴我們的核心信息,其實并不復雜:給AI一部法規讓它"查閱",比讓它"背誦"更聰明——但前提是這個AI本身足夠聰明,知道怎么查、查什么、什么時候停下來。對于今天最頂級的閉源模型,這套方案能帶來真實可觀的提升;對于能力稍弱的開源模型,同樣的工具卻可能適得其反,讓它們用更多時間、更多算力,更自信地犯同樣的錯誤。
這種"能力門檻效應"對所有計劃在高風險領域(稅務、法律、移民)部署AI系統的從業者來說,都是一個值得認真對待的警示:工具增強了能力,但無法創造能力。無論是否配備了主動推理框架,當前的語言模型在這些任務上的準確率依然遠稱不上可以信賴,它們是研究工具,而不是人類專業人士的替代品。
有興趣深入探索這項研究細節的讀者,可以通過論文編號arXiv:2606.05009查閱完整原文。
Q&A
Q1:DAR(規范性主動推理)和傳統的直接推理有什么區別?
A:傳統直接推理是把整部法規文本和問題一起塞進AI的提示詞,讓模型一次性完成所有工作。DAR則把法規存成獨立文件,AI根據需要隨時用grep、sed等工具主動查閱相關條款,類似于律師翻查法規而非背誦整部法典。核心區別在于:一個是被動接收大量文本,一個是主動按需檢索特定信息。
Q2:為什么開源模型在DAR框架下反而表現更差?
A:開源模型能力相對有限,給它多輪交互的機會反而成了負擔。它們不知道何時停下來,會在錯誤的推理路徑上越走越深,生成大量文字卻得出同樣的錯誤答案。數據上看,開源模型在Terminus-2框架下每題平均消耗30-40萬token,是頂級模型的4倍以上,但準確率卻更低,大量試驗因超出10分鐘時限而直接計為答錯。
Q3:DeonticBench測試的四類任務分別是什么?
A:DeonticBench包含四類任務:一是SARA數值任務,根據美國稅法計算精確稅款;二是SARA二分類任務,判斷某法律主張是否成立;三是航空行李任務,判斷特定場景下的行李收費;四是USCIS移民任務,預測移民上訴案件結果。前兩類來自美國聯邦稅法,后兩類分別來自航空公司政策和移民行政法規。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.