无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

約翰斯·霍普金斯大學讓AI"查閱法規"而非死記硬背,準確率飆升30%

0
分享至


這項由約翰斯·霍普金斯大學與法國巴黎理工學院電信學院聯合開展的研究,于2026年6月以預印本形式發布,論文編號為arXiv:2606.05009。研究聚焦于一個乍聽之下頗為"法律感"的問題:當你把一部復雜的法律法規丟給AI,讓它幫你算稅、判斷移民資格、或者弄清楚航空公司的行李規定時,AI到底應該把整部法規"塞進腦袋"一次性讀完,還是應該像一個真正的律師那樣,隨時翻查相關條文?兩種策略的差距,遠比你以為的要大得多。

一、一個熟悉卻被忽視的難題:法規太長,AI記不住關鍵的那一條

假設你是一名稅務律師,桌上擺著一份厚達數百頁的美國聯邦稅法。你的客戶阿麗斯問你:她2017年和丈夫共同申報,年收入36,266美元,要繳多少稅?

一個經驗老道的律師不會把整部稅法從頭背到尾,而是會直接翻到適用的條款——比如第1條(d)款關于已婚分別申報的稅率表,再去查第63條關于應稅收入的定義,最后用計算器算出答案。這個"先找條款,再推理"的過程,正是人類處理復雜規則體系的自然方式。

然而,現有的AI系統在處理這類問題時,走的卻是一條截然不同的路:把整部法規、案件事實和問題全部塞進一個超長的提示詞,讓模型在"一口氣"中完成所有工作。這種方式被研究團隊稱為"直接推理"。問題在于,法規文本往往極其冗長且互相交叉引用,大量條款對于當前具體問題毫不相關,模型很容易在海量文本中找不到真正關鍵的那幾句話,就像你被要求在一座圖書館里找一本特定的書,但不能自由行走,只能從入口一直走到出口,希望書會"自然出現在你面前"。

正因如此,研究團隊提出了一套全新的框架,名為"規范性主動推理"(Deontic Agentic Reasoning,簡稱DAR)。核心思路很簡單:不再把法規文本塞進AI的"腦子",而是把它放在一個文件夾里,讓AI像真正的律師一樣,根據需要隨時去翻查。

二、兩種截然不同的工作方式:一次性閱讀 vs. 按需查閱

研究團隊用一個直觀的對比來說明兩種方式的本質區別。

在"直接推理"模式下,模型收到的是一個巨大的提示詞,里面同時包含完整的法規文本、案件事實和問題,模型需要在一次推理中完成"閱讀理解 + 邏輯推理 + 數值計算"的全部工作。這就好比讓一個學生在閉卷考試中,憑記憶應對一道涉及數百條規則的綜合題。

在DAR模式下,情況完全不同。法規文本被存放為一個獨立的文件(statute.txt),模型只接收案件事實和問題。當模型需要查閱某個條款時,它可以主動發出指令——比如用grep命令搜索"§63"找到應稅收入的定義,用sed命令讀取文件的特定行,或者用cat命令查看某一章節。每一次查閱的結果都會被追加到模型的工作記憶中,供后續推理使用。當需要進行數值計算時,模型還可以直接運行Python代碼,就像一個律師在旁邊開著計算器一樣。

這種設計的本質,是將"查閱法規"和"推理判斷"這兩個任務解耦。模型不再需要在一片汪洋的文本中碰運氣,而是可以精準地、按需地提取自己需要的信息。研究團隊借鑒了"主動語料庫交互"(Direct Corpus Interaction)的思路——這一方法此前已在事實檢索任務中被證明有效,但在以"推理"為核心的規范性任務中是否同樣有效,此前從未有人系統驗證過。

三、測試場地與參賽選手:四類任務,九款模型,三種比較框架

為了讓實驗結論足夠可信,研究團隊選擇了DeonticBench這個專門為規范性推理設計的評測基準,涵蓋四類難度各異的任務。

第一類是SARA數值任務,要求模型根據美國聯邦稅法計算具體的稅款金額,評分標準是精確匹配的準確率,容不得半點誤差。第二類是SARA二分類任務,要求模型判斷某一法律主張是否成立,用宏平均F1值衡量。第三類是航空行李政策任務,要求模型根據各航空公司的行李收費規定,判斷特定情境下應收取的費用,同樣以準確率計分。第四類是USCIS移民行政任務,要求模型預測移民上訴案件的最終結果,用宏平均F1值衡量。

參與測試的模型共九款,橫跨開源與閉源兩大陣營。開源陣營包括來自阿里巴巴的Qwen3.5系列三款(參數量分別為35B、122B、397B)、Qwen3-Coder-480B、Qwen3-235B,以及月之暗面的Kimi K2。閉源陣營則包括OpenAI的GPT-5.1和GPT-5.2(推理努力程度設置為"無"),以及Anthropic的Claude Sonnet 4.5。

比較框架共三種:直接推理(基線)、Terminus-2(一個基礎的終端型主動框架,讓模型在沙箱環境中通過交互式終端操作文件)、以及Terminus-KIRA(在Terminus-2基礎上改進的增強版框架,專門針對模型常見的幾種失敗模式進行了修復,包括提交不完整工作、在任務未完成時錯誤地確認完成,以及在獲得新信息后無法調整計劃等問題)。

為了確保公平,每道題有10分鐘的時間預算,超時、解析失敗或框架運行錯誤的試驗均計為答錯。

四、頂級模型的逆襲:框架加持下,準確率最高飆升30個百分點

實驗結果中最引人注目的發現,來自三款閉源頂級模型在數值任務上的表現變化。

以GPT-5.2為例,在直接推理模式下,它在SARA數值任務上的準確率僅有30%。換上Terminus-2框架后,這一數字跳升至51%。而在Terminus-KIRA框架下,它進一步攀升到60%,整整翻了一倍。Claude Sonnet 4.5的軌跡同樣令人印象深刻:直接推理下36%,Terminus-KIRA下54%,漲幅接近20個百分點。GPT-5.1本身基礎就較強(直接推理54%),在Terminus-KIRA下進一步升至69%。

航空行李任務則呈現出另一番景象。GPT-5.1在直接推理下已經表現出色(86%),框架加持后依然保持在86%到89%的高位,可以說近乎飽和。GPT-5.2則從直接推理下的2%(幾乎完全失敗),在Terminus-KIRA下躍升至36%,這個漲幅簡直是天壤之別。

在分類任務上,頂級模型的表現也整體呈上升趨勢。比如在SARA二分類任務中,Qwen3.5-397B(開源中最強的一款)在Terminus-KIRA下從78%提升到91%,Kimi K2從68%提升到89%,均創下各自的最高分。

研究團隊用"被誤管的天才假說"來解釋這一現象:這些頂級模型其實具備足夠的法規閱讀能力,只是在一次性塞入大量文本的傳統模式下,這種能力無法得到充分發揮。框架的作用,正是讓它們能夠以自己最擅長的方式工作——主動查閱,而非被動接收。

五、開源模型的崩塌:框架反而成了"加速錯誤"的催化劑

然而,同樣的框架套在開源模型身上,結果幾乎完全相反。

Qwen3.5-35B在直接推理下的SARA數值準確率是34%,放進Terminus-2后降到23%,進入Terminus-KIRA后更是跌至11%,比起初下降了超過20個百分點。Qwen3.5-122B的情況類似:直接推理37%,Terminus-2下20%,Terminus-KIRA下仍然是20%,沒有任何改善。

航空行李任務更是一場災難。幾乎所有開源模型在直接推理下都有一些非零的基礎表現(比如Qwen3.5-35B有14%,Qwen3.5-122B有15%),但一旦進入Terminus-2或Terminus-KIRA,準確率幾乎全部歸零。Qwen3-Coder-480B、Qwen3-235B、Kimi K2在這兩個框架下的航空任務準確率均為0或接近0。

為什么會這樣?研究團隊給出的解釋是:框架為模型提供了"多輪交互"的機會,但能否善用這個機會,取決于模型是否具備足夠的判斷力。對于頂級模型而言,多輪交互意味著能糾錯、能精準檢索;對于較弱的模型而言,多輪交互卻變成了一種"信心放大器"——模型會在錯誤的推理路徑上越走越深,用更多的文字和更多的步驟,堅定地得出同一個錯誤答案,而不是聰明地及時叫停。

這一現象在token消耗數據上得到了直觀印證。在Terminus-2框架下,Qwen3.5-122B平均每道題消耗40.1萬個token,Qwen3-235B消耗30.3萬個。相比之下,GPT-5.1平均只消耗5.5萬個,GPT-5.2消耗3.1萬個——開源模型的消耗量是頂級閉源模型的4倍以上。用更多的計算,換來更差的答案,這恰恰是"框架放大能力"這一論點的最有力佐證。

六、三款額外框架與兩種特殊方案的測試

除了Terminus-2和Terminus-KIRA,研究團隊還補充測試了Claude Code和Codex CLI這兩款框架,以及一種被稱為"遞歸語言模型"(Recursive Language Models,簡稱RLM)的特殊架構。

Claude Code的表現出乎意料地給力,尤其是對開源模型而言。在Qwen系列模型中,Claude Code在SARA數值任務上的表現,有三款模型都是所有框架中最好的(Qwen3.5-397B是例外,它在Terminus-KIRA下更強)。更關鍵的是,Claude Code是唯一能讓開源模型在航空行李任務上恢復一定準確率的框架——Qwen3.5-35B、122B、397B、Coder-480B在Claude Code下的航空準確率分別為8.8%、11.3%、10%、5%,雖然依然偏低,但至少不是零。然而,即便如此,直接推理仍然是許多弱模型在部分任務上的最強基線,Claude Code并沒有對所有情況都帶來提升。

Codex CLI的表現則比較平淡。對大多數模型來說,它的SARA數值準確率低于其他可用框架,航空任務上開源模型同樣接近歸零。研究團隊將其解讀為"Codex在數值任務上并沒有在基礎模型之上增加太多結構",行為上和直接推理差距不大。

遞歸語言模型的測試結果則有些出人意料地令人失望。這種架構由一個"監督者"模型和一個"工人"模型組成,兩者可以是同一個模型,通過最多10輪迭代、50次工人調用來協作完成任務。測試結果顯示,RLM對幾乎所有模型的SARA數值和航空任務都造成了嚴重拖累。以GPT-5.1為例,直接推理下航空準確率86%、Terminus-KIRA下89%,但在RLM下驟降至12.5%;SARA數值則從69%跌至11%。Qwen3-Coder-480B呈現出完全相同的崩潰模式。唯一表現相對穩健的是SARA二分類任務,GPT-5.1在RLM下的F1值(68.3%)與直接推理(70%)相差不大,Qwen3-Coder-480B甚至略有提升(從59.1%升至69.7%)。

七、錯誤分析:超時是真正的元兇,而非模型本身

研究團隊對所有失敗案例進行了細致的分類統計,將錯誤分為三種:超時(模型在10分鐘內未能給出答案)、運行時錯誤(框架自身出現故障)和解析失敗(模型輸出格式不符合要求)。

統計結果揭示了一個有趣的規律:閉源頂級模型在所有三個框架下的綜合錯誤率只有0.7%,幾乎沒有運行時錯誤或解析失敗,僅有極少數超時發生在Terminus-KIRA框架下。相比之下,開源模型的綜合錯誤率高達12.1%,是閉源模型的約17倍。在這些錯誤中,超時占了絕大多數(10.6%),解析失敗次之(1.5%),運行時錯誤幾乎可以忽略不計。

更值得關注的是,錯誤率隨框架復雜度的增加而顯著上升。Terminus-2框架下,開源模型的錯誤率為3.6%;Codex CLI下升至11.8%;Terminus-KIRA下則飆升至27.8%。這意味著,框架越復雜、交互輪次越多,開源模型就越容易陷入無止境的循環而超時。研究團隊的結論是:開源模型表現不穩定的根本原因,是它們的推理速度較慢、生成文本較長,導致頻繁超出時間限制,而非框架本身或模型架構的根本性缺陷。

八、研究的局限與未來的方向

研究團隊對自身工作的局限性保持了充分的清醒認識。

在規模上,當前的DAR方案把整部法規存放為單一文件,依賴模型通過grep和sed等工具自行導航。對于DeonticBench中的法規而言,這是可行的,但面對真正龐大的規則體系——比如完整的美國《國內稅收法典》或多司法管轄區的綜合監管文件——即便是頂級模型也需要翻閱大量文件內容才能定位相關條款,消耗極多的token。一個更具擴展性的設計,應該將DAR與高效的檢索系統結合起來,比如分層法規查找或學習型章節級檢索,在主動推理開始之前就先提取出相關規則集。

在覆蓋范圍上,所有實驗都基于DeonticBench這一個基準,涵蓋美國聯邦稅法、移民行政和航空行李政策三個領域。真實世界的規范性推理遠不止于此,研究結論的普適性需要在更廣泛的規則推理基準上加以驗證。

在框架設計上,研究評測的四個框架都是為通用主動任務設計的,并沒有針對法規推理進行專門優化。一個專門為規范性推理設計的框架——比如內置條款感知導航功能或自動交叉引用工具——可能會為弱模型帶來截然不同的結果。Meta-Harness這類通過外層搜索自動發現任務特定框架的元框架,或許是探索這一方向的一條可行路徑。

此外,實驗中GPT-5.1和GPT-5.2的推理努力程度被設置為"無",更高的推理努力設置可能會顯著改變頂級模型的表現,從而影響頂級與開源模型之間差距的大小。

歸根結底,這項研究告訴我們的核心信息,其實并不復雜:給AI一部法規讓它"查閱",比讓它"背誦"更聰明——但前提是這個AI本身足夠聰明,知道怎么查、查什么、什么時候停下來。對于今天最頂級的閉源模型,這套方案能帶來真實可觀的提升;對于能力稍弱的開源模型,同樣的工具卻可能適得其反,讓它們用更多時間、更多算力,更自信地犯同樣的錯誤。

這種"能力門檻效應"對所有計劃在高風險領域(稅務、法律、移民)部署AI系統的從業者來說,都是一個值得認真對待的警示:工具增強了能力,但無法創造能力。無論是否配備了主動推理框架,當前的語言模型在這些任務上的準確率依然遠稱不上可以信賴,它們是研究工具,而不是人類專業人士的替代品。

有興趣深入探索這項研究細節的讀者,可以通過論文編號arXiv:2606.05009查閱完整原文。

Q&A

Q1:DAR(規范性主動推理)和傳統的直接推理有什么區別?

A:傳統直接推理是把整部法規文本和問題一起塞進AI的提示詞,讓模型一次性完成所有工作。DAR則把法規存成獨立文件,AI根據需要隨時用grep、sed等工具主動查閱相關條款,類似于律師翻查法規而非背誦整部法典。核心區別在于:一個是被動接收大量文本,一個是主動按需檢索特定信息。

Q2:為什么開源模型在DAR框架下反而表現更差?

A:開源模型能力相對有限,給它多輪交互的機會反而成了負擔。它們不知道何時停下來,會在錯誤的推理路徑上越走越深,生成大量文字卻得出同樣的錯誤答案。數據上看,開源模型在Terminus-2框架下每題平均消耗30-40萬token,是頂級模型的4倍以上,但準確率卻更低,大量試驗因超出10分鐘時限而直接計為答錯。

Q3:DeonticBench測試的四類任務分別是什么?

A:DeonticBench包含四類任務:一是SARA數值任務,根據美國稅法計算精確稅款;二是SARA二分類任務,判斷某法律主張是否成立;三是航空行李任務,判斷特定場景下的行李收費;四是USCIS移民任務,預測移民上訴案件結果。前兩類來自美國聯邦稅法,后兩類分別來自航空公司政策和移民行政法規。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
這4個行業,已經發不出工資了!真的很嚴重了

這4個行業,已經發不出工資了!真的很嚴重了

細說職場
2026-06-13 14:08:51
獨行俠拒絕交易凱里?歐文的深層原因曝光,全是為了狀元弗拉格

獨行俠拒絕交易凱里?歐文的深層原因曝光,全是為了狀元弗拉格

夜白侃球
2026-06-14 13:37:12
鄭麗文這番話一放出來,火藥味一下就上來了。

鄭麗文這番話一放出來,火藥味一下就上來了。

果媽聊娛樂
2026-06-14 17:20:53
澳大利亞主帥:很多人覺得我們贏土耳其是冷門,但我們自己不這么認為

澳大利亞主帥:很多人覺得我們贏土耳其是冷門,但我們自己不這么認為

懂球帝
2026-06-14 16:44:57
對于明天周一A股,我只說3點:第一,4060點大概率是反彈的終點?

對于明天周一A股,我只說3點:第一,4060點大概率是反彈的終點?

趨勢清風俠
2026-06-14 08:46:04
炸了!2026高考作文竟出自四年級課本!說回歸課本,沒說回小學啊

炸了!2026高考作文竟出自四年級課本!說回歸課本,沒說回小學啊

娛樂的宅急便
2026-06-13 14:00:00
12000億光模塊巨頭,回應業績暴雷傳聞

12000億光模塊巨頭,回應業績暴雷傳聞

21世紀經濟報道
2026-06-14 14:12:59
黃日華回應主動上前擁抱劉德華但對方“黑臉”:演唱會結束后,他們通過電話,二人關系絕非網友所猜測

黃日華回應主動上前擁抱劉德華但對方“黑臉”:演唱會結束后,他們通過電話,二人關系絕非網友所猜測

臺州交通廣播
2026-06-13 18:19:03
突傳死訊! 臺灣知名歌手在夏威夷離世,剛剛和女友結束30年戀情

突傳死訊! 臺灣知名歌手在夏威夷離世,剛剛和女友結束30年戀情

史料布籍
2026-06-14 15:46:01
天津知名餐廳發布閉店通知...

天津知名餐廳發布閉店通知...

全接觸狐狐
2026-06-14 13:48:46
中國女排出征!機場照曝光,王夢潔好美,刁琳宇低調,龔翔宇自信

中國女排出征!機場照曝光,王夢潔好美,刁琳宇低調,龔翔宇自信

跑者排球視角
2026-06-14 14:15:01
向太再曝劉亦菲猛料,難堪一幕重現,與陳金飛真實關系早水落石出

向太再曝劉亦菲猛料,難堪一幕重現,與陳金飛真實關系早水落石出

夢醉為紅顏一笑
2026-06-14 08:58:03
張嘉益孫浩再組陜籍天團!《喜劇》選角吵翻天,這波真的贏麻了!

張嘉益孫浩再組陜籍天團!《喜劇》選角吵翻天,這波真的贏麻了!

觀察鑒娛
2026-06-14 16:02:56
震驚!女子得知被拒相親男娶“潮汕A9家庭”妻子,控訴他隱瞞家底

震驚!女子得知被拒相親男娶“潮汕A9家庭”妻子,控訴他隱瞞家底

火山詩話
2026-06-14 12:48:44
康城戰況究竟如何?烏軍真被包圍了嗎?

康城戰況究竟如何?烏軍真被包圍了嗎?

史政先鋒
2026-06-14 15:44:42
遇見小面起訴后續!索賠八千為何突然認慫,吃相難看結局大快人心

遇見小面起訴后續!索賠八千為何突然認慫,吃相難看結局大快人心

大魚簡科
2026-06-13 19:14:22
王毅成大明星了?訪問蒙古途中,蒙古人民驚嘆:中國的外長太帥了

王毅成大明星了?訪問蒙古途中,蒙古人民驚嘆:中國的外長太帥了

叮當當科技
2026-06-14 13:38:35
張雪奪第六冠,日媒集體破防:在三缸機領域,中國已經反超了日本

張雪奪第六冠,日媒集體破防:在三缸機領域,中國已經反超了日本

林子說事
2026-06-14 14:36:43
都罵董潔看走眼,但沒人知道,王大治除了外貌低配,其他全是頂配

都罵董潔看走眼,但沒人知道,王大治除了外貌低配,其他全是頂配

山谷里的怒吼
2026-06-12 13:22:54
??雨???雨???雨???!!江蘇入梅最新消息

??雨???雨???雨???!!江蘇入梅最新消息

最江陰
2026-06-14 17:05:17
2026-06-14 21:16:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業世界
8771文章數 565關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

伊朗球員受訪 反問美記者:我在美國安全嗎

頭條要聞

伊朗球員受訪 反問美記者:我在美國安全嗎

體育要聞

8年8隊奪冠,鄧肯那句話,現在還給了馬刺

娛樂要聞

鄧超攜子觀戰NBA,等等帥氣十足

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

綜合續航超1600km/零百加速4秒級 2027款星途ES預售18.99萬起

態度原創

本地
房產
親子
數碼
軍事航空

本地新聞

AK劉彰邂逅河北南大港濕地

房產要聞

海南最賺錢行業曝光!最快4年半,海口全款買三房!

親子要聞

去小院看爺爺奶奶,一見面就親的不行,還得是大孫子隔輩親啊!

數碼要聞

出貨量兩連冠:華為朱懂東稱鴻蒙平板連續兩年在國內絕對領先

軍事要聞

特朗普:美伊協議周日簽 還有終極手段

無障礙瀏覽 進入關懷版