无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

LLM 推理的動態短板能靠世界模型能補上嗎?

0
分享至


來源:機器之心

本文來自PRO會員通訊內容,文末關注「機器之心PRO會員」,查看更多專題解讀。


過往大模型推理優化主要圍繞語言推理鏈的結構化與搜索增強展開。但在網頁交互、工具調用等動態任務中,推理對象已從靜態文本轉向隨動作變化的環境狀態,問題本質從語言生成擴展為環境中的決策。現有 CoT、ToT 等方法仍主要在文本空間內優化推理路徑,并未對環境狀態轉移進行顯式建模。世界模型的引入正是為了彌補這一缺口,通過建模動作與狀態變化的映射關系,為 LLM-based Agent 提供環境預測能力,以支撐更穩定的決策過程。

目錄

01. 從局部自動化到全供應鏈質變,AI 如何重構傳統的勞動力與資本份額?

AGI 時代的稀缺性到底會如何重塑全球經濟的底層邏輯?全供應鏈自動化為什么會讓傳統的勞動力與資本分配模型失效? ...

02. 邁向全自動化的過渡期,人類為何終將被機器經濟排斥?

人類勞動的最后一道稀缺性防線 「關系型部門」 真的能守住嗎?「混亂的中間地帶」 會給社會帶來哪些難以預料的政治經濟學危機? ...

03. 邊緣經濟體如何避免被算力供應鏈淘汰?

AGI 創造的巨額財富該如何進行公平且可持續的社會再分配?為什么具有極高財富積累偏好的實體會主導未來的全球資本格局? ...


世界模型如何幫助 Agent 解鎖動態交互能力?

1、近年來,當 LLM 落地應用在網頁操作、工具調用、代碼運行、長時序任務規劃等動態 Agent 場景時,推理不再局限于文本生成,而是延伸至行為決策領域。然而,模型在靜態基準測試中的優異表現,與其在真實動態交互環境中的推理效果之間存在明顯差距。

① 網頁導航、代碼編輯、工具使用和長周期對話等場景均屬于動態環境,其狀態隨動作持續演化,要求模型具備前瞻預測能力,且單步誤差可能沿決策鏈逐級累積。靜態環境則通常不存在狀態變化與誤差傳遞。[1]

② 靜態評估忽略推理過程中的中斷與環境變化,會系統性高估模型在動態任務中保持推理正確性與完成任務能力的表現。在數學推理與代碼生成任務中,引入中斷或上下文變化后,模型性能最高下降可達 60%。[2]

2、圍繞提升 LLM-based Agent 推理能力的目標,業界陸續提出 CoT、Self-Consistency、ToT、LATS 等優化方法,從不同角度強化模型表現。但這些方法并未觸及核心問題。但這些優化本質上仍在文本空間內改進推理路徑,并未賦予模型預判動作后果的能力,因而無法真正解決動態環境中的推理短板。

① CoT 的單向線性推理存在結構性局限,其輸出的鏈式推理文本并不能完整還原真實的內在決策過程 。研究者進一步發現,CoT 及其推理變體在不同模型規模和基準復雜度下持續不如直接回答 。[3][4]

② ToT 和 LATS 的改進仍局限于文本空間內的路徑優化,并未對環境轉移進行顯式建模。面對網頁提交、代碼發布、API 調用這類不可逆操作,依賴此類方法的 LLM-based Agent 在實際部署中的效果有限。[5]

3、近期,EvoAgent、WebEvolver、COMAP、RWML、ProPlay 等工作嘗試通過「世界模型」賦予模型預測狀態轉移的能力,嘗試緩解動態環境中因不可逆操作與狀態追蹤困難導致的決策失效問題。

① 世界模型與前述推理優化方法的差異在于世界模型的建模對象是環境狀態轉移本身,使 LLM-based Agent 在執行動作前即具備對后果的預判能力。[6][7][8]

② EvoAgent 提出持續世界模型,使智能體在開放世界中通過自規劃與自反思完成長時程任務,無需人工干預。在 Minecraft 和 Atari 上,該方法相較現有方法平均成功率提升 105%,無效動作減少 6 倍以上。[6]

③ WebEvolver 將協同進化的世界模型引入 Web Agent 框架,在推理階段通過前瞻模擬指導動作選擇。在 Mind2Web-Live、WebVoyager 等真實網頁環境中,該方法相較現有自進化 Agent 取得了 10% 的性能提升。[7]

④ COMAP 通過閉環交互讓文本世界模型與 Agent 策略協同進化。世界模型預測候選動作的未來狀態,Agent 據此優化動作,生成的軌跡再通過自蒸餾更新世界模型。在具身任務規劃、Web 導航和工具使用基準上,COMAP 在 Qwen3-4B 上實現了 16.75% 的相對提升。[8]

⑤ RWML 通過 sim-to-real gap 獎勵在文本狀態上學習動作條件世界模型,將模擬的下一狀態與真實觀測對齊。在 ALFWorld 和 τ2 Bench 上,RWML 結合任務成功獎勵后分別比直接使用任務成功獎勵的 RL 高出 6.9 和 5.7 個點。[9]

⑥ ProPlay 提出程序性世界模型,將成功軌跡抽象為程序并在程序圖中組織,支持 Agent 在執行前預演未來的程序路徑。實驗表明該方法在環境理解與自進化能力上持續優于強基線。[10]

4、業界圍繞世界模型的討論重點集中于,動態交互任務要求模型同時具備狀態理解、結果預測和長期規劃能力。世界模型能夠為 LLM-based Agent 補上「執行前預判后果」與「脫離真實環境進行策略學習」的能力,有希望從根本上解決動態環境中因狀態追蹤困難與動作后果不可逆導致的決策失效問題。[1]

① 在推理階段,世界模型能夠根據候選動作預測后續狀態變化,并利用預測結果對動作進行驗證和篩選。WebEvolver 在推理階段引入預測機制,在真實網頁環境中較現有自進化 Agent 取得了 10% 的性能提升。[7]

② 在訓練階段,世界模型可作為虛擬環境生成交互軌跡或模擬用戶反饋,降低訓練過程對真實環境的依賴;可進一步引入動態更新機制,使世界模型與智能體策略協同優化,以緩解環境分布變化帶來的影響。[8][9]


世界模型如何優化 AI 的環境推理能力?

1、傳統 LLM-based Agent 采用反應式架構,缺乏對環境如何結構化演化與變化的顯式建模,因而在網頁導航、代碼編輯、長周期對話等動態交互任務中表現受限。近期用世界模型改善推理能力的探索分別從訓練、推理、評估等維度切入,通過賦予模型預測動作之后環境狀態如何變化的能力,實現更優的動態任務適應能力...

閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”


未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

(加入未來知識庫,全部資料免費閱讀和下載)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中足聯官宣重磅罰單!52歲于根偉禁賽5場罰5萬 辱罵+率隊圍堵裁判

中足聯官宣重磅罰單!52歲于根偉禁賽5場罰5萬 辱罵+率隊圍堵裁判

我愛英超
2026-07-02 22:05:30
早上7點 世界杯14億大戰!C羅深陷20年魔咒 必有1巨星出局

早上7點 世界杯14億大戰!C羅深陷20年魔咒 必有1巨星出局

葉青足球世界
2026-07-02 17:12:02
一路走好!1天時間4位名人被曝去世,最大78歲,最小才30歲

一路走好!1天時間4位名人被曝去世,最大78歲,最小才30歲

借你一生
2026-07-02 10:26:03
成田機場的一張廣告牌,讓日本攝影師恍惚:“瞬間以為回到了中國”

成田機場的一張廣告牌,讓日本攝影師恍惚:“瞬間以為回到了中國”

東京在線
2026-07-02 16:57:07
里子面子都丟了!管不住下半身的任素汐,一場演唱會撕下她的體面

里子面子都丟了!管不住下半身的任素汐,一場演唱會撕下她的體面

往史過眼云煙
2026-07-02 09:55:26
首都保衛戰打響后,普京發表全國講話,俄羅斯對美西方發出通牒

首都保衛戰打響后,普京發表全國講話,俄羅斯對美西方發出通牒

策前論
2026-07-02 17:21:49
“一個月600塊你要餓死他?”大學男生吃飯被偷拍,看的人心疼!

“一個月600塊你要餓死他?”大學男生吃飯被偷拍,看的人心疼!

林林先生
2026-07-01 12:30:03
從699分到愛心接力:少年向上 社會向善丨中聽

從699分到愛心接力:少年向上 社會向善丨中聽

大象新聞
2026-07-01 16:30:12
六代機,就這么明晃晃的官宣了!

六代機,就這么明晃晃的官宣了!

新動察
2026-07-02 08:25:58
韓紅一句“走個面兒”引全網聲討,這屆觀眾不伺候了

韓紅一句“走個面兒”引全網聲討,這屆觀眾不伺候了

可達鴨面面觀
2026-07-02 19:44:03
曝38歲德國主帥下課 足協開會3小時要求他辭職 愿付700萬歐補償金

曝38歲德國主帥下課 足協開會3小時要求他辭職 愿付700萬歐補償金

我愛英超
2026-07-02 21:40:07
80%變0!里奇·保羅曝光詹姆斯離湖心路

80%變0!里奇·保羅曝光詹姆斯離湖心路

籃壇第一線
2026-07-02 00:47:17
地鐵吐血女孩半月內多次收到病危通知單,當事人:自己的生命已經進入倒計時,但還是希望能夠有人關注到自己手里仍在運行的公益項目

地鐵吐血女孩半月內多次收到病危通知單,當事人:自己的生命已經進入倒計時,但還是希望能夠有人關注到自己手里仍在運行的公益項目

瀟湘晨報
2026-07-02 16:32:20
賈玲直言自己又活過來了,大方承認體重反彈了,坦言不再逼自己極端自律,活得太通透了

賈玲直言自己又活過來了,大方承認體重反彈了,坦言不再逼自己極端自律,活得太通透了

背包旅行
2026-07-02 11:45:23
西安賽格墜樓熱搜刷屏:我看到謀生的嚴總,走上絕路時的無助

西安賽格墜樓熱搜刷屏:我看到謀生的嚴總,走上絕路時的無助

李晚書
2026-07-02 18:44:26
故意剝奪伊朗隊勝利!伊朗裔美國專家起訴國際足聯,索賠10億美元

故意剝奪伊朗隊勝利!伊朗裔美國專家起訴國際足聯,索賠10億美元

全景體育V
2026-07-02 21:38:20
成都一女子不洗手抱孫子,兒媳怒斥不衛生,兒子一拳打面中,母親揚言要兒子坐牢,兒子卻說:她活該!6年后現狀曝光...

成都一女子不洗手抱孫子,兒媳怒斥不衛生,兒子一拳打面中,母親揚言要兒子坐牢,兒子卻說:她活該!6年后現狀曝光...

背包旅行
2026-07-02 14:33:11
中國臺灣演員陳昊森承認與湖北女演員蘭西雅相戀,目前已交往超過半年,兩人曾合作電影

中國臺灣演員陳昊森承認與湖北女演員蘭西雅相戀,目前已交往超過半年,兩人曾合作電影

極目新聞
2026-07-02 22:47:55
加息,突變!美國重磅數據出爐!美股、黃金、比特幣全線拉升

加息,突變!美國重磅數據出爐!美股、黃金、比特幣全線拉升

證券時報
2026-07-02 21:53:03
扎哈羅娃:馮德萊恩是個“出色的騙子”

扎哈羅娃:馮德萊恩是個“出色的騙子”

參考消息
2026-07-02 14:14:08
2026-07-03 02:28:49
人工智能學家 incentive-icons
人工智能學家
人工智能領域權威媒體
4864文章數 37483關注度
往期回顧 全部

科技要聞

馬斯克不承認,但SpaceX就該造AI手機

頭條要聞

商戶在西安賽格商場墜亡 好友:他曾變賣門店發工資

頭條要聞

商戶在西安賽格商場墜亡 好友:他曾變賣門店發工資

體育要聞

韓國人,為什么恨透了洪明甫?

娛樂要聞

眾星祝福祖國,曾沛慈原形畢露?

財經要聞

千億茶市場無贏家:瀾滄巨虧 八馬停"蹄"

汽車要聞

有純電有增程 還有二代VLA支持 小鵬MONA L03預售價14.38萬起

態度原創

教育
家居
房產
藝術
時尚

教育要聞

初二期末只在校內第120名、第125名,四年后在全省站到了狀元榜眼

家居要聞

傳奇筑 日常詩

房產要聞

稀缺預警!海岸線200米+限墅令下,海南「絕版硬通貨」來了!

藝術要聞

一念天堂,一念地獄:你的心是什么樣,世界就什么樣

這個夏天,你一定吃過她們的瓜

無障礙瀏覽 進入關懷版