![]()
導語
2026年5月的一篇arXiv論文,指出各類大模型的在各個領域中的推理過程,都可視為低維流形上的受約束動力學過程。這項研究,為理解大模型思考過程提供了新視野,推理導致大模型在低維空間的宏觀因果效應更強,也可以視作因果涌現的一種表現形式。
關鍵詞:大模型、推理、動力學、低維流形、因果涌現
郭瑞東丨作者
鄭鴻盛丨審校
![]()
論文題目:Reasoning emerges from constrained inference manifolds in large language models 發表時間:2026年5月27日 論文地址:https://arxiv.org/abs/2605.08142 論文期刊:arXiv
大模型的推理是表征空間的動力學降維
大語言模型的推理能力從何而來?這個問題困擾著AI研究者、認知科學家,乃至每一個與大模型對話過的普通人。傳統對大模型的評估只看模型輸出對錯,無法洞察內部思考過程。研究者無法搞清楚為何模型能在沒有顯式推理規則的情況下表現出邏輯推理能力?
該研究選取推理常用評估數據集MMLU中的文本,該數據集包含多個領域的問題。實驗時采取無標簽的方式,只考察模型在面對問題最后一個詞元時的隱藏狀態(圖1左邊)。結果顯示,無論是哪種大小,不同類別的模型,都呈現隨網絡層數增加,表征維度自發塌縮(圖1右邊)。這種在推理過程中形成的低維結構稱為推理流形(Reasoning Manifold),推理流形的維度低,意味著概念簇分離清晰、軌跡平滑、因果強度升高。
![]()
圖1:大模型推理時內部表征維度下降
無論是社會科學,STEM還是人文領域,在多種異質刺激下,不同體系的大模型,推理軌跡內在維度的分布都趨向降低(圖2A)。圖2B顯示推理過程中低維推理軌跡與高維靜態表征共存,說明壓縮是推理過程的專門化機制,而非模型全局表達能力受限
![]()
圖2:不同模型在不同問題域上呈現出相似的低維度表征
綜上所述:大模型的推理是在高表達力的表征空間內呈現的一種低維動力學過程。推理時的動態行為既非對高維環境的彌散式探索,也非孤立表征之間的靜態映射;相反,對提示詞的表征會自組織為緊湊的流形,從而約束推理過程中內部狀態的演化軌跡。
然而,僅憑維度坍縮這一現象,尚不足以區分將穩健的與出錯的推理區分開,而這是本文接下來要處理的問題。
良好的推理需要低維表征與高信息容量
推理問題的表征維度,與該問題的推理結果之間,存在非單調的變化。如沒有低維表征,推理時對問題的表征就會像無頭蒼蠅一樣在高維空間中四處游蕩,稱為漫射探索(diffuse exploration)。低維組織確保了推理軌跡被約束在緊湊的內生子空間中,防止無關的維度噪聲干擾核心計算,這反映在圖3A中,在多數任務中,當表征維度降至某一閾值后,進一步壓縮反而可能導致性能持平或下降。
![]()
圖3:推理時表征的內在維度和信息密度及推理質量的關系
為了解釋上述現象,說明還有哪些因素決定推理質量,研究者定義了信息容量(information volume)用于量化大模型在推理過程中內部表示所承載的有效信息含量。其定義基于信息論:首先將每一層最后一個token的隱藏狀態投影到一個低維空間,然后利用微分熵(differential entropy)來刻畫這些狀態點的分布特性,最后將信息體積定義為熵的指數形式。
研究發現,隨著推理層數的加深,表征固有維度不斷下降,但信息體積(V)卻在同步上升(圖3B)。有效信息的增加,意味著更深層的模型放大任務相關的概念變化。早期層的表示維度高但信息稀疏,后期層的表示被高度壓縮卻信息密集。
![]()
圖4:表征維度(橫軸),信息容量(縱軸)與性能(顏色)的三維協同景觀
將表征維度和信息容量與推理質量放在一張圖中展示(圖4),可看到每個任務類型中,具有高推理質量的案例聚集在一個特定區域,需同時具備較低內在維度(緊湊流形)與較高信息體積(非退化信息流);位于兩個極端的模型,或因過度壓縮導致信息不足,或維度彌散導致結構松散,均呈現相對較差的推理性能。
模型的推理質量
能被推理過程的動力學特征準確預測
當大模型需要回答的問題變復雜,包含更多概念時,不同模型的推理質量出現差異。這暗示存在第三個決定模型推理質量的因素,文中稱為模型的表達力容量(Expressive Capacity),即靜態詞匯嵌入空間所能支撐的概念表征自由度。
![]()
圖5:模型表達力容量與概念多樣性及推理質量的關系
研究者通過將MMLU-Other推理任務集劃分為13種互斥的問題類型,逐步累積添加問題類型以系統性提升概念多樣性。結果發現,高表達力的模型(參數更多), 隨概念多樣性增長更緩慢;低表達力模型則需"招募"更多推理維度來編碼異質概念,導致軌跡彌散(圖5A)。
模型的表達容量就像是汽車的懸掛系統。當路面變得崎嶇(概念多樣),好的懸掛系統能夠保持車身平穩(推理維度穩定);而差懸掛系統的車輛則會被顛簸擠壓得變了形(推理維度急劇擴展)。
綜合表征固有維度、信息體積與表達力容量,該文提出了一個統一的健康推理診斷量H,該指標不依賴任何任務標簽或基準答案,僅從模型內部的推理動力學過程就能計算得出。
論文測試了包括AIME’25數學推理、GPQA-Diamond科學推理、LiveCodeBench代碼生成等一系列基準任務,發現H與基準表現之間的Spearman秩相關系數在所有測試基準上都超過了0.9(圖5B),這意味著單憑模型對提示詞內部表征的動力學演化,就足以準確預測它在各種任務上的表現。
不同領域的普世性,意味著低維流形捕獲的因果結構是任務通用的,這正是因果涌現后,宏觀變量超越微觀細節的典型體現,宏觀特征(例如H)無需外部標簽,僅通過前向傳播即可自發涌現,且比微觀具有更高的有效信息。
使用文中描述的推理健康度評估指標H,能顯著提升模型可解釋性。不僅能在大模型推理時實時評估偏離推理質量,還能精確定位模型在對問題進行表征過程中,哪一層,哪一個token開始偏離“甜點區”,從而為模型及提示詞改進提供指示,或在推理過程的早期向隱藏狀態注入引導信號,使其軌跡靠攏健康流形,從而提高輸出的正確率和穩定性。通過比較不同模型在單個推理任務上的H值,還能解釋為何它們在同一套基準任務上分數相似,但內在機制卻可能天差地別。
對于需要高可靠性的場景中,H值可作為一項關鍵的監控指標。部署微調后的大模型之前,開發者可以計算候選模型與對應基模的H值,用來評估微調效果。推理過程中,實時監控對提示詞表征的維度及信息容量,一旦偏離程度超過閾值,系統可以立即預警或拒絕回答,從而實現推理層面的實時幻覺攔截。
此外,通過引導模型改變在推理過程中對提示詞的表征流形,我們可以讓大模型生成更多樣化、更具創造性的方案,從而避免模型傾向于趨同,陷入單一的“人工智能蜂巢思維”(Artificial Hivemind),從而為大模型設計多樣化的思考方式提供干預方案。
因果涌現第七季——從理論到應用
在神經系統中意識的生成、城市交通的擁堵演化、全球產業系統的協同與失穩之中,始終潛藏著一條貫穿微觀與宏觀的因果脈絡:個體行為本身或許簡單,卻能在尺度躍遷中孕育出高度組織化、難以還原的整體結構。復雜現象并非微觀規則的線性疊加,而是源于多尺度動力學作用下逐步形成的因果組織。正是在這一背景下,因果涌現理論被提出,并在因果涌現 2.0、工程化涌現以及多尺度因果抽象等工作中推進,逐漸發展出一套融合動力學分析、信息論度量以及譜方法與人工智能工具的研究框架,從而將研究重心從“復雜性本身”轉向“因果結構如何出現、如何被度量并在現實系統中發揮作用”。
為系統梳理因果涌現領域的最新進展,北京師范大學系統科學學院教授、集智俱樂部創始人張江老師領銜發起,組織對該主題感興趣的研究者與探索者共同研讀前沿文獻、交流研究思路。讀書會將于2026年2月22日起每周日上午(創建讀書會暫定時間為10:00-22:00)線上開展,持續約10周,包含主講分享與討論交流,并提供會后視頻回放,誠邀相關領域研究者及跨學科興趣者參與。
![]()
詳情請見:
1.
2.
3.
4.
5.
6.
7.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.