![]()
李航,張少華,林苑
我們每天都在使用大語言模型(Large Language Model,LLM)。一個明顯的感受是,它們似乎真的能夠理解我們的語言,雖然有時也會出現幻覺。另一方面,觀察 LLM 輸出的思維鏈,也就是其推理過程的語言表示,我們會感到它們好像真的能像人一樣思考。
最近字節跳動的李航、張少華、林苑發表了一篇文章。論述:LLM 的語言和思考能力是怎樣的能力?這些能力是如何通過其實現原理和方法、乃至工作機制形成的?
- 全文鏈接:https://github.com/hangli-hl/AI-Articles/tree/main
LLM 技術是人類創造出來的,其實現原理是清楚的,但其工作機制(Mechanics)仍未被充分理解。LLM 規模極其龐大,工作機制極其復雜,給對其能力的研究帶來了很大困難。
ChatGPT 問世以來,已有大量關于 LLM 機制和特性的研究,特別是近年關于工作機制(或可解釋性)的研究。這些工作從不同角度對這一 AI 的核心課題給出了一定程度的回答。但仍有許多問題有待今后的研究。
該文章將對 LLM 的基本原理和實現方法做了總結,也對 LLM 工作機制的研究進行簡單的介紹,包括字節跳動做的 LLM 記憶機制的工作;在此基礎上,對 LLM 的能力形成提出自己的看法。
引用:LLM記憶機制論文:Shaohua Zhang, Yuan Lin, Hang Li, Memory Retrieval and Consolidation in Large Language Models through Function Tokens, 2025. https://arxiv.org/abs/2510.08203
1 主要觀點
文章闡述了以下主要觀點。
- LLM 學習到的是語言使用和推理的模式,重要的是學到了其高階模式。LLM 的學習屬于機器學習,其學習得到的內容本質上是數據中的統計規律,或者說數據中的模式(Patterns)。語言數據內容豐富,包含了詞匯、語法、語義、語用信息和世界知識。我們可以看到,LLM 不僅學習到了與詞匯和語法相關的低階模式,而且也學習到了與語義、語用和世界知識相關的高階模式(Higher Order Patterns)。之前的語言模型往往做不到這一點,而這正是 ChatGPT 以及后續的 LLM「涌現」出來的能力。因此,認為 LLM 僅僅學到了語言的形式而沒有學到內容的觀點(例如后述喬姆斯基的看法)并不能令人信服。
- 可以用 Next Token Prediction (NTP) 來概括其基本實現原理,但整體能力是由策略、模型、算法及數據這幾個要素共同決定的。LLM 的學習和推理的過程是 NTP,但這只是表面的形式,其具體的實現方法以及其特點更為重要。預訓練中使用的極大似然估計(等價于數據壓縮)是估計詞元序列數據的概率分布。后訓練的強化學習旨在微調模型,使其成為最優詞元序列生成的策略函數。作為模型的 Transformer 具有極強的語言和知識表示能力。隨機梯度下降的優化算法則能幫助找到具有良好泛化性的解。LLM 的關鍵在于對這些技術的系統整合與規模化實現。有觀點將 LLM 的成功簡單歸因于 NTP,這是過于簡單化的理解。
- LLM 的內部機制已得到一定的解析和理解。近年 LLM 可解釋性研究取得了一定進展,現在 LLM 對我們來說已不再完全是黑盒。LLM 中的特征可以通過 SAE 等工具提取出來,特征之間形成的回路也可以利用 CLT 等工具追蹤。字節跳動最近的工作進一步揭示了 LLM 中特征在學習過程中被記憶、在推理中被檢索的規律。隨著未來研究的不斷深入,LLM 的工作機制會越來越多地被我們解析和理解。
2 LLM 的工作機制
LLM 的研究可以從三個視角進行:機器學習方法與理論、外部提示實驗分析、內部工作機制研究。若將 LLM 比作人腦,工作機制的研究則對應著腦科學實驗。
2.1 特征疊加
神經網絡的每一層上都可能存在著「特征疊加」(Superposition)現象。傳統的觀點認為,一個神經元表示一個特征。然而,大量實驗表明,這種理想化的情況在實際網絡中比較少見。相反,神經元與特征之間往往呈現的是多對多的對應關系:即一個神經元參與表示多個特征,一個特征由多個神經元共同表示。
![]()
圖 1:LLM 的語言和思考能力、工作機制、實現原理和方法之間的關系。
Anthropic 研究團隊提出了特征疊加假說(Superposition Hypothesis)。其核心思想是:通過特征疊加,神經網絡的一層神經元可以近似表示遠大于其數量的特征,代價是特征之間存在一定程度的干擾。
神經網絡的一層(稱為實際層)可以表示為:
![]()
![]()
![]()
其次,在訓練過程中,神經網絡通過梯度下降最小化損失函數。當網絡面臨「表示盡可能多的特征」與「使用盡可能少的神經元」這兩個目標時,特征疊加成為一種自然的優化結果。另外,ReLU 激活函數的使用也促進了特征向量的稀疏化,因為較弱的激活值會被截斷為零。
上述特征疊加假說的合理性,已在 Anthropic 的玩具模型(toy model)模擬實驗中得到驗證,并在后續稀疏自編碼器(Sparse Autoencoder)的開發與應用中獲得了進一步的支持。
2.2 SAE:特征分析
稀疏自編碼器(Sparse Autoencoder,SAE)可以用于分析神經網絡,發現其中具有可解釋性的特征。在 LLM 的可解釋性研究中,通常將其應用于 Transformer 的殘差流,即在每層的輸出表示向量上。
SAE 與特征疊加理論形成了互補關系。特征疊加可以被視為一種壓縮過程:模型隱式地通過高維且稀疏的特征向量對輸入向量進行表示。而 SAE 則可以被視為一種「解壓」方法:將輸入向量分解為高維且稀疏的特征向量。這種「壓縮—解壓」的關系,使 SAE 成為研究和分析特征疊加現象的重要工具。
SAE 由編碼器(Encoder)和解碼器(Decoder)組成。首先,編碼器通過非線性變換將輸入向量轉換為高維且稀疏的特征向量:
![]()
![]()
通過 SAE 得到的稀疏激活特征與特征疊加理論的預測一致,即模型可能將遠多于神經元數量的潛在概念編碼在神經元中。例如,研究者在對大語言模型進行分析時,已經成功提取出數十萬到百萬量級的特征,其中一些特征具有明顯的語義含義,例如與實體(如「金門大橋」)或行為(如「諂媚」,Sycophancy)相關的特征。
分析表明,大語言模型中的特征往往呈現出一定的層次化結構:淺層基本是表示輸入的詞法與簡單語法的特征;中間層有大量復雜語法和基本語義的特征;深層主要是復雜語義、推理實現和輸出表達的特征。
2.3 記憶機制
字節跳動的工作提出了功能詞元假說,揭示了 LLM 的記憶機制的基本特點 。功能詞元假說(Function Token Hypothesis)認為,LLM 中特征的記憶是圍繞著功能詞元展開的,特征在一個上下文的檢索,也是通過功能詞元進行的。
功能詞元是指在訓練語料中出現頻率最高的詞元,大部分對應于語言學中的功能詞,在語法和上下文連接上起著關鍵作用。例如,冠詞「the」、標點符號(逗號、句號)、換行符等。與之相對的是內容詞元,表達明確且豐富的語義信息。統計表明,在大規模預訓練語料中,前 100 多個高頻詞元就占了所有詞元出現次數的大約 40%。
在 LLM 的預訓練階段,學習過程呈現出以功能詞元為中心的顯著特點。通過將訓練損失按照功能詞元和內容詞元的四種組合進行分解觀察,結果發現,「功能詞元 → 內容詞元」的損失函數下降得最慢。也就是說,根據功能詞元來預測下一個內容詞元是最困難的。從語言學的角度看,這是合理的,因為功能詞元往往標志著前一個語言單元(Chunk)的結束,要預測它之后的內容詞元,需要對從開頭到當前位置的整個上下文有準確的理解。可以推斷,正是這種最難的預測任務,成為了驅動模型優化的主導力量。
另一個發現是功能詞元在訓練的過程中能激活大部分特征(在不同的上下文激活不同的稀疏特征)。將功能詞元和特征之間建立二部圖。如果一個功能詞元在某個上下文激活了某個特征,就在兩者之間建立一個邊。隨著訓練的深入,二部圖上的邊不斷增加。最后,少量功能詞元能與大部分特征之間建立聯系,前 10 個高頻詞元激活 70% 的特征,也就是說,這些功能詞元能(在不同的上下文)激活大部分特征。這里也存在著冪律分布。
在推理過程中,功能詞元發揮著記憶檢索的核心作用。它們能從上下文中動態地激活最具預測性的特征,從而指導下一個詞元的生成。例如,如圖 3 所示,當提示為「Answer the question in Chinese: What is the capital of Russia?」時,功能詞元(如冒號「:」和換行符)會激活上下文中「用中文回答」和「俄羅斯」等特征,同時抑制無關特征,最終引導模型用中文生成答案「莫斯科」。這種動態的特征選擇與組合能力,正是功能詞元區別于內容詞元的關鍵特性。
![]()
圖 3:LLM 推理過程中功能詞元發揮著記憶檢索的核心作用。
功能詞元之所以在 LLM 中發揮如此關鍵的作用,是訓練目標、學習算法、模型架構和語言特性共同作用的結果。首先,下一詞元預測的訓練目標(交叉熵損失)要求模型最大化預測準確性,而梯度下降算法總是優先降低損失最大的部分。其次,Transformer 架構中的前饋網絡層能將知識(特征)進行很好的表示和記憶,自注意力層能將低階的知識(特征)有效地組合成高階的知識(特征)。最后,自然語言本身的結構特性起到了決定性作用,文本總是被功能詞元分割成嵌套的 Chunk(可以是短語、句子或段落)。因此,對功能詞元之后的預測,需要理解從文本開頭到該位置的整個上下文語義。這是一項極具挑戰性的任務,促使功能詞元在訓練中獲得連接大部分特征的能力,并在推理時重新激活最具預測性的特征。
功能詞元假說對 LLM 訓練實踐具有深刻啟示。其中最重要的一點是訓練數據的格式至關重要。多項研究的結果印證了這一點。在后訓練階段,僅需少量訓練步驟就能顯著提升模型的指令遵循、思維鏈推理等能力。這可能是因為后訓練通過調整功能詞元的激活模式,激活了預訓練期間已經習得的特征。例如,功能詞元(如「thus」)在強化學習訓練中能夠顯著提升推理性能。
2.4 CLT:回路分析
回路(Circuit)是指在 LLM 中跨層連接特征的計算圖,用于表示模型中的特征是如何被激活和傳播的。因為 SAE 只能看到單層的特征,具有較大的局限性。為了分析跨層的特征的連接和影響關系,研究者提出了 CLT(Cross Layer Transcoder,跨層轉碼器)方法。
CLT 的工作原理是:以某一層的殘差流 作為輸入,模型將其映射到后續各層的殘差流 。通過這種方式,CLT 能夠學習到一個跨層對齊的特征字典,捕捉不同層之間的特征影響關系。
CLT 在每一層都有一個類似 SAE 的特征抽取模塊,但其優化目標有很大不同。每一層的輸出是復現的后續各個層的殘差流。它由非線性變換(對應編碼器)、線性變換(對應跨層映射)以及線性解碼變換組成:
![]()
為了提高歸因圖的可解釋性,采用剪枝技術對圖進行精簡。通過設置閾值,只保留激活強度和貢獻度顯著的節點和邊。進一步使用梯度回傳,識別對最終輸出貢獻最大的路徑。得到的精簡歸因圖能夠更清晰地展示模型中的特征激活和推理路徑,揭示模型在特定場景中的核心特征回路。
![]()
圖 4:基于 CLT 構建的歸因圖,用于分析 LLM 的內部計算機制。來源:anthropic blog:https://transformer-circuits.pub/2025/attribution-graphs/methods.html
3 LLM 的語言理解和推理
3.1 LLM 的能力
3.1.1 高階模式
從其行為表現來看,大語言模型已展現出人類同等以上的語言與推理能力。以圖靈測試為衡量標準,即考察其在對話中是否無法與人類區分,LLM 已達到了人類水平。
LLM 所習得的不僅限于語言的低階模式,更涵蓋了語言與推理的高階模式。這一點在我們日常使用 LLM 時可以得到直觀驗證。例如,LLM 能夠理解并執行「喜馬拉雅山有多高,用英文回答」這類指令,體現了其語用能力;它還能夠辨析「金門大橋與金拱門的關系」這類涉及概念異同的問題,顯示出語義理解與世界知識的整合能力。
從內部機制的分析角度看,「金門大橋」、「諂媚」等概念特征在模型中的存在,同樣揭示了 LLM 具備語義與語用層面的理解能力。
喬姆斯基曾批評 LLM 僅學習到語言的表層統計規律。然而,以上事實表明,這一判斷并不成立。不過,這并不意味著 LLM 與人類語言能力完全等同。事實上,LLM 的語言機制與人類大腦存在顯著差異。例如,人腦的語言理解依賴于布洛卡區與韋尼克區兩個腦區的協同工作:前者主要負責語法處理,后者則承擔詞匯處理功能。
3.1.2 整體機制
大語言模型(LLM)的整體工作機制可以從訓練方式、策略、算法和模型來理解(見圖 5)。其訓練方式通常包括預訓練和后訓練兩個階段,并通過兩步訓練融合,使模型在同一體系中同時具備語言理解、生成與推理能力。在機制上,LLM 基于自回歸預測,即根據已有上下文逐步預測下一個詞,這一過程也可以看作一種序列決策過程。
![]()
圖 5:LLM 的機制可以從訓練方式、策略、算法和模型來理解。
在預訓練階段,模型通過大規模語料學習統計規律,給定足夠長的上文,下一個詞元的概率分布往往會更加集中;而在后訓練階段,通過人類反饋或策略優化,使模型在相同上下文下更傾向生成最合理、最符合人類偏好的下文。
從技術實現上看,學習策略負責定義預測目標和優化方向,算法用于調整模型參數以達到最優目標,而模型結構則決定了表達能力,通過自注意力機制實現特征組合,通過前饋網絡進行特征檢測(非線性變換),并通過多層結構形成層次化表示。這些都對 LLM 的類人語言和推理能力起著重要作用。
模型性能的提升還體現出明顯的規模效應:隨著數據量、參數規模和計算資源的增加,模型能力會產生質的飛躍。同時,數據質量和訓練設計(例如高質量語料和系統提示設計)也對效果至關重要。
這樣訓練得到的 LLM 中形成了大量的特征,表示著各種不同的概念,根據不同的上下文,這些不同的特征被激活,動態形成回路,實現復雜的語言處理和推理機制。
3.2 與人類能力的比較
表 1 對比了 LLM 與人類的能力。可以看出,LLM 在語言與推理任務上已具備與人類相當甚至超越人類的水平。然而,在其他能力維度上,兩者不僅機制可能存在根本差異,其性能也并非簡單可比。下面對此進行簡要說明與討論。
![]()
表 1: LLM 與人類能力比較
幻覺本質源于對事實的判斷錯誤。LLM 自身無法解決幻覺問題。因為它學習的是語言數據中的統計規律。理論證明,在一定假設條件下,語言生成過程中一定會以一定概率產生幻覺。幻覺問題可通過其他機制加以緩解,比如,檢索增強生成(RAG)。
人的思考包含多個方面,不僅涉及語言、推理和數學,還與五種感官(視覺、聽覺、觸覺、嗅覺、味覺)以及運動系統密切相關。具身認知假說認為,思考的過程并非純粹的符號運算,而是基于身體的感知運動經驗,在心智中進行模擬。當前的多模態大語言模型(MLLM)能夠將語言推理與視覺、聽覺等信息進行關聯處理,但其推理過程通常發生在語言表示空間。這種處理方式與人類基于具身體驗的、豐富的、有意識的思考有著本質區別。
最近也有一些工作嘗試進行多模態推理,讓模型能夠「邊看邊想」;但這些方法仍屬于比較初步的探索。因此,從具身認知的角度看,MLLM 的思考能力與人類仍有顯著差距。
LLM 既不是基于形式邏輯規則(如命題邏輯)進行推理,也不是按照計算規則進行算術運算。它可以通過其生成機制模擬,呈現出一定的啟發式推理和計算能力,但在處理復雜問題時,由于缺乏嚴謹性,容易產生錯誤。因此,LLM 在這方面存在局限性。
LLM 是否有創造力,還是一個開放式的問題,這也依賴于對創造力的定義。創新分漸進式創新和顛覆性創新。通過觀察可以發現,LLM 應該也具備漸進式創新能力。而顛覆式創新,如相對論理論的建立,LLM 是否能夠做到,目前尚無定論。Ilya Sutskever 認為 LLM 可以做插值(interpolation),但外推(extrapolation)是開放問題,也是類似的想法。
LLM 并不存在對應人的意識機制,雖然我們會感到與 LLM 對話時有與真人交互的感覺。意識是指人的心智中感受到的對內部身體和外部環境的知覺。意識是清醒時人腦處于的一種狀態,與其相對的其他狀態是深度睡眠、昏迷、死亡。意識是主觀的,是每個人以自我為中心的精神活動,對我們每個人來說自己的意識是持續的、一貫的、穩定的。同時,意識又是客觀的,它對應著人腦神經系統的高層次處理,由人腦神經系統的低層次處理支撐。全局工作空間理論(Global Workspace Theory)認為意識是腦內信息的全局廣播。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.