網易首頁 > 網易號 > 正文申請入駐

最具爭議性研究：大模型中間層輸出可 100% 反推原始輸入

2025-11-12 12:55:40　來源: 大數據文摘

北京舉報

分享至

大數據文摘受權轉載自AI科技評論

作者丨鄭佳美

編輯丨馬曉寧

最近，一篇名為《Language Models are Injective and Hence Invertible》的論文在學術界和科技圈引起了廣泛討論，甚至連老馬的 Grok 官方也下場轉發。

這篇論文出自意大利羅馬第一大學（Sapienza University of Rome）的GLADIA Research Lab，文中提出了一個頗有爭議卻又耐人尋味的觀點：主流的 Transformer 語言模型在信息處理過程中幾乎不會丟失任何輸入內容，從數學意義上看，它們是可逆的。

換句話說，模型的隱藏狀態并不是模糊的語義壓縮，而是一種能夠完整保留輸入信息的精確重編碼。這一發現不僅挑戰了人們對語言模型“理解”機制的傳統認識，也讓研究者開始思考一個更具體的問題：這種理論上的信息保持，在實際模型中是否真的存在？

為了回答這一問題，作者設計并實施了一系列大規模實驗，試圖從實證角度驗證 Transformer 的可逆性與單射特性。

Transformer 幾乎不會丟失信息

這篇論文的核心實驗結果指出：主流 Transformer 語言模型在實際應用中幾乎總是單射的（injective），即不同的輸入文本會被映射到完全不同的隱藏狀態表示，沒有發生任何“碰撞”現象。

研究者在六個主流模型（GPT-2、Gemma-3、LLaMA-3.1、Mistral、Phi-4 和 TinyStories）上進行了超過50 億次輸入對比測試，在所有模型的各個層中都未發現兩條不同輸入對應相同隱藏表示的情況，驗證了模型在理論上所具備的單射性在實踐中同樣成立。

此外，作者提出的SIPIT（Sequential Inverse Prompt via Iterative Updates）算法成功地從模型的隱藏狀態中以 100% 準確率重建了原始輸入文本，并且在運行效率上顯著優于傳統方法。

無論是自然語言文本還是代碼樣本，SIPIT 都能在理論保證的線性時間內完成精確恢復。這一結果表明，Transformer 模型不僅在數學上是信息保持的系統，在實際訓練與推理中也確實保留了輸入的全部信息，驗證了語言模型的可逆性與結構性無損特征。

Transformer 的自我驗證

這項研究的實驗經過分為兩個主要階段：首先通過大規模實驗驗證 Transformer 模型在實踐中是否真的具備單射性，其次通過新的算法驗證模型是否能夠被完全反演。整個實驗設計嚴密、層層遞進，目的是從理論和實證兩個層面證明語言模型不會丟失輸入信息。

在實驗準備階段，研究團隊選擇了六種具有代表性的語言模型，包括 GPT-2、Gemma-3、LLaMA-3.1、Mistral、Phi-4-mini 和 TinyStories。這些模型涵蓋了不同規模與訓練方式的 Transformer 架構。

為了保證實驗的全面性，研究者從多個語料庫中抽取樣本數據，包括 Wikipedia、C4、The Pile 以及 GitHub 上的 Python 代碼數據，共計十萬條輸入樣本，內容既包含自然語言文本，也包含編程語言代碼。所有模型均在統一的硬件和軟件環境下運行，確保實驗結果可復現且無外部干擾。

實驗的第一部分旨在檢驗模型是否真的對不同輸入保持區分能力。研究者將每一條輸入依次輸入模型，提取各層中最后一個 token 的隱藏狀態，并計算所有樣本兩兩之間的歐氏距離。

如果出現距離小于 10?? 的情況，就意味著模型把兩個不同輸入映射到了幾乎相同的表示上，即發生“碰撞”。經過超過五十億次樣本對比，結果顯示無論模型規模或層數，所有隱藏狀態之間的最小距離都遠高于這一閾值，沒有出現任何碰撞現象。

進一步的測試中，研究者挑選出十條語義最相近的樣本，針對這些樣本生成全部可能的組合輸入，并計算了超過三千億對比樣本的結果。即便在這樣極端的條件下，模型仍未出現任何隱藏狀態重合的情況。

這表明，Transformer 模型在實際運行中確實能保持輸入信息的唯一性。

第二部分實驗驗證模型是否具有可逆性，即能否從隱藏狀態恢復出原始輸入文本。研究者提出了一種名為 SIPIT 的新算法，其思想基于 Transformer 的因果結構：第 t 個隱藏狀態僅依賴前 t?1 個 token 和當前 token，因此可以從隱藏狀態逐步推理出輸入序列。

為了驗證算法的有效性，研究者僅將隱藏狀態作為輸入，不提供任何原始文本，讓算法從中反推出完整輸入。實驗結果顯示，SIPIT 能在理論保證的線性時間復雜度內，以百分之百的準確率恢復出所有原始輸入，并且運行速度顯著快于傳統的暴力枚舉方法。

無論是自然語言文本還是代碼數據，算法都能高效、準確地完成輸入重建。

在驗證模型結構特性的同時，研究團隊還分析了訓練過程對單射性的影響。他們從數學上證明，梯度下降和隨機梯度下降都是可逆的連續變換，每一次參數更新都會保持模型參數分布的絕對連續性，不會讓模型坍縮到非單射狀態。

也就是說，Transformer 模型從初始化到訓練完成的整個過程中，都能保持這種“信息不丟失”的特征。

總體而言，這一系列實驗以嚴格的理論推導為基礎，通過海量數據驗證和可逆算法的實踐檢驗，完整地證明了 Transformer 模型在結構上和行為上都是單射的，并且能夠被完全反演。實驗的全過程充分體現了這一結論的普適性與穩健性，表明語言模型在訓練和推理中并不會丟失任何輸入信息。

突破與質疑并存的「可逆性」研究

更進一步地，這些結果不僅回答了“模型能否保持信息”的問題，也為理解 Transformer 的工作原理提供了新的視角。

從理論上看，這項研究打破了人們長期以來的假設 —— 語言模型在內部會壓縮信息，只保留語義層面的抽象特征。研究團隊證明，Transformer 實際上是一個信息保持的系統：模型在處理輸入時并不會丟失信息，而是以不同的方式對原始內容進行重編碼，而非降維或壓縮。

換句話說，模型的“理解”不是模糊的抽象，而是一種高度精確的重參數化。這為解釋 Transformer 的內部機制提供了新的數學框架，也為研究模型的表示空間結構和上下文依賴關系開辟了方向。

在實踐層面，這一發現帶來了重要的隱私與安全啟示。由于隱藏狀態在理論上可以反推出輸入文本，模型的中間層輸出在性質上幾乎等同于原始數據。如果這些表示被存儲、傳輸或共享，可能會導致用戶輸入信息被間接暴露。

由此，開發者需要更加謹慎地處理模型內部的激活值，重新審視安全接口設計，并在模型壓縮或蒸餾過程中考慮可逆性帶來的潛在風險。與此同時，該研究也為模型可解釋性提供了新的研究思路：通過分析隱藏層信息的重構方式，可以更清晰地理解模型語義抽象的形成過程。

然而，這一結論也在學術界和業界引發了討論。部分研究者指出，“可逆性”的數學證明并不意味著現實中的模型可以直接恢復輸入或提取訓練數據。實際的大規模模型受到數值近似、量化誤差和隨機性等因素影響，難以實現嚴格意義上的單射性，不同輸入仍可能產生相似的內部表示。

因此，即使掌握了中間層激活值，也并不意味著能準確還原原文或繞過安全機制。

研究團隊在后續說明中也強調，他們的研究主要旨在從理論角度理解信息流動特征，而非提供可被濫用的攻擊途徑。其核心目標是加深對語言模型內部機制的認識，并提醒業界在模型開發與部署中加強數據安全和隱私保護。

GLADIA Research Lab 是誰

這個 2025 年 5 月份才注冊的神秘機構 GLADIA Research Lab 是意大利羅馬第一大學計算機科學系下的一個前沿人工智能研究團隊。

官方信息顯示，GLADIA Research Lab 目前共有 39 名研究人員，成員來自計算機科學、物理學、工程學和數學等多個學科。實驗室專注于探索人工智能系統的結構創新與高效復用，其核心研究方向涵蓋模型合并與操控、無需額外訓練的模型拼接、多模態學習，以及神經網絡的重用與組合性。

而 GLADIA Research Lab 的研究愿景，是讓人工智能模型的開發與組合變得更加高效與靈活，他們希望把“構建一個新模型”的周期，從過去的幾個月縮短到幾秒鐘。

這個團隊近段時間也在國際頂級學術會議上頻頻亮相，例如在ICML 2025和CVPR 2025上展示了關于模型合并與任務干擾優化的研究成果，展現出他們在模型融合和生成式人工智能領域的創新實力與前沿地位。

除了模型結構方面的研究，GLADIA 還在探索生成模型的更廣泛應用。他們嘗試將 AI 的能力延伸到音樂創作、多模態內容生成等更具創造性的方向，希望推動人工智能從“計算工具”邁向“創意伙伴”，在藝術與認知交匯處開拓新的可能性。

GPU 訓練特惠！

H100/H200 GPU算力按秒計費，平均節省開支30%以上！

掃碼了解詳情?

點「贊」的人都變好看了哦！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.