網易首頁 > 網易號 > 正文申請入駐

入圍CVPR 2026最佳論文決選，ViT3突破Transformer復雜度瓶頸

2026-06-12 17:09:54　來源: 機器之心Pro

河北舉報

分享至

編輯｜+0

CVPR 2026 剛在美國丹佛落下帷幕。16092 篇投稿中，15 篇殺入最佳論文決選（Best Paper Finalists），入圍率不足千分之一。

其中一篇來自阿里巴巴與清華大學的合作研究：《ViT3 : Unlocking Test-Time Training in Vision》。

它要解決的，是當前視覺模型領域最普遍的一類痛點：當圖像分辨率越來越高、視頻越來越長、多模態輸入越來越復雜時，Transformer 逐漸算不動了。

ViT3 給出了一條不同的路線。

在 RTX 3090 上處理 1248 × 1248 分辨率圖像時，ViT3-T 的推理速度達到 DeiT-T 的 4.6 倍，GPU 顯存消耗降低了 90.3%。

換句話說，它只使用接近十分之一的顯存，卻實現了更高的處理速度。

但這篇論文的意義，并不只是讓視覺模型跑得更快。

它真正嘗試改變的，是視覺模型保存和調用上下文信息的方式：不再單純依賴固定公式壓縮信息，而是在處理當前輸入時，通過一次快速的在線學習，把上下文寫入一個緊湊的內部模型。

這條路線建立在近年來受到關注的 Test-Time Training（TTT，測試時訓練）框架之上，而 ViT3 則進一步將其系統引入視覺領域，并梳理出一套可復用的設計原則。

論文地址：https://arxiv.org/pdf/2512.01643
代碼： https://github.com/LeapLabTHU/ViTTT

阿里巴巴長期關注多模態大模型與新一代交互體驗。隨著 AI 逐漸進入真實生活場景，模型需要處理的視覺信息正在變得越來越復雜：更高清的圖片、更長的視頻，以及持續增長的多模態上下文。

如何在控制算力成本的同時，讓模型看得更清楚、理解得更完整，已經成為多模態技術走向實際應用時必須面對的問題。ViT3 所探索的，正是這一底層能力。

把上下文壓縮，變成一次臨場學習

要理解 ViT3 的價值，需要先回到視覺模型長期面對的一組矛盾：如何在降低計算復雜度的同時，盡可能保留上下文建模能力。

Vision Transformer 在 2020 年被提出后，迅速成為計算機視覺中最重要的主流架構之一，并持續推動圖像分類、目標檢測、語義分割和圖像生成等任務的發展。

但標準 Softmax Attention 有一筆隨著序列長度快速膨脹的賬。

一張圖片進入視覺 Transformer 后，通常會被拆分成一組 token。圖片分辨率越高，token 數量就越多。標準 Attention 需要顯式計算不同 token 之間的兩兩關系，其計算和顯存成本會隨 token 數量呈二次增長。

為便于理解，省略縮放系數后，標準 Attention 可以簡寫為：Softmax(QK?)V

其中，Q 代表 query，K 代表 key，V 代表 value。真正帶來高成本的，是 QK? 形成的 N × N 矩陣。

當模型處理的是普通分辨率圖片時，這筆成本尚且可控。但一旦面對超高清圖片、長視頻或更復雜的多模態輸入，token 序列長度迅速增加，計算和顯存開銷就會逐漸接近成本邊界。

為了降低成本，過去幾年出現了多種線性復雜度方案。

Linear Attention的思路，是改變計算順序。它將關鍵計算從 Softmax(QK?)V 改寫為 Q(K?V)，先把 K 和 V 壓縮成一個固定大小的狀態，再讓 Q 從中讀取信息。由于 K?V 的大小與序列長度 N 無關，復雜度可以降到 O(N)。

但代價也很明顯：上下文被壓縮進一個相對簡單的線性狀態。壓縮效率提高了，表達能力卻可能不足，實際性能往往與標準 Transformer 存在差距。

Mamba 和狀態空間模型走了另一條路。它們維護一個固定大小的隱狀態，并沿著序列逐步更新。相比簡單的線性映射，這種狀態更新機制更靈活，但仍然需要回答同一個問題：當序列越來越長、全局依賴越來越復雜時，如何把足夠豐富的信息寫入一個容量有限的狀態？

用一個類比來說：標準 attention 是「保留全部資料，需要時重新檢索」，代價是資料越多，檢索成本越高；Linear Attention 是「提前壓縮成一份固定摘要」，速度更快，但容易遺漏細節；Mamba 則像是「一邊閱讀，一邊持續更新一份有限長度的筆記」。

這些方案背后長期存在一組交換條件：壓縮越激進，計算越便宜；但壓縮方式越簡單，模型越容易損失表達能力。

Test-Time Training 試圖改變這組交換條件。它不再把上下文壓縮視為一次固定的矩陣運算，而是把它改寫成一次快速的在線學習過程。

TTT Block 保留了 Transformer 的宏觀結構。不同之處在于，原本的 Attention 計算被替換為一次可學習的上下文壓縮與讀取過程。

具體來說，TTT 將當前輸入中的 key-value 對視為一個臨時的「迷你數據集」。模型在推理過程中，對一個小型內部網絡進行短暫的自監督訓練，讓它學習從 K 預測 V。隨后，再使用更新后的內部網絡處理 query。

換句話說，模型面對每一組新的輸入時，都會進行一次輕量級的臨場適配。

這也是「Test-Time Training」這個名字的來源：在測試階段，模型會針對當前輸入，短暫訓練一個內部模型，再利用它完成信息讀取。

整個內部訓練過程仍然是可微的，并與外部網絡一起端到端優化，不需要拆分成多個獨立階段。

線性注意力使用固定矩陣乘法壓縮上下文；TTT 則使用梯度下降壓縮上下文。前者是固定的線性操作，后者是一種學習驅動的非線性壓縮方式。只要內部模型的規模保持固定，整體復雜度仍然可以維持在線性水平，但信息壓縮能力有機會進一步提高。

論文中有一張關鍵示意圖，展示了 Softmax Attention、Linear Attention 和 TTT 之間的關系。

Softmax Attention 可以被理解為一個寬度隨序列長度增長的內部模型；Linear Attention 對應一個固定大小的線性內部模型；TTT 則進一步允許內部模型成為可訓練的小型網絡。

ViT3 并不是完全拋開 Attention 另起爐灶，而是在同一個框架中，打開了更大的設計空間。

Softmax Attention、Linear Attention 與 TTT 的統一視角。Softmax Attention 保留完整上下文，Linear Attention 將上下文壓縮為固定大小的線性狀態；TTT 則通過在線訓練，將上下文寫入一個可更新的內部模型。

在空白的設計空間里畫出地圖

設計空間更大，意味著選擇更多，也意味著更容易走錯路。

在 ViT3 之前，TTT 已經在語言模型中獲得關注，但視覺數據與語言數據并不相同。語言天然具有順序和因果結構。圖像則是二維空間信息，不同 token 之間不存在同樣明確的先后關系。

當 TTT 進入視覺領域后，一系列基礎問題都需要重新回答：內部模型應該使用什么架構？損失函數如何選擇？應該更新多少輪？學習率應該多大？卷積和 MLP 哪一種更適合視覺任務？

ViT3 的重要貢獻之一，是通過系統實驗梳理視覺 TTT 的設計空間，總結出六條可以復用的實踐原則，并討論了TTT 當前存在的核心挑戰和未來研究方向。

觀察一：內部訓練損失函數的混合二階導數不能為零。

TTT 的內部訓練過程要和外部網絡一起做端到端優化，這意味著梯度要穿過內部訓練步驟回傳到外部參數。如果損失函數的混合二階導數為零，外部參數的梯度信號就會在回傳中消失。MAE（L1）損失的導數是符號函數，混合二階導幾乎處處為零——實驗中它比 MSE 損失低了 2.4 個百分點。這不是一個可以通過調參彌補的小問題，它決定了某些損失函數從根本上不適用于 TTT。

觀察二：視覺任務適合全批次、單輪訓練。

此前 NLP 領域的 TTT 實踐發現，小批量順序更新通常更有效。但在視覺任務中，全批次更新表現更好。論文給出了一個有說服力的解釋：小批量順序更新會引入因果偏置——前面的 batch 影響后面的梯度，后面的更新也可能覆蓋前面的信息。這種偏置適合具有方向性的語言數據，但對非因果的視覺數據反而是一種負擔。綜合準確率、吞吐和訓練穩定性，ViT3 最終采用單輪全批次更新。

觀察三：在穩定的前提下，更大的內部學習率效果更好。

實驗表明，在訓練穩定的前提下，越大的學習率效果越好。太小的學習率會讓內部模型更新不充分，無法有效存儲上下文信息；過大的學習率則容易導致訓練不穩定。

值得注意的是，在一些特殊情況下，內部學習率可以吸收為 K 和 V 的放縮。但是這并不內說明內部學習率的設置不重要。一個類似的例子是Softmax注意力中的

放縮，它也能夠被 Q 和 K 吸收，但是依然重要。

觀察四：增加內部模型容量，性能持續提升。

一個關鍵問題是：TTT 能不能通過簡單擴大內部模型來提升序列建模能力？為了探索這一點，論文將 TTT 內部模型實現為一個 SiLU 激活函數的兩層 MLP，并逐漸增加其寬度。實驗表明，當隱藏維度 d 擴到 4d，準確率從 78.9% 提升到 79.6%，沒有飽和跡象。這是TTT 范式的一個核心優勢，即它可以在外部模型尺寸固定的條件下，通過簡單地擴展內部模型尺寸來實現更好的序列建模效果。這和 Linear Attention 形成鮮明對比：后者通常將上下文壓縮進固定大小的線性狀態，表達能力和擴展空間相對有限。

隨著內部模型寬度增加，TTT 的性能持續提升，說明內部模型容量仍有進一步擴展空間。

觀察五：當前更深的內部模型存在優化困難，需要未來工作解鎖其理論潛力。

一個不符合預期的結果是，把內部模型從一層變成兩層、三層，參數更多、理論容量更大，但實際準確率反而下降。論文的分析指向優化困難：更深的內部模型在 TTT 的短訓練步數下容易欠擬合——訓練損失更高，測試準確率更低。當前深層網絡的理論優勢在 TTT 的快速訓練場景中難以兌現。論文同時發現，如果把輸出層固定為單位矩陣（一種「約束設計」），準確率反而比完整的兩層 MLP 更高。這進一步證實了優化瓶頸的存在。

解決較深內部模型的優化問題，是 TTT 的一個重要未來方向。理論工作表明，神經網絡的擬合能力隨深度指數增長，這正是當前神經網絡成功的核心原因。因此，較深的內部模型在實現高精度測試時訓練序列建模中具有突出潛力。

增加內部模型深度，并沒有帶來更高的準確率。隨著層數增加，訓練損失反而更高，說明視覺 TTT 當前仍面臨內部模型優化瓶頸。

觀察六：卷積天然適合做視覺 TTT 的內部模型。

隨著 Transformer 興起，卷積不再是視覺模型中唯一占據主導地位的結構。但在 TTT 框架中，它獲得了一個新的角色。TTT 把全局上下文壓縮進內部模型的權重，當內部模型是卷積時，這些權重就是卷積核——全局信息被編碼在核的參數里，而卷積操作本身又提供了局部感受野。一次前向推理同時完成了全局和局部信息的整合。實驗中，一個輕量級 3 × 3 深度卷積在參數量更少的情況下，比 MLP baseline 高出 1.2 個百分點。

這六條原則并不是相互獨立的經驗。

觀察一排除了一類不適用于TTT 的損失函數；觀察二和觀察三回答「應該怎么訓練」；觀察四、觀察五和觀察六則回答「內部模型應該如何設計」。

它們共同構成了一份視覺 TTT 的實踐地圖：哪些方向值得未來工作繼續探索，哪些路徑容易陷入優化瓶頸，哪些設計能夠在效果和效率之間取得更好的平衡。

從分類到生成，

ViT3 的優勢在高分辨率下放大

基于前面的六條觀察，研究團隊最終搭建出 Vision Test-Time Training 模型，簡稱 ViT3。

它的整體設計并不復雜。

在多數 Attention head 中，ViT3 使用一種簡化的門控內部模型，在保持易于優化的同時，提供比純線性狀態更強的表達能力。另有一個 head 引入輕量級的 3 × 3 深度卷積，使模型在壓縮全局上下文的同時，也能夠利用圖像中的局部空間結構。

內部訓練同樣保持克制：每次只進行一輪全批次梯度更新。換句話說，ViT3 沒有在推理過程中嵌入一套繁重的訓練流程，而是在控制額外成本的前提下，讓內部模型完成一次快速適配。

圍繞這一模塊，論文構建了三類模型：ViT3 采用非層級架構，對齊經典 Vision Transformer；H-ViT3 使用四階段層級設計，更適合作為通用視覺骨干網絡；DiT3 則將同樣的 TTT 模塊放入擴散模型，用于圖像生成。

這組設計的目標，不是針對某一個 benchmark 調整出更高的數字，而是驗證一個更關鍵的問題：TTT 能否成為一種可遷移的視覺序列建模模塊？

從實驗結果看，答案是積極的。

在圖像分類任務中，ViT3 展現出有競爭力的視覺表征能力。在目標檢測和語義分割等需要處理更高分辨率輸入的任務中，它也能夠超過多種同級別的 Mamba 和 Linear Attention 模型。

這說明，相比將上下文壓縮進一個簡單線性狀態，ViT3 使用更靈活的內部模型保存信息，能夠在控制計算成本的同時，維持較強的建模能力。

ViT3 的適用范圍也沒有停留在識別任務。

研究團隊進一步將 TTT 模塊放入擴散模型，構建出 DiT3。實驗顯示，在不同模型規模和 patch 配置下，DiT3 均能夠改善原始 DiT 的圖像生成質量。

這意味著，TTT 可以作為一個相對獨立的模塊，進入不同類型的視覺架構。

但 ViT3 最直觀的優勢，仍然來自高分辨率圖像。

在 RTX 3090 上處理 1248 × 1248 圖像時，單張圖片包含 6084 個 token。此時，ViT3-T 的推理速度達到 DeiT-T 的 4.6 倍，GPU 顯存消耗降低了 90.3%。

原因并不復雜。

在低分辨率輸入下，序列較短，標準 Attention 的成本仍然可以承受。隨著分辨率提高，token 數量快速增加，標準 Softmax Attention 的計算和顯存開銷隨序列長度呈二次增長；ViT3 則保持線性復雜度。兩條曲線之間的差距，會隨著輸入規模擴大持續拉開。

對于面向真實生活場景的多模態應用而言，這一點尤其重要。

當模型開始接收更高清的圖片、更長的視頻和更復雜的視覺上下文時，序列長度會快速增加。單純依賴算力堆疊，很難無限持續。

這也與阿里巴巴長期關注的方向形成呼應。

未來的多模態交互，不只是讓模型識別一張圖片，而是需要它在真實環境中持續處理更加復雜的視覺信息。無論是更自然的人機交互，還是面向生活場景的 AI 原生應用，都需要一個更具擴展性的視覺底座。

ViT3 所驗證的，是另一種可能性：通過架構創新提高上下文壓縮質量，在不放棄線性復雜度優勢的前提下，盡量縮小與標準 Transformer 之間的性能差距。

但 ViT3 還不是對 Transformer 的全面替代。

論文給出的定位相對克制：作為一套視覺 TTT baseline，它已經超過多種線性復雜度模型，并顯著縮小了與主流視覺 Transformer 的性能差距，但仍存在進一步提升空間。

另一方面，4.6 倍速度提升和 90.3% 顯存節省來自 RTX 3090 上的實驗結果，證明了算法層面的擴展優勢，但還不能直接等同于手機、車端等邊緣設備上的實際部署效果。

更準確地說，ViT3 為端側部署和高分辨率多模態應用打開了新的可能性，也為后續工程優化提供了基礎。

算力與性能，不必互斥

過去幾年，視覺模型領域逐漸形成了一種默認路徑：更好的性能，往往意味著更大的模型、更多的訓練數據和更高的算力成本。

線性復雜度模型雖然更加高效，但通常需要付出性能代價。

ViT3 試圖重新檢驗這一前提。

它系統梳理了視覺 TTT 的設計空間，證明學習驅動的上下文壓縮可以覆蓋分類、檢測、分割和生成任務，并在高分辨率場景下展現出更加明顯的效率優勢。

這也是阿里巴巴持續探索的方向。

當多模態模型持續走向高清視覺、長上下文和復雜交互，行業需要回答一個更長期的問題：能力增長是否只能依賴更多算力？

ViT3 給出了另一種可能：答案也許不在更大的模型里，而在更聰明的架構里。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.