![]()
編輯|+0
CVPR 2026 剛在美國丹佛落下帷幕。16092 篇投稿中,15 篇殺入最佳論文決選(Best Paper Finalists),入圍率不足千分之一。
其中一篇來自阿里巴巴與清華大學的合作研究:《ViT3 : Unlocking Test-Time Training in Vision》。
它要解決的,是當前視覺模型領域最普遍的一類痛點:當圖像分辨率越來越高、視頻越來越長、多模態輸入越來越復雜時,Transformer 逐漸算不動了。
ViT3 給出了一條不同的路線。
在 RTX 3090 上處理 1248 × 1248 分辨率圖像時,ViT3-T 的推理速度達到 DeiT-T 的 4.6 倍,GPU 顯存消耗降低了 90.3%。
換句話說,它只使用接近十分之一的顯存,卻實現了更高的處理速度。
但這篇論文的意義,并不只是讓視覺模型跑得更快。
它真正嘗試改變的,是視覺模型保存和調用上下文信息的方式:不再單純依賴固定公式壓縮信息,而是在處理當前輸入時,通過一次快速的在線學習,把上下文寫入一個緊湊的內部模型。
這條路線建立在近年來受到關注的 Test-Time Training(TTT,測試時訓練)框架之上,而 ViT3 則進一步將其系統引入視覺領域,并梳理出一套可復用的設計原則。
![]()
- 論文地址:https://arxiv.org/pdf/2512.01643
- 代碼: https://github.com/LeapLabTHU/ViTTT
阿里巴巴長期關注多模態大模型與新一代交互體驗。隨著 AI 逐漸進入真實生活場景,模型需要處理的視覺信息正在變得越來越復雜:更高清的圖片、更長的視頻,以及持續增長的多模態上下文。
如何在控制算力成本的同時,讓模型看得更清楚、理解得更完整,已經成為多模態技術走向實際應用時必須面對的問題。ViT3 所探索的,正是這一底層能力。
把上下文壓縮,變成一次臨場學習
要理解 ViT3 的價值,需要先回到視覺模型長期面對的一組矛盾:如何在降低計算復雜度的同時,盡可能保留上下文建模能力。
Vision Transformer 在 2020 年被提出后,迅速成為計算機視覺中最重要的主流架構之一,并持續推動圖像分類、目標檢測、語義分割和圖像生成等任務的發展。
但標準 Softmax Attention 有一筆隨著序列長度快速膨脹的賬。
一張圖片進入視覺 Transformer 后,通常會被拆分成一組 token。圖片分辨率越高,token 數量就越多。標準 Attention 需要顯式計算不同 token 之間的兩兩關系,其計算和顯存成本會隨 token 數量呈二次增長。
為便于理解,省略縮放系數后,標準 Attention 可以簡寫為:Softmax(QK?)V
其中,Q 代表 query,K 代表 key,V 代表 value。真正帶來高成本的,是 QK? 形成的 N × N 矩陣。
當模型處理的是普通分辨率圖片時,這筆成本尚且可控。但一旦面對超高清圖片、長視頻或更復雜的多模態輸入,token 序列長度迅速增加,計算和顯存開銷就會逐漸接近成本邊界。
為了降低成本,過去幾年出現了多種線性復雜度方案。
Linear Attention的思路,是改變計算順序。它將關鍵計算從 Softmax(QK?)V 改寫為 Q(K?V),先把 K 和 V 壓縮成一個固定大小的狀態,再讓 Q 從中讀取信息。由于 K?V 的大小與序列長度 N 無關,復雜度可以降到 O(N)。
但代價也很明顯:上下文被壓縮進一個相對簡單的線性狀態。壓縮效率提高了,表達能力卻可能不足,實際性能往往與標準 Transformer 存在差距。
Mamba 和狀態空間模型走了另一條路。它們維護一個固定大小的隱狀態,并沿著序列逐步更新。相比簡單的線性映射,這種狀態更新機制更靈活,但仍然需要回答同一個問題:當序列越來越長、全局依賴越來越復雜時,如何把足夠豐富的信息寫入一個容量有限的狀態?
用一個類比來說:標準 attention 是「保留全部資料,需要時重新檢索」,代價是資料越多,檢索成本越高;Linear Attention 是「提前壓縮成一份固定摘要」,速度更快,但容易遺漏細節;Mamba 則像是「一邊閱讀,一邊持續更新一份有限長度的筆記」。
這些方案背后長期存在一組交換條件:壓縮越激進,計算越便宜;但壓縮方式越簡單,模型越容易損失表達能力。
Test-Time Training 試圖改變這組交換條件。它不再把上下文壓縮視為一次固定的矩陣運算,而是把它改寫成一次快速的在線學習過程。
![]()
TTT Block 保留了 Transformer 的宏觀結構。不同之處在于,原本的 Attention 計算被替換為一次可學習的上下文壓縮與讀取過程。
具體來說,TTT 將當前輸入中的 key-value 對視為一個臨時的「迷你數據集」。模型在推理過程中,對一個小型內部網絡進行短暫的自監督訓練,讓它學習從 K 預測 V。隨后,再使用更新后的內部網絡處理 query。
換句話說,模型面對每一組新的輸入時,都會進行一次輕量級的臨場適配。
這也是「Test-Time Training」這個名字的來源:在測試階段,模型會針對當前輸入,短暫訓練一個內部模型,再利用它完成信息讀取。
整個內部訓練過程仍然是可微的,并與外部網絡一起端到端優化,不需要拆分成多個獨立階段。
線性注意力使用固定矩陣乘法壓縮上下文;TTT 則使用梯度下降壓縮上下文。前者是固定的線性操作,后者是一種學習驅動的非線性壓縮方式。只要內部模型的規模保持固定,整體復雜度仍然可以維持在線性水平,但信息壓縮能力有機會進一步提高。
論文中有一張關鍵示意圖,展示了 Softmax Attention、Linear Attention 和 TTT 之間的關系。
Softmax Attention 可以被理解為一個寬度隨序列長度增長的內部模型;Linear Attention 對應一個固定大小的線性內部模型;TTT 則進一步允許內部模型成為可訓練的小型網絡。
ViT3 并不是完全拋開 Attention 另起爐灶,而是在同一個框架中,打開了更大的設計空間。
![]()
Softmax Attention、Linear Attention 與 TTT 的統一視角。Softmax Attention 保留完整上下文,Linear Attention 將上下文壓縮為固定大小的線性狀態;TTT 則通過在線訓練,將上下文寫入一個可更新的內部模型。
在空白的設計空間里畫出地圖
設計空間更大,意味著選擇更多,也意味著更容易走錯路。
在 ViT3 之前,TTT 已經在語言模型中獲得關注,但視覺數據與語言數據并不相同。語言天然具有順序和因果結構。圖像則是二維空間信息,不同 token 之間不存在同樣明確的先后關系。
當 TTT 進入視覺領域后,一系列基礎問題都需要重新回答:內部模型應該使用什么架構?損失函數如何選擇?應該更新多少輪?學習率應該多大?卷積和 MLP 哪一種更適合視覺任務?
ViT3 的重要貢獻之一,是通過系統實驗梳理視覺 TTT 的設計空間,總結出六條可以復用的實踐原則,并討論了TTT 當前存在的核心挑戰和未來研究方向。
觀察一:內部訓練損失函數的混合二階導數不能為零。
TTT 的內部訓練過程要和外部網絡一起做端到端優化,這意味著梯度要穿過內部訓練步驟回傳到外部參數。如果損失函數的混合二階導數為零,外部參數的梯度信號就會在回傳中消失。MAE(L1)損失的導數是符號函數,混合二階導幾乎處處為零——實驗中它比 MSE 損失低了 2.4 個百分點。這不是一個可以通過調參彌補的小問題,它決定了某些損失函數從根本上不適用于 TTT。
觀察二:視覺任務適合全批次、單輪訓練。
此前 NLP 領域的 TTT 實踐發現,小批量順序更新通常更有效。但在視覺任務中,全批次更新表現更好。論文給出了一個有說服力的解釋:小批量順序更新會引入因果偏置——前面的 batch 影響后面的梯度,后面的更新也可能覆蓋前面的信息。這種偏置適合具有方向性的語言數據,但對非因果的視覺數據反而是一種負擔。綜合準確率、吞吐和訓練穩定性,ViT3 最終采用單輪全批次更新。
觀察三:在穩定的前提下,更大的內部學習率效果更好。
實驗表明,在訓練穩定的前提下,越大的學習率效果越好。太小的學習率會讓內部模型更新不充分,無法有效存儲上下文信息;過大的學習率則容易導致訓練不穩定。
值得注意的是,在一些特殊情況下,內部學習率可以吸收為 K 和 V 的放縮。但是這并不內說明內部學習率的設置不重要。一個類似的例子是Softmax注意力中的
放縮,它也能夠被 Q 和 K 吸收,但是依然重要。
觀察四:增加內部模型容量,性能持續提升。
一個關鍵問題是:TTT 能不能通過簡單擴大內部模型來提升序列建模能力?為了探索這一點,論文將 TTT 內部模型實現為一個 SiLU 激活函數的兩層 MLP,并逐漸增加其寬度。實驗表明,當隱藏維度 d 擴到 4d,準確率從 78.9% 提升到 79.6%,沒有飽和跡象。這是TTT 范式的一個核心優勢,即它可以在外部模型尺寸固定的條件下,通過簡單地擴展內部模型尺寸來實現更好的序列建模效果。這和 Linear Attention 形成鮮明對比:后者通常將上下文壓縮進固定大小的線性狀態,表達能力和擴展空間相對有限。
![]()
隨著內部模型寬度增加,TTT 的性能持續提升,說明內部模型容量仍有進一步擴展空間。
觀察五:當前更深的內部模型存在優化困難,需要未來工作解鎖其理論潛力。
一個不符合預期的結果是,把內部模型從一層變成兩層、三層,參數更多、理論容量更大,但實際準確率反而下降。論文的分析指向優化困難:更深的內部模型在 TTT 的短訓練步數下容易欠擬合——訓練損失更高,測試準確率更低。當前深層網絡的理論優勢在 TTT 的快速訓練場景中難以兌現。論文同時發現,如果把輸出層固定為單位矩陣(一種「約束設計」),準確率反而比完整的兩層 MLP 更高。這進一步證實了優化瓶頸的存在。
解決較深內部模型的優化問題,是 TTT 的一個重要未來方向。理論工作表明,神經網絡的擬合能力隨深度指數增長,這正是當前神經網絡成功的核心原因。因此,較深的內部模型在實現高精度測試時訓練序列建模中具有突出潛力。
![]()
增加內部模型深度,并沒有帶來更高的準確率。隨著層數增加,訓練損失反而更高,說明視覺 TTT 當前仍面臨內部模型優化瓶頸。
觀察六:卷積天然適合做視覺 TTT 的內部模型。
隨著 Transformer 興起,卷積不再是視覺模型中唯一占據主導地位的結構。但在 TTT 框架中,它獲得了一個新的角色。TTT 把全局上下文壓縮進內部模型的權重,當內部模型是卷積時,這些權重就是卷積核——全局信息被編碼在核的參數里,而卷積操作本身又提供了局部感受野。一次前向推理同時完成了全局和局部信息的整合。實驗中,一個輕量級 3 × 3 深度卷積在參數量更少的情況下,比 MLP baseline 高出 1.2 個百分點。
這六條原則并不是相互獨立的經驗。
觀察一排除了一類不適用于TTT 的損失函數;觀察二和觀察三回答「應該怎么訓練」;觀察四、觀察五和觀察六則回答「內部模型應該如何設計」。
它們共同構成了一份視覺 TTT 的實踐地圖:哪些方向值得未來工作繼續探索,哪些路徑容易陷入優化瓶頸,哪些設計能夠在效果和效率之間取得更好的平衡。
從分類到生成,
ViT3 的優勢在高分辨率下放大
基于前面的六條觀察,研究團隊最終搭建出 Vision Test-Time Training 模型,簡稱 ViT3。
它的整體設計并不復雜。
在多數 Attention head 中,ViT3 使用一種簡化的門控內部模型,在保持易于優化的同時,提供比純線性狀態更強的表達能力。另有一個 head 引入輕量級的 3 × 3 深度卷積,使模型在壓縮全局上下文的同時,也能夠利用圖像中的局部空間結構。
內部訓練同樣保持克制:每次只進行一輪全批次梯度更新。換句話說,ViT3 沒有在推理過程中嵌入一套繁重的訓練流程,而是在控制額外成本的前提下,讓內部模型完成一次快速適配。
圍繞這一模塊,論文構建了三類模型:ViT3 采用非層級架構,對齊經典 Vision Transformer;H-ViT3 使用四階段層級設計,更適合作為通用視覺骨干網絡;DiT3 則將同樣的 TTT 模塊放入擴散模型,用于圖像生成。
這組設計的目標,不是針對某一個 benchmark 調整出更高的數字,而是驗證一個更關鍵的問題:TTT 能否成為一種可遷移的視覺序列建模模塊?
從實驗結果看,答案是積極的。
在圖像分類任務中,ViT3 展現出有競爭力的視覺表征能力。在目標檢測和語義分割等需要處理更高分辨率輸入的任務中,它也能夠超過多種同級別的 Mamba 和 Linear Attention 模型。
這說明,相比將上下文壓縮進一個簡單線性狀態,ViT3 使用更靈活的內部模型保存信息,能夠在控制計算成本的同時,維持較強的建模能力。
ViT3 的適用范圍也沒有停留在識別任務。
研究團隊進一步將 TTT 模塊放入擴散模型,構建出 DiT3。實驗顯示,在不同模型規模和 patch 配置下,DiT3 均能夠改善原始 DiT 的圖像生成質量。
這意味著,TTT 可以作為一個相對獨立的模塊,進入不同類型的視覺架構。
但 ViT3 最直觀的優勢,仍然來自高分辨率圖像。
在 RTX 3090 上處理 1248 × 1248 圖像時,單張圖片包含 6084 個 token。此時,ViT3-T 的推理速度達到 DeiT-T 的 4.6 倍,GPU 顯存消耗降低了 90.3%。
![]()
原因并不復雜。
在低分辨率輸入下,序列較短,標準 Attention 的成本仍然可以承受。隨著分辨率提高,token 數量快速增加,標準 Softmax Attention 的計算和顯存開銷隨序列長度呈二次增長;ViT3 則保持線性復雜度。兩條曲線之間的差距,會隨著輸入規模擴大持續拉開。
對于面向真實生活場景的多模態應用而言,這一點尤其重要。
當模型開始接收更高清的圖片、更長的視頻和更復雜的視覺上下文時,序列長度會快速增加。單純依賴算力堆疊,很難無限持續。
這也與阿里巴巴長期關注的方向形成呼應。
未來的多模態交互,不只是讓模型識別一張圖片,而是需要它在真實環境中持續處理更加復雜的視覺信息。無論是更自然的人機交互,還是面向生活場景的 AI 原生應用,都需要一個更具擴展性的視覺底座。
ViT3 所驗證的,是另一種可能性:通過架構創新提高上下文壓縮質量,在不放棄線性復雜度優勢的前提下,盡量縮小與標準 Transformer 之間的性能差距。
但 ViT3 還不是對 Transformer 的全面替代。
論文給出的定位相對克制:作為一套視覺 TTT baseline,它已經超過多種線性復雜度模型,并顯著縮小了與主流視覺 Transformer 的性能差距,但仍存在進一步提升空間。
另一方面,4.6 倍速度提升和 90.3% 顯存節省來自 RTX 3090 上的實驗結果,證明了算法層面的擴展優勢,但還不能直接等同于手機、車端等邊緣設備上的實際部署效果。
更準確地說,ViT3 為端側部署和高分辨率多模態應用打開了新的可能性,也為后續工程優化提供了基礎。
算力與性能,不必互斥
過去幾年,視覺模型領域逐漸形成了一種默認路徑:更好的性能,往往意味著更大的模型、更多的訓練數據和更高的算力成本。
線性復雜度模型雖然更加高效,但通常需要付出性能代價。
ViT3 試圖重新檢驗這一前提。
它系統梳理了視覺 TTT 的設計空間,證明學習驅動的上下文壓縮可以覆蓋分類、檢測、分割和生成任務,并在高分辨率場景下展現出更加明顯的效率優勢。
這也是阿里巴巴持續探索的方向。
當多模態模型持續走向高清視覺、長上下文和復雜交互,行業需要回答一個更長期的問題:能力增長是否只能依賴更多算力?
ViT3 給出了另一種可能:答案也許不在更大的模型里,而在更聰明的架構里。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.