无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

入圍CVPR 2026最佳論文決選,ViT3突破Transformer復雜度瓶頸

0
分享至



編輯|+0

CVPR 2026 剛在美國丹佛落下帷幕。16092 篇投稿中,15 篇殺入最佳論文決選(Best Paper Finalists),入圍率不足千分之一。

其中一篇來自阿里巴巴與清華大學的合作研究:《ViT3 : Unlocking Test-Time Training in Vision》。

它要解決的,是當前視覺模型領域最普遍的一類痛點:當圖像分辨率越來越高、視頻越來越長、多模態輸入越來越復雜時,Transformer 逐漸算不動了。

ViT3 給出了一條不同的路線。

在 RTX 3090 上處理 1248 × 1248 分辨率圖像時,ViT3-T 的推理速度達到 DeiT-T 的 4.6 倍,GPU 顯存消耗降低了 90.3%。

換句話說,它只使用接近十分之一的顯存,卻實現了更高的處理速度。

但這篇論文的意義,并不只是讓視覺模型跑得更快。

它真正嘗試改變的,是視覺模型保存和調用上下文信息的方式:不再單純依賴固定公式壓縮信息,而是在處理當前輸入時,通過一次快速的在線學習,把上下文寫入一個緊湊的內部模型。

這條路線建立在近年來受到關注的 Test-Time Training(TTT,測試時訓練)框架之上,而 ViT3 則進一步將其系統引入視覺領域,并梳理出一套可復用的設計原則。



  • 論文地址:https://arxiv.org/pdf/2512.01643
  • 代碼: https://github.com/LeapLabTHU/ViTTT

阿里巴巴長期關注多模態大模型與新一代交互體驗。隨著 AI 逐漸進入真實生活場景,模型需要處理的視覺信息正在變得越來越復雜:更高清的圖片、更長的視頻,以及持續增長的多模態上下文。

如何在控制算力成本的同時,讓模型看得更清楚、理解得更完整,已經成為多模態技術走向實際應用時必須面對的問題。ViT3 所探索的,正是這一底層能力。

把上下文壓縮,變成一次臨場學習

要理解 ViT3 的價值,需要先回到視覺模型長期面對的一組矛盾:如何在降低計算復雜度的同時,盡可能保留上下文建模能力。

Vision Transformer 在 2020 年被提出后,迅速成為計算機視覺中最重要的主流架構之一,并持續推動圖像分類、目標檢測、語義分割和圖像生成等任務的發展。

但標準 Softmax Attention 有一筆隨著序列長度快速膨脹的賬。

一張圖片進入視覺 Transformer 后,通常會被拆分成一組 token。圖片分辨率越高,token 數量就越多。標準 Attention 需要顯式計算不同 token 之間的兩兩關系,其計算和顯存成本會隨 token 數量呈二次增長。

為便于理解,省略縮放系數后,標準 Attention 可以簡寫為:Softmax(QK?)V

其中,Q 代表 query,K 代表 key,V 代表 value。真正帶來高成本的,是 QK? 形成的 N × N 矩陣。

當模型處理的是普通分辨率圖片時,這筆成本尚且可控。但一旦面對超高清圖片、長視頻或更復雜的多模態輸入,token 序列長度迅速增加,計算和顯存開銷就會逐漸接近成本邊界。

為了降低成本,過去幾年出現了多種線性復雜度方案。

Linear Attention的思路,是改變計算順序。它將關鍵計算從 Softmax(QK?)V 改寫為 Q(K?V),先把 K 和 V 壓縮成一個固定大小的狀態,再讓 Q 從中讀取信息。由于 K?V 的大小與序列長度 N 無關,復雜度可以降到 O(N)。

但代價也很明顯:上下文被壓縮進一個相對簡單的線性狀態。壓縮效率提高了,表達能力卻可能不足,實際性能往往與標準 Transformer 存在差距。

Mamba 和狀態空間模型走了另一條路。它們維護一個固定大小的隱狀態,并沿著序列逐步更新。相比簡單的線性映射,這種狀態更新機制更靈活,但仍然需要回答同一個問題:當序列越來越長、全局依賴越來越復雜時,如何把足夠豐富的信息寫入一個容量有限的狀態?

用一個類比來說:標準 attention 是「保留全部資料,需要時重新檢索」,代價是資料越多,檢索成本越高;Linear Attention 是「提前壓縮成一份固定摘要」,速度更快,但容易遺漏細節;Mamba 則像是「一邊閱讀,一邊持續更新一份有限長度的筆記」。

這些方案背后長期存在一組交換條件:壓縮越激進,計算越便宜;但壓縮方式越簡單,模型越容易損失表達能力。

Test-Time Training 試圖改變這組交換條件。它不再把上下文壓縮視為一次固定的矩陣運算,而是把它改寫成一次快速的在線學習過程。



TTT Block 保留了 Transformer 的宏觀結構。不同之處在于,原本的 Attention 計算被替換為一次可學習的上下文壓縮與讀取過程。

具體來說,TTT 將當前輸入中的 key-value 對視為一個臨時的「迷你數據集」。模型在推理過程中,對一個小型內部網絡進行短暫的自監督訓練,讓它學習從 K 預測 V。隨后,再使用更新后的內部網絡處理 query。

換句話說,模型面對每一組新的輸入時,都會進行一次輕量級的臨場適配。

這也是「Test-Time Training」這個名字的來源:在測試階段,模型會針對當前輸入,短暫訓練一個內部模型,再利用它完成信息讀取。

整個內部訓練過程仍然是可微的,并與外部網絡一起端到端優化,不需要拆分成多個獨立階段。

線性注意力使用固定矩陣乘法壓縮上下文;TTT 則使用梯度下降壓縮上下文。前者是固定的線性操作,后者是一種學習驅動的非線性壓縮方式。只要內部模型的規模保持固定,整體復雜度仍然可以維持在線性水平,但信息壓縮能力有機會進一步提高。

論文中有一張關鍵示意圖,展示了 Softmax Attention、Linear Attention 和 TTT 之間的關系。

Softmax Attention 可以被理解為一個寬度隨序列長度增長的內部模型;Linear Attention 對應一個固定大小的線性內部模型;TTT 則進一步允許內部模型成為可訓練的小型網絡。

ViT3 并不是完全拋開 Attention 另起爐灶,而是在同一個框架中,打開了更大的設計空間。



Softmax Attention、Linear Attention 與 TTT 的統一視角。Softmax Attention 保留完整上下文,Linear Attention 將上下文壓縮為固定大小的線性狀態;TTT 則通過在線訓練,將上下文寫入一個可更新的內部模型。

在空白的設計空間里畫出地圖

設計空間更大,意味著選擇更多,也意味著更容易走錯路。

在 ViT3 之前,TTT 已經在語言模型中獲得關注,但視覺數據與語言數據并不相同。語言天然具有順序和因果結構。圖像則是二維空間信息,不同 token 之間不存在同樣明確的先后關系。

當 TTT 進入視覺領域后,一系列基礎問題都需要重新回答:內部模型應該使用什么架構?損失函數如何選擇?應該更新多少輪?學習率應該多大?卷積和 MLP 哪一種更適合視覺任務?

ViT3 的重要貢獻之一,是通過系統實驗梳理視覺 TTT 的設計空間,總結出六條可以復用的實踐原則,并討論了TTT 當前存在的核心挑戰和未來研究方向。

觀察一:內部訓練損失函數的混合二階導數不能為零。

TTT 的內部訓練過程要和外部網絡一起做端到端優化,這意味著梯度要穿過內部訓練步驟回傳到外部參數。如果損失函數的混合二階導數為零,外部參數的梯度信號就會在回傳中消失。MAE(L1)損失的導數是符號函數,混合二階導幾乎處處為零——實驗中它比 MSE 損失低了 2.4 個百分點。這不是一個可以通過調參彌補的小問題,它決定了某些損失函數從根本上不適用于 TTT。

觀察二:視覺任務適合全批次、單輪訓練。

此前 NLP 領域的 TTT 實踐發現,小批量順序更新通常更有效。但在視覺任務中,全批次更新表現更好。論文給出了一個有說服力的解釋:小批量順序更新會引入因果偏置——前面的 batch 影響后面的梯度,后面的更新也可能覆蓋前面的信息。這種偏置適合具有方向性的語言數據,但對非因果的視覺數據反而是一種負擔。綜合準確率、吞吐和訓練穩定性,ViT3 最終采用單輪全批次更新。

觀察三:在穩定的前提下,更大的內部學習率效果更好。

實驗表明,在訓練穩定的前提下,越大的學習率效果越好。太小的學習率會讓內部模型更新不充分,無法有效存儲上下文信息;過大的學習率則容易導致訓練不穩定。

值得注意的是,在一些特殊情況下,內部學習率可以吸收為 K 和 V 的放縮。但是這并不內說明內部學習率的設置不重要。一個類似的例子是Softmax注意力中的

放縮,它也能夠被 Q 和 K 吸收,但是依然重要。

觀察四:增加內部模型容量,性能持續提升。

一個關鍵問題是:TTT 能不能通過簡單擴大內部模型來提升序列建模能力?為了探索這一點,論文將 TTT 內部模型實現為一個 SiLU 激活函數的兩層 MLP,并逐漸增加其寬度。實驗表明,當隱藏維度 d 擴到 4d,準確率從 78.9% 提升到 79.6%,沒有飽和跡象。這是TTT 范式的一個核心優勢,即它可以在外部模型尺寸固定的條件下,通過簡單地擴展內部模型尺寸來實現更好的序列建模效果。這和 Linear Attention 形成鮮明對比:后者通常將上下文壓縮進固定大小的線性狀態,表達能力和擴展空間相對有限。



隨著內部模型寬度增加,TTT 的性能持續提升,說明內部模型容量仍有進一步擴展空間。

觀察五:當前更深的內部模型存在優化困難,需要未來工作解鎖其理論潛力。

一個不符合預期的結果是,把內部模型從一層變成兩層、三層,參數更多、理論容量更大,但實際準確率反而下降。論文的分析指向優化困難:更深的內部模型在 TTT 的短訓練步數下容易欠擬合——訓練損失更高,測試準確率更低。當前深層網絡的理論優勢在 TTT 的快速訓練場景中難以兌現。論文同時發現,如果把輸出層固定為單位矩陣(一種「約束設計」),準確率反而比完整的兩層 MLP 更高。這進一步證實了優化瓶頸的存在。

解決較深內部模型的優化問題,是 TTT 的一個重要未來方向。理論工作表明,神經網絡的擬合能力隨深度指數增長,這正是當前神經網絡成功的核心原因。因此,較深的內部模型在實現高精度測試時訓練序列建模中具有突出潛力。



增加內部模型深度,并沒有帶來更高的準確率。隨著層數增加,訓練損失反而更高,說明視覺 TTT 當前仍面臨內部模型優化瓶頸。

觀察六:卷積天然適合做視覺 TTT 的內部模型。

隨著 Transformer 興起,卷積不再是視覺模型中唯一占據主導地位的結構。但在 TTT 框架中,它獲得了一個新的角色。TTT 把全局上下文壓縮進內部模型的權重,當內部模型是卷積時,這些權重就是卷積核——全局信息被編碼在核的參數里,而卷積操作本身又提供了局部感受野。一次前向推理同時完成了全局和局部信息的整合。實驗中,一個輕量級 3 × 3 深度卷積在參數量更少的情況下,比 MLP baseline 高出 1.2 個百分點。

這六條原則并不是相互獨立的經驗。

觀察一排除了一類不適用于TTT 的損失函數;觀察二和觀察三回答「應該怎么訓練」;觀察四、觀察五和觀察六則回答「內部模型應該如何設計」。

它們共同構成了一份視覺 TTT 的實踐地圖:哪些方向值得未來工作繼續探索,哪些路徑容易陷入優化瓶頸,哪些設計能夠在效果和效率之間取得更好的平衡。

從分類到生成,

ViT3 的優勢在高分辨率下放大

基于前面的六條觀察,研究團隊最終搭建出 Vision Test-Time Training 模型,簡稱 ViT3。

它的整體設計并不復雜。

在多數 Attention head 中,ViT3 使用一種簡化的門控內部模型,在保持易于優化的同時,提供比純線性狀態更強的表達能力。另有一個 head 引入輕量級的 3 × 3 深度卷積,使模型在壓縮全局上下文的同時,也能夠利用圖像中的局部空間結構。

內部訓練同樣保持克制:每次只進行一輪全批次梯度更新。換句話說,ViT3 沒有在推理過程中嵌入一套繁重的訓練流程,而是在控制額外成本的前提下,讓內部模型完成一次快速適配。

圍繞這一模塊,論文構建了三類模型:ViT3 采用非層級架構,對齊經典 Vision Transformer;H-ViT3 使用四階段層級設計,更適合作為通用視覺骨干網絡;DiT3 則將同樣的 TTT 模塊放入擴散模型,用于圖像生成。

這組設計的目標,不是針對某一個 benchmark 調整出更高的數字,而是驗證一個更關鍵的問題:TTT 能否成為一種可遷移的視覺序列建模模塊?

從實驗結果看,答案是積極的。

在圖像分類任務中,ViT3 展現出有競爭力的視覺表征能力。在目標檢測和語義分割等需要處理更高分辨率輸入的任務中,它也能夠超過多種同級別的 Mamba 和 Linear Attention 模型。

這說明,相比將上下文壓縮進一個簡單線性狀態,ViT3 使用更靈活的內部模型保存信息,能夠在控制計算成本的同時,維持較強的建模能力。

ViT3 的適用范圍也沒有停留在識別任務。

研究團隊進一步將 TTT 模塊放入擴散模型,構建出 DiT3。實驗顯示,在不同模型規模和 patch 配置下,DiT3 均能夠改善原始 DiT 的圖像生成質量。

這意味著,TTT 可以作為一個相對獨立的模塊,進入不同類型的視覺架構。

但 ViT3 最直觀的優勢,仍然來自高分辨率圖像。

在 RTX 3090 上處理 1248 × 1248 圖像時,單張圖片包含 6084 個 token。此時,ViT3-T 的推理速度達到 DeiT-T 的 4.6 倍,GPU 顯存消耗降低了 90.3%。



原因并不復雜。

在低分辨率輸入下,序列較短,標準 Attention 的成本仍然可以承受。隨著分辨率提高,token 數量快速增加,標準 Softmax Attention 的計算和顯存開銷隨序列長度呈二次增長;ViT3 則保持線性復雜度。兩條曲線之間的差距,會隨著輸入規模擴大持續拉開。

對于面向真實生活場景的多模態應用而言,這一點尤其重要。

當模型開始接收更高清的圖片、更長的視頻和更復雜的視覺上下文時,序列長度會快速增加。單純依賴算力堆疊,很難無限持續。

這也與阿里巴巴長期關注的方向形成呼應。

未來的多模態交互,不只是讓模型識別一張圖片,而是需要它在真實環境中持續處理更加復雜的視覺信息。無論是更自然的人機交互,還是面向生活場景的 AI 原生應用,都需要一個更具擴展性的視覺底座。

ViT3 所驗證的,是另一種可能性:通過架構創新提高上下文壓縮質量,在不放棄線性復雜度優勢的前提下,盡量縮小與標準 Transformer 之間的性能差距。

但 ViT3 還不是對 Transformer 的全面替代。

論文給出的定位相對克制:作為一套視覺 TTT baseline,它已經超過多種線性復雜度模型,并顯著縮小了與主流視覺 Transformer 的性能差距,但仍存在進一步提升空間。

另一方面,4.6 倍速度提升和 90.3% 顯存節省來自 RTX 3090 上的實驗結果,證明了算法層面的擴展優勢,但還不能直接等同于手機、車端等邊緣設備上的實際部署效果。

更準確地說,ViT3 為端側部署和高分辨率多模態應用打開了新的可能性,也為后續工程優化提供了基礎。

算力與性能,不必互斥

過去幾年,視覺模型領域逐漸形成了一種默認路徑:更好的性能,往往意味著更大的模型、更多的訓練數據和更高的算力成本。

線性復雜度模型雖然更加高效,但通常需要付出性能代價。

ViT3 試圖重新檢驗這一前提。

它系統梳理了視覺 TTT 的設計空間,證明學習驅動的上下文壓縮可以覆蓋分類、檢測、分割和生成任務,并在高分辨率場景下展現出更加明顯的效率優勢。

這也是阿里巴巴持續探索的方向。

當多模態模型持續走向高清視覺、長上下文和復雜交互,行業需要回答一個更長期的問題:能力增長是否只能依賴更多算力?

ViT3 給出了另一種可能:答案也許不在更大的模型里,而在更聰明的架構里。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
為什么福布斯富豪榜上看不到洛克菲勒、羅斯柴爾德這些老牌家族?

為什么福布斯富豪榜上看不到洛克菲勒、羅斯柴爾德這些老牌家族?

荊楚寰宇文樞
2026-06-09 23:16:34
1958年,八一廠同時選中兩個帥小伙當主角,后來兩個人結局卻不同

1958年,八一廠同時選中兩個帥小伙當主角,后來兩個人結局卻不同

銅臭的歷史味
2026-06-14 00:09:21
淘寶回應“女裝商品宣傳圖中出現模特吸煙動作”:違反平臺相關規定,可投訴舉報

淘寶回應“女裝商品宣傳圖中出現模特吸煙動作”:違反平臺相關規定,可投訴舉報

山西經濟日報
2026-06-12 10:25:12
中國男籃隊長調整

中國男籃隊長調整

極目新聞
2026-06-13 10:53:08
江蘇“最憋屈”的城市?人均GDP超蘇州和南京,卻被認為只是二線

江蘇“最憋屈”的城市?人均GDP超蘇州和南京,卻被認為只是二線

劉小順
2026-06-12 20:06:35
每人最多可享500元補貼!廣東啟動電動自行車以舊換新活動

每人最多可享500元補貼!廣東啟動電動自行車以舊換新活動

南方都市報
2026-06-13 18:18:36
游客穿旗袍進天津一景區拍照被攔,“里面有明碼標價的旗袍租賃”,景區回應:和穿著無關,需提前預約,不能商拍

游客穿旗袍進天津一景區拍照被攔,“里面有明碼標價的旗袍租賃”,景區回應:和穿著無關,需提前預約,不能商拍

天津人
2026-06-13 14:40:40
“冤不冤?”內蒙古,一女子還在哺乳期,就開始做上門按摩服務

“冤不冤?”內蒙古,一女子還在哺乳期,就開始做上門按摩服務

阿振觀點
2026-06-01 20:09:42
壽命短的男性,一般會有“3大1白”,如果沒有,說明身體很健康

壽命短的男性,一般會有“3大1白”,如果沒有,說明身體很健康

熊貓醫學社
2026-05-31 11:30:03
最強爆點三笘薰傷了!日本左路被掏空,世界杯還沒開始就涼了

最強爆點三笘薰傷了!日本左路被掏空,世界杯還沒開始就涼了

十點體壇
2026-06-13 23:00:03
美國對中國統一下達新結論:大陸只要按兵不動,越晚統一代價越小

美國對中國統一下達新結論:大陸只要按兵不動,越晚統一代價越小

華史談
2026-05-13 08:49:26
7年敗光2個億,鄒市明冉瑩穎共同發文,終究還是踏出了這一步

7年敗光2個億,鄒市明冉瑩穎共同發文,終究還是踏出了這一步

林輕吟
2026-02-11 11:29:40
光通信真正的王炸,是這5家龍頭,誰在偷偷卡住AI命門?

光通信真正的王炸,是這5家龍頭,誰在偷偷卡住AI命門?

林子說事
2026-06-13 13:07:34
大反轉!恩佐和糟糠女友復合,瓦倫蒂娜:沒有第三次機會

大反轉!恩佐和糟糠女友復合,瓦倫蒂娜:沒有第三次機會

綠茵八卦君
2026-06-13 18:50:03
有研粉材,市占率全球第二!

有研粉材,市占率全球第二!

飛鯨投研
2026-06-12 18:39:11
有色金屬大漲之后,我偷偷去問了期貨圈的朋友,他回了我四個字

有色金屬大漲之后,我偷偷去問了期貨圈的朋友,他回了我四個字

說故事的阿襲
2026-06-13 13:49:35
劉濤彎腰7秒上熱搜:娛樂圈人設塌了,真實值錢了?

劉濤彎腰7秒上熱搜:娛樂圈人設塌了,真實值錢了?

庭小娛
2026-05-16 16:47:07
多證據表明凱爾特人拿下字母哥已成定局,字母哥將奔赴綠軍!

多證據表明凱爾特人拿下字母哥已成定局,字母哥將奔赴綠軍!

愛體育
2026-06-13 23:04:55
春光乍泄!古力娜扎跳舞肩帶突然斷裂大面積暴露,擔心的事發生了

春光乍泄!古力娜扎跳舞肩帶突然斷裂大面積暴露,擔心的事發生了

蹲坑看世界
2026-06-13 21:06:31
伊朗議員:美再襲伊朗實為施壓,美須接受伊朗已不同往日

伊朗議員:美再襲伊朗實為施壓,美須接受伊朗已不同往日

澎湃新聞
2026-06-12 23:26:12
2026-06-14 01:48:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13246文章數 142668關注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

寶媽考編排名第一卻被低分者遞補 維權后崗位直接取消

頭條要聞

寶媽考編排名第一卻被低分者遞補 維權后崗位直接取消

體育要聞

美國4比1巴拉圭:這統治力真是美國隊?!

娛樂要聞

鄧超曬孫儷親手織的帽子,笑瘋全網!

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

手機
健康
親子
藝術
軍事航空

手機要聞

比華為三折疊還稀缺!iPhone Ultra國行備貨量不足:博主直言搶到賺到

老人、小孩、孕婦,吃粽子有啥風險

親子要聞

真正覺醒的家庭

藝術要聞

廣州再建一座“小蠻腰”?190米,頂著個球,2027年見!

軍事要聞

伊外長披露伊美諒解備忘錄草案部分內容

無障礙瀏覽 進入關懷版