![]()
本文第一作者為清華大學(xué)博士生韓東辰,主要研究方向包括基礎(chǔ)模型架構(gòu)、持續(xù)學(xué)習(xí)等。通訊作者為黃高副教授。
序列建模是大語(yǔ)言模型、計(jì)算機(jī)視覺(jué)等領(lǐng)域的基礎(chǔ)共性問(wèn)題。當(dāng)前通用的 Transformer 模型計(jì)算復(fù)雜度隨序列長(zhǎng)度平方增長(zhǎng),在長(zhǎng)序列任務(wù)中面臨顯著的計(jì)算挑戰(zhàn)。因此,研究者們一直在探索具有線(xiàn)性計(jì)算復(fù)雜度的高效序列建模方法。
測(cè)試時(shí)訓(xùn)練(Test-Time Training,TTT)模型是一種新興的序列建模范式,它將注意力操作重新定義為一個(gè)在線(xiàn)學(xué)習(xí)過(guò)程,在每次推理時(shí)用 Key-Value 對(duì)構(gòu)建一個(gè)輕量化的內(nèi)部模型。不同于一個(gè)確定性的模型設(shè)計(jì),這一范式開(kāi)啟了一個(gè)豐富的線(xiàn)性復(fù)雜度設(shè)計(jì)空間,有望實(shí)現(xiàn)高精度的高效序列建模。
然而,TTT 靈活的設(shè)計(jì)空間是一把雙刃劍:當(dāng)前測(cè)試時(shí)訓(xùn)練模型缺少系統(tǒng)性的理解和設(shè)計(jì)原則,如何從豐富的設(shè)計(jì)空間中構(gòu)建一個(gè)理想的視覺(jué) TTT 模型、如何實(shí)現(xiàn)進(jìn)一步提升,都是目前極具挑戰(zhàn)的問(wèn)題。
為此,本文在視覺(jué)領(lǐng)域系統(tǒng)性地研究了測(cè)試時(shí)訓(xùn)練模型的構(gòu)建和效果。通過(guò)一系列的實(shí)驗(yàn)和分析,我們總結(jié)了高精度、高效視覺(jué) TTT 模型的六條設(shè)計(jì)原則,并討論了一些未來(lái)改進(jìn)方向。
基于這些發(fā)現(xiàn),本文構(gòu)建了純 TTT 架構(gòu) Vision Test-Time Training (ViT3)模型,它在各類(lèi)視覺(jué)任務(wù)中表超越了現(xiàn)有線(xiàn)性復(fù)雜度模型,同時(shí)保持并行計(jì)算和高推理速度,為未來(lái)視覺(jué) TTT 的研究提供了一個(gè)有力的基線(xiàn)。
![]()
- 論文鏈接:https://arxiv.org/abs/2512.01643
- 代碼鏈接:https://github.com/LeapLabTHU/ViTTT
序列建模的新視角
在傳統(tǒng)的理解視角下,我們通常將注意力計(jì)算理解為用注意力分?jǐn)?shù)對(duì) value 進(jìn)行加權(quán)求和。實(shí)際上,我們可以從一個(gè)用 context 構(gòu)建模型的視角來(lái)理解注意力。
![]()
圖 1:Softmax 注意力、線(xiàn)性注意力、TTT 模塊示意圖
![]()
因此,兩種經(jīng)典的注意力范式都可以理解為使用 key 和 value 構(gòu)造了一個(gè)小的模型,進(jìn)而將 query 輸入這個(gè)模型以實(shí)現(xiàn)建模。
![]()
于是,一個(gè)核心問(wèn)題是:我們能否在實(shí)現(xiàn)壓縮的同時(shí)保持模型的性能,同時(shí)實(shí)現(xiàn)高精度和高效性?
對(duì)于這個(gè)問(wèn)題,研究者們回答是肯定的。回顧整個(gè)機(jī)器學(xué)習(xí)領(lǐng)域的發(fā)展,最為成功的壓縮算法莫過(guò)于深度學(xué)習(xí)。深度學(xué)習(xí)通過(guò)梯度下降,把數(shù)據(jù)信息壓縮到更緊的模型權(quán)重空間中,通常能夠?qū)崿F(xiàn)十倍甚至百倍的壓縮率。因此,測(cè)試時(shí)訓(xùn)練模型正是嘗試在序列建模任務(wù)上再次套用深度學(xué)習(xí)的成功。
如圖 1(c)所示,測(cè)試時(shí)訓(xùn)練模型嘗試將 key 和 value 的信息壓縮到一個(gè)小的內(nèi)部模型中,這個(gè)內(nèi)部模型的結(jié)構(gòu)幾乎是任意的。為了實(shí)現(xiàn)這一點(diǎn),TTT 將 key 和 value 視為一個(gè)小型的 “數(shù)據(jù)集”,要求模型在輸入 key 時(shí)重建對(duì)應(yīng)的 value,通過(guò)梯度下降對(duì)內(nèi)部模型權(quán)重進(jìn)行更新:
![]()
其中,?是一個(gè)自監(jiān)督的重建損失函數(shù),比如 L2 損失。在幾次更新之后,我們認(rèn)為 key 和 value 的信息已經(jīng)較好地壓縮到了 TTT 內(nèi)部模型權(quán)重之中。這時(shí),我們將更新后的內(nèi)部模型應(yīng)用于 query,通過(guò)一次簡(jiǎn)單的前向傳播,讓 query 從內(nèi)部模型的權(quán)重中讀取 key 和 value 的信息。整個(gè)測(cè)試時(shí)訓(xùn)練計(jì)算過(guò)程的計(jì)算復(fù)雜度正比于內(nèi)部模型的計(jì)算復(fù)雜度。
因此,當(dāng)選取一個(gè)簡(jiǎn)單的兩層 MLP 等線(xiàn)性復(fù)雜度模型作為內(nèi)部模型時(shí),TTT 具有線(xiàn)性空間和計(jì)算復(fù)雜度;同時(shí),基于學(xué)習(xí)的壓縮和非線(xiàn)性狀態(tài)空間使得 TTT 具有良好的表達(dá)能力。
視覺(jué) TTT 如何設(shè)計(jì)
如前所述,測(cè)試時(shí)訓(xùn)練模型在每個(gè) Block 內(nèi)部包含一次小的 “深度學(xué)習(xí)”,具有極高的設(shè)計(jì)自由度。當(dāng)前 TTT 缺乏充分的理解和設(shè)計(jì)原則,阻礙了其在視覺(jué)領(lǐng)域的發(fā)展。本文在視覺(jué)領(lǐng)域系統(tǒng)性地探索了 TTT 的設(shè)計(jì)空間,聚焦于兩個(gè)核心方面:(1)內(nèi)部訓(xùn)練設(shè)置,如損失函數(shù)、學(xué)習(xí)率、batch size、訓(xùn)練輪數(shù)等(2)內(nèi)部模型設(shè)計(jì),如內(nèi)部模型架構(gòu)、寬度、深度等。本文基于 DeiT-S 進(jìn)行探索,將原始的 Softmax 注意力替換為 TTT 模塊,在 ImageNet-1K 上進(jìn)行實(shí)驗(yàn)。
1. 內(nèi)部訓(xùn)練設(shè)置
![]()
![]()
圖 2:TTT 內(nèi)部訓(xùn)練損失函數(shù)的選擇
TTT 模型的內(nèi)部訓(xùn)練所需要的 key、value 等,是在整個(gè)外部網(wǎng)絡(luò)的端到端訓(xùn)練過(guò)程中優(yōu)化。在進(jìn)行外部端到端訓(xùn)練時(shí),我們將內(nèi)部梯度視為表達(dá)式,讓整個(gè)模型實(shí)現(xiàn)端到端的反向傳播。在這個(gè)過(guò)程中,我們需要對(duì)內(nèi)部訓(xùn)練梯度的表達(dá)式再次求導(dǎo),計(jì)算 “梯度的梯度”,這是元學(xué)習(xí)中的經(jīng)典操作。在端到端優(yōu)化過(guò)程中,value 的投影矩陣的外部梯度為:
![]()
![]()
觀(guān)察 2:?jiǎn)未稳績(jī)?nèi)部訓(xùn)練(batch gradient)在視覺(jué)任務(wù)中效果較好。
![]()
圖 3:TTT 內(nèi)部訓(xùn)練 batch size 和 epoch
如圖 3 所示,B=N 表示使用全部 N 個(gè) key-value 對(duì)進(jìn)行全批量?jī)?nèi)部梯度下降,而 B=N/2、B=N/3、B=N/4 則對(duì)應(yīng)小批次梯度下降,即把數(shù)據(jù)集劃分為 2、3、4 個(gè)連續(xù)的小批次,每個(gè) epoch 的內(nèi)部訓(xùn)練執(zhí)行 2、3、4 次參數(shù)更新。
本文認(rèn)為,連續(xù)小批次梯度下降會(huì)引入顯式的因果關(guān)系:(1) 前序小批次的更新會(huì)改變內(nèi)模型權(quán)重,影響后續(xù)批次的梯度計(jì)算;(2) 后續(xù)批次的更新可能覆蓋前序批次產(chǎn)生的參數(shù)更新。這種因果關(guān)系非常適合自然語(yǔ)言這類(lèi)因果數(shù)據(jù),但在視覺(jué)任務(wù)中通常是不必要的。
多個(gè) epoch 的內(nèi)部訓(xùn)練能夠提升性能,但是會(huì)顯著降低模型推理速度。
觀(guān)察 3:相對(duì)較大的內(nèi)部學(xué)習(xí)率(如 1.0)更適合 TTT。
![]()
圖 4:TTT 內(nèi)部訓(xùn)練學(xué)習(xí)率
在圖 4 中,我們驗(yàn)證了不同內(nèi)部學(xué)習(xí)率的影響。過(guò)小的學(xué)習(xí)率不足以快速更新原始的內(nèi)部模型權(quán)重,過(guò)大的學(xué)習(xí)率會(huì)導(dǎo)致訓(xùn)練不穩(wěn)定。在本文驗(yàn)證的視覺(jué)任務(wù)中,內(nèi)部學(xué)習(xí)率 1.0 較為合適。
![]()
2. 內(nèi)部模型設(shè)計(jì)
![]()
圖 5:TTT 內(nèi)部模型結(jié)構(gòu)。r 和 l 分別表示模型寬度比例和模型深度
觀(guān)察 4:擴(kuò)大內(nèi)部模型容量能夠持續(xù)提升 TTT 的序列建模能力。
如圖 5 第一部分所示,我們將 TTT 內(nèi)部模型實(shí)現(xiàn)為一個(gè) SiLU 激活函數(shù)的兩層 MLP,并逐漸將寬度比例(隱藏維度 / 輸入維度)從 1.0 增加到 4.0。我們可以觀(guān)察到,模型的性能隨著 TTT 內(nèi)部模型的容量持續(xù)提升。這是測(cè)試時(shí)訓(xùn)練范式的一個(gè)重要優(yōu)勢(shì),即在外部模型尺寸固定的條件下,我們可以通過(guò)簡(jiǎn)單地?cái)U(kuò)展內(nèi)部模型尺寸來(lái)實(shí)現(xiàn)更好的序列建模效果。
但是,值得指出的是,在推理時(shí),一個(gè)內(nèi)部模型引入的計(jì)算量大于相同尺寸的外部模塊。在推理階段,一個(gè)外部模塊僅需要一次前向傳播;而一個(gè)內(nèi)部模型則至少需要進(jìn)行(1)key 前向傳播,1 倍前向傳播計(jì)算量(2)內(nèi)部損失反向傳播,約 2 倍前向傳播計(jì)算量(3)將更新后的內(nèi)部模型應(yīng)用于 query,1 倍前向傳播計(jì)算量。一個(gè)內(nèi)部模型的計(jì)算量是同尺寸外部模塊的近 4 倍。因此,盡管簡(jiǎn)單擴(kuò)展內(nèi)部模型能顯著提升模型能力,本文認(rèn)為設(shè)計(jì)輕量的高效內(nèi)部模型仍然是一個(gè)重要的研究問(wèn)題。
觀(guān)察 5:在當(dāng)前的 TTT 實(shí)現(xiàn)下,較深的內(nèi)部模型存在優(yōu)化困難。
在上一部分中,我們擴(kuò)展了內(nèi)部模型的寬度。另一個(gè)常見(jiàn)的方案是擴(kuò)展模型的深度。如圖 5 第二部分所示,我們分別將內(nèi)部模型實(shí)現(xiàn)為單層線(xiàn)性層、兩層 MLP、三層 MLP,以探索內(nèi)部模型深度對(duì)性能的影響。結(jié)果表明,擴(kuò)展內(nèi)部模型深度時(shí),模型性能持續(xù)下降。在一定程度上,這是一個(gè)不符合預(yù)期的結(jié)果。因此理論上更深的內(nèi)部模型具有更大的容量,應(yīng)該能夠?qū)崿F(xiàn)更好的序列建模。
![]()
圖 6:較深的 TTT 內(nèi)部模型的訓(xùn)練、測(cè)試 loss 均更高
本文認(rèn)為,優(yōu)化問(wèn)題是導(dǎo)致較深內(nèi)部模型性能不佳的原因。為了驗(yàn)證這一點(diǎn),我們?cè)趫D 6 中展示了上述三個(gè)模型的訓(xùn)練和測(cè)試 loss。可以看到,采用更深內(nèi)部模型時(shí),模型的訓(xùn)練 loss 更高,這說(shuō)明性能衰退不是因?yàn)檫^(guò)擬合,而恰恰是欠擬合。更深的內(nèi)部模型具有更強(qiáng)的擬合能力,而在真實(shí)訓(xùn)練中相比于淺內(nèi)部模型欠擬合,說(shuō)明深內(nèi)部模型存在優(yōu)化問(wèn)題,遠(yuǎn)遠(yuǎn)沒(méi)有達(dá)到其理論表征能力。在圖 5 第二部分的結(jié)果進(jìn)一步驗(yàn)證了這一觀(guān)點(diǎn):將兩層 MLP、SwiGLU 的輸出層強(qiáng)行限制為 identity 能夠讓模型性能顯著提升,說(shuō)明較深的內(nèi)部模型顯著欠優(yōu)化。
這種優(yōu)化困難與 TTT 的元學(xué)習(xí)屬性有關(guān)。一方面,內(nèi)部模型的初始權(quán)重是外部訓(xùn)練過(guò)程中的可學(xué)參數(shù),較深的內(nèi)部模型可能導(dǎo)致這個(gè)初始參數(shù)難以?xún)?yōu)化。另一方面,即便有較好的初始參數(shù),深內(nèi)部模型也可能在內(nèi)部訓(xùn)練過(guò)程中遇到梯度消失和爆炸問(wèn)題,影響效果。
解決較深內(nèi)部模型的優(yōu)化問(wèn)題,是 TTT 的一個(gè)重要未來(lái)方向。理論工作表明,神經(jīng)網(wǎng)絡(luò)的擬合能力隨深度指數(shù)增長(zhǎng),這正是當(dāng)前神經(jīng)網(wǎng)絡(luò)成功的核心原因。因此,較深的內(nèi)部模型在實(shí)現(xiàn)高精度測(cè)試時(shí)訓(xùn)練序列建模中具有突出潛力。
觀(guān)察 6:在視覺(jué)任務(wù)中,內(nèi)部模型非常適合采用卷積架構(gòu)。
在 Transformer 出現(xiàn)之前,卷積操作一直是計(jì)算機(jī)視覺(jué)領(lǐng)域的基石。在 TTT 中,我們完全可以將內(nèi)部模型實(shí)現(xiàn)為一個(gè)小的卷積網(wǎng)絡(luò),而不需要將其限定為 MLP、SwiGLU 等單 token 組件。在圖 5 第三部分中,我們展示了兩種最簡(jiǎn)單的實(shí)現(xiàn),將內(nèi)部模型實(shí)現(xiàn)為 3x3 卷積或 Depthwise 卷積。可以看到,這兩種實(shí)現(xiàn)均取得了顯著的性能增益。
本文認(rèn)為,采用卷積網(wǎng)絡(luò)作為 TTT 內(nèi)部模型,能夠?qū)崿F(xiàn)局部信息和全局信息的完美融合。具體而言,在 TTT 的內(nèi)部訓(xùn)練過(guò)程中,key 和 value 的全局信息被壓縮到卷積核的權(quán)重中。在 query 通過(guò)內(nèi)部模型前向傳播時(shí),它很自然地同時(shí)得到局部信息(卷積核感受野)和全局信息(包含全局信息的卷積核權(quán)重),因此完美契合視覺(jué)任務(wù)。
ViT3:視覺(jué)測(cè)試時(shí)訓(xùn)練模型
基于以上探索,本文提出純 TTT 架構(gòu) Vision Test-Time Training (ViT3)模型。具體而言,對(duì)于內(nèi)部訓(xùn)練,采用一次全批量梯度下降、學(xué)習(xí)率 1.0、點(diǎn)積損失函數(shù);對(duì)于內(nèi)部模型,采用簡(jiǎn)化的 SwiGLU 和 Depthwise 卷積。作為 TTT 架構(gòu)的一個(gè) baseline,ViT3 可以應(yīng)用于各類(lèi)視覺(jué) Transformer 框架,完成各類(lèi)任務(wù)。
本文在分類(lèi)、檢測(cè)、分割、生成等代表性視覺(jué)任務(wù)上驗(yàn)證了 ViT3 的性能。實(shí)驗(yàn)結(jié)果表明,ViT3 能夠超越各類(lèi)先進(jìn)的線(xiàn)性復(fù)雜度設(shè)計(jì),如線(xiàn)性注意力、視覺(jué) Mamba 模型。這一結(jié)果驗(yàn)證了 ViT3 設(shè)計(jì)的有效性,同時(shí)凸顯了測(cè)試時(shí)訓(xùn)練模型在高效、可擴(kuò)展的線(xiàn)性復(fù)雜度視覺(jué)序列建模領(lǐng)域的突出潛力。
以下是部分實(shí)驗(yàn)結(jié)果,詳細(xì)結(jié)果請(qǐng)見(jiàn)論文原文:
![]()
圖 7:ImagNet-1K 圖片分類(lèi)實(shí)驗(yàn)
![]()
圖 8:高分辨率下游任務(wù) —— 物體檢測(cè)
![]()
圖 9:圖片生成實(shí)驗(yàn)
![]()
圖 10:推理 Throughput 與顯存隨輸入分辨率變化
總結(jié)與展望
設(shè)計(jì)高效、高表達(dá)能力的序列建模范式一直是計(jì)算機(jī)視覺(jué)領(lǐng)域的核心課題。
本文在視覺(jué)領(lǐng)域系統(tǒng)性地探索了測(cè)試時(shí)訓(xùn)練(Test-Time Training,TTT)這一新興序列建模范式的設(shè)計(jì)空間。
通過(guò)大量實(shí)驗(yàn),本文將觀(guān)察與分析總結(jié)為六條設(shè)計(jì)見(jiàn)解,為構(gòu)建高效的視覺(jué) TTT 模型明確了設(shè)計(jì)準(zhǔn)則,并討論了一些未來(lái)的研究方向。
基于上述研究,本文提出了視覺(jué)測(cè)試時(shí)訓(xùn)練模型(ViT3),一種面向視覺(jué)序列建模的純 TTT 架構(gòu)。ViT3 在多項(xiàng)視覺(jué)任務(wù)上取得了具有競(jìng)爭(zhēng)力的結(jié)果,為線(xiàn)性復(fù)雜度模型提供一個(gè)有力的基線(xiàn)。
我們期望本文的研究結(jié)論與分析能夠幫助視覺(jué) TTT 模型的后續(xù)研究工作。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.