網易首頁 > 網易號 > 正文申請入駐

字節跳動和北大聯合推出革命性"原地測試訓練"技術

2026-04-15 22:03:37　來源: 科技行者

北京舉報

分享至

這項由字節跳動種子團隊和北京大學聯合開展的研究發表于2026年4月，論文編號為arXiv:2604.06169v1，為大語言模型的動態適應能力帶來了重大突破。

目前的大語言模型就像是一個博學的學者，在接受了海量知識的訓練后就被"凍結"了——無論遇到什么新情況，它都只能依靠之前學到的知識來應對，無法根據當前的具體情境進行調整和學習。這就好比一個廚師，無論面對什么樣的食材和顧客需求，都只能按照預先背好的菜譜來做菜，無法根據實際情況靈活調整。

研究團隊針對這個問題提出了一種全新的解決方案——原地測試時間訓練（In-Place Test-Time Training），這是首次讓大語言模型能夠在實際使用過程中動態地調整自己的參數，就像讓那個廚師能夠在烹飪過程中根據食材的實際狀態和顧客的反饋來調整菜譜一樣。

一、突破傳統限制的核心創新

傳統的大語言模型采用"訓練完成后部署"的固定模式。這種模式的問題在于，一旦模型訓練完成并投入使用，它的內部參數就完全固定了，無法根據新的輸入信息進行調整。就像一個圖書管理員，無論讀者問什么問題，他都只能在已有的固定目錄中查找，無法根據讀者的具體需求來重新整理或擴充目錄。

測試時間訓練（TTT）技術的出現為這個問題提供了新的思路。這項技術允許模型在處理新輸入時動態更新一小部分參數（稱為"快速權重"），這些權重就像是模型的"臨時記憶"，能夠快速存儲和利用當前情境的信息。然而，現有的TTT技術在應用到大語言模型時面臨三個關鍵障礙。

首先是架構兼容性問題。現有的TTT方法通常需要在標準的Transformer架構之外添加專門的層結構，這意味著要想使用TTT技術，就必須從零開始重新訓練模型，這對于參數量達到數十億甚至數千億的大語言模型來說成本極其昂貴。這就像要給一棟已經建好的摩天大樓加裝電梯，需要拆掉重建一樣困難。

其次是計算效率問題。傳統的TTT機制需要對每個輸入標記（token）都進行一次參數更新，這種逐個處理的方式嚴重制約了現代并行計算設備（如GPU和TPU）的效率。這就像在流水線上，每處理一個零件都要停下來調整整條生產線，顯然無法發揮現代工廠的生產效率。

第三個問題是學習目標不匹配。現有的TTT方法通常使用通用的重構目標來更新快速權重，簡單來說就是讓模型學會"記住"當前的輸入。但這種目標與大語言模型的核心任務——預測下一個詞語——并不完全吻合。這就像訓練一個翻譯員時，不是讓他練習翻譯，而是讓他練習復述，雖然有一定幫助，但并非最佳的訓練方式。

二、巧妙的"就地改造"解決方案

面對這些挑戰，研究團隊提出了一個巧妙的解決方案：原地測試時間訓練。這個方法的核心思想是不添加新的結構，而是重新利用模型中已有的組件。

在標準的Transformer模型中，多層感知機（MLP）塊是一個關鍵組件，它可以被看作是模型的"知識庫"。研究團隊發現，這些MLP塊本身就具有類似鍵值存儲器的功能，能夠存儲和檢索信息。因此，他們提出將MLP塊中的最終投影矩陣作為可調整的"快速權重"，在推理過程中對其進行就地更新。

這種設計的巧妙之處在于，它完全不改變模型的整體架構。就像在原有的圖書館中設置一個臨時閱覽區，圖書管理員可以根據當前讀者的需求臨時調整這個區域的布局和資源配置，而不需要改建整個圖書館。這樣既保持了原有系統的完整性，又增加了靈活性。

具體來說，在處理輸入序列時，模型會將輸入分成若干個塊（chunks），每個塊包含一定數量的標記。對于每個塊，模型首先使用當前的快速權重來處理輸入，然后根據處理結果更新這些權重，為下一個塊的處理做準備。這種塊級更新的方式既保證了因果性（即模型不會"預知"未來的信息），又大大提高了計算效率，能夠充分利用現代并行計算設備的能力。

三、專門定制的學習目標

除了架構上的創新，研究團隊還針對大語言模型的特點設計了專門的學習目標。傳統的TTT方法通常讓模型學習重構當前的輸入，但這對于以預測下一個詞為核心任務的語言模型來說并非最優選擇。

研究團隊提出了一個與下一詞預測（Next-Token Prediction）任務直接對齊的學習目標。簡單來說，就是讓快速權重不僅僅記住當前的信息，更要學會預測接下來可能出現的內容。這就像訓練一個棋手，不是讓他記住當前的棋局，而是讓他學會預判下幾步的走法。

為了實現這個目標，研究團隊使用了一維卷積操作和可訓練的投影矩陣來生成包含未來信息的目標。這聽起來很復雜，但可以用一個簡單的比喻來理解：就像給模型配備了一個"預知鏡"，讓它能夠窺見一點點未來的信息，從而更好地調整自己的行為。

研究團隊還從理論角度證明了這種學習目標的優越性。他們以"歸納頭"機制為例進行了分析——這是一種在上下文學習中至關重要的機制，類似于模式識別。分析結果顯示，使用對齊的學習目標能夠顯著提高模型對正確答案的預測概率，同時保持對其他選項的預測基本不變。相比之下，傳統的重構目標對提高預測準確性的幫助微乎其微。

四、高效的并行實現

為了讓這項技術在實際應用中可行，研究團隊還開發了一套高效的并行實現方案。這個方案的核心是利用快速權重更新規則的結合性質，通過并行掃描算法同時處理多個序列塊，同時保持嚴格的因果語義。

這種實現方式就像是在裝配線上實現了真正的并行作業：多個工人可以同時處理不同的零件，但每個零件的處理都嚴格按照正確的順序進行，最終組裝出的產品完全符合設計要求。這種設計使得原地測試時間訓練能夠充分利用現代加速器的并行計算能力，同時確保模型的推理過程在數學上等同于嚴格的順序處理。

在處理文檔邊界時，系統會自動將快速權重重置為預訓練狀態，防止不同文檔之間的信息泄露。這就像在處理不同項目時清理工作臺一樣，確保每個項目都從清潔的狀態開始。

五、令人印象深刻的實驗結果

研究團隊通過一系列全面的實驗驗證了原地測試時間訓練的有效性。這些實驗可以分為三個主要類別：作為預訓練模型的即插即用增強、從零開始的訓練比較，以及關鍵設計選擇的消融研究。

在即插即用增強實驗中，研究團隊選擇了Qwen3-4B-Base模型作為基礎，這是一個在32k上下文窗口上訓練的競爭力模型。他們設計了一個兩階段的持續訓練課程：第一階段使用約200億個標記和32k上下文長度，第二階段使用約150億個標記和128k上下文長度。為了有效管理這些長序列，他們還采用了YaRN技術來調整模型的旋轉位置嵌入。

實驗結果令人矚目。在RULER基準測試中，增強了原地測試時間訓練的Qwen3-4B模型在長上下文任務中表現出色。隨著序列長度的增加，這種優勢變得越來越明顯。特別是在64k和128k上下文長度下，增強模型取得了substantial gains。更令人印象深刻的是，這種優勢在外推到256k上下文時得到了保持，展現出了卓越的泛化能力。

為了驗證方法的普遍適用性，研究團隊還將原地測試時間訓練應用于另外兩個模型：LLaMA-3.1-8B和Qwen3-14B-Base。結果顯示，這種技術在所有上下文長度上都持續改善了RULER分數，特別是在較長的上下文中改善更為顯著。這證明了原地測試時間訓練作為預訓練大語言模型的廣泛適用的即插即用增強技術的有效性。

在從零開始訓練的比較實驗中，研究團隊將原地測試時間訓練與其他相關方法進行了對比。他們首先在500M和1.5B參數規模上建立了語言建模能力基準，然后評估了其在更大4B模型上的可擴展性和影響。

比較的方法包括標準Transformer配合滑動窗口注意力、門控線性注意力、DeltaNet和大塊測試時間訓練等。所有模型都在32k上下文長度的序列上進行訓練。結果顯示，原地測試時間訓練在所有參數規模上都持續優于競爭基線，其性能隨著完整32k上下文的使用而穩步提升。

在4B參數規模的實驗中，研究團隊評估了配備全注意力和滑動窗口注意力的Transformer模型，并與它們的原地測試時間訓練增強版本進行了比較。這些模型接受了1200億標記的訓練，上下文長度為8k。實驗結果表明，原地測試時間訓練在大多數常識推理任務中持續改善了這兩種Transformer變體的性能，并在長上下文評估中產生了卓越的表現。

六、深入的設計選擇分析

為了更好地理解原地測試時間訓練的工作機制，研究團隊還進行了詳細的消融研究，分析了關鍵設計選擇的影響。

關于狀態大小的影響，研究結果顯示，原地測試時間訓練的性能隨著快速權重大小的增加而持續改善。這可以通過改變啟用TTT的層數來控制。結果表明，更大的快速權重允許模型更有效地適應上下文信息，這進一步支持了他們利用MLP狀態大量的重新利用方法。

在塊大小的分析中，研究團隊發現塊大小在效率和性能之間存在權衡。通過改變塊大小，他們發現512和1024的塊大小都能取得競爭性的較好性能，而1024在效率方面表現更好。這個發現很重要，因為它表明原地測試時間訓練自然適合塊級更新，特別是大塊更新，這與他們的理論預期一致。

對于語言模型對齊目標的深入分析，研究團隊剖析了他們定制的學習目標中的各個組件。目標定義為使用1D卷積操作和投影變換生成包含未來標記信息的目標。分析結果表明，這兩個組件都是性能保證所必需的，其中1D卷積在長上下文中起著關鍵作用，而投影變換在短上下文中至關重要。這些結果與他們在理論分析中的發現一致，強烈支持了為語言建模導出定制目標的動機。

研究團隊還評估了原地測試時間訓練引入的計算開銷。他們比較了使用和不使用原地測試時間訓練的預填充吞吐量和內存消耗。結果驗證了他們實際實現的效率，在實際場景中引入的開銷可以忽略不計。

七、技術實現的精妙細節

原地測試時間訓練的實現包含了許多精心設計的技術細節。為了確保更新增量不包含未來信息，系統在生成值時對1D卷積應用因果填充。這將每個增量計算隔離到其各自的塊中，使并行掃描在數學上等同于順序更新。

在文檔邊界處，快速權重被重置為其預訓練狀態，以防止獨立序列之間的上下文泄漏。最終的上下文并行算法在附錄中有詳細描述，展示了如何在保持嚴格因果語義的同時實現高效的并行處理。

當將原地測試時間訓練集成到預訓練模型中進行持續訓練時，仔細的初始化對于保持模型的預訓練能力至關重要。研究團隊將新引入的TTT組件（1D卷積算子和投影矩陣）進行了特殊初始化，使得TTT更新在初始化時可以忽略不計，確保模型從其原始預訓練行為開始。具體來說，深度1D卷積采用零初始化，投影矩陣初始化為稀疏對角矩陣。這種接近零的初始化保證了初始快速權重更新接近零，因此有效的權重參數保持與其預訓練值相同。

八、廣闊的應用前景和意義

原地測試時間訓練技術的成功為大語言模型的發展開辟了新的方向。這項技術不僅解決了現有TTT方法的局限性，還為實現真正動態適應的語言模型提供了可行的路徑。

從技術角度來看，這項工作證明了通過巧妙的設計可以在不犧牲效率的情況下增強現有模型的能力。原地設計避免了昂貴的從零開始重訓練，使得這項技術能夠應用于已有的大規模預訓練模型。塊級更新機制確保了在現代并行硬件上的高效執行，而專門設計的學習目標則確保了對語言建模任務的有效性。

從應用角度來看，這項技術為處理需要動態適應的長期任務開辟了新的可能性。無論是需要持續學習新信息的對話系統，還是需要適應特定領域知識的專業應用，原地測試時間訓練都提供了一個實用的解決方案。

更重要的是，這項工作為大語言模型向持續學習范式的轉變邁出了重要一步。傳統的"訓練然后部署"模式可能逐漸被更加動態和適應性的方法所取代，這將使人工智能系統能夠更好地應對真實世界的復雜性和變化。

研究團隊的工作還展示了跨學科合作的價值。通過結合理論分析和實際工程，他們不僅解決了技術挑戰，還為未來的研究提供了堅實的理論基礎。這種理論與實踐相結合的方法為人工智能領域的發展提供了寶貴的經驗。

總的來說，原地測試時間訓練技術代表了大語言模型技術發展的一個重要里程碑。它不僅解決了當前技術的限制，還為未來更加智能和適應性的人工智能系統鋪平了道路。這項技術的成功實施證明，通過創新的設計思路和精心的工程實現，我們可以顯著提升人工智能系統的能力，使它們更好地服務于人類社會的各種需求。

說到底，這項研究最令人興奮的地方在于它讓大語言模型具備了類似人類的學習能力——能夠在使用過程中不斷適應和改進。這意味著未來的AI助手不再是一成不變的工具，而是能夠與用戶一起成長、一起學習的智能伙伴。當然，這項技術還在發展初期，但它為我們展現了一個充滿可能性的未來：一個AI能夠真正理解并適應我們每個人獨特需求的世界。有興趣深入了解這項技術細節的讀者可以通過論文編號arXiv:2604.06169v1查詢完整的研究報告。

Q&A

Q1：什么是原地測試時間訓練技術？

A：原地測試時間訓練是一種讓大語言模型在使用過程中動態調整參數的技術。它不需要改變模型架構，而是重新利用模型中已有的MLP組件作為"快速權重"，讓模型能夠根據當前輸入的具體情境進行實時學習和適應，就像讓一個廚師能在烹飪過程中根據食材狀態調整菜譜一樣。

Q2：原地測試時間訓練與傳統大語言模型有什么區別？

A：傳統大語言模型采用"訓練完成后部署"的固定模式，參數一旦訓練完成就無法改變。而原地測試時間訓練技術讓模型能夠在處理新輸入時動態更新部分參數，實現邊使用邊學習。這就像傳統模型是一本寫好的教科書，而新技術讓模型變成了一個能夠實時做筆記和總結的學生。

Q3：這項技術在實際應用中有什么優勢？

A：這項技術的主要優勢包括：可以直接應用于現有的預訓練模型而無需重新訓練，大大降低了成本；能夠顯著提升模型處理長文本的能力；具有高計算效率，能充分利用現代并行硬件；為開發真正能持續學習的AI系統提供了技術基礎，讓AI助手能夠更好地適應每個用戶的特定需求。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.