網易首頁 > 網易號 > 正文申請入駐

南洋理工大學等突破：AI語言模型實現多字并行預測速度提升1.7倍

2026-04-16 20:23:54　來源: 科技行者

北京舉報

分享至

這項由南洋理工大學、新加坡管理大學和烏普薩拉大學聯合開展的研究，以預印本形式發布于2026年4月8日，論文編號為arXiv:2604.07023，有興趣深入了解的讀者可通過該編號查詢完整論文。

**每個字都要單獨"想一下"，這是一種浪費**

當你使用ChatGPT、文心一言或任何大語言模型時，你可能注意到它生成文字的方式很特別——一個字、一個字地往外蹦，像打字員在慢慢敲鍵盤。這背后有一個根深蒂固的設計邏輯：每生成一個字，模型都需要完整地"思考"一次，無論那個字有多顯而易見。

以一道簡單的數學題為例："2加2等于幾？"答案顯然是"4"，但模型在生成這個字之前，依然會老老實實地走完一整套思考流程。更極端的例子是，當模型輸出"綜上所述，答案是"這樣的套話時，后面跟著什么答案幾乎是被前文決定了的，但模型還是要為這幾個毫無懸念的字分別花費相同的計算資源。這就好比一個廚師，不管是切一根大蔥還是處理一道復雜的法式料理，都要把整套刀具和砧板重新擺一遍——顯然有點大費周章。

研究團隊把這種浪費看在眼里，于是提出了一個問題：能不能讓模型在"顯而易見"的時候，一口氣預測出好幾個字，而不是每次只能出一個？他們給出的答案，就是這篇論文的主角——**MARS**，全稱Mask AutoRegreSsion，直譯過來叫"掩碼自回歸"。

一、老方法有哪些痛點，MARS又是什么思路

在MARS出現之前，研究人員并非沒有想過讓模型多生成幾個字。主流的解決方案大致走了兩條路。第一條路是"找個助手來幫忙"，也就是所謂的推測解碼：先用一個小的、速度快的模型猜幾個字，再讓大模型來驗證這些猜測對不對。這個辦法有效，但代價是你需要同時養著兩個模型，內存占用加倍，系統復雜度也大幅提升，就好比你雇了一個助手，但助手和你都需要一張完整的辦公桌。第二條路是"給模型裝上額外的腦子"，比如Medusa和EAGLE這類方法，在原有模型的基礎上附加多個預測頭，每個頭負責預測未來的某個位置。這個思路需要額外的參數和專門的訓練，改變了模型的結構，部署起來頗為麻煩。

MARS走的是一條截然不同的路線：不增加任何結構，不添加任何參數，只通過繼續訓練，讓原本的模型"學會"在一次思考中同時預測多個字。更關鍵的是，訓練完成后的模型和原來的模型在外觀上完全一樣——你可以把它當作普通模型來用，一次只出一個字；也可以開啟"加速模式"，讓它在有把握的時候一次吐出好幾個字。用餐廳來類比，這就像是把同一位廚師訓練成既能做精細的單人套餐，也能在熟悉菜品的情況下同時備好幾道菜，而不是新招一個幫廚或者給廚房加一臺新設備。

二、為什么之前的"多字預測"方法總是搞砸，MARS找到了什么關鍵

在設計MARS之前，研究團隊做了一件重要的功課：分析為什么以往的方法總是在"多字預測"上表現變差，尤其是在數學推理和代碼生成這類需要嚴謹思考的任務上。

他們把問題歸結為四個"裂縫"——也就是多字預測方案和原始模型之間存在的四處差異。第一處裂縫是不可避免的：要同時預測多個未知的字，你就必須在那些位置放上"占位符"，就像在填空題里先畫幾個橫線。這是多字預測的本質代價，沒有辦法繞開。

然而，其余三處裂縫都是"自找麻煩"——它們源于研究者在設計方案時不必要地偏離了原始模型的工作方式。第二處裂縫是注意力方向的問題。原始的語言模型只向左看——它只能參考已經生成的字，不能"偷看"還沒生成的字，這叫因果注意力。但一些多字預測方案在處理同一批待預測的字時，允許它們互相參考，也就是說某個待預測的字可以看到同一批中其他待預測的字，這就打破了模型原本的工作習慣。第三處裂縫是預測位置的對齊問題。在標準語言模型里，位置1的輸出是對位置2的預測，位置2的輸出是對位置3的預測，依此類推，整體向右偏移一格。如果多字預測方案改變了這個規則，就相當于把一套精密儀器的刻度盤重新校準，原本的指針指向就全亂了。第四處裂縫是生成順序的問題。原始模型總是從左到右依次生成，但有些擴散類方法會根據模型的置信度決定先生成哪個字，打亂了順序。

MARS的核心洞察在于：只要把第二、三、四處裂縫填平，模型就能在保留原有能力的同時，學會處理第一處裂縫帶來的挑戰。用修車來比喻，MARS發現四個零件中有三個是可以完好保留的，只有一個需要改裝——而之前的方法卻把四個零件全換了，難怪車開起來不順。

三、MARS具體是怎么訓練的——"雙軌并行"的學習方式

了解了問題所在，MARS的訓練方案就變得清晰了。整個訓練過程可以用"影子練習"來理解：模型同時處理同一段文字的兩個版本，一個是原汁原味的完整版本，另一個是被打了馬賽克的遮蓋版本。

具體來說，對于一段需要學習的回答文字，研究團隊把它按固定大小分成若干"塊"，比如每塊4個字。然后，他們把每一塊里的所有字都替換成特殊的"掩碼符號"（可以理解為空白占位符），得到一個全是占位符的遮蓋版本。訓練時，模型同時接收這兩個版本，前半段是完整版，后半段是遮蓋版，長度加在一起是原來的兩倍。

在這個"雙軌"結構里，模型需要同時完成兩項任務。面對完整版那一半，它照常做標準的語言模型訓練，每次預測下一個字；面對遮蓋版那一半，它需要根據前面那些完整的字，把每個占位符的位置填上正確的內容。特別設計的注意力規則確保了遮蓋版里的每一塊只能看到它前面那些已經生成完畢的塊，而不能偷看后面還沒生成的塊。這樣一來，模型的"只向左看"習慣得以完整保留。

這里有一個微妙但至關重要的技術細節：在同一塊遮蓋位置內部，每個占位符可以看到同一塊里它前面的占位符，但因為那些也都是空白符號，實際上流通的只有位置信息，沒有真正的內容信息。這就像在一個填空題里，你知道第三個空在第二個空后面，但你看不到第二個空里填了什么——這保證了預測的獨立性，同時維持了因果關系。

在損失函數的設計上，MARS把兩個任務的損失加在一起，各占一半權重：一部分是遮蓋版的預測損失，另一部分是完整版的標準語言模型損失。這個"完整版的損失"看起來像是錦上添花，但研究者發現它實際上是整個方案能夠擴展到更大塊尺寸的關鍵所在。

四、為什么"完整版損失"那么重要——一個關于訓練信號衰減的故事

當每次預測的塊變大時（比如從4個字一塊變成16個字一塊），模型能從每塊里學到的"標準語言模型信號"就越來越少。研究者做了一個簡單的計算：在每塊4個字的情況下，只有每塊的第一個字能看到完全干凈的上下文；第二個字必須面對1個占位符；第三個字面對2個占位符；第四個字面對3個占位符。也就是說，在一整塊里，只有25%的位置享受著和標準語言模型訓練完全一樣的條件。如果塊大小變成8，這個比例降到12.5%；變成16，更是只剩6.25%。

隨著塊越來越大，模型越來越多地在"不正常"的條件下訓練，它的標準語言模型能力就會慢慢被侵蝕，就好比一個學鋼琴的學生，如果大部分時間都在練一種變形的指法，正常的指法自然會生疏。

加入完整版的損失之后，情況發生了根本性的改變。此時，整個訓練過程里有一半的信號來自完整版——那里面的每一個位置都是標準的語言模型訓練。研究者計算出，加入完整版損失后，整體訓練信號中屬于"標準語言模型信號"的比例，無論塊大小如何變化，都能穩定保持在50%以上。塊大小為4時，這個比例是62.5%；塊大小為16時，這個比例仍有53.1%。模型同時在學習"預測被遮蓋的內容"和"維持標準的語言能力"，兩者相互促進而不是相互競爭。

實驗數據完美印證了這個推斷。在不加完整版損失的情況下，把塊大小從4增加到16，模型的綜合得分從28.4分急劇下滑到22.2分，在數學推理和代碼生成上的退步尤為明顯。加入完整版損失之后，同樣的塊大小變化只帶來了0.7分的輕微波動，數學題的得分甚至還略有提升。

五、推理時如何工作——"滑動窗口"機制

訓練好的MARS模型在生成文字時，采用了一種形象的"滑動窗口"方式。你可以把它想象成一個有著固定視野寬度的探照燈，每次向前照出若干個位置。

生成開始時，模型在已有內容的后面追加若干個占位符（數量等于塊大小），然后一次性對這些占位符全部做出預測，得到每個位置上最可能的字以及對應的置信度。接下來，模型從最左邊的占位符開始，逐一檢查置信度：如果這個字的最高概率超過了一個設定的門檻值τ（比如0.95），就接受這個字，把它加入已生成的內容，然后檢查下一個占位符。一旦某個位置的置信度不夠高，就停止接受，不管后面的占位符有多高置信度——始終遵循從左到右的嚴格順序。

被接受的字滑入前面的內容區域，同時在右邊補上新的占位符，保持窗口大小不變，然后再次進行預測。如此循環，直到生成完畢。有一條保底規則：每次至少接受一個字。這保證了在極端情況下，MARS的行為和普通語言模型完全一樣，不會卡死。

門檻值τ是一個非常靈活的控制旋鈕。把它調到最高（τ→1.0），模型每次只接受一個字，行為和普通語言模型完全相同，沒有任何質量損失；把它調低，模型在有把握的時候會接受更多字，速度更快，但質量可能略有下降。更妙的是，這個旋鈕不需要重新訓練模型，不需要換一個新模型，只需要在運行時隨時修改這個數值。在服務器負載高峰期，可以把τ調低來提高吞吐量；在需要高質量輸出的時候，再把τ調回來。

六、實驗結果——數字背后的故事

研究團隊在兩個規模的模型上驗證了MARS的效果，分別是參數量5億的小模型和70億的大模型，都基于Qwen2.5系列的指令調優版本。訓練數據使用了約200萬條指令樣本，先做5輪標準語言模型訓練，再用同樣的數據做5輪MARS訓練。評測覆蓋了6個基準測試，涵蓋指令遵循、邏輯推理、多學科知識、科學問答、數學計算和代碼生成。

在"一次只出一個字"的模式下，MARS不僅沒有退步，反而超越了基線。小模型從28.7分提升到30.4分，代碼生成得分更是從35.4跳升至40.2。大模型從56.6分提升到58.1分，數學題得分提升了4.5分，代碼生成提升了3分。這說明MARS的掩碼預測訓練對模型來說不只是"附加能力"，它還像是一種數據增強，讓模型的原有能力也得到了練習。

為了排除"純粹多訓練了一些輪次"這個干擾因素，研究團隊還專門訓練了一個基線模型，總訓練輪數與MARS完全相同（10輪），但全程都是標準語言模型訓練。結果，這個多訓練了的基線反而退步了，從28.7分跌到26.4分——在各項任務上都有所下滑，顯示出過擬合的跡象。這證明MARS的提升確實來自于掩碼預測這種訓練方式本身，而不僅僅是更多的訓練步數。

相比之下，Block Diffusion這種使用雙向注意力（允許同一塊內的字互相參考）的方案，在邏輯推理任務上的得分從26.3分崩塌到7.5分，在多學科知識測試上從11.9分跌到2.0分，接近完全沒有經過訓練的基礎模型水平。這一鮮明對比直接驗證了MARS關于"三個可消除的裂縫"的分析：一旦讓注意力方向偏離因果結構，模型的推理能力就會遭受毀滅性打擊。

七、速度與質量的天平——可調節的"加速旋鈕"

在開啟多字接受功能（τ=0.95）之后，MARS展現出了令人滿意的速度質量平衡。小模型每次前向計算平均接受約1.46到1.49個字，整體精度只下降了約1.1分。大模型的表現更為出色，平均每次接受1.68個字，綜合精度僅下降1.3分，但依然比原始基線的56.6分高出了0.2分——也就是說，就算開啟了加速模式，大模型的整體表現依然優于原始的標準語言模型。

不同任務的加速效果差異很大，這背后有清晰的邏輯。在BBH邏輯推理任務上，大模型平均每次接受2.60個字，這是因為推理鏈中大量使用固定的連接詞和模板化表達，模型對這些部分非常有把握。在IFEval指令遵循任務上，加速效果相對較小，質量下降也相對明顯（約5分）。IFEval測試的是模型是否嚴格遵循格式要求，比如"恰好寫三段話"，而多字接受可能會跳過某些格式控制詞，導致格式錯誤。

從完整的閾值掃描數據來看，整個速度質量曲線非常平滑，沒有出現"突然斷崖式下跌"的情況。從τ=1.0一路調到τ=0.5，精度是逐漸下降的，不是某個點驟然崩潰。這種平滑性讓服務系統可以根據實時負載精細調節，找到合適的工作點。

八、讓"一次預測多字"在服務器上真正提速——塊級KV緩存

算法層面的"每次接受更多字"只是理論上的加速。在實際的服務器推理中，還有一個關鍵的工程挑戰：KV緩存。

標準語言模型每次只生成一個字，但它可以把之前所有字的計算結果緩存起來，下次只需要處理新加入的那一個字，計算量非常小。MARS每次要處理若干個占位符，如果每一步都要重新計算整個序列，計算量會隨序列長度的平方增長，很快就比標準語言模型慢了。實驗數據印證了這一點：沒有緩存策略時，隨著批量大小從4增加到16，MARS的吞吐量反而從每秒127個字下跌到98個字，越批越慢。

研究團隊為此設計了一套"塊級KV緩存"策略，邏輯和分組結賬有幾分相似。具體來說：每當一整塊的字都被所有正在處理的請求確認接受后，才把這一塊的計算結果緩存起來。在此之前，批次里的每條請求可能接受了不同數量的字，慢的那條還沒確認完，快的那條就等一等。等到最慢的那條也確認完這一整塊之后，所有請求一起把這塊的內容存入緩存，然后大家同步開始下一塊的預測。

這個策略的效果立竿見影。在批量大小為4的情況下，最優配置（緩存粒度32個字）把總耗時從276.2秒壓縮到161.2秒，實現了1.71倍的實際掛鐘時間加速。批量大小為8時，加速比是1.60倍（169.1秒→105.6秒）。批量大小為16時，加速比是1.34倍（91.8秒→68.7秒）。加速比隨批量增大而減小，這是因為批量越大，"等最慢的那條請求"的同步等待時間占比越高，就好比分組結賬時，人越多越容易有人算不清楚拖慢了整桌。但即便如此，在測試的所有配置下，MARS都比標準語言模型要快。

九、訓練代價與適用邊界

研究團隊坦誠地指出了MARS的局限。訓練時需要同時處理原始序列和遮蓋序列，相當于序列長度翻倍，訓練計算量大約是標準語言模型訓練的兩倍。小模型的MARS訓練需要33個GPU小時，標準訓練只需15個GPU小時；大模型則是202小時對100小時。不過考慮到這只是對現有指令訓練數據的繼續利用，而非從零開始的大規模預訓練，這個代價還在可接受范圍內。

與Jacobi解碼的對比也很能說明問題。Jacobi解碼是另一種讓單個模型一次預測多個字的方法，不需要任何額外訓練，直接在標準語言模型上運行。但由于標準語言模型從未被訓練過"從占位符預測內容"，Jacobi解碼每次前向計算平均只能接受1.07個字，而MARS在相同設置下能接受1.46個字。Jacobi有一個特殊優勢：它一開始就把所有輸出位置都初始化了，所以模型天然知道要生成多長的回答，不會停得太早或太晚——這解釋了為什么Jacobi在數學題和代碼生成上反而有些提升，因為這類任務對輸出長度很敏感。

說到底，MARS做的事情可以用一句話概括：讓模型在"說廢話"的時候少費心思，把省下來的算力用在真正需要思考的地方。這不是什么革命性的顛覆，而是一種務實的優化——用5個額外訓練輪次，換來了一個既能當普通模型用、又能在有需要時加速1.5到1.7倍的新版本。對于已經大規模部署語言模型的企業來說，這意味著同樣的服務器可以接待更多用戶，或者在高峰期不需要臨時擴容。對于普通用戶來說，這可能意味著等待時間的縮短。

這項研究還留下了一些有趣的開放問題。未來能否做到"不需要在塊邊界同步，每條請求各自緩存"？能否根據輸入內容的復雜程度自動選擇塊大小？能否把MARS和推測解碼結合起來，疊加兩種加速手段？這些都是值得探索的方向。有興趣深入了解這項研究細節的讀者，可以通過論文編號arXiv:2604.07023找到完整原文，研究團隊也在GitHub（Xalp/MARS）上開放了代碼。

Q&A

Q1：MARS方法需要對語言模型做哪些結構上的改動？

A：MARS不需要對語言模型做任何結構上的改動，也不需要增加額外參數。它只是用同一份指令訓練數據繼續訓練已有的模型，訓練完成后的模型和原始模型在結構上完全一樣。這和Medusa、EAGLE等需要附加額外預測頭的方法有根本區別。

Q2：MARS和推測解碼有什么不同？

A：推測解碼需要同時維護兩個獨立的模型——一個小的草稿模型和一個大的驗證模型，內存占用加倍，系統也更復雜。MARS只需要一個模型，訓練完之后既可以當普通語言模型用，也可以在有把握時一次生成多個字，不需要另外維護一個輔助模型。

Q3：MARS的接受門檻τ是什么，調低它有什么風險？

A：τ是控制模型"有多大把握才接受預測字"的門檻，取值在0到1之間。τ調到最高時模型每次只出一個字，行為和普通模型一樣；調低后模型在把握不那么足的時候也會接受預測，速度更快但錯誤率可能上升。當τ低于0.7時，精度下降會比較明顯，尤其是對格式要求嚴格的任務影響更大。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.