无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Hermes團隊改寫預訓練:算力成本降六成,DeepSeek之后提效新路徑

0
分享至


作者 | 四月

模型能力還需往上走,但訓練成本卻不能再無止境堆砌了——這可能是當前 AI 行業最強烈的共識。

從開發者到模型公司,大家關心的焦點已經不只是“誰家的模型更強”,而是一個更務實的問題:“同樣多的 GPU、同樣的訓練時間,能不能跑出更多有效實驗,吃進更多有效數據,拿到更好的 loss 和下游指標?

憑借Hermes Agent (140K Star)火速出圈的Nous Research 團隊,剛剛提出了一種 Token 疊加訓練方法:Token Superposition Training (TST),有望把大模型的預訓練成本壓低一個量級。


目前,該貼的瀏覽量已突破 41 萬。Hugging Face: http://huggingface.co/papers/2605.06546

在論文《Efficient Pre-Training with Token Superposition》中,最值得關注的是一組百億參數 MoE 實驗(Qwen3-like 10B-A1B MoE),效果非常直觀:


  • baseline 訓練 1.05T tokens 消耗 12311 B200-hours;

  • 而 TST 訓練 2T tokens,僅消耗 4768 B200-hours,約為 baseline 的 38.7%;

  • 與此同時,final loss 從 2.252 降至 2.236,HellaSwag、ARC-E、ARC-C、MMLU 等 0-shot 評測同步提升。

換言之,TST 只用了約四成 GPU 時間,就跑出了更低的 loss 和更好的下游指標。相當于在相同最終損失下將預訓練時間壓縮到原來的 40%,提速約 2.5 倍。

如果說,超越龍蝦(OpenClaw)、登頂全球 OpenRouter 的 Hermes Agent,證明了 Nous Research 團隊既會訓模型,也能用 Agent 把能力調教到極致;那么最新提出的 TST,則是把視線從“模型怎么用”,進一步拉回了能力的源頭,直擊預訓練本身

之所以將 Nous Research 與 DeepSeek 對標,不只是因為這支美國團隊同樣長期堅守開源陣營,更因二者的降本路線截然不同。

DS 代表的是系統級重構,無論是 MoE、MLA,還是稀疏化與并行優化,皆靠系統級工程壓榨算力。效率提升從來不是免費的,工程總要在別處為復雜度買單。

而 NR 則是重寫預訓練早期的學習路徑。它不碰架構,從模型學習 token 的方式本身下手,切口更輕巧,更容易落地。

TST:讓模型先“粗讀”,再“精讀”

要理解 TST,讓我們先回到預訓練最基礎的動作:next-token prediction(下一個詞元的預測)。

標準訓練里,模型看到前面的 token,預測下一個 token。這個機制很簡單,也很強。過去幾年,幾乎所有主流 LLM 都是在這個范式上堆出來的。

但 TST 提出了一個很樸素的問題:模型在預訓練一開始,真的有必要逐 token 精讀嗎?

NR 的答案是:不一定。他們把預訓練拆成兩個階段。


圖注:TST 與標準 next-token prediction、MTP、SuperBPE 的對比。TST 在訓練早期同時改變輸入粒度和輸出監督目標,但不改變最終模型架構

第一階段叫superposition phase(“詞元疊加階段”)。在訓練前期,模型不再一個 token 一個 token 地讀文本,而是把連續多個 token 打成一個 bag。比如 bag size 為 8,就把連續 8 個 token 看作一組。

輸入側,模型會把這一組 token 的 embedding (“向量表示”)求平均,變成一個壓縮后的superposed token(“疊加詞元”)。輸出側,模型也不再預測下一個單獨 token,而是預測下一組 token 里會出現哪些 token。

第二階段叫recovery phase(“恢復階段”)。訓練跑到一定比例后,TST 被移除,模型重新回到標準 next-token prediction。也就是說,后半程還是按照普通 LLM 的方式訓練,把前期“粗粒度學習”得到的表示,拉回到可生成、可部署的自回歸模型形態。

論文把 TST 稱為一個drop-in pretraining method(“即插即用式預訓練方法”),重點就在這里:它不需要修改并行策略、優化器、tokenizer、訓練數據或模型架構,真正改變的是訓練早期的輸入粒度和監督目標

這也是它和很多訓練提效方案不一樣的地方:TST 只改變訓練過程,不改變推理模型。

目前很多方法一旦觸及訓練端優化,就會牽動推理。比如換 tokenizer,生態兼容要重來;改模型結構,部署鏈路要適配;改注意力或推理機制,線上服務也要跟著調整。

但 TST 是把復雜度留在訓練階段,最終交付的仍然是一個普通 LLM。

當然,只用 TST 訓練是不夠的。論文也明確指出,如果模型全程只用 TST,它會輸出多個未來 token 的混合概率,生成結果會變得混亂。因此,TST 必須在后期切回標準自回歸訓練。

這也解釋了為什么 TST 更適合被理解為一種“階段化訓練策略”,而不是 next-token prediction 的替代品。

更直白地說,TST 做的事情有點像讓模型在預訓練早期先“粗讀”:先學習局部語義、詞匯共現和粗粒度分布;等基礎表示建立起來之后,再回到逐 token 的標準自回歸訓練,把生成能力和 token 級精度補回來。

也就是,訓練時壓縮 token,推理時還是普通 LLM。

為什么能省 GPU?

每一步都吃進更多文本

TST 的提速不是玄學。它的核心是一種資源取舍,用更粗的 token 表示,換更高的數據吞吐。

這里的數據吞吐,對應論文里的data throughput per FLOPs,可以理解為“單位計算量能處理多少原始文本”。換句話說,不是 GPU 忽然變快了,而是同樣算一次,模型能看見更多文本。

標準訓練中,模型每個位置處理一個 token,序列長度為 L,Transformer 就要處理 L 個表示。

但在 TST 的 superposition phase,連續 s 個 token 被合成一個 superposed token。模型內部處理的序列長度變短了,但每個位置對應的原始文本卻變多了。

因為模型是在更粗粒度的表示上計算,所以在相同FLOPs(浮點計算量),它可以處理s 倍的數據 token


圖注:在 3B 模型實驗中,TST 在 equal-loss 設置下用更少訓練步數達到 baseline loss,說明其主要收益來自訓練早期更高的數據吞吐

傳統預訓練像逐字精讀;而 TST 的早期訓練則像是先快速掃一遍段落,抓住局部主題、詞匯共現和語義分布。等模型建立起基礎表示后,再切回逐字精讀。

這種“粗讀”并非沒有代價——它會丟失 bag 內的詞序信息,所以不能全程使用。但在模型剛接觸語言統計結構時,這種低分辨率輸入反而夠用且高效。

論文將此定義為一種coarse-to-fine(由粗到細)的策略:先讓模型在簡單、高吞吐的分布中學習粗粒度統計結構,再恢復全分辨率語言建模。

這與當前主流的效率路線截然不同:MoE是讓每個 token 少激活參數;稀疏注意力是讓每個 token 少看位置;MTP(Multi-Token Prediction,多 token 預測)是讓每個位置多預測幾個未來 token;而TST,是讓模型在訓練早期換一種 token 粒度學習。

它不是讓模型變小,也不是直接讓推理變快,而是讓預訓練早期的每一步都更“值錢”。

這對開發者至關重要。預訓練不是一錘子買賣,而是不斷試錯的過程。早期訓練越快進入有效區間,數據配方、超參設置這些實驗就能越早得到驗證。

說白了,TST 省下的不只是一次訓練的 GPU 小時,更是整個實驗周期的試錯成本。

最大收益來自百億參數模型

論文沒有只做小模型實驗,而是在270M、600M、3B 稠密模型,以及 10B-A1B MoE 上進行了驗證。這里的 10B-A1B MoE,即總參數約 100 億、每 token 激活約 10 億參數的 MoE 模型。正如開篇提及的,這是收益最大的受試模型。


圖注:TST 在不同規模模型上的核心實驗結果


圖注:在 10B-A1B MoE 實驗中,TST 將 B200 GPU 訓練時間消耗降到 baseline 的四成左右,并取得更低 loss 和更好的 0-shot 指標

也就是說,TST 消耗了更多數據 token,但用更少 GPU 時間達到了更好的結果。論文指出,在相同 loss 口徑下,TST 對應約 2.5 倍提速。

這已經足夠打動開發者。因為模型訓練里最貴的往往不是某一次成功訓練,而是成功之前的所有試錯。一次實驗少用一半以上 GPU 時間,意味著同樣預算下可以多跑幾組數據配方、多試幾組超參、多驗證幾個模型尺度。

論文還做了多組小規模超參數掃描實驗,也就是 sweep,觀察不同 bag size 和 superposition step ratio 的影響。最終作者認為,在合理范圍內,TST 對超參選擇相對穩健:bag size 在 4 到 8,superposition 訓練步數比例在 0.2 到 0.4 時,通常表現較好。


圖注:不同 bag size 和訓練比例下,TST 在 loss 與下游評測上都呈現相對穩定收益

另外,TST 并非單一機制在起作用。

論文做了輸入側、輸出側和完整 TST 的消融實驗:輸入側和輸出側單獨使用時都能優于 baseline,但完整 TST 效果最佳。作者據此指出,TST 是兩個機制的疊加:輸入側改變了輸入粒度和單位信息的 FLOPs 成本;輸出側改變了預測目標與梯度信號。


這套機制的啟發意義在于,輸入側作為在訓練早期,給到模型一個低分辨率視野,讓它以更低成本接觸更多文本;輸出側則像是把監督信號從“下一個 token 是什么”改成“接下來這一小段大概會出現哪些 token”。前者提高吞吐,后者提高監督密度。

這也是為什么 TST 和 MTP 看起來有點像,但本質不完全一樣。

MTP 更像是在同一個位置額外預測多個未來 token;TST 則是把輸入和輸出都改成更粗粒度的局部窗口。一個是增加監督題目,一個是改變學習分辨率。

訓練降本開始轉向學習路徑優化

TST 最大的看頭,不是它設計了多復雜的新架構,而是它點醒了一件事:訓練降本,別總盯著模型結構開刀。

過去一提降本,大家本能就是加卡、改架構、卷并行、做蒸餾。這些都是系統級重體力活,家里沒有余糧的團隊根本接不住。但這次,TST 給了一個輕得多的切口:只調整預訓練早期的學習路徑。

這意味著什么?

同樣多的 GPU 預算能多試幾輪配方,1B 到 10B 級垂直模型的試錯成本能明顯下降。對那些只想訓個夠用行業模型的中小團隊來說,這比硬剛前沿最新模型務實得多。

當然,TST 也不是免費午餐。

它本質上是“拿數據吞吐換 GPU 時間”,如果你是算力受限的團隊,這招極香;但如果你連高質量數據都喂不飽,那 TST 不僅幫不上忙,甚至可能放大數據短板。

但這不影響它的方向價值。

TST 把一個被默認太久的問題重新拎了出來:模型學習語言的順序,本身也可能是一種效率杠桿。

當模型越來越貴,真正有價值的創新不只是把模型做大,而是讓模型更會學習。更準確地說,是讓每一步訓練都更值錢。

Paper: http://arxiv.org/abs/2605.06546

HF: http://huggingface.co/papers/2605.06546

Blog: http://nousresearch.com/token-superposition

聲明:本文為 AI 前線原創,不代表平臺觀點,未經許可禁止轉載。

會議推薦

Agent 從 Demo 到工程化還差什么?安全與可信這道坎怎么過?研發體系不重構,還能撐多久?

AICon 上海站 2026,13 大重磅專題已上線,誠摯邀請你登臺分享實戰經驗。AICon 2026,期待與你同行。快來掃碼鎖定 8 折專屬席位或提交演講議題

今日薦文

你也「在看」嗎?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
突發!長鑫存儲簽200億大單!

突發!長鑫存儲簽200億大單!

中國半導體論壇
2026-06-30 13:26:50
博主稱車載螺紋接口是華為口,已申請專利,小米被迫使用,未來政策收緊,還要交專利費!網友:節奏帶得飛起

博主稱車載螺紋接口是華為口,已申請專利,小米被迫使用,未來政策收緊,還要交專利費!網友:節奏帶得飛起

大白聊IT
2026-06-29 17:52:55
韓紅基金會高管年薪近60萬,韓紅號稱捐資8000萬去向成謎

韓紅基金會高管年薪近60萬,韓紅號稱捐資8000萬去向成謎

八桂知事
2026-06-27 16:28:49
莫蘭特1換2交易評級:開拓者低價撿漏有隱患評B- 灰熊徹底重建評B

莫蘭特1換2交易評級:開拓者低價撿漏有隱患評B- 灰熊徹底重建評B

羅說NBA
2026-06-30 06:31:30
1962年中國打贏就走,結果給印度留了一道千年難題

1962年中國打贏就走,結果給印度留了一道千年難題

遠方風林
2026-06-14 00:29:33
一擲千金的“大哥”越來越少!女主播群體從深圳遷到惠州路邊帳篷

一擲千金的“大哥”越來越少!女主播群體從深圳遷到惠州路邊帳篷

火山詩話
2026-06-29 04:37:21
絕經后性生活怎么辦?頻率多少合適?

絕經后性生活怎么辦?頻率多少合適?

喵咪文化
2026-06-30 06:44:07
中國“撿錢”時代或將來臨:如果手中只有10萬,試試死啃這兩條線

中國“撿錢”時代或將來臨:如果手中只有10萬,試試死啃這兩條線

笑熬漿糊111
2026-06-30 04:00:10
法國隊主帥德尚在母親去世后回國,諷刺雜志一幅漫畫引發激烈批評

法國隊主帥德尚在母親去世后回國,諷刺雜志一幅漫畫引發激烈批評

夢仙境aa
2026-06-30 09:31:38
上海球迷穿日本隊球衣慶祝!上海市足協:足球無國界 球迷有祖國

上海球迷穿日本隊球衣慶祝!上海市足協:足球無國界 球迷有祖國

念洲
2026-06-29 06:50:42
霸權翻車!伊朗再次重創美軍,特朗普火速認慫!

霸權翻車!伊朗再次重創美軍,特朗普火速認慫!

大嘴說天下
2026-06-29 22:30:03
小卡快船生涯即將結束!!多支球隊送上頂薪!!

小卡快船生涯即將結束!!多支球隊送上頂薪!!

柚子說球
2026-06-30 12:52:46
丘吉爾曾言:如果不是被原子彈炸過,日本這個國家可能就不存在了

丘吉爾曾言:如果不是被原子彈炸過,日本這個國家可能就不存在了

掠影后有感
2026-06-30 09:40:38
日本球迷又開始撿垃圾了,這戲碼上演了快30年了,真的不覺得煩嗎

日本球迷又開始撿垃圾了,這戲碼上演了快30年了,真的不覺得煩嗎

西樓知趣雜談
2026-06-18 17:32:47
今晚開始!央一央八愛奇藝等4部王炸劇來襲!眾星云集,先追哪部

今晚開始!央一央八愛奇藝等4部王炸劇來襲!眾星云集,先追哪部

小椰的奶奶
2026-06-30 01:19:29
陜西砍“孤獨樹”,讓皖陜兩地管理水平高低立判,網友發帖引熱議

陜西砍“孤獨樹”,讓皖陜兩地管理水平高低立判,網友發帖引熱議

火山詩話
2026-06-30 05:30:50
當全世界都忙著吵架時,中國把整整5萬億元,悄悄埋進了地底深處

當全世界都忙著吵架時,中國把整整5萬億元,悄悄埋進了地底深處

科技故事聚焦
2026-06-30 09:54:30
越扒瓜越大!交大女學生吞獎金再添猛料,不止想進體制內這么簡單

越扒瓜越大!交大女學生吞獎金再添猛料,不止想進體制內這么簡單

觀史搜尋著
2026-05-21 05:41:15
迭戈-弗蘭:C羅原地不動就等著門前搶點,他拖累了葡萄牙全隊

迭戈-弗蘭:C羅原地不動就等著門前搶點,他拖累了葡萄牙全隊

懂球帝
2026-06-29 22:12:06
徐達晚年喜得貴子,劉伯溫剛抱起嬰兒臉色就變了:此子不除,徐家百年基業將毀于一旦

徐達晚年喜得貴子,劉伯溫剛抱起嬰兒臉色就變了:此子不除,徐家百年基業將毀于一旦

小影的娛樂
2026-06-30 04:20:48
2026-06-30 14:16:49
AI前線 incentive-icons
AI前線
面向AI愛好者、開發者和科學家,提供AI領域技術資訊。
1586文章數 160關注度
往期回顧 全部

科技要聞

DeepSeek V4正式版要來 高峰期API價格翻倍

頭條要聞

荷蘭隊連續3屆倒在點球大戰 此前9次點球大戰只贏兩場

頭條要聞

荷蘭隊連續3屆倒在點球大戰 此前9次點球大戰只贏兩場

體育要聞

德國足球,臉都不要了

娛樂要聞

韓紅稱要退出公益,多位名人挽留

財經要聞

韓國萬億"芯"基建:存儲能否成AI時代油田

汽車要聞

誰懂啊家人們!爹味和班味一點都沒,這臺底盤最硬國產大獵裝太上頭!

態度原創

親子
數碼
游戲
房產
軍事航空

親子要聞

玩具故事-哪位同學拼對了呀

數碼要聞

內存漲價到頭了?20年前的DDR1被迫“復工”,還真能跑Win11

任天堂官方暖心提醒:Switch會員明日漲價!

房產要聞

56.8億!三亞突然開始瘋狂賣地!

軍事要聞

普京最新發聲:俄羅斯正處于命運攸關之際

無障礙瀏覽 進入關懷版