无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

大模型又出新架構,面壁這次把Transformer上下文能力拉滿了

0
分享至

我有點好奇一個問題,

讓現階段一個百萬上下文的大模型讀一本百萬字的小說,需要推理嗎?

可能大部分時候不需要,它需要的只是記住,記住第一章的主角在最后一章說了什么。

現在傳統的Transformer架構只有一種處理方式,全靠硬算。它像一個過于認真的前排學霸,為了記住最后一章的內容,把前面九十九萬字的內容跟每一個新生成的字都做一次對比計算。


這樣會占大量的顯存,計算量也會平方級增長。

這一周新的大模型也是不停刷新,MiniMax M2.5,GLM5,Gemini 3.1 Pro Preview,DeepSeek新版本(疑似V4),我都希望他們可以接入我的OpenClaw里面,做一個長對話長記憶的模型。

昨天,面壁還發了一篇新論文,提出了一個叫SALA(Sparse Attention-Linear Attention)的混合注意力架構。它給出了一個新觀點,

該快的地方就得快,該準的地方必須準。


https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM_SALA.pdf

在他們的SALA架構里,

一部分模塊專門負責快,

另一部分模塊專門負責準。

結果就是,基于SALA架構的模型,在端側顯卡上,第一次把百萬的長文本推理,穩穩跑通了。


我們來看一個具體的例子,

模型在處理百萬字小說時,內部發生了什么。

每生成一個新詞,模型都要把它和前面所有詞語的鍵值對,也就是KV Cache,全部計算一遍。計算復雜度是隨著文本長度平方級增長的,

同時,這個KV Cache會像滾雪球一樣,迅速吃掉你所有的顯存。把上下文從一萬字拉到一百萬字,計算量不是漲一百倍,是飆升一萬倍。

這就是為什么傳統架構在長上下文任務面前,會同時撞上計算墻和顯存墻。


這幾十萬字的上下文,大部分可能只是背景描述,真正關鍵的信息也許就那么幾句。

但模型為了找到這幾句關鍵信息,付出的代價是把所有內容都用最高精度過了一遍。

來看看SALA的幾個關鍵的設計,

首先是兩種模塊的分工。

線性注意力,我們這里可以理解為負責準的模塊,面壁選用的是Lightning Attention,挑出那些最關鍵的局部信息進行精細計算。稀疏注意力,則是負責快的模塊,面壁選用的是InfLLM v2,會高效計算所有信息。

SALA就是把這兩者結合了起來。整個模型里,75%的層是負責準的線性注意力,剩下的25%,是負責快的稀疏注意力。這個比例經過大量實驗找出的效率與精度之間的平衡點。


在不使用任何額外技術(如YaRN)的前提下,MiniCPM-SALA 可以將上下文長度拓展至2048K。

怎么保證它們能好好合作,不是互相干擾呢?

SALA用了一個叫HyPE的混合位置編碼策略。在線性層,它保留了RoPE,保證短文本能力不受影響。在稀疏層,它去掉了位置編碼,避免了信息在長距離傳遞時的衰減問題。

模型在檢索幾萬甚至幾十萬token之前的內容時,依然能保持高精度。


最后是模型怎么來的。

這里有一個核心問題,要訓練一個全新的混合架構模型,成本超級高。

面壁沒有從零開始,反而是提出了一個叫HALO的訓練范式。簡單來說,就是拿一個已經訓練好的全注意力模型,比如MiniCPM-4.0,通過架構轉換,把它的一部分層變成線性注意力,另一部分變成稀疏注意力,然后進行持續訓練。


這種方式,就像是給一輛性能不錯的汽車做改裝升級,而不是重新設計一輛新車。它繼承了原模型已經學到的所有知識和能力,只是讓它學會了用一種更高效的方式去工作。相比從頭訓練,這個方法的成本直接降低了大約75%。

這個訓練過程也很有講究,分為架構轉換,穩定訓練,短衰減,長衰減和微調五個階段。特別是在長衰減階段,模型逐步把上下文長度從4K擴展到520K,讓模型充分學習兩種注意力機制協同。

我們來看效果數據。

這次面壁并沒有用一堆榜單來證明自己,是出了真實場景下的性能數據,對比的是同等規模的全注意力模型Qwen3-8B,我挑幾個關鍵數據,

在推理速度上,當上下文長度達到256K時,MiniCPM-SALA的速度是Qwen3-8B的3.5倍。

這個提升完全來自架構本身的優勢。


在顯存占用上,在RTX 5090這樣的消費級顯卡上,Qwen3-8B在上下文長度達到128K時,就會因為顯存不足而崩潰。而MiniCPM-SALA可以穩穩地跑到1M,也就是一百萬token的長度。


但我是個挑剔的人,

用了會丟信息的注意力,模型是不是沒腦子了?

這也是這篇工作最有價值的部分。實驗數據顯示,MiniCPM-SALA在數學,代碼,知識問答這些常規能力上,和同規模的全注意力模型基本持平,沒有出現明顯的性能折損。


傳統的全注意力模型,在處理長文本時,它的注意力容量被大量消耗在維持局部依賴上,比如識別一個多詞組成的人名。而SALA架構,把這些任務交給了更高效的模塊,從而釋放了稀疏注意力層的容量,讓它們可以更專注于建立全局的,跨越超長距離的上下文聯系。

為了推動這個架構落地,面壁聯合了SGLang和NVIDIA,發起了一個稀疏算子加速大獎賽SOAR。


SALA雖然在架構上做好了,

但底層的計算算子,相比已經被優化到極致的FlashAttention,還有很大提升空間。

這個比賽就是邀請全球的開發者,一起來把SALA這臺新引擎的性能,壓榨到極限。

平時測評模型測多了,

都是Coding,Coding,Coding,

我很高興看到還不斷能有新的架構,

新的算法出現,

就算是DeepSeek這一年,

更新模型的同時也沒停過公開自己的算法,

面壁過去這一年也是不停發端側模型的工作,

我覺得就這速度都不需要五年十年,

可能過個兩三年,

在小天才手表上也能跑個大大大模型。

@ 作者 / 卡爾

最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點贊|在看|轉發|評論

如果想要第一時間收到推送,不妨給我個星標

如果你有更有趣的玩法,歡迎在評論區和我聊聊

更多的內容正在不斷填坑中……


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“電梯門”不雅視頻女主角,危險了!

“電梯門”不雅視頻女主角,危險了!

仕道
2026-06-10 10:34:50
央媒發聲!養路費改革全面推進,油電同權正式落地,不再一刀切

央媒發聲!養路費改革全面推進,油電同權正式落地,不再一刀切

侃故事的阿慶
2026-06-09 19:37:15
10.49萬起,悅意08預售:央企“憨厚男友”把安心寫進合同

10.49萬起,悅意08預售:央企“憨厚男友”把安心寫進合同

道哥說車
2026-06-10 09:46:59
史無前例!向內塔尼亞胡發出逮捕令的國際刑事法院首席檢察官被停職,理由是“涉嫌性行為不端”;檢察官:為阻止對以色列調查而精心策劃的抹黑

史無前例!向內塔尼亞胡發出逮捕令的國際刑事法院首席檢察官被停職,理由是“涉嫌性行為不端”;檢察官:為阻止對以色列調查而精心策劃的抹黑

極目新聞
2026-06-10 12:00:16
張雪新車生銹大反轉!張雪要海邊鐵籠直播,直接把搞事的嚇懵了!

張雪新車生銹大反轉!張雪要海邊鐵籠直播,直接把搞事的嚇懵了!

沙雕小琳琳
2026-06-10 10:13:54
“深圳四高考生被困電梯”追蹤:苦等維修工,一度呼吸困難

“深圳四高考生被困電梯”追蹤:苦等維修工,一度呼吸困難

南方都市報
2026-06-10 11:42:11
“電梯門”曝出猛料!阿珍稱19歲被性侵,是老總讓她拿監控報警的

“電梯門”曝出猛料!阿珍稱19歲被性侵,是老總讓她拿監控報警的

火山詩話
2026-06-10 10:01:50
6月,建議中老年人別太節儉,這4種零食該吃就吃,身體硬朗才是福

6月,建議中老年人別太節儉,這4種零食該吃就吃,身體硬朗才是福

阿龍美食記
2026-06-09 11:53:17
Shams:文班對布倫森的犯規不會升級為惡意犯規

Shams:文班對布倫森的犯規不會升級為惡意犯規

懂球帝
2026-06-10 09:54:31
物理學大地震!用經典物理,竟然能反向推導出量子力學?

物理學大地震!用經典物理,竟然能反向推導出量子力學?

宇宙的秘密
2026-06-09 21:58:02
董潔曬包菜蟹柳湯面火了,食材簡單接地氣,網友:看你做飯,解壓

董潔曬包菜蟹柳湯面火了,食材簡單接地氣,網友:看你做飯,解壓

阿龍美食記
2026-06-08 12:18:38
梅西替補建功,阿根廷3-0冰島,世界杯首戰對手剛掀翻無冕之王

梅西替補建功,阿根廷3-0冰島,世界杯首戰對手剛掀翻無冕之王

釘釘陌上花開
2026-06-10 11:04:57
考場外“華為全家桶”走紅!網友調侃:小米全家桶,不比這有面兒

考場外“華為全家桶”走紅!網友調侃:小米全家桶,不比這有面兒

火山詩話
2026-06-10 08:50:50
老人被奴役20年后續:已找到親人!日扛400袋水泥 老板稱死了管埋

老人被奴役20年后續:已找到親人!日扛400袋水泥 老板稱死了管埋

行者聊官
2026-06-09 15:06:33
月薪3000的年輕小伙簽下1850萬的購房合同?

月薪3000的年輕小伙簽下1850萬的購房合同?

看看新聞Knews
2026-06-09 18:57:29
“殘障老人被奴役20年”?警方最新回應

“殘障老人被奴役20年”?警方最新回應

中國新聞周刊
2026-06-10 13:08:31
河南“零分女生”蔣多多:因不滿高考制度,在試卷上寫8000字長文

河南“零分女生”蔣多多:因不滿高考制度,在試卷上寫8000字長文

混沌錄
2026-06-09 22:03:13
怒降10℃!六月的廣東迎來冷空氣!深圳天氣有變...

怒降10℃!六月的廣東迎來冷空氣!深圳天氣有變...

深圳好玩
2026-06-10 12:28:05
伊朗:摧毀美軍F-35戰斗機機庫

伊朗:摧毀美軍F-35戰斗機機庫

極目新聞
2026-06-10 10:57:42
壞消息不斷送進克里姆林宮,普京開始“打土豪”,寡頭秒掏千億

壞消息不斷送進克里姆林宮,普京開始“打土豪”,寡頭秒掏千億

浪子說
2026-06-09 00:05:03
2026-06-10 14:39:00
卡爾的AI沃茨 incentive-icons
卡爾的AI沃茨
前大廠算法工程師,3家科技公司技術總監|致力打造最系統的Al學習體系,讓1萬人通過Al提高生產力
276文章數 137關注度
往期回顧 全部

科技要聞

凌晨突發!Anthropic神級模型向你開放

頭條要聞

湖北15名大學生靠"手搓"饅頭創業 已拿到1000萬元投資

頭條要聞

湖北15名大學生靠"手搓"饅頭創業 已拿到1000萬元投資

體育要聞

2026世界杯,我們看什么?

娛樂要聞

850萬請跑男,公款追星肥了誰的口袋

財經要聞

大盤股IPO終結行情盛宴?背后真相來了

汽車要聞

賽豆科技發布AIVA品牌 首款概念車亮相/量產版新車今年內發布

態度原創

親子
手機
房產
旅游
健康

親子要聞

小銳銳一歲兩個月,可以自己動手吃湯圓了

手機要聞

小米澎湃OS 4引入蘋果同款液態玻璃:博主稱細節審美提升100倍

房產要聞

6885畝!海口教育新城來了!

旅游要聞

無需簽證、說走就走!全國首個“無目的地海上游”航線完成首航

粽子、湯圓……常見粘食大盤點!

無障礙瀏覽 進入關懷版