无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

中科院發(fā)布類腦大模型瞬悉2.0,打破長序列與低功耗部署核心瓶頸

0
分享至



作者 | 論文團隊

編輯丨ScienceAI

當前,大模型發(fā)展正從「參數(shù)和數(shù)據(jù)規(guī)模驅動」逐步延展至「上下文能力驅動」。在智能體、代碼理解、長文檔分析等應用中,模型需要處理數(shù)十萬甚至百萬級 token。但傳統(tǒng) Transformer 在長序列處理及資源受限場景下的部署仍面臨諸多痛點。因此,如何以極低成本構建基礎模型,打破 Transformer 在不同序列長度、不同硬件平臺下的能耗瓶頸,成為大模型領域的關鍵探索方向。

近日,中國科學院自動化研究所李國齊、徐波團隊在類腦脈沖大模型「瞬悉 1.0」研究基礎上,針對當前大模型長序列處理與低功耗部署等核心瓶頸,推出 SpikingBrain2.0-5B(簡稱 SpB2.0-5B)模型系列,通過引入更豐富的類腦機制 —— 包括稀疏化記憶建模、更精細化的脈沖激活值編碼等,在瞬悉 1.0 的基礎上實現(xiàn)了全方位升級。



論文地址:https://arxiv.org/abs/2604.22575

開源地址:https://github.com/BICLab/SpikingBrain2.0

此次發(fā)布的瞬悉 2.0 以超過瞬悉 1.0 十倍的訓練開銷節(jié)省,續(xù)訓數(shù)據(jù)量從瞬悉 1.0 的 150B 降低至瞬悉 1.0 的 14B:即僅需 32 張 A100 顯卡,9 天內(nèi)即可完成對當前主流 Transformer 架構大模型(如 Qwen3 系列模型)的持續(xù)預訓練,通用知識(如 MMLU、ARC-C、BBH 等任務)以及 SFT 后推理能力(如數(shù)學推理 GSM8K、MATH,代碼 HumanEval、MBPP 等任務)的表現(xiàn)可與強基線 Qwen3 比肩且實現(xiàn)比瞬悉 1.0 更優(yōu)綜合性能;并在 4M 序列長度下達到主流 Transformer 模型 Qwen3 的 10.13 倍首 Token 生成加速,F(xiàn)P8 量化路徑下 4M 長度下相比 Qwen3 BF16 基線提速達 15.13 倍,整數(shù) - 脈沖化編碼路徑下,精度損失僅為 0.69%,且脈沖稀疏度高達 64.3%,模擬結果顯示,該方案在測試場景下相比 INT8 矩陣乘法基線,有望使得面向類腦大模型的神經(jīng)形態(tài)芯片面積減小 70.6%,在 250/500MHz 工作頻率下功耗降低 48.1%/46.5%。

瞬悉 2.0 在長序列處理效率、訓練開銷、綜合 Benchmark 性能、跨硬件平臺適配性及應用場景拓展等方面顯著提升,為輕量級、多模態(tài)高效脈沖基礎模型的研發(fā)提供了可行路徑,為新一代人工智能創(chuàng)新發(fā)展注入新動力。

瞬悉 2.0 與 Qwen-3 速度對比演示

架構設計

短序列場景中,Transformer 的計算瓶頸源于大量前饋矩陣乘法;長序列場景中,計算瓶頸則向注意力模塊轉移,導致推理效率大幅下降。瞬悉 2.0 因此對注意力和前饋矩陣乘操作分別做出針對性設計,期望緩解 Transformer 的能耗問題。

(1)雙空間混合稀疏注意力:

瞬悉 2.0 提出雙空間稀疏注意力(Dual-Space Sparse Attention, DSSA),用于在層間混合稀疏 Softmax 注意力 MoBA 與稀疏線性注意力 Sparse State Expansion (SSE)。其中,MoBA 對完整的 KV cache 進行塊級稀疏計算,SSE 則對壓縮式狀態(tài)表征進行稀疏計算。這一設計對應類腦化的稀疏記憶機制,實現(xiàn)了優(yōu)良的長序列性能 - 效率權衡 (圖 2)。



瞬悉 2.0 架構概覽

(2)雙路徑激活值編碼策略:

瞬悉 2.0 采用了包括 FP8 和 INT8-Spiking 兩種對偶激活值編碼路徑(圖 3):

1.FP8 編碼路徑:利用低比特 Tensor Core 加速矩陣乘運算,該路徑面向工業(yè) GPU 部署(如 NVIDIA Hopper GPU);

2.INT8-Spiking 編碼路徑:把激活值轉為脈沖序列,可將密集矩陣乘法替換為事件驅動的整數(shù)累加,大幅降低部署功耗,該路徑面向異步神經(jīng)形態(tài)芯片部署。



瞬悉 2.0 對偶編碼路徑

轉換訓練流程

瞬悉 2.0 采用比瞬悉 1.0 更高效、模態(tài)更廣的架構轉換流程(Transformer-to-Hybrid Conversion),依托極少量開源數(shù)據(jù)和計算資源,分別為語言模型與多模態(tài)模型構建兩條獨立的續(xù)訓轉換路徑,大幅降低開發(fā)成本(圖 4)。

(1)LLM 轉換路徑:包括短上下文蒸餾、三階段長上下文擴展(最高至 512k)以及兩階段的通用加推理 SFT,同時開展了在策略蒸餾探索。(2)VLM 轉換路徑:包括知識蒸餾與指令微調(diào)。本文還同時分享了實踐過程中的關鍵 Takeaways,為社區(qū)研究提供參考。



瞬悉 2.0 轉換訓練 Pipeline

模型性能

1. 長序列處理效率顯著提升。(1)在 Huggingface 序列并行框架下,瞬悉 2.0 在 4M 長度相比 Qwen3 實現(xiàn) 10.13 倍的首 token 生成時延(TTFT)加速;(2)在 vLLM 張量并行框架下,512k 長度端到端生成延遲降低 4.3 倍,128k 長度下總吞吐提升 1.57 倍、請求并發(fā)數(shù)提升 3.17 倍;(3)依托 vLLM 框架,8 卡 A100 即可支持長達 10M 序列的推理,而 Qwen3 基線在 4M 長度時已超出顯存限制,展現(xiàn)出突出的長序列處理優(yōu)勢。





2. 訓練成本大幅降低。瞬悉 2.0-5B 語言與多模態(tài)模型的總轉換開銷低至 7k A100 卡時以下,僅需 32 張 A100,9 天內(nèi)即可完成對 Qwen3-4B 和 Qwen3-VL-4B 的全部轉換訓練,相較于 SpB1.0,訓練成本減少 10 倍以上(LLM CPT 數(shù)據(jù)量從 150B 降至 14B),實現(xiàn)了高效低成本的模型開發(fā)。

3. 模型性能保持競爭力。(1)瞬悉 2.0 語言模型在通用知識(如 MMLU、ARC-C、BBH 等任務)以及 SFT 后推理能力(如數(shù)學推理 GSM8K、MATH,代碼 HumanEval、MBPP 等任務)的表現(xiàn)與強基線 Qwen3 比肩,綜合性能優(yōu)于 Qwen2.5 和更大規(guī)模的瞬悉 1.0-7B 模型。(2)瞬悉 2.0-VL 模型性能實現(xiàn)對 Qwen3-VL 的有效恢復,可與強基線 Qwen2.5-VL 比肩(如圖表推理 AI2D、通用視覺推理 MMStar 等任務),在瞬悉 1.0 的基礎上實現(xiàn)了多模態(tài)能力的突破。





4. 跨硬件平臺適配性突出。瞬悉 2.0 可靈活適配不同硬件平臺:(1)采用 FP8 路徑時,精度損失僅為 0.24%;在 H100 上實測顯示,256k 序列長度下 TTFT 提速相比瞬悉 2.0 BF16 版本超 2.5 倍,同時在 4M 長度下相比 Qwen3 BF16 基線提速達 15.13 倍;(2)采用 INT8-Spiking 路徑時,精度損失僅為 0.69%,且脈沖稀疏度高達 64.3%;后仿模擬結果顯示,該方案在測試場景下相比 INT8 矩陣乘法基線,面積減小 70.6%,在 250/500MHz 工作頻率下,功耗降低48.1%/46.5%,有望破解端側部署的功耗瓶頸。





瞬悉 2.0 系列模型的發(fā)布,為輕量級、多模態(tài)高效脈沖基礎模型的研發(fā)提供了可行路徑,進一步驗證了類腦機制與高效模型架構結合的廣闊前景。同時,該模型為端側、資源受限場景的大模型部署提供了高性價比解決方案,也為低功耗神經(jīng)形態(tài)計算的后續(xù)研發(fā)提供重要參考。研究團隊將繼續(xù)秉承類腦大模型技術「概念一致、迭代升級」的理念,持續(xù)研發(fā)可比肩主流大模型的低功耗神經(jīng)形態(tài)計算。

作者介紹

李國齊,論文通訊作者,中國科學院自動化所研究員,腦認知與類腦智能全國重點實驗室副主任,通用類腦智能大模型北京市重點實驗室主任,國家杰出青年基金獲得者;在 Nature、Nature 子刊、Science 子刊等期刊和 AI 頂會上發(fā)表論文 200 余篇。

徐波,論文通訊作者,中國科學院自動化所研究員,中國科學院自動化所所長,科技創(chuàng)新 2030「新一代人工智能」重大項目專家組組長,中國科學院大學人工智能學院院長。

潘昱锜,論文一作,中國科學院自動化研究所博士生,2024 年本科畢業(yè)于南京大學匡亞明學院。研究方向為通用類腦大模型與長序列基礎模型架構,瞬悉 SpikingBrain 類腦大模型 1.0/2.0 核心團隊成員,以第一作者在 ICLR 2026、TMLR 2026 等 AI 頂刊頂會上發(fā)表多篇論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
飯局酒局的二場,現(xiàn)在沒人再去KTV了

飯局酒局的二場,現(xiàn)在沒人再去KTV了

微微熱評
2026-05-21 00:38:48
維吾爾族博主遭死亡威脅背后,是一場沒有退路的文明保衛(wèi)戰(zhàn)

維吾爾族博主遭死亡威脅背后,是一場沒有退路的文明保衛(wèi)戰(zhàn)

西域都護
2026-05-20 22:42:58
17年前他在愛妻葬禮上哭到昏厥,發(fā)誓永不再娶,現(xiàn)在他做到了嗎?

17年前他在愛妻葬禮上哭到昏厥,發(fā)誓永不再娶,現(xiàn)在他做到了嗎?

妙娛連珠
2026-05-21 16:20:01
200架波音大單落地,中國成功從美國手中,換回一個關鍵承諾

200架波音大單落地,中國成功從美國手中,換回一個關鍵承諾

普陀動物世界
2026-05-21 01:27:39
張本智和棄日赴德?德乒國家隊教練發(fā)聲,真相估計和你想的不一樣

張本智和棄日赴德?德乒國家隊教練發(fā)聲,真相估計和你想的不一樣

阿纂看事
2026-05-20 12:33:01
“大傻”去世15年后,兒子入獄孫子身亡,王晶爆料往事:絕對狠人

“大傻”去世15年后,兒子入獄孫子身亡,王晶爆料往事:絕對狠人

林輕吟
2026-05-21 14:25:53
比開塞露還管用!這3種“推屎”食物,每天吃一點,清空宿便

比開塞露還管用!這3種“推屎”食物,每天吃一點,清空宿便

白宸侃片
2026-05-19 11:56:50
美國人意識到,貿(mào)易戰(zhàn)之后,不會再有中國外的大規(guī)模工業(yè)化國家了

美國人意識到,貿(mào)易戰(zhàn)之后,不會再有中國外的大規(guī)模工業(yè)化國家了

遁走的兩輪
2026-05-21 12:10:14
藏不住了!王傳福親口實錘!比亞迪準車主最擔心的事發(fā)生了

藏不住了!王傳福親口實錘!比亞迪準車主最擔心的事發(fā)生了

老特有話說
2026-05-19 17:22:06
殺得過就殺,殺不過就死,妻子和母親遭受凌辱,男子怒殺村霸全家

殺得過就殺,殺不過就死,妻子和母親遭受凌辱,男子怒殺村霸全家

易玄
2026-05-20 18:55:42
越扒瓜越大!交大女學生吞獎金再添猛料,不止想進體制內(nèi)這么簡單

越扒瓜越大!交大女學生吞獎金再添猛料,不止想進體制內(nèi)這么簡單

觀史搜尋著
2026-05-21 05:41:15
馬爾代夫洞潛事故5人遺體全找到!疑被60米深“鯊魚洞”窄口吸入,全堵在一起?

馬爾代夫洞潛事故5人遺體全找到!疑被60米深“鯊魚洞”窄口吸入,全堵在一起?

英國報姐
2026-05-20 21:47:13
傳奇繼續(xù)!Shams:湖人正在全力挽留老詹,后者至少還會再戰(zhàn)一季

傳奇繼續(xù)!Shams:湖人正在全力挽留老詹,后者至少還會再戰(zhàn)一季

移動擋拆
2026-05-21 09:16:40
事態(tài)升級!川觀新聞怒批《監(jiān)獄來的媽媽》,李敖的話終于有人信了

事態(tài)升級!川觀新聞怒批《監(jiān)獄來的媽媽》,李敖的話終于有人信了

八斗小先生
2026-05-20 10:49:17
中俄元首簽署兩國關于進一步加強全面戰(zhàn)略協(xié)作、深化睦鄰友好合作的聯(lián)合聲明

中俄元首簽署兩國關于進一步加強全面戰(zhàn)略協(xié)作、深化睦鄰友好合作的聯(lián)合聲明

澎湃新聞
2026-05-20 15:04:15
嚴幼韻98歲確診大腸癌,醫(yī)生勸她手術,她嘆了口氣:還是安樂死吧

嚴幼韻98歲確診大腸癌,醫(yī)生勸她手術,她嘆了口氣:還是安樂死吧

興趣知識
2026-05-20 00:27:29
跳水100點!2個信號明顯了!周五,A股迎來救贖了

跳水100點!2個信號明顯了!周五,A股迎來救贖了

郭小凡財經(jīng)
2026-05-21 15:01:04
1983年,紅衛(wèi)兵頭子被判刑,晚年淪落到撿菜葉子充饑,活到2019年

1983年,紅衛(wèi)兵頭子被判刑,晚年淪落到撿菜葉子充饑,活到2019年

米果說識
2024-09-12 04:20:03
假賭黑處罰追加扣除梅州客家6分 負3分暫墊底中甲

假賭黑處罰追加扣除梅州客家6分 負3分暫墊底中甲

體壇周報
2026-05-21 16:06:12
保羅獲得人文學博士學位:以后可以叫CP3博士,別忘了加博士

保羅獲得人文學博士學位:以后可以叫CP3博士,別忘了加博士

懂球帝
2026-05-21 16:02:20
2026-05-21 17:28:49
ScienceAI incentive-icons
ScienceAI
關注人工智能與其他前沿技術
1307文章數(shù) 227關注度
往期回顧 全部

科技要聞

好到離譜也不夠!英偉達交出816億美元營收

頭條要聞

特朗普稱將與賴清德交談 外交部表態(tài)

頭條要聞

特朗普稱將與賴清德交談 外交部表態(tài)

體育要聞

常住人口7000的小鎮(zhèn),擁有了一支德甲球隊

娛樂要聞

反轉!金秀賢與金賽綸未成年時交往不實

財經(jīng)要聞

英偉達業(yè)績超預!指引再新高仍不夠亮眼

汽車要聞

26.98萬起步 看小鵬GX如何詮釋一車多能以及滿配的科技與豪華

態(tài)度原創(chuàng)

藝術
旅游
教育
游戲
親子

藝術要聞

崔雪冬 2026年油畫新作

旅游要聞

雨后莒南:梯田如錦 云影天光入畫來

教育要聞

校媒街采 | 致曾經(jīng)備戰(zhàn)高考的自己

《愚靈》揮刀斬向主機!7月23日PS5、Switch同步發(fā)售

親子要聞

媽媽太卷兒女都不顧兒女身心健康是特別無奈的,做爸爸的太心疼還沒辦法

無障礙瀏覽 進入關懷版