網易首頁 > 網易號 > 正文 申請入駐

英偉達力薦,小團隊兩個月開源一款「光速級」智能體推理引擎

0
分享至



機器之心編輯部

智能體時代的核心是算力。

尤其是在 Coding Agent 爆發之后,算力問題變得前所未有地尖銳。Claude Code、Codex、Cursor 等產品正在把 AI 從「問答工具」變成「持續運行的軟件協作者」,單次會話輕松突破 50K tokens,系統負載轉向了更極端、更復雜的智能體負載。

最近有關算力的大新聞層出不窮。今天的最新消息:馬斯克的 SpaceX 與 Anthropic 宣布達成了重磅協議,超過 22 萬塊英偉達 GPU 將為 Anthropic 所用。而 Anthropic 對與 SpaceX 合作開發未來的太空算力體系「表示有興趣」。

在如此龐大的算力需求下,除了開源還有節流。也是今天的最新消息:OpenAI 發布了多路徑可靠連接 (MRC),可幫助大型 AI 訓練集群更快、更可靠地運行,并減少 GPU 時間的浪費。

我們知道,即便只是單 GPU 吞吐率上的微小提升,一旦應用到生產級集群中,也能夠在服務持續增長需求的同時,節約相當可觀的算力。

來自 LightSeek Foundation 的一個小團隊,在兩個月時間內打造了一個全新的,號稱「光速」的大模型推理引擎 TokenSpeed。



這一引擎擁有TensorRT LLM 級別的性能,vLLM 級別的易用性。并且擁有 NVIDIA Blackwell 上最快的 MLA 注意力內核。

一經發布,TokenSpeed 就受到了英偉達發推文力薦。



目前,該引擎已經開源。讓我們參閱其技術博客,來深入了解「光速」引擎的技術細節。



  • 博客標題:TokenSpeed: A Speed-of-Light LLM Inference Engine for Agentic Workloads
  • 博客鏈接:https://lightseek.org/blog/lightseek-tokenspeed.html
  • Github 鏈接:https://github.com/lightseekorg/tokenspeed

TokenSpeed 技術簡介

TokenSpeed 從第一性原理出發,專門為智能體推理場景設計。它為智能體負載提供接近「光速級」的推理能力,核心包括:基于編譯器的并行建模機制、高性能調度器、安全的 KV 資源復用約束、支持異構加速器的可插拔分層 kernel 系統,以及用于低開銷 CPU 側請求入口的 SMG 集成。

建模層采用本地 SPMD(Single Program, Multiple Data,單程序多數據)設計,在性能與易用性之間取得平衡。TokenSpeed 允許開發者在模塊邊界指定 I/O placement 注解。隨后,一個輕量級靜態編譯器會在模型構建過程中自動生成所需的 collective operation,從而無需手動實現通信邏輯。

TokenSpeed 調度器將控制平面(control plane)與執行平面(execution plane)解耦。

控制平面使用 C++ 實現,并被構建為一個有限狀態機(FSM),結合類型系統,在編譯期而非運行期強制執行安全資源管理,包括 KV cache 狀態轉移與使用。請求生命周期、KV cache 資源以及重疊執行時序,都通過顯式 FSM 狀態遷移與所有權語義進行表示,因此系統正確性并非依賴約定,而是由一個可驗證的控制系統來保證。

執行平面則使用 Python 實現,以保持開發效率,使研究人員與工程師能夠更快進行功能迭代,并降低整體認知負載。

TokenSpeed 的 kernel 層將 kernel 從核心引擎中解耦,并將其視為一級模塊化子系統。它提供了可移植的公共 API、集中的注冊與選擇機制、組織良好的實現結構、面向異構加速器的可擴展插件機制、經過整理的依賴體系,以及統一的快速迭代基礎設施。

與此同時,團隊還針對 NVIDIA Blackwell 架構進行了大量性能優化。例如,他們構建了當前智能體負載場景下速度最快的 MLA(Multi-head Latent Attention,多頭潛在注意力)kernel 之一。在 decode kernel 中,由于部分場景下「num_heads」較小,團隊通過對「q_seqlen」與「num_heads」進行分組,以更充分利用 Tensor Core 的計算能力。而 binary prefill kernel 則包含了經過精細調優的 softmax 實現。

目前,TokenSpeed MLA 已被 vLLM 采用。

TokenSpeed 性能預覽

Coding Agents(編碼智能體)帶來了異常嚴苛的推理工作負載,上下文通常會超過 50K tokens,對話也經常跨越數十輪。大多數公開基準測試并不能充分捕捉這種行為。

研發團隊與 EvalScope 團隊一起,基于 SWE-smith 軌跡對 TokenSpeed 進行評估,這些軌跡密切反映了生產環境中 Coding Agents 的流量情況。由于生成速度對 Agent 的用戶體驗至關重要,因此,團隊的目標是在維持單用戶 TPS(每秒 token 數)下限的同時,最大化單 GPU 的 TPM(每分鐘 token 數)—— 通常是 70 TPS,有時是 200 TPS 或更高。

此外,研發團隊針對 TensorRT-LLM(目前 NVIDIA Blackwell 平臺上的最高水平)對這一設計進行了基準測試,并在認為針對 Agentic workloads 存在更好權衡的地方,采取了與之不同的設計方案。

下圖展示了在不同部署配置下(無 PD 解耦),TokenSpeed 與 TensorRT-LLM 的 Kimi K2.5 性能帕累托曲線(Pareto curves)。

每條曲線都以 TPS/User(橫軸)作為延遲指標,以 TPM/GPU(縱軸)作為吞吐指標,并通過掃描并發數繪制而成。對于 Coding Agents(高于 70 TPS/User),最佳配置是 Attention TP4 + MoE TP4。

在這一配置下,TokenSpeed 在整個帕累托前沿上均優于 TensorRT-LLM:在最低延遲場景下(batch size 1)大約快 9%,在 100 TPS/User 附近吞吐量大約高 11%。



團隊表示,他們的核心優化之一是 TokenSpeed MLA。下圖對比了 TokenSpeed MLA 與 TensorRT-LLM 的 MLA,后者是目前 NVIDIA Blackwell 上的 SoTA。



可以看出來,優化后的二進制版本預填充內核(prefill kernel),使用 NVIDIA 內部旋鈕來微調 softmax 實現,在 Coding Agents 的五種典型預填充工作負載(帶長前綴 KV cache 的 prefill)中,都超過了 TensorRT-LLM 的 MLA。解碼內核則將查詢序列軸折疊進頭軸,以更好地填充 BMM1 的 M tile,從而提升 Tensor Core 利用率。

結合其他優化,在帶有 speculative decoding 的典型解碼工作負載中(batch size 為 4、8、16,且帶長前綴 KV cache),這使得相對于 TensorRT-LLM 來說,延遲幾乎降低了一半。

最后,研發團隊也表示,該項目于 2026 年 3 月中旬啟動開發,雖然目前展示了驚人的性能,但仍有大量底層代碼(如 PD 分離、KV 存儲等)正在合并和完善中,接下來將繼續推進。

從上述性能表現來看,不難看出,TokenSpeed 的出現旨在通過更現代化的架構設計,打破傳統推理框架在易用性與極致性能之間的平衡點,為大規模 Agent 部署提供了一個高性能、開源的底座。而英偉達的力薦,也說明推理引擎正在成為 Agent 時代基礎設施競爭的一個新焦點。

更多信息,請參閱原博客!

https://x.com/lightseekorg/status/2052048105412141376

https://x.com/NVIDIAAI/status/2052061195381911806

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
為老不尊、被“兒子”打耳光?身居上海豪宅的她反倒活成人生范本

為老不尊、被“兒子”打耳光?身居上海豪宅的她反倒活成人生范本

楓塵余往逝
2026-05-07 13:27:01
網友曝三亞4只皮皮蝦收費1035元,涉事飯店半年前變更經營者

網友曝三亞4只皮皮蝦收費1035元,涉事飯店半年前變更經營者

齊魯壹點
2026-05-07 10:54:16
“機車女神”痞幼拿下張雪!評論區淪陷了!

“機車女神”痞幼拿下張雪!評論區淪陷了!

4A廣告文案
2026-05-07 09:13:48
國際足聯要瘋了,沒有軟肋的中國足球已經天下無敵

國際足聯要瘋了,沒有軟肋的中國足球已經天下無敵

楓冷慕詩
2026-05-07 11:32:38
魏鳳和案、李尚福案一審宣判

魏鳳和案、李尚福案一審宣判

新京報
2026-05-07 18:08:25
不可承受的“冒險”:華鎣女游客體驗瀑布秋千致死事件疑云

不可承受的“冒險”:華鎣女游客體驗瀑布秋千致死事件疑云

南方都市報
2026-05-07 12:02:13
炸裂!曹縣小叔子把嫂子睡了十幾年,還生了個兒子,村里人曝更多

炸裂!曹縣小叔子把嫂子睡了十幾年,還生了個兒子,村里人曝更多

烏娛子醬
2026-05-07 10:35:39
俄外交部呼吁各國及時從基輔撤離人員

俄外交部呼吁各國及時從基輔撤離人員

環球網資訊
2026-05-07 08:47:57
不能失憶!人民日報平安校園:海參崴的街頭,中國孩子在為誰歡呼

不能失憶!人民日報平安校園:海參崴的街頭,中國孩子在為誰歡呼

瑜說還休
2026-05-07 17:45:15
世乒賽爆大冷!世界冠軍遭淘汰,張本美和大勝,早田希娜11-0鞠躬致歉引熱議

世乒賽爆大冷!世界冠軍遭淘汰,張本美和大勝,早田希娜11-0鞠躬致歉引熱議

好乒乓
2026-05-07 18:30:05
世界杯國際足聯開出天價版權:對中國開價近3億美元,是印度的17倍,現“降”至1.2至1.5億美元;電視轉播談判陷僵局

世界杯國際足聯開出天價版權:對中國開價近3億美元,是印度的17倍,現“降”至1.2至1.5億美元;電視轉播談判陷僵局

浙江之聲
2026-05-07 08:24:22
前體操冠軍吳柳芳再回應擦邊風波:“把債還完了,我才能把體面重新撿起來”;談及與管晨辰的爭執,吳柳芳表示:“我不會去恨一個人”

前體操冠軍吳柳芳再回應擦邊風波:“把債還完了,我才能把體面重新撿起來”;談及與管晨辰的爭執,吳柳芳表示:“我不會去恨一個人”

揚子晚報
2026-05-07 07:43:31
對話“洪迪厄斯”號郵輪乘客:“我頭天下船,漢坦病毒陽性乘客第二天登船”

對話“洪迪厄斯”號郵輪乘客:“我頭天下船,漢坦病毒陽性乘客第二天登船”

紅星新聞
2026-05-07 19:26:32
恒大集團創始人許家印被曝出猛料

恒大集團創始人許家印被曝出猛料

地產微資訊
2026-05-07 09:28:09
騰勢 Z9GT 在歐洲為何敢定價近百萬?

騰勢 Z9GT 在歐洲為何敢定價近百萬?

晚點LatePost
2026-04-16 00:49:08
被困霍爾木茲海峽69天,19名中國船員海上堅守:導彈在頭頂飛,淡水告急,船艙熱如巨型蒸籠,蔬果價格高昂,“擔心炮彈難以入眠”

被困霍爾木茲海峽69天,19名中國船員海上堅守:導彈在頭頂飛,淡水告急,船艙熱如巨型蒸籠,蔬果價格高昂,“擔心炮彈難以入眠”

極目新聞
2026-05-07 18:51:02
“銀行員工轉走儲戶1800萬元炒股”,最新進展:銀行全額支付儲戶1000萬元存款本金和利息,另一儲戶800萬元仍無明確進展

“銀行員工轉走儲戶1800萬元炒股”,最新進展:銀行全額支付儲戶1000萬元存款本金和利息,另一儲戶800萬元仍無明確進展

大風新聞
2026-05-07 15:17:13
寧波銀行的“鐵三角”:區域精耕、風險定價與內生增長

寧波銀行的“鐵三角”:區域精耕、風險定價與內生增長

智谷趨勢
2026-05-07 17:36:48
越來越多的人工資退回15年前了!

越來越多的人工資退回15年前了!

燈錦年
2026-05-07 15:50:50
“很久沒有這種興奮感了”!段永平出手!清倉中國神華 買入泡泡瑪特 稱泡泡瑪特的商業壁壘遠比想象中強大 是王寧的粉絲

“很久沒有這種興奮感了”!段永平出手!清倉中國神華 買入泡泡瑪特 稱泡泡瑪特的商業壁壘遠比想象中強大 是王寧的粉絲

每日經濟新聞
2026-05-07 17:25:55
2026-05-07 19:48:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12939文章數 142644關注度
往期回顧 全部

科技要聞

月之暗面完成20億美元融資,估值突破200億

頭條要聞

19名中國船員被困霍爾木茲超2個月:船艙如同巨型蒸籠

頭條要聞

19名中國船員被困霍爾木茲超2個月:船艙如同巨型蒸籠

體育要聞

巴黎再進歐冠決賽,最尷尬的情況還是發生了

娛樂要聞

Lisa主持!寧藝卓觀看脫衣秀風波升級

財經要聞

金融“風暴”,AI制造

汽車要聞

雷克薩斯全新純電三排SUV 全新TZ全球首發

態度原創

游戲
手機
家居
本地
公開課

任天堂全新獨占不是鑰匙卡!預約開始 玩家放心了

手機要聞

消息稱某子系迭代旗艦工程機配備6.6英寸中屏+8500mAh電池

家居要聞

破繭成蝶 土味精裝房爆改

本地新聞

用青花瓷的方式,打開西溪濕地

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版