網易首頁 > 網易號 > 正文 申請入駐

DeepSeek硬核突破!DualPath破解Agent推理瓶頸,V4升級方向清晰了

0
分享至

大模型的進化正迎來關鍵拐點。

從單輪對話的聊天機器人,快速迭代為能自主規劃、調用工具、完成百輪交互的Agent智能體,而這一轉變也讓底層推理架構的核心瓶頸徹底暴露——GPU算力不再是制約性能的關鍵,KV-Cache存儲I/O帶寬成為了Agent大模型落地的最大攔路虎。


就在DeepSeek V4發布前夕,DeepSeek-AI聯合北大、清華團隊發布了重磅研究DualPath。

DualPath通過創新的雙路徑架構,讓Agentic大模型離線推理吞吐量最高提升1.87倍,在線服務吞吐量平均提升1.96倍,還在1152張GPU的千卡集群完成驗證,為下一代模型的升級打下了堅實的技術基礎。


之所以會出現如此嚴重的I/O瓶頸,核心源于Agent大模型的工作特性。


與傳統短對話不同,Agent需要在數十甚至上百輪的環境交互中累積上下文,長度可達百萬tokens,而每輪新增的有效信息僅有數百tokens,這讓KV-Cache命中率普遍超過95%。

此時,GPU的大量時間并非用于計算,而是在等待從外部SSD存儲中讀取海量的歷史KV-Cache數據。

再加上現代大模型推理普遍采用的Prefill-Decode(預填充-解碼)分離架構,進一步加劇了這一矛盾,即所有KV-Cache都只能從外部存儲加載到預填充節點,這導致預填充節點的存儲網卡帶寬被完全占滿,成為系統性能的絕對瓶頸,而解碼節點的存儲網卡卻長期處于閑置狀態,算力資源被嚴重浪費。


同時,硬件發展的失衡也讓問題雪上加霜,GPU計算力的增長速度遠超網絡帶寬和顯存容量,計算與I/O的比例嚴重失調,讓這一瓶頸愈發突出。


DualPath的核心創新,正是抓住了解碼節點帶寬閑置的關鍵痛點,重構了KV-Cache的加載架構。

在傳統的“存儲→預填充節點”加載路徑之外,它創新性地開辟了第二條“存儲→解碼節點→預填充節點”的加載通道,通過動態分配兩條路徑的數據流,把原本單一節點的I/O壓力,轉化為全局資源池化的負載分擔,充分聚合所有節點的存儲帶寬,從根源上打破了帶寬天花板。


在第一條預填充讀取路徑中,KV-Cache從持久化存儲讀入預填充節點的內存緩沖,再傳輸到GPU顯存完成計算,最后將完整的KV-Cache傳給解碼節點。

而新增的解碼讀取路徑,則讓KV-Cache先讀入解碼節點的內存緩沖,在預填充階段通過高速RDMA計算網絡,以層級流式傳輸的方式傳給預填充節點參與計算,整個過程中數據加載還能與模型計算無縫重疊,進一步提升效率。

當然,把這個看似直觀的想法,落地到亞毫秒級延遲敏感的大模型推理系統中,需要攻克兩大核心工程難題。

第一個難題是網絡流量的干擾,額外的KV-Cache傳輸極易與模型推理中的關鍵集合通信沖突,拖慢推理速度。

對此DualPath設計了以計算網卡為中心的流量管理機制,讓所有進出GPU的流量都強制通過計算網卡,再利用底層網絡的QoS控制能力,將模型推理通信分配到占99%帶寬的高優先級通道,KV-Cache傳輸則分配到低優先級通道,僅在計算網絡的空閑間隙傳輸,實現了兩者的完美隔離,既保證了推理延遲,又充分利用了閑置帶寬。

第二個難題是動態負載均衡,面對復雜多變的請求,系統需要實時決定每條請求的讀取路徑,同時兼顧網卡隊列長度和GPU負載。


DualPath為此打造了自適應請求調度器,將Token數量作為核心負載指標,把節點劃分為過載、低讀取隊列、高讀取隊列三類,優先將任務分配給未過載且讀取隊列較短的節點。

同時在節點內部,還會基于時間預估機制,將執行時間相近的請求打包成批,最大程度減少GPU同步時的計算氣泡,讓硬件利用率達到最優。


實測數據足以印證DualPath的強悍性能。

研究團隊在NVIDIA Hopper GPU集群上,基于DeepSeek-V3.2 660B、DS 27B、Qwen2.5-32B三大模型,結合真實的Agent強化學習軌跡數據集完成了全面測試。

在離線批量推理場景(如RL訓練的Rollout階段),DualPath對基線系統實現了碾壓式超越,處理DeepSeek 660B模型時吞吐量最高提升1.87倍,且無論每輪追加Token長度、生成長度如何變化,都能保持穩定的性能提升,證明其徹底消除了存儲網絡瓶頸。


在在線服務場景中,在首字延遲≤4秒的嚴格SLO約束下,DualPath能支撐的請求到達率相比基線最高提升2.25倍,還能保持極低的端到端生成延遲。


而消融實驗也證實,雙路徑加載機制和自適應調度算法,是推動性能大幅提升的核心關鍵。

更值得一提的是,DualPath還具備極強的大規模擴展性,在1152張GPU的千卡集群中,系統實現了近乎線性的性能擴展,調度器CPU占用還不到10個核心,完全滿足生產級的部署需求。


從DualPath的技術突破中,我們也能清晰看到DeepSeek V4的核心升級方向。

首先,模型與推理系統的協同優化將進一步深化,V4大概率會內置對雙路徑加載的原生支持,讓模型層的KV-Cache結構優化與系統層的路徑調度深度融合,實現更高的帶寬利用率。

其次,自適應資源配置能力會成為重點,針對不同的工作負載,系統能在線動態調整預填充/解碼節點的比例,讓資源分配更貼合實際需求,避免固定配置的效率浪費。

同時,KV-Cache的智能拆分加載也有望落地,將單個請求的KV-Cache拆分到兩條路徑并行加載,進一步挖掘I/O性能潛力。

此外,結合DeepSeek已有的稀疏注意力技術,V4還可能將模型結構優化與DualPath的系統優化結合,在降低計算量的同時減少KV-Cache數據量,形成“模型+系統”的雙輪驅動。

此次DualPath的發布,不僅為Agentic大模型的推理性能突破提供了全新的解決方案,更讓行業看到了大模型發展的新趨勢。

當模型規模接近物理極限時,底層架構的創新與模型算法的深度協同,將成為突破性能天花板的核心關鍵。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
終于明白了,陳翔六點半的衰落與球球無關,是創始人陳翔一步錯步步錯

終于明白了,陳翔六點半的衰落與球球無關,是創始人陳翔一步錯步步錯

愛看劇的阿峰
2026-05-08 19:56:47
果然又出幺蛾子,訪華之旅再生變故?中國提的要求,特朗普拒絕了

果然又出幺蛾子,訪華之旅再生變故?中國提的要求,特朗普拒絕了

混沌錄
2026-05-09 11:02:07
瀏陽煙花廠事故升級!26人死亡變成37人,網友:煙花爆竹該清除了

瀏陽煙花廠事故升級!26人死亡變成37人,網友:煙花爆竹該清除了

火山詩話
2026-05-08 18:13:12
倫敦世乒賽:5月9日賽程發布 國乒女團迎戰羅馬尼亞 CCTV5直播有變

倫敦世乒賽:5月9日賽程發布 國乒女團迎戰羅馬尼亞 CCTV5直播有變

林子說事
2026-05-09 11:27:17
大跌眼鏡!“做空閨蜜”登熱搜,勸閨蜜不婚不育,自己孩子10歲了

大跌眼鏡!“做空閨蜜”登熱搜,勸閨蜜不婚不育,自己孩子10歲了

番外行
2026-04-21 13:06:02
梁朝偉回憶張國榮與張曼玉:演戲要投入真情,拍完必須立刻抽離

梁朝偉回憶張國榮與張曼玉:演戲要投入真情,拍完必須立刻抽離

桃桃淘電影
2026-05-09 12:00:15
美國政府被曝向海灣三國“偷偷”出售約170億美元導彈

美國政府被曝向海灣三國“偷偷”出售約170億美元導彈

新京報
2026-05-08 15:46:57
男子睡3個女人,年齡分別是24歲30歲46歲,穿幫后3個女人要整他

男子睡3個女人,年齡分別是24歲30歲46歲,穿幫后3個女人要整他

朗威談星座
2026-05-09 17:14:43
5月9日世乒賽轉播調整,王楚欽迎來關鍵生死戰

5月9日世乒賽轉播調整,王楚欽迎來關鍵生死戰

七七自駕游
2026-05-09 11:44:32
歷史首次!英超三隊會師歐戰決賽,三冠通吃的概率有大?

歷史首次!英超三隊會師歐戰決賽,三冠通吃的概率有大?

林子說事
2026-05-09 08:12:09
載149人染疫郵輪已漂流近40天:航行5天后死神悄然登船,8人感染3人死亡;有中國乘客預訂后續航次慶幸“還沒登船”

載149人染疫郵輪已漂流近40天:航行5天后死神悄然登船,8人感染3人死亡;有中國乘客預訂后續航次慶幸“還沒登船”

大風新聞
2026-05-09 18:33:04
高崗自殺后,彭德懷、林彪的表現令人感慨

高崗自殺后,彭德懷、林彪的表現令人感慨

深度報
2026-04-25 22:55:42
老杜案將迎巨變?考夫曼臨陣脫逃,退出辯護團隊,莎拉要最后一搏

老杜案將迎巨變?考夫曼臨陣脫逃,退出辯護團隊,莎拉要最后一搏

顧蔡衛
2026-05-09 09:10:14
抗美援朝時鄧華幫助過韋杰,后來鄧華陷入低谷,韋杰怎么報答的?

抗美援朝時鄧華幫助過韋杰,后來鄧華陷入低谷,韋杰怎么報答的?

史之銘
2026-05-09 00:42:50
三連曝,中山大學腫瘤防治中心常務副主任馬某論文被舉報涉嫌圖片重復?

三連曝,中山大學腫瘤防治中心常務副主任馬某論文被舉報涉嫌圖片重復?

文憶天下
2026-05-09 08:41:03
中國移動迎來史上最年輕的總經理!

中國移動迎來史上最年輕的總經理!

ICT解讀者
2026-05-08 19:50:41
烏克蘭擊沉里海艦隊導彈艦!摧毀全俄最大的兩座煉油廠

烏克蘭擊沉里海艦隊導彈艦!摧毀全俄最大的兩座煉油廠

項鵬飛
2026-05-08 19:30:06
92年上海一女子花40萬買入浦東一塊地皮,18年后,市值把她驚呆了

92年上海一女子花40萬買入浦東一塊地皮,18年后,市值把她驚呆了

紅豆講堂
2025-05-12 10:27:03
6月1日正式施行!全國工地用工新規,明確60歲以上農民上崗標準

6月1日正式施行!全國工地用工新規,明確60歲以上農民上崗標準

丁丁鯉史紀
2026-05-08 14:50:31
文章再傳“喜訊”霸榜熱搜,馬伊琍現身,藏著比復婚更高級的體面

文章再傳“喜訊”霸榜熱搜,馬伊琍現身,藏著比復婚更高級的體面

賈媽的幸福生活
2026-05-09 17:47:44
2026-05-09 19:04:49
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應用精選與評測
503文章數 74關注度
往期回顧 全部

科技要聞

美國政府強力下場 蘋果英特爾達成代工協議

頭條要聞

國防部證實:中方建造的"麒麟"級潛艇首艇交付巴基斯坦

頭條要聞

國防部證實:中方建造的"麒麟"級潛艇首艇交付巴基斯坦

體育要聞

成立128年后,這支升班馬首奪頂級聯賽冠軍

娛樂要聞

50歲趙薇臉頰凹陷滄桑得認不出!

財經要聞

存儲芯片上演造富潮

汽車要聞

軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

態度原創

時尚
健康
旅游
藝術
數碼

今年春夏最火的3個穿搭思路,普通人可以直接照搬嗎?

干細胞能讓人“返老還童”嗎

旅游要聞

別跑空!洛陽這些博物館恢復周一例行閉館

藝術要聞

齊白石 紫藤蜜蜂

數碼要聞

當貝2S Ultra:AI智養+干濕分離+全色域燈,養魚一步到位

無障礙瀏覽 進入關懷版