![]()
DeepSeek又有新動作了。
不過,這次發(fā)布的,依然不是大家期待已久的DeepSeek-V4。
但這并不妨礙它成為一次重磅亮相——DeepSeek聯(lián)合清華大學(xué)與北京大學(xué),共同推出了一套全新的推理系統(tǒng),名為DualPath。
![]()
更重要的是,這套系統(tǒng)并非為常規(guī)對話而設(shè)計(jì),它所瞄準(zhǔn)的,是當(dāng)下更復(fù)雜、也更火熱的智能體場景中的核心難題。
DualPath通過重構(gòu)數(shù)據(jù)加載方式,大幅提升GPU利用率,讓智能體終于在長上下文、多輪交互的真實(shí)世界中,跑得更順暢、更實(shí)用了。
既然是三大頂尖機(jī)構(gòu)聯(lián)手發(fā)布的技術(shù)成果,論文里自然少不了一堆專業(yè)術(shù)語,讀起來容易讓人頭大。
不過別擔(dān)心,這篇文章不講黑話,只講人話。帶你輕松搞懂:DualPath到底是什么,它厲害在哪。
01
智能體推理:算力成了配角
你可能已經(jīng)注意到,AI圈的風(fēng)向變了——從“大模型”變成了“智能體”。
過去用大模型,交互很簡單:你輸入一段提示詞,模型思考幾輪,給你一個(gè)答案。
到了智能體時(shí)代,事情復(fù)雜了。交互的雙方,不再只是“人”和“機(jī)”,還有“機(jī)”和“機(jī)”。模型不僅要讀懂你的話,還要自己去調(diào)用瀏覽器、打開代碼解釋器、與外部環(huán)境打交道。交互次數(shù)也從幾次,飆升到幾十次、上百次。
在這個(gè)過程中,智能體每次調(diào)用工具所產(chǎn)生的輸入輸出其實(shí)很短,可能只需要幾百個(gè)token。但問題在于,隨著交互輪次增加,上下文會像滾雪球一樣越積越大,最終堆積成幾十萬token的龐然大物。
換句話說,智能體任務(wù)呈現(xiàn)出一種奇特的特征:多輪次、長上下文、短追加。
這種模式帶來的直接后果是——KV-Cache的命中率,常常高達(dá)95%以上。
![]()
什么是KV-Cache?用一個(gè)追劇的比喻就能明白:
假設(shè)大模型的推理過程,就像你在追一部連續(xù)劇,剛更新到第20集。
第20集的內(nèi)容,是由前19集的劇情背景(也就是上下文),加上第20集的新劇情(新輸入)組成的。
如果沒有KV-Cache,就像你得了健忘癥,每次看新一集,都得把前面19集從頭到尾重看一遍,才能看懂第20集。
而有了KV-Cache,就好比你已經(jīng)把前19集牢牢記在腦子里,只需要看新的那一集,就能無縫銜接,繼續(xù)追下去。
![]()
對于Transformer架構(gòu)的模型來說,原理也是一樣的。
當(dāng)智能體完成一次交互,準(zhǔn)備處理下一個(gè)任務(wù)時(shí),它所需要的絕大部分上下文,早在之前的交互中就已經(jīng)計(jì)算過了。直接讀取緩存就好,只有極少量新內(nèi)容需要重新計(jì)算。
所以,對計(jì)算機(jī)來說,KV-Cache的命中率當(dāng)然是越高越好,因?yàn)槊芯鸵馕吨笆∈隆薄?/strong>
但“省事”的背后,卻藏著一個(gè)新問題:
強(qiáng)大的GPU,算幾百個(gè)token的新一輪交互,可能還不到1毫秒。但在此之前,它需要先拿到那幾十萬token的“記憶”——也就是幾十GB的KV-Cache數(shù)據(jù)。
要想用KV-Cache“省事”,就得把這些數(shù)據(jù),從硬盤或分布式存儲設(shè)備里,硬生生地搬運(yùn)到GPU的顯存里。
這就像一個(gè)頂級大廚,炒一盤菜只需要1秒鐘,但他的助手買菜卻要花10秒鐘。
![]()
于是,智能體推理的最大瓶頸,已經(jīng)不是算力,而是KV-Cache數(shù)據(jù)的輸入輸出速度。
02
現(xiàn)有架構(gòu):PD分離
為了提升推理性能,業(yè)內(nèi)普遍采用的架構(gòu)叫做“預(yù)填充-解碼分離”,簡稱PD分離。
簡單來說,在這種架構(gòu)下,GPU集群被分成了兩個(gè)部門:
一個(gè)是預(yù)填充引擎,負(fù)責(zé)處理海量輸入文本,屬于計(jì)算密集型任務(wù),擅長批量處理;
另一個(gè)是解碼引擎,負(fù)責(zé)一個(gè)字一個(gè)字地生成回答,對延遲極度敏感,但受限于內(nèi)存。
在這樣的組織方式下,預(yù)填充引擎需要不斷從外部存儲里加載海量的KV-Cache數(shù)據(jù),它的存儲網(wǎng)卡幾乎隨時(shí)處于過飽和狀態(tài),堵得水泄不通。
與此同時(shí),解碼引擎雖然也在正常運(yùn)行,但它的存儲網(wǎng)卡大部分時(shí)間卻閑著沒事干。
一個(gè)倉庫里,進(jìn)貨的大門被堵死,出貨的大門空空蕩蕩,整個(gè)物流線就這樣卡住了。
![]()
在算力成本高昂的今天,讓高性能芯片集群里的硬件資源閑置,簡直是極大的浪費(fèi)。
最直觀的解決辦法,當(dāng)然是把進(jìn)貨的大門拓寬——給預(yù)填充引擎增加帶寬。但在實(shí)際操作中,這既不現(xiàn)實(shí),成本也高得嚇人。
一個(gè)更聰明的辦法是:讓出貨的大門也來幫忙進(jìn)貨——也就是讓閑置時(shí)的解碼引擎,分擔(dān)一部分“拉取數(shù)據(jù)”的任務(wù)。
03
DualPath:明修棧道,暗度陳倉
來自DeepSeek、清華和北大的研究團(tuán)隊(duì)在對現(xiàn)代AI數(shù)據(jù)中心的研究中得到了靈感。
類似英偉達(dá)的AI超級計(jì)算機(jī)DGX SuperPOD,其架構(gòu)普遍具備一個(gè)重要的硬件特性:網(wǎng)絡(luò)隔離。
每個(gè)GPU一般配備兩套網(wǎng)卡:
一是計(jì)算網(wǎng)卡(Compute NIC):專門用于GPU之間的跨節(jié)點(diǎn)卡間通信,通常配備多張總傳輸帶寬極大;
二是存儲網(wǎng)卡(Storage NIC):用于讀寫硬盤或分布式存儲上的數(shù)據(jù),通常只配備1張,總帶寬相對較小。
在此基礎(chǔ)上,研究團(tuán)隊(duì)試圖充分利用網(wǎng)絡(luò)傳輸性能,提出了雙路徑KV-Cache加載(Dual-path KV-Cache loading)的思路。
先前的架構(gòu)采用的路徑是:讓預(yù)填充引擎直接通過自己的存儲網(wǎng)卡,從硬盤或分布式存儲中拉取KV-Cache數(shù)據(jù)。
而DualPath則是讓閑置的解碼引擎利用存儲網(wǎng)卡從硬盤或分布式存儲中拉取KV-Cache數(shù)據(jù)到其內(nèi)存,再利用極高帶寬的計(jì)算網(wǎng)絡(luò)把數(shù)據(jù)快速傳輸給預(yù)填充引擎。
![]()
![]()
當(dāng)然,DualPath不會無腦讓解碼引擎來幫忙,而是會實(shí)時(shí)監(jiān)控兩個(gè)大門的擁堵情況。
如此一來,進(jìn)貨的大門被堵住時(shí),如果暫時(shí)沒有出貨,出貨的大門也開始進(jìn)貨,所有引擎的存儲網(wǎng)卡帶寬都得到了有效利用,不對稱帶寬飽和問題得以解決。
研究團(tuán)隊(duì)經(jīng)過嚴(yán)格的帶寬分析證明,在常見的預(yù)填充和解碼節(jié)點(diǎn)配比下,DualPath在使存儲網(wǎng)卡帶寬飽和的同時(shí),計(jì)算網(wǎng)卡的帶寬也不會成為新的瓶頸,能夠覆蓋絕大部分實(shí)際部署場景。
04
流量調(diào)度與優(yōu)先級博弈
雖然數(shù)據(jù)的流向多繞了一大圈,實(shí)際推理效率卻能大幅提升,想法看起來很美好。
但想要在以微秒級別運(yùn)行的系統(tǒng)中落地,還有相當(dāng)重量級的挑戰(zhàn)擺在眼前:
一是大量數(shù)據(jù)引入帶來的混亂:
讓解碼引擎幫著一起拉取歷史記憶數(shù)據(jù)(KV-Cache)確實(shí)是個(gè)好主意,但也會帶來巨大的風(fēng)險(xiǎn)。
GPU在推理過程中,需要頻繁地與集群中的其他GPU進(jìn)行“集體通信”,完成數(shù)據(jù)的同步和結(jié)果的交換,這種通信對延遲極其敏感,慢一點(diǎn)都不行。
如果解碼引擎開始下載幾個(gè)GB的KV-Cache數(shù)據(jù),火山噴發(fā)一般的數(shù)據(jù)流就可能擠占網(wǎng)絡(luò)帶寬,如果GPU之間的集體通信不幸被阻塞了,推理過程還是會卡住。
為了解決這種混亂的情況,研究團(tuán)隊(duì)在網(wǎng)卡層面上設(shè)置了一個(gè)高速上的“交警”:
![]()
GPU之間的通信必須具有最高的優(yōu)先級,它有走VIP通道的權(quán)力,無論如何都要保證正常運(yùn)行、不許堵車;
拉取KV-Cache數(shù)據(jù)的任務(wù)則只有普通優(yōu)先級,VIP通道沒車的時(shí)候它才能上路,只要GPU通信任務(wù)出現(xiàn),它就得立刻避讓。
這位由計(jì)算網(wǎng)卡(CNIC)扮演的“交警”必須徹底隔絕兩種數(shù)據(jù)流量,確保解碼引擎拉取數(shù)據(jù)絕對不能影響GPU之間的集體通信。
二是如何動態(tài)分配任務(wù):
人們的各種需求意味著智能體的推理任務(wù)總是動態(tài)變化的,有時(shí)請求多,有時(shí)請求少,有的請求長,有的請求短。
如果這位“交警”指揮不當(dāng),那就必然會幫倒忙。例如,預(yù)填充引擎的帶寬明明沒有飽和,卻非要繞遠(yuǎn)路讓解碼引擎去拉取數(shù)據(jù)。
如何實(shí)時(shí)通過負(fù)載均衡(Load Balance)來動態(tài)分配任務(wù),是這位“交警”必須面對的數(shù)學(xué)難題。
為此,研究團(tuán)隊(duì)設(shè)計(jì)了自適應(yīng)請求調(diào)度器,讓系統(tǒng)在運(yùn)行時(shí)根據(jù)存儲網(wǎng)卡的隊(duì)列長度、GPU計(jì)算負(fù)載以及請求特征,動態(tài)選擇最優(yōu)的數(shù)據(jù)加載路徑。
在引擎間,它不僅會監(jiān)控每個(gè)GPU當(dāng)下的計(jì)算負(fù)載,也就是待處理的token數(shù)量;還會同時(shí)監(jiān)控底層分布式存儲在每個(gè)節(jié)點(diǎn)上的磁盤讀取隊(duì)列長度。
![]()
這樣,新的請求總會被智能分配到讀取隊(duì)列最短、GPU最閑的那個(gè)引擎進(jìn)行加載。
在引擎內(nèi),由于多張GPU被綁定在一起干活,所有的GPU必須同時(shí)干完手上的活才能進(jìn)入下一個(gè)環(huán)節(jié),這就是注意力機(jī)制的同步。
![]()
為了防止拿到短任務(wù)的GPU“干等著”拿到長任務(wù)的GPU,它需要使用基于計(jì)算配額的批處理選擇算法,把長任務(wù)分割為短任務(wù),這樣多張GPU計(jì)算注意力機(jī)制的時(shí)間就能基本對齊,盡快進(jìn)入到下一個(gè)環(huán)節(jié)。
到這里為止,DualPath面對的問題就都解決了。
05
實(shí)測:吞吐量翻倍!
現(xiàn)在到了檢驗(yàn)技術(shù)成果的時(shí)候。
![]()
研究團(tuán)隊(duì)在基于InfiniBand高速互聯(lián)的英偉達(dá)Hopper GPU集群上,使用了DeepSeek-V3.2的660B參數(shù)版本、27B參數(shù)簡化版本和Qwen2.5-32B三種模型進(jìn)行測試,并根據(jù)真實(shí)的智能體強(qiáng)化學(xué)習(xí)訓(xùn)練軌跡進(jìn)行評估。
在離線批處理推理任務(wù)中,對于DeepSeek-V3.2 660B模型,DualPath的任務(wù)完成時(shí)間大幅縮短,系統(tǒng)的吞吐量最高可提升1.87倍,性能逼近無I/O延遲的理想狀態(tài)。
在在線服務(wù)推理任務(wù)中,模擬的真實(shí)用戶會不斷涌入,系統(tǒng)需要在保證輸出第一個(gè)字符的延遲不超過4秒的情況下盡可能處理更多請求。
結(jié)果顯示,DualPath系統(tǒng)能夠承載的并發(fā)請求數(shù)量平均達(dá)到基線系統(tǒng)的1.96倍,在特定的負(fù)載情況下甚至能達(dá)到2.25倍。
而在擴(kuò)大GPU集群至1152張的超大規(guī)模實(shí)驗(yàn)中,DualPath展現(xiàn)出了接近線性的加速比,性能衰減極低,這個(gè)現(xiàn)象無疑為其投入實(shí)際使用提供了強(qiáng)大的說服力。
回顧從“大模型”到“智能體”的發(fā)展歷史,我們可以看到一條清晰的路徑:
最早期的挑戰(zhàn)是算力,如何更快計(jì)算神經(jīng)網(wǎng)絡(luò)矩陣是頭號問題;
隨后內(nèi)存登場,模型權(quán)重和KV-Cache占據(jù)了網(wǎng)絡(luò)傳輸帶寬;
現(xiàn)在智能體爆發(fā),上下文成倍增長,挑戰(zhàn)又來到了輸入輸出和網(wǎng)絡(luò)層面。
DeepSeek、清華和北大三大巨頭聯(lián)手提出DualPath順利跨越了這個(gè)門檻,打破了數(shù)據(jù)的常規(guī)流向,讓閑置的資源得以充分利用。
毫不夸張地說,又是一次軟硬件協(xié)同設(shè)計(jì)的教科書級別示范。
大模型作為智能體的底層基礎(chǔ)設(shè)施,其內(nèi)在計(jì)算邏輯正在悄無聲息地發(fā)生巨變。
像DualPath這種打破傳統(tǒng)邊界、極限壓榨硬件集群I/O潛力的分布式架構(gòu),必將成為下一代AI基礎(chǔ)設(shè)施的標(biāo)配。
不必因新產(chǎn)品遲遲未能發(fā)布而遺憾,因?yàn)榧夹g(shù)已成為最牢固的基石,而日思夜想的DeepSeek-V4,已經(jīng)指日可待。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.