![]()
“算力預制菜”,這不是我提的,而是Kimi解析的PrfaaS技術總結。
![]()
就在國產Kimi K2.6模型即將發布的前夕,月之暗面Kimi聯合清華放出關鍵技術突破。
4月17日,Kimi與清華大學日前聯合推出全新跨數據中心架構PrfaaS(預填充即服務),直擊大模型長上下文算力瓶頸。
PrfaaS架構把大模型長文本預填充單獨交給專屬算力集群處理,算出的KVCache通過普通網絡傳給解碼集群用;再搭配智能調度與緩存優化,不用高端低延遲網絡,就能讓預填充、解碼兩大模塊分開靈活擴容,降本又好部署。
實測基于1T混合參數模型,這套增強異構方案僅占用少量跨機房帶寬,相較傳統同構部署、基礎異構方案,吞吐量分別提升54%、32%,大幅拉高超大模型集群吞吐上限。
4月17日,該研究成果以《Prefill-as-a-Service:KVCache of Next-Generation Models Could Go Cross-Datacenter》為題發表在Arxiv上。
本論文通訊作者為清華大學副教授、開源項目Mooncake發起人、開源項目KTransformers發起人章明星。
核心作者包括中國工程院院士、清華大學計算機系教授鄭緯民,清華大學教授武永衛,月之暗面工程副總裁許欣然、月之暗面秦若愚等人。
需要提及一點的是,這也是鄭緯民院士最自豪的研究成果之一——幾乎每次演講都會提到Mooncake。
![]()
論文:https://arxiv.org/abs/2604.15039v1
對于Kimi K2.5背后技術,詳見前文:楊植麟GTC大會演講全文:Kimi的三大核心技術將顛覆AI大模型的未來
為什么PrfaaS優于傳統KVCache?
這次誕生出兩個新的AI名詞:KVCache(鍵值緩存)、PrfaaS。
通俗點說,KVCache就是使用AI回答問題時存起來的“歷史聊天記憶+計算草稿”,避免重復干活,大幅提速、省算力。
實際上,目前在AI推理階段,大語言模型主要分PD兩步分離式架構輸出:
1、預填充(Prefill)。你發完問題,AI一次性把你整段話、上下文全部算一遍,算出一堆關鍵數據,打包存下來,這堆存下來的數據就是KVCache。
2、解碼生成(Decode逐字輸出)。后面慢慢打字的時候,直接調用存好的KVCache緩存,只算最新一個字,不用重復算前面所有內容。
許欣然曾解釋稱:
通常情況下,一臺機器上的GPU既用于“備菜”(預填充,即思考過程),也用于“炒菜”(解碼,即逐字逐句輸出),這兩個階段交替進行。假設今天只有一個請求,就是顯卡可以順利地進行“思考”和“輸出”,過程相對簡單。但是隨著用戶增多,傳統想法是需要更多人使用同一張卡進行服務,因此當顯卡在“炒菜”的過程中,如果有新請求進來,它就必須立即開始“備菜”。在Kimi的表現上可能是回答一半卡住,等一會兒再繼續,這樣的用戶體驗很差。
通過分離式架構,我們將“備菜”和“炒菜”階段獨立開來。這樣每個階段都有專人負責,如果“炒菜”的資源不足,就增加“炒菜”的資源,“備菜”資源不足就增加“備菜”的資源,每個任務完成后,轉交至下一階段。這樣不管用戶有多少,只要對話開始,就不會出現卡頓問題。我們可以放心地將壓力加載,GPU始終保持滿負荷運行。一方面降低了成本,另一方面也提升了用戶體驗,實現了雙贏。
當前,預填充-解碼 (PD) 解耦已成為大規模 LLM 服務的標準架構,但實際上其部署邊界仍然取決于鍵值緩存 (KVCache) 的傳輸。
而在傳統的密集注意力模型中,預填充會產生巨大的KVCache流量,使得預填充和解碼在單個高帶寬網絡域內緊密耦合,從而限制了異構部署和資源彈性。
近年來,包括DeepSeek在內的全新混合注意力架構,大幅減小了KVCache的大小,使得跨集群KVCache傳輸變得越來越可行。
然而,僅僅減小KVCache的大小并不能使異構跨數據中心的PD服務真正實現:實際工作負載仍然具有突發性,請求長度高度不均勻,前綴緩存分布不均,并且集群間帶寬波動較大。
因此,完全將預填充外部化的簡單設計仍然可能面臨擁塞、隊列不穩定和利用率低等問題。
![]()
論文中以MiniMax 2.5為例。
在標準 Transformer 式注意力中,KVCache 隨上下文長度線性增長,可能達到數十GB。具有GQA的代表性密集模型 MiniMax-M2.5 在不同輸入長度下的 KV 吞吐量,瓶頸非常明顯:對于一個32K tokens的請求,單個MiniMax-M2.5實例產生的KVCache約為60 Gbps,所需的出站帶寬遠遠超過典型機器跨數據中心以太網的容量。
這正是為什么傳統的PD分離仍然在操作上與緊密集成的網絡域綁定在一起的原因。網絡預算如此之大,以至于在更松散的互連上移動預填充和解碼,更不用說跨數據中心了,根本不可行。
![]()
因此,在AI算力工程階段,Kimi和清華大學團隊基于全新的跨數據中心服務架構“預填充即服務”(Prefill-as-a-Service,簡稱PrfaaS),解決此問題。
那么,PrfaaS如何解決傳統PD分離架構的異構部署瓶頸?我根據論文,總結了以下三點:
1、混合注意力模型減少KVCache規模;
2、選擇性卸載長上下文請求問題,使僅50%的長請求占用帶寬,且混合模型KV吞吐量降低13倍,最終跨數據中心帶寬需求僅為13Gbps
3、帶寬感知調度與緩存感知路由,使跨數據中心帶寬需求降至百Gbps量級。
具體而言,根據論文,PrfaaS-PD系統包含三個角色:PrfaaS預填充、PD-P(PD集群內的預填充節點)和PD-D(PD集群內的解碼節點)。
該架構選擇性地將長上下文預填充任務卸載到獨立的、計算密集型的預填充集群,并通過通用以太網將生成的鍵值緩存(KVCache)傳輸到本地的預處理集群進行解碼。
PrfaaS并非僅僅減少KVCache容量,而是將模型端的鍵值效率與系統端的選擇性卸載、帶寬感知調度和緩存感知請求放置相結合。這種設計無需異構加速器共享相同的低延遲RDMA網絡,從而實現了在耦合集群間獨立擴展預填充和解碼容量。
論文還通過一個案例研究來驗證這一思路,該案例使用了內部的1T參數混合模型——也就是Kimi K2.5。
![]()
遵循Kimi Linear架構,該模型在獨立的PrfaaS集群用于長上下文預填充、以及傳統PD集群用于解碼和短上下文預填充所構成的異構部署中,系統的服務吞吐量分別比同構PD基準和拓撲異構基準高出54%和32%,同時每臺機器僅消耗適度的跨數據中心帶寬。
這些結果表明,KVCache高效的模型架構是必要的,但并不足以實現跨數據中心的異構服務。真正使部署可行的是模型端KVCache的精簡與系統端選擇性卸載及帶寬感知調度的結合。
二者共同作用,將跨數據中心PD分離從一種頗具吸引力的想法轉變為一種切實可行的服務架構。
論文指出,盡管異構PrfaaS-PD配置中采用32個H200 GPU,本地PD采用64個H20 GPU,但僅作為具有代表性的硬件組合,并非唯一可行的搭配。更具成本效益的預填充專用芯片將進一步降低生產環境中的部署成本。
換句話說,這套架構也用了國產或專用AI芯片進行部署測試。
論文結論中表示:“為應對異構分散推理的實際部署挑戰,我們提出了跨數據中心KVCache的概念,將分散式服務從單一同構集群擴展到跨集群的異構部署。在此基礎上,我們設計了PrfaaS-PD分散架構,通過利用商品以太網連接的異構PrfaaS集群,以低成本提升系統服務吞吐量。我們設想,跨數據中心KVCache范式將與下一代模型、硬件和網絡協同演進,從而實現大規模下高效大模型服務。”
論文作者介紹&Kimi新模型曝光
![]()
本論文通訊作者、清華大學教授、KVCache.AI團隊負責人章明星,本科畢業于北京郵電大學,博士畢業于清華大學,師從清華大學教授武永衛,曾擔任深信服首席算法技術專家和創新研究院院長,并在系統領域發表數十篇頂級會議論文。
清華大學KVCache.AI團隊發布了開源項目KTransformers中,僅用一張24GB的消費級顯卡就成功驅動了具有236B參數量的DeepSeek V2大模型,實現了14 Tokens/秒的生成速度——這意味著,2千億大模型的使用門檻降低到4萬以內。
天眼查顯示,清華大學計算機科學與技術系教授武永衛聯合發起成立的AI infra公司趨境科技中,章明星持股2.6783%。
![]()
鄭緯民院士。現任中國工程院院士、九源智能計算系統生態聯合體理事長、清華大學計算機系教授。
鄭緯民院士1970年畢業于清華大學自動控制系,1982年獲清華大學計算機科學與技術專業碩士學位,1985年至1986年在美國紐約州立大學石溪分校進修學習,1989年至1991年在英國南安普敦大學進修學習,曾任中國計算機學會理事長。2019年,鄭緯民當選中國工程院院士。
鄭緯民主要學術方向為網絡存儲系統。長期從事網絡存儲系統科學研究、工程建設和人才培養。
![]()
本論文第一作者Ruoyu Qin(秦若愚),目前就職于月之暗面,曾在清華大學計算機科學與技術系MADSys實驗室讀博,師從章明星教授,主要研究領域為分布式系統和機器學習系統。
此前,秦若愚和章明星在KVCache.AI項目上,與月之暗面共同發布了人工智能助手Kimi底層的Mooncake模型推理架構。這一架構承載了Kimi 80%以上的實際線上流量,在某些模擬場景中,吞吐量可以增加到未優化場景的5.25倍。
Mooncake論文還在USENIX 文件和存儲技術會議 (FAST)上獲得Erik Riedel Best Paper Award。
![]()
就在今年4月15日,Kimi推出的K2.6-code-preview已經上線。
這意味著,Kimi即將要發布K2.6系列新的基座模型。
早前,據界面新聞,在Kimi K2.5模型發布一個月之后,月之暗面ARR(年度經常性收入)突破1億美元。
不得不說,楊植麟掌舵的月之暗面堪稱AI賽道迭代標桿。
一邊快速更新Kimi模型版本,一邊深耕底層算力架構創新,軟硬協同全速突破,進化效率拉滿,穩步奔赴AGI終局。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.