網易首頁 > 網易號 > 正文申請入駐

記憶感知的大模型 KVCache 優化｜AICon 上海

2026-06-03 12:36:28　來源: InfoQ

北京舉報

分享至

當前，以 Agent 為核心的新一輪技術浪潮正在席卷產業。那么，世界模型的下一個突破在哪？Agent 從 Demo 到工程化還差什么？研發體系不重構，還能撐多久？

6 月 26 日 -6 月 27 日，AICon 全球人工智能開發與應用大會將在上海舉辦。本次大會將圍繞以上問題，邀請來自騰訊、阿里、快手、華為、飛豬等 50+ 頭部企業的技術負責人、高校與科研機構的一線專家，分享 Agent 在真實生產環境中的落地經驗與前瞻思考。深入探討 Agent 從原型到量產的工程挑戰、數據與記憶的基礎設施底座、安全可信的落地保障，以及大模型推理優化、智算架構升級等關鍵命題。

阿里云高級技術專家馬騰已確認出席 “大模型推理優化” 專題，并發表題為《記憶感知的大模型 KVCache 優化》的主題分享。本次分享重點介紹以 KVCache 為中心的開源大模型服務框架——Mooncake。將大模型推理引擎中的 KVCache 視作智能體系統最核心的“物理工作記憶”載體。通過打破傳統推理中計算與存儲的強耦合，Mooncake 實現了 Prefill 與 Decode 的分離式架構，并構建了全局共享的 KVCache 池。這種設計使得多智能體在頻繁交互與協同工作時，能夠通過跨節點的底層張量零拷貝與高效復用，實現記憶的“一次計算、全局共享”。

馬騰，阿里云高級技術專家，在阿里云主要大模型軟件棧在新硬件環境下國產化的研究工作，并共同創建了大模型開源項目 Mooncake（5K Star）。目前 Mooncake 已經有阿里云 / 清華 / 月之暗面 / 螞蟻 / 字節 / 趨境科技等多方參與，并且成功接入 vLLM/SGLang/LMDeploy/LMCache 等社區。同時他也是 SGLang, RBG 等社區的 Committer。他在 SOSP, ASPLOS, ATC, SC, INFOCOM, VLDB, TPDS 等頂級會議和期刊上發表論文二十余篇，相關成果授權美國 / 中國專利 10 項。他曾入選 CCF 系統軟件專委會優秀博士論文激勵計劃，擔任 PPoPP, FAST, DASFAA, TPDS, ICME, TC, JSC 等國際會議 / 期刊的程序委員會成員和審稿人。他在本次會議的詳細演講內容如下：

演講提綱：

多智能體時代的記憶挑戰從單一對話到多智能體協作的演進趨勢 Agent Memory 的構成：系統提示詞、工具描述、多輪交互歷史、智能體間狀態傳遞當前推理架構的瓶頸：重復 Prefill 計算、顯存碎片化與端到端延遲
核心視角：KVCache 作為智能體的"物理工作記憶"重新定義 KVCache 的角色——從推理緩存到記憶載體"一次計算、全局共享"的設計目標
Mooncake：以 KVCache 為中心的開源推理服務框架 Prefill 與 Decode 分離式架構（Disaggregated Architecture）全局共享 KVCache 池的構建跨節點張量零拷貝與高效復用機制
多智能體落地的底層技術挑戰基于記憶感知（Memory-aware）的請求調度與路由策略長短記憶在物理顯存中的動態分層與淘汰機制（Eviction）高并發場景下的吞吐極限優化
總結與展望 Agent Memory 需要下沉至物理推理基礎設施通過底層"記憶流轉"釋放算力與智能潛能

聽眾收益：

了解記憶系統和 KVCache 的無縫結合
了解如何通過推理優化，顯著提升 Agent 性能

除此之外，本次大會還策劃了端側 AI、物理與數字空間智能化、世界模型與多模態智能突破、Agent 架構與工程化實踐、Agent 安全與可信治理、企業級研發體系重構、AI 原生數據工程、AI 時代的個人提效與組織變革等 14 個專題論壇，屆時將有來自不同行業、不同領域、不同企業的 50+ 資深專家在現場帶來前沿技術洞察和一線實踐經驗。

更多詳情可掃碼或聯系票務經理 13269078023 進行咨詢。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.