![]()
當前,以 Agent 為核心的新一輪技術浪潮正在席卷產業。那么,世界模型的下一個突破在哪?Agent 從 Demo 到工程化還差什么?研發體系不重構,還能撐多久?
6 月 26 日 -6 月 27 日,AICon 全球人工智能開發與應用大會 將在上海舉辦。本次大會將圍繞以上問題,邀請來自騰訊、阿里、快手、華為、飛豬等 50+ 頭部企業的技術負責人、高校與科研機構的一線專家,分享 Agent 在真實生產環境中的落地經驗與前瞻思考。深入探討 Agent 從原型到量產的工程挑戰、數據與記憶的基礎設施底座、安全可信的落地保障,以及大模型推理優化、智算架構升級等關鍵命題。
OPPO 高級算法工程師王闖闖已確認出席 “Agent 數據、記憶與運行時基礎設施” 專題,并發表題為《小布記憶:全模態碎片化內容的理解與智能整理實踐》的主題分享。用戶每天產生大量碎片化內容——截圖、語音、視頻、文檔、多圖……如何讓 AI 理解這些異構多模態數據,并自動整理成有價值的"記憶"?
本次演講將介紹 OPPO 小布記憶的技術實踐:首先,構建端云協同的一鍵閃記架構,基于自研 AndesVL 多模態大模型實現端側推理,通過智能任務分流實現 80% 簡單場景端側處理、20% 復雜場景云側處理;其次,深入講解多模態理解能力,包括截圖 / 語音 / 視頻 / 文檔 / 多圖等全模態理解、POI/ 時間 / 價格等結構化信息提取、Dense Caption 端側圖片理解等;再次,介紹關聯記憶與合集歸納的內容聚合方案,實現從碎片到結構化記憶的自動整理;最后,分享流程化算法開發工作流與自動化評測體系的工程實踐。
王闖闖,負責 OPPO 大模型算法團隊核心業務,主導平臺 AI 能力和小布記憶產品的算法架構設計與落地,涵蓋一鍵閃記、記憶管理 Agent、合集生成、垂域洞見、自研 AndesVL 端側大模型等多個核心模塊,帶領團隊完成多項 S 級 /A 級需求交付,算法效果全面領先競品。研究方向:AI Memory、端側大模型、LLM 應用工程化。他在本次會議的詳細演講內容如下:
演講提綱:
問題背景:為什么需要全模態記憶整理,為什么難
碎片化內容的多模態特性:截圖、語音、視頻、文檔、多圖的異構挑戰
三大核心難點:模態異構理解、跨模態關聯、結構化生成
用戶價值與業務場景:從碎片到有序記憶的產品目標
一鍵閃記整體架構:端云協同的多模態理解框架
產品層觸發入口:
小布記憶(單擊 / 長按 / 雙擊)、魔方按鍵、小布助手(Query/ 主動 / 推薦氣泡)
端側采集框架(三指上滑 / 點擊交互)、截屏(普通截圖 / 長截圖)
AI 流體云(取餐碼)、密碼本(個人信息)、日歷(日程 / 待辦)、相機(大師參數)
端側引擎(基于自研 AndesVL 多模態大模型):
采集:圖文提取、語音轉 ASR、視頻
端側算法(AIUnit):NER&OCR 能力、圖片分類和總結、結構化字段、取餐碼、賬單、大師參數等
存儲記憶數據
云側服務:
內容安全
復雜推理任務:復雜訂單提取、復雜 NER 提取、復雜日程待辦
端云任務分流與多模態理解能力
分流模塊:對輸入圖文信息進行分析,生成分類標簽;根據分類標簽進行任務規劃
簡單場景(流量占比 80%):直屏 / 焦點屏(單屏)+ 手機 + 任務數≤2 + 單標簽單實例(如單個訂單、單個火車票、單個日程),需同時滿足
復雜場景(流量占比 20%):分屏 / 多浮窗 / 平板,或任務數 2,或多標簽分類 / 多實例信息(如多個日程、多個火車票)
多模態理解能力
截圖理解:11 類場景分類、POI/ 時間 / 價格等結構化信息提取、Dense Caption 端側圖片理解
語音理解:語音轉 ASR、意圖識別、關鍵信息提取(語音記 - 日程待辦、語音記 - 記賬)
圖文理解:結構化提取、日程待辦、取餐碼、記賬、文本 - 記賬分類
視頻理解:關鍵幀提取與內容摘要生成
文檔 / 多圖理解:長文檔結構化、多圖相冊的批量理解
多語種 POI 提取:英語、印地語、印尼語場景優化
端云結果合并:端側抽取結果傳到云端后處理 → 云側合成最終結果 → 返回端側 AIUnit → 流體云服務下游分發
內容聚合與智能整理:從碎片到結構化記憶
關聯記憶:多規則融合召回(標題 / 實體 / 標簽匹配)+ Rerank + LLM 精排
合集歸納:用戶手動創建、A 標簽推薦、洞見推薦三鏈路統一 → Reranker + Verify 兩階段聚合
合集分類與總結:分類 LLM 識別知識 / 旅行 / 健康合集 → 自適應摘要模板
效果數據:合集創建準確率 83% → 97%,新記憶加入準確率 76% → 95%+
工程實踐與效果驗證
流程化算法開發:Model Selection → Prompt Eng(人工 +APE)→ Business Benchmark
自動化評測體系:LLM-as-a-Judge 的多維度質量保障,badcase 反饋閉環
核心效果指標:場景分類準確率、結構化信息提取準召率、合集創建準召率
聽眾收益:
掌握端云任務分流的設計方法:如何定義簡單 / 復雜場景邊界,如何通過分類標簽生成動態 Prompt,如何在保證效果的同時最大化端側推理占比(80% 流量端側化)
了解全模態理解的技術挑戰與解決方案:如何基于自研 AndesVL 多模態大模型構建端側推理能力,端側 AIUnit 支持的任務類型(圖文 - 結構化提取、日程待辦、取餐碼、記賬等),以及端側推理優化策略(Prompt 精簡、輸出格式優化、圖片 resize)
掌握內容聚合的雙路方案:關聯記憶的多規則融合召回 + Rerank + LLM 精排架構,合集歸納的三鏈路統一 + Reranker/Verify 兩階段聚合方案,以及如何平衡召回率與準確率
學習合集分類與自適應總結的實現方法:分類 LLM 如何識別知識 / 旅行 / 健康合集,不同垂類如何切換摘要模板,以及如何避免模型幻覺
學習 LLM 應用的工程化實踐:流程化算法開發工作流(Model Selection → Prompt Eng → Business Benchmark)、自動化評測體系(LLM-as-a-Judge)、badcase 反饋閉環等可直接復用的方法論
除此之外,本次大會還策劃了 端側 AI、物理與數字空間智能化、世界模型與多模態智能突破、Agent 架構與工程化實踐、Agent 安全與可信治理、企業級研發體系重構、AI 原生數據工程、AI 時代的個人提效與組織變革 等 14 個專題論壇,屆時將有來自不同行業、不同領域、不同企業的 50+ 資深專家在現場帶來前沿技術洞察和一線實踐經驗。
更多詳情可掃碼或聯系票務經理 13269078023 進行咨詢。
會議推薦
企業級 Agent 落地,繞不開 4 個真實的工程問題。如何在 Agent 安全性和可用性之間找到平衡點?Agent 需要什么樣的記憶系統才能真正理解上下文?如何通過算法壓榨實現智力增量與成本控制的極致平衡?多 Agent 協作,如何做到可觀測、可治理、可控制?6 月 26-27 日,AICon 全球人工智能開發與應用大會·上海站國內頭部公司的 Agent 實踐,一次說透。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.