網易首頁 > 網易號 > 正文申請入駐

OPPO 小布記憶：全模態碎片化內容的理解與智能整理實踐｜AICon 上海

2026-05-29 14:06:00　來源: InfoQ

北京舉報

分享至

當前，以 Agent 為核心的新一輪技術浪潮正在席卷產業。那么，世界模型的下一個突破在哪？Agent 從 Demo 到工程化還差什么？研發體系不重構，還能撐多久？

6 月 26 日 -6 月 27 日，AICon 全球人工智能開發與應用大會將在上海舉辦。本次大會將圍繞以上問題，邀請來自騰訊、阿里、快手、華為、飛豬等 50+ 頭部企業的技術負責人、高校與科研機構的一線專家，分享 Agent 在真實生產環境中的落地經驗與前瞻思考。深入探討 Agent 從原型到量產的工程挑戰、數據與記憶的基礎設施底座、安全可信的落地保障，以及大模型推理優化、智算架構升級等關鍵命題。

OPPO 高級算法工程師王闖闖已確認出席 “Agent 數據、記憶與運行時基礎設施” 專題，并發表題為《小布記憶：全模態碎片化內容的理解與智能整理實踐》的主題分享。用戶每天產生大量碎片化內容——截圖、語音、視頻、文檔、多圖……如何讓 AI 理解這些異構多模態數據，并自動整理成有價值的"記憶"？

本次演講將介紹 OPPO 小布記憶的技術實踐：首先，構建端云協同的一鍵閃記架構，基于自研 AndesVL 多模態大模型實現端側推理，通過智能任務分流實現 80% 簡單場景端側處理、20% 復雜場景云側處理；其次，深入講解多模態理解能力，包括截圖 / 語音 / 視頻 / 文檔 / 多圖等全模態理解、POI/ 時間 / 價格等結構化信息提取、Dense Caption 端側圖片理解等；再次，介紹關聯記憶與合集歸納的內容聚合方案，實現從碎片到結構化記憶的自動整理；最后，分享流程化算法開發工作流與自動化評測體系的工程實踐。

王闖闖，負責 OPPO 大模型算法團隊核心業務，主導平臺 AI 能力和小布記憶產品的算法架構設計與落地，涵蓋一鍵閃記、記憶管理 Agent、合集生成、垂域洞見、自研 AndesVL 端側大模型等多個核心模塊，帶領團隊完成多項 S 級 /A 級需求交付，算法效果全面領先競品。研究方向：AI Memory、端側大模型、LLM 應用工程化。他在本次會議的詳細演講內容如下：

演講提綱：

問題背景：為什么需要全模態記憶整理，為什么難
- 碎片化內容的多模態特性：截圖、語音、視頻、文檔、多圖的異構挑戰
- 三大核心難點：模態異構理解、跨模態關聯、結構化生成
- 用戶價值與業務場景：從碎片到有序記憶的產品目標
一鍵閃記整體架構：端云協同的多模態理解框架
- 產品層觸發入口：
- 小布記憶（單擊 / 長按 / 雙擊）、魔方按鍵、小布助手（Query/ 主動 / 推薦氣泡）
- 端側采集框架（三指上滑 / 點擊交互）、截屏（普通截圖 / 長截圖）
- AI 流體云（取餐碼）、密碼本（個人信息）、日歷（日程 / 待辦）、相機（大師參數）
- 端側引擎（基于自研 AndesVL 多模態大模型）：
- 采集：圖文提取、語音轉 ASR、視頻
- 端側算法（AIUnit）：NER&OCR 能力、圖片分類和總結、結構化字段、取餐碼、賬單、大師參數等
- 存儲記憶數據
- 云側服務：
- 內容安全
- 復雜推理任務：復雜訂單提取、復雜 NER 提取、復雜日程待辦
端云任務分流與多模態理解能力
- 分流模塊：對輸入圖文信息進行分析，生成分類標簽；根據分類標簽進行任務規劃
- 簡單場景（流量占比 80%）：直屏 / 焦點屏（單屏）+ 手機 + 任務數≤2 + 單標簽單實例（如單個訂單、單個火車票、單個日程），需同時滿足
- 復雜場景（流量占比 20%）：分屏 / 多浮窗 / 平板，或任務數 2，或多標簽分類 / 多實例信息（如多個日程、多個火車票）
- 多模態理解能力
- 截圖理解：11 類場景分類、POI/ 時間 / 價格等結構化信息提取、Dense Caption 端側圖片理解
- 語音理解：語音轉 ASR、意圖識別、關鍵信息提取（語音記 - 日程待辦、語音記 - 記賬）
- 圖文理解：結構化提取、日程待辦、取餐碼、記賬、文本 - 記賬分類
- 視頻理解：關鍵幀提取與內容摘要生成
- 文檔 / 多圖理解：長文檔結構化、多圖相冊的批量理解
- 多語種 POI 提取：英語、印地語、印尼語場景優化
- 端云結果合并：端側抽取結果傳到云端后處理 → 云側合成最終結果 → 返回端側 AIUnit → 流體云服務下游分發
內容聚合與智能整理：從碎片到結構化記憶
- 關聯記憶：多規則融合召回（標題 / 實體 / 標簽匹配）+ Rerank + LLM 精排
- 合集歸納：用戶手動創建、A 標簽推薦、洞見推薦三鏈路統一 → Reranker + Verify 兩階段聚合
- 合集分類與總結：分類 LLM 識別知識 / 旅行 / 健康合集 → 自適應摘要模板
- 效果數據：合集創建準確率 83% → 97%，新記憶加入準確率 76% → 95%+
工程實踐與效果驗證
- 流程化算法開發：Model Selection → Prompt Eng（人工 +APE）→ Business Benchmark
- 自動化評測體系：LLM-as-a-Judge 的多維度質量保障，badcase 反饋閉環
- 核心效果指標：場景分類準確率、結構化信息提取準召率、合集創建準召率

聽眾收益：

掌握端云任務分流的設計方法：如何定義簡單 / 復雜場景邊界，如何通過分類標簽生成動態 Prompt，如何在保證效果的同時最大化端側推理占比（80% 流量端側化）
了解全模態理解的技術挑戰與解決方案：如何基于自研 AndesVL 多模態大模型構建端側推理能力，端側 AIUnit 支持的任務類型（圖文 - 結構化提取、日程待辦、取餐碼、記賬等），以及端側推理優化策略（Prompt 精簡、輸出格式優化、圖片 resize）
掌握內容聚合的雙路方案：關聯記憶的多規則融合召回 + Rerank + LLM 精排架構，合集歸納的三鏈路統一 + Reranker/Verify 兩階段聚合方案，以及如何平衡召回率與準確率
學習合集分類與自適應總結的實現方法：分類 LLM 如何識別知識 / 旅行 / 健康合集，不同垂類如何切換摘要模板，以及如何避免模型幻覺
學習 LLM 應用的工程化實踐：流程化算法開發工作流（Model Selection → Prompt Eng → Business Benchmark）、自動化評測體系（LLM-as-a-Judge）、badcase 反饋閉環等可直接復用的方法論

除此之外，本次大會還策劃了端側 AI、物理與數字空間智能化、世界模型與多模態智能突破、Agent 架構與工程化實踐、Agent 安全與可信治理、企業級研發體系重構、AI 原生數據工程、AI 時代的個人提效與組織變革等 14 個專題論壇，屆時將有來自不同行業、不同領域、不同企業的 50+ 資深專家在現場帶來前沿技術洞察和一線實踐經驗。

更多詳情可掃碼或聯系票務經理 13269078023 進行咨詢。

會議推薦

企業級 Agent 落地，繞不開 4 個真實的工程問題。如何在 Agent 安全性和可用性之間找到平衡點？Agent 需要什么樣的記憶系統才能真正理解上下文？如何通過算法壓榨實現智力增量與成本控制的極致平衡？多 Agent 協作，如何做到可觀測、可治理、可控制？6 月 26-27 日，AICon 全球人工智能開發與應用大會·上海站國內頭部公司的 Agent 實踐，一次說透。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.