OpenClaw的爆發,讓“AI Agent”從概念迅速演變為產業競賽。這類Agent能自主執行復雜操作,展現出前所未有的執行能力,卻也把算力、成本和安全問題推到了臺前。
每一次指令交互都需經過云端大模型,Token費用持續累積;設備日志與用戶指令全量上云,頻頻觸碰工業與家居場景的數據安全紅線。更棘手的是,許多場景要求實時響應、外設協同與穩定運行。顯然,完全依賴云端的方案,已力不從心。
端側AI Agent芯片正成為產業布局的重點方向。芯師爺關注到瑞芯微推出端云協同方案ClawChips,其“SoC沙箱+AI協處理器”的算力解耦架構,試圖在成本與場景適配之間找到平衡。本文將從架構邏輯、場景落地等維度拆解ClawChips解決了哪些問題?
省Token、破帶寬:
ClawChips技術內核三連問
瑞芯微ClawChips方案的核心思路是主控負責系統運行與外設管理,協處理器專司模型推理。具體實現上,RK3588/RK3576作為運行沙箱,承擔操作系統、外設接入與網絡連接等通用任務;RK1828 AI協處理器聚焦大模型推理,兩者算力獨立,互不搶占。
![]()
![]()
1. 為何選擇“SoC+協處理器”解耦方案?
傳統硬件升級存在兩大痛點,一是研發成本高,每次升級主控需重設計PCB、調試BSP、重新認證;其次是生命周期錯配,AIoT設備壽命5-10年,而AI模型迭代僅數月。
瑞芯微的解法是將主控與推理算力解耦,主控保障系統與外設的穩定,協處理器專攻快速迭代的AI推理。通過PCIe/USB高速接口連接協處理器模組,無需改動主板即可升級AI能力,新一代模型出現時僅需更換協處理器模塊。
![]()
2. 如何擊穿“內存墻”與“能耗墻”?
RK1828采用3D堆疊技術,將DRAM晶圓直接堆疊在NPU邏輯晶圓之上,通過高密度TSV/混合鍵合建立數萬個微米級垂直數據通道,具體帶來四大優勢:
帶寬躍升:等效帶寬達數百GB/s,消除3B以上大模型帶寬瓶頸;
設計簡化:內置DRAM,無需外掛顆粒,PCB布板更簡潔,BOM更低;
推理高效:實測3B模型推理速度超過100 token/s;
能耗優化:數據傳輸距離極短,單位比特功耗大幅降低。
3. Token如何省?
ClawChips的智能路由機制根據任務復雜度動態分流,簡單任務本地處理,復雜任務上云。相比純云端方案,系統將高頻、輕量、實時性要求高的任務優先本地完成,減輕云端調用壓力,讓云端資源專注于復雜理解與高質量生成。
基于PinchBench的實測數據,端云協同方案下,辦公場景云端調用比例從100%降至46.70%,學習研究場景降至78.43%,輔助工具場景降至38.99%,整體節省約40%的云端Token消耗,實現“本地推理零成本,云端調用更高效”。
從“聽懂指令”到“理解意圖”:
ClawChips復活老設備
瑞芯微在AIoT垂類領域已有深厚積累,覆蓋智能座艙、機器人、智能家居、安防、工控等數十個行業。ClawChips的核心價值在于"疊加",即在原有垂類應用之上賦予Agent能力,讓存量設備無需推倒重來即可"長出"智能。
例如在智能座艙場景中,傳統車載語音助手采用指令式交互,依賴云端處理,弱網環境下卡頓明顯。引入Agent后,系統可理解"我有點熱""想去附近好吃的川菜館"等自然語言,并在本地完成語義理解和基礎決策。據瑞芯微介紹,RK3588M+RK1828組合用于車載AI Box,本地運行7B語音助手,支持多模態交互,實現了"數據不出車"的隱私保護。
在機器人應用中,傳統工業和服務機器人多采用"程控執行"模式。Agent加入后,機器人從"執行指令"升級為"理解意圖"。以倉儲物流為例,機器人需自主識別目標、規劃路徑、避障、調整抓取姿態——原本需大量規則代碼,現可通過端側多模態大模型+Agent框架實現。
瑞芯微的端側AI全場景布局涵蓋智能白電交互、AI電視、端側離線翻譯、AI視頻分析盒子等方案,推動傳統硬件從"響應指令"向"主動服務"升級。
高帶寬+開放生態:
端側Agent的硬核算力底座
ClawChips的重要壁壘在于高帶寬和高算力,這正是支撐Agent類應用大規模Token推理的硬約束。與傳統推理的“一次輸入、一次輸出”不同,Agent需要多輪推理、記憶維護和工具調用,Token消耗量級呈指數級增長。以OpenClaw為例,執行一次“整理桌面文件并分類”的任務,可能需要數十甚至上百次推理調用,累計Token達數萬。
因此,客戶在選型端側AI芯片時,通常重點關注四項指標:最大支持模型參數規模、多Agent并發數、首token延遲以及功耗。瑞芯微憑借實測數百GB/s+的高帶寬和20TOPS算力,使客戶能夠在端側部署7B級別模型,并支持多路并發推理,滿足Agent類應用的高強度需求。
除了硬件性能,工具鏈的完善程度同樣影響開發效率。瑞芯微提供RKNN3 SDK,支持TensorFlow、PyTorch、ONNX等主流框架模型的一鍵轉換與量化。開發者可通過RKNN3 SDK對0.5B-8B的LLM/VLM進行深度優化,LLM解碼效率提升超過15%。
此外值得一提的是,ClawChips定位為開放平臺。客戶在構建自有Skill時,完全可以自由開發,瑞芯微提供硬件運行能力與基礎示例“拋磚引玉”,將應用層的創新空間留給客戶。
端側Agent的終局想象
展望未來,每個家庭或許將擁有5-10個具備Agent能力的設備,包括智能音箱、掃地機器人、安防攝像頭、車載助手等等。若全部依賴云端推理,Token消耗將不可持續。正因如此,端側模型的持續迭代與Skill生態的擴展,成為推動本地處理比例上升、成本曲線下行的關鍵驅動力。這一趨勢已在2026年加速顯現。端側AI應用快速爆發,工業、農業、服務業等領域的各類機器人正迎來重大機遇。
從OpenClaw到ClawChips,端側AI Agent的算力底座正經歷從“云依賴”到“端云協同”的深刻轉變。瑞芯微通過“主控沙箱+協處理器推理”的算力解耦架構,結合3D堆疊DRAM的高帶寬優勢,為垂類場景中的Agent能力疊加提供了一套可量化的方案。40%的Token節省、3B模型超100 token/s的推理性能、小于15W的功耗,以及開放的工具鏈生態,共同構成了ClawChips的技術底色。
而端側Agent的算力需求是否真正能撐起一個新品類,取決于明年這個時候,有多少設備真正用上了ClawChips此類方案。
編者互動
芯師爺注意到,瑞芯微已將其 ClawChips 方案在 GitHub 開源上線,并面向開發者推出專屬共創支持機制。
掃描下方二維碼↓↓,即可申請 RK3588+RK1828 開發套件的無償借用權益(為期一個月),搶先體驗端側 AI Agent 的全量能力,打磨自己的優質技能。
歡迎開發者一起探索,玩出百樣精彩!
ClawChips GitHub 開源地址:
https://github.com/airockchip/c
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.