Token消耗是當下AI 行業的最核心議題,甚至關系到對 AI產業的價值評估。
Glean主營企業AI token成本、RAG上下文架構的優化,年營收3億美元。公司創始人&CEO Arvind Jain首創token產出率(token yield)行業分析框架,是企業落地大模型成本管控領域的代表人物。
![]()
以下是他今天最新推出的專文:
《你的token開銷本質是AI架構問題,而非單純模型問題》
企業級AI的token開銷正在快速攀升,尤其隨著技術從簡易對話助手轉向代碼智能體、AI協作助手與長周期運行工作流。
這類系統單次任務的運算量大幅提升,對應的token消耗量也水漲船高。這給企業帶來全新運營約束:問題不再是AI有沒有實用價值,而是其產出的有效收益能否覆蓋投入成本。
各項開銷數據已不容忽視。德勤2025年科技價值調研顯示,超半數受訪企業將21%至50%的數字化項目預算投向AI,平均占比36%。
Ramp近期披露,月度AI開銷同比暴漲4倍;《財富》報道稱,Uber僅用四個月就耗盡了2026全年AI代碼工具預算。
在我和眾多企業負責人的交流中普遍發現:token消耗增速持續走高,但業務價值沒能同步增長。
正因如此,企業需要跳出原始token用量指標,選用更科學的核算標準。關鍵不在于系統耗用了多少token,而是每消耗單位token能產出多少有效落地成果,簡言之:token產出率。
從AI投入產出邏輯來看,該衡量方式更合理,因為token消耗很少只由模型本身決定,而是受整套配套系統影響:上下文檢索邏輯、工具調用方式、任務拆分規則、模型調度策略、過往執行結果復用機制。
一旦架構設計低效,即便最終輸出質量沒有提升,token開銷依舊會持續上漲。
token不單單是提示詞里的文本內容
一句簡短的用戶指令,就可能催生高額token賬單。
舉例提示詞:“分析這些賬戶流失風險并生成跟進任務”。肉眼可見的提示詞篇幅很短,但實際token負載往往包含系統預置指令、工具參數定義、檢索獲取的文檔、中間推理內容、運行日志與記憶數據。
多數企業級AI系統里,絕大部分token并非由用戶手動輸入,而是任務配套框架自動生成。
這時架構設計的重要性便凸顯出來:若系統無差別拉取過量上下文、頻繁調用冗余工具、重復執行已完成運算、把常規任務交由成本高昂的前沿大模型處理,token成本上升的同時,產出質量卻毫無改善。
資源浪費不在單條提示詞,而在頂層系統架構設計。
所以token產出率歸根結底是架構層面的問題。
四項決定token使用效率的架構優化方向
1. 上下文質量
多數企業AI落地失利,根源都出在上下文環節。
模型無法自主甄別有效上下文信息,只會全盤處理傳入數據;上下文體量越大,模型解析信息產生的開銷越高。若檢索數據源雜亂冗余,模型會耗費token在無關、矛盾信息上梳理,無法聚焦有效信息落地任務。
優化思路不是往提示詞里堆砌更多數據,而是優化檢索精度。
這也是上下文層架構至關重要的原因。在對標Claude Cowork類任務的基準測試中,@glean自研中心索引方案的選用頻次約是通用MCP工具的2.5倍,而通用MCP工具的token消耗量高出約30%。
更關鍵的是:即便通用工具輸出結果達標,也要耗用約83k tokens,Glean僅需43k tokens。
簡言之,檢索能力薄弱會迫使系統通過增加工具調用次數、反復推理、過量拉取數據彌補短板,這就是劣質上下文架構暗藏的隱性成本。
成熟的上下文層設計恰好相反:提前給模型精準、規整的有效信息,讓token全部用在解決業務問題,而非拼湊原始素材。
2. 模型調度
智能體工作流里,并非所有步驟都需要調用前沿高階模型做深度推理。
企業AI大量工作屬于常規運維類:信息檢索、檢索方案規劃、工具選型、結果校驗、流程管控。這類環節不可或缺,但沒必要全線啟用成本最高的前沿模型。
多模型混合架構的價值正在于此:不是所有場景都一刀切使用輕量化模型,而是按需匹配算力層級適配任務難度。
業務規模化后,該選型邏輯愈發關鍵。倘若系統默認所有步驟都路由至高價前沿模型,企業等于為標準化常規工作支付頂配算力費用。
按需匹配模型規格是提升token產出率最直接的手段:高價值差異化任務保留前沿模型推理,重復標準化業務選用專用輕量化模型。
3. 持續迭代學習
企業AI系統不應每次處理同類問題都從零推演。
每一輪任務執行都會沉淀優化線索:哪些工具適配場景、哪條檢索鏈路最優、哪些步驟屬于冗余操作、哪些輸出真正幫用戶完成業務。
人類工作正是這套邏輯:優質成果會留存歸檔,避免重復造輪子,企業AI系統也應遵循該邏輯。日積月累的運行日志,能幫系統規避重復試錯,高效處理同類需求。
缺少學習沉淀的系統,會不斷為重復試錯持續買單。
這是AI成本管控里容易被忽略的一環:能復用過往執行經驗的系統,可精簡無效推理、舍棄失敗路徑、快速收斂最優工作流,不僅優化輸出質量,還能壓低重復任務的token開銷。
優質企業級AI會形成復利效應:完成一項任務,就能優化后續同類任務的投入成本。
4. 運行框架設計
隨著智能體承接長鏈路、多步驟復雜任務,運行框架直接左右最終效果與token成本。
簡陋的運行框架會無限制擴充有效上下文窗口,每一步迭代都不斷疊加指令、工具定義、運行狀態和中間結果,任務越長開銷越高,輸出穩定性同步下滑。
優質運行框架奉行上下文管控思路,而非無限制累積信息:按需為單步驟限定可用工具、復雜任務拆分給多個專用智能體協作、中間運行數據外置存儲而非全留在即時上下文,每個模型僅載入當前必需的數據集。
設計目標不只是支撐復雜業務,更是在上下文不冗余膨脹的前提下控制成本。
AI真正的核心壁壘,是任務執行效率。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.