網易首頁 > 網易號 > 正文申請入駐

AI預算爆炸：Token濫用現象蔓延企業界

2026-06-08 22:02:04　來源: 至頂科技

北京舉報

分享至

AI領域出現了一個對抗Token過度消耗的新武器。

所謂"Token濫用"（Tokenmaxxing），是指企業將AI的Token使用量等同于生產力的一種誤區。然而，Token使用量很容易淪為一個虛榮指標，將Token消耗直接視為生產力衡量標準的企業，往往難以將Token用量與實際業務成果掛鉤。

這一風潮曾風靡一時，但隨著關注點從"為用AI而用AI"轉向實際成果，理性的聲音正逐漸占據主導。近期Uber遭遇的Token濫用事件便是典型案例：

Uber首席技術官Neppalli Naga上月向《The Information》透露，他"已經回到起點，因為原以為足夠的預算早已燒光"。該預算原本是為Uber使用Anthropic Claude Code而劃撥的。

數周后，Uber首席運營官Andrew Macdonald在接受Rapid Response采訪時作出回應（Business Insider率先報道），稱Naga關于Claude預算超支的言論讓運營團隊產生了"腦子要炸"的感覺。

"所有人都說，'哦，腦子要炸了，'"Macdonald表示，"我們必須開始討論Token消耗及其相關成本與人員編制的對比，并作為工程組織在這方面做出權衡。"

"如果你無法直接說清楚究竟為用戶交付了多少有用的功能，這種權衡就很難得到認可。"

Lanai聯合創始人兼首席執行官Lexi Reese強調，這一問題正在各處蔓延，Uber只是最新一家經歷此問題的知名企業。

"Token濫用是真實存在的，它代價高昂，并且正在向少數幾個工程師或公司之外蔓延，"Reese向The New Stack表示。

Token濫用可能導致代碼臃腫、智能體擴張失控，以及軟件應用最終變得脆弱甚至出現漏洞等問題，同時還會增加成本、降低對整體系統狀態的可見性。

Lanai是一家AI問責公司，致力于幫助企業了解AI支出發生的位置、AI應用于哪些工作流，以及相應的成本。

該公司近期推出了Token Tuner工具，用于識別哪些環節可以用低成本模型來減少不必要的Token開銷。這是開發者和管理者用于控制工程師及終端用戶Token用量的最新工具。目前互聯網上不乏各類"減少Token用量十大技巧"，Kong、Braintrust、LiteLLM、Dynatrace等公司和機構也紛紛提供工具，幫助企業管理Token預算。

Reese團隊將Token Tuner定位為填補企業上下文缺失空白的服務，通過將Token支出與工作流、模型選擇、效率及創造的價值相對應，幫助企業建立清晰的關聯。該軟件將每次AI交互與可量化的成果掛鉤，并根據用戶將Token用量和模型選擇與具體任務匹配的程度，生成生產力評分。

例如，某員工若使用Opus 4.7來撰寫郵件回復，其效率得分很可能低于使用更小模型完成同一任務的情況。

與其盲目追求Token消耗量，Reese更希望企業專注于"成果最大化"，即分析哪些工作流真正提升了生產力。

Token Tuner目前處于測試階段。在使用該工具的一家企業中，某用戶僅消耗了全組織0.7%的Token，卻承擔了4.2%的AI工作量，效率得分達到6.0，顯示其能夠將任務與合適的模型精準匹配；而其他用戶在消耗Token數量高出十倍的情況下，效率卻只有前者的一半。

Lanai首席產品官Mohit Mehta向The New Stack介紹，Token Tuner是一款"全地形"工具，其評分引擎能夠在單一工作流同時跨越多個模型時計算生產力得分。

"生產力的估算依據是通過Lanai專有模型觀測到的提示詞和工具活動，來衡量委托給AI的工作復雜度，"Mehta表示，"該模型在提示詞和工具調用層面運作，獨立于具體模型和應用程序之外。"

隨著業界對技術部署的業務成果日益重視（甚至有政界人士也開始使用"可量化成果"這一說法），我們需要思考：API層需要什么樣的監測手段，才能讓Token Tuner將Token消耗歸因到具體的業務成果？

"Lanai會聚合某次會話中的提示詞交互及相關工具活動，再運行專有模型來計算任務類型、相關生產力增益和復雜度，"Mehta解釋道，"這使客戶能夠從毫無上下文的供應商賬單，進階到在交互層面打通意圖、價值與成本之間的關聯。這一功能無需任何定制化的監測配置。"

"我們不依賴合成評估，而是利用觀測到的真實結果數據。我們的建議基于組織內真實用戶在不同模型間取得同等效果的實際情況。"

在如何推動業務效率方面，業務用戶可能會問：當Token Tuner推薦使用低成本模型時，是否有基準來評估輸出質量的等效性？

"我們不依賴合成評估，而是利用觀測到的真實結果數據，"Mehta表示，"我們的建議基于組織內真實用戶在不同模型間取得同等效果的實際情況。我們提供的不是'這個方案應該適合你'這類泛泛建議，而是'貴公司的團隊使用Haiku完成了這一具體工作流，且效果相當'這樣有實證支撐的依據。這體現的是大規模真實場景下的偏好，而非合成基準測試的結論。"

Token Tuner的核心功能包括：工作流級別的價值可視化（顯示哪些團隊、工作流和使用場景在驅動AI支出，以及該使用量是否與可量化的業務價值掛鉤）；生產力與效率衡量（將Token支出與用戶、團隊和工作流獲得的效益進行比較，以顯示每花一美元AI價值最大的地方）；以及支出優化建議功能（識別失控工作流、任務與模型不匹配，以及將低成本模型可以勝任的工作交給高端模型的情況）。

回顧AI發展歷程：起初，我們只是想要AI，傳統的預測型AI就已足夠；后來，我們希望擁有基于特定領域的RAG智能，進而演進至能在人類監督下為我們工作的智能體AI服務；而如今，我們或許更需要的是"適得其用"的AI——不在不必要的場景下使用，只有在真正能夠證明其價值時，才動用高性能服務。

歸根結底，AI的下一個殺手級應用遠不止于提升業務效率，但這或許將成為其中越來越不可忽視的組成部分。

Q&A

Q1：什么是Token濫用（Tokenmaxxing），為什么企業要避免它？

A：Token濫用是指企業將AI的Token使用量等同于生產力的誤區。Token使用量容易成為虛榮指標，無法直接反映真實業務成果。過度使用Token不僅成本高昂，還可能導致代碼臃腫、智能體失控擴張，甚至讓軟件應用變得脆弱或存在漏洞，同時降低對整體系統狀態的可見性。Uber的案例就是典型，其AI預算因Claude Code的過度使用而嚴重超支。

Q2：Lanai的Token Tuner工具具體能解決什么問題？

A：Token Tuner是Lanai推出的AI支出管理工具，主要解決企業Token消耗與實際業務價值脫節的問題。它能將每次AI交互與可量化結果掛鉤，生成效率評分，識別哪些工作流可以用低成本模型替代。例如，發現員工用高端模型處理簡單郵件時，會給出低效率評分并推薦更合適的模型，幫助企業實現"成果最大化"而非"Token消耗最大化"。

Q3：Token Tuner推薦低成本模型時，如何保證輸出質量不下降？

A：Token Tuner不依賴合成基準測試，而是基于組織內真實用戶的實際使用數據來作出推薦。它會提供具體的實證依據，例如"貴公司的團隊已經用某款低成本模型完成了同類任務，且效果相當"。這種基于真實場景的推薦方式，比傳統合成評估更具說服力，能讓企業在降低成本的同時，對輸出質量保持信心。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.