網易首頁 > 網易號 > 正文 申請入駐

今天,50%的Token正在被浪費

0
分享至



技術發展早期,沒有浪費,就沒有進步。但未來誰能用更少的Token完成同樣的任務,誰就會擁有更高的利潤空間。也會擁有更加確定的未來

文|《財經》研究員 吳俊宇

編輯|謝麗容

2026年是Agent(智能體)真正普及的一年。隨之而來的是,Token(詞元)浪費也正在成為技術和學術領域被廣泛討論的新問題。

今年4月,小米MiMo大模型負責人羅福莉在社交媒體X(Twitter前身)上發布了一條動態,討論現在OpenClaw“龍蝦”等Agent工具低效的問題。她認為,全球算力供給,正無法跟上Agent帶來的Token需求增長。

羅福莉解釋了這背后的原因——OpenClaw這類Agent工具每次用戶對話,都會發起多輪低價值的工具調用。每一輪都作為獨立API(應用接口)請求發送,并產生一個很長的上下文(通常超過10萬Token)。即便有緩存命中,這種方式依然非常浪費。極端情況下,還會提高其他請求的緩存失效率。

Token浪費(在技術社區、論文平臺中被稱為Token Waste),并非單個產品的問題。它是Agent能力提升過程中的必經之路。

《財經》統計了全球最大的代碼和開源技術社區GitHub上有關“Token Waste”相關Issues(問題,可理解成技術議題討論)的數量。這一討論至少有5200個,僅2026年一季度就誕生了4150個。越來越多的開發者在實際業務中正面臨控制Token浪費的問題。

《財經》統計了全球最大預印本論文平臺arXiv(計算機等領域的科研人員習慣在此上傳論文初稿)上“Token Waste”相關論文。2025年1月以來,這個主題直接或間接相關的論文至少有92篇,且2026年一季度就誕生38篇。學術界也越來越關注Token浪費成因以及如何減少Token浪費這一課題。



開發者和研究者的常見觀點是——Agent在復雜多輪任務中,歷史文件、對話會不斷累積,大量無用、冗余、過期的信息會不斷產生并且重復計算。Token消耗因此指數級增長,但其中可能有30%-60%的Token被浪費了。

Token浪費的商業影響是,雖然算力消耗的飛輪轉動起來了,但上下游的良性商業循環仍未建立。上游的模型公司(如美國市場的OpenAI、Anthropic,中國市場的月之暗面、MiniMax、智譜)、應用公司(如全球最大的獨立AI代碼生成平臺Cursor)營收在增長,卻仍在虧損。下游開發者和企業用戶的Token賬單不斷膨脹且難以精確預估。

不過,多位企業開發者和算法工程師對《財經》表示,無需因Token浪費而悲觀。事實上,企業、開發者都在嘗試為Agent加上更好的“腳手架”——通過優化Agent框架等方式減少Token浪費。

因為在技術發展早期,沒有浪費就沒有進步。Token浪費才會推動試錯,Agent會在技術進化和市場選擇中不斷成熟。


Token是如何被浪費的?

Agent目前框架還不夠成熟,Token很容易被浪費。

當下的Agent,簡單理解,就像一匹尚未被完全馴服的“野馬”。這匹“野馬”執行任務時四處飛奔,不一定會按照人的意志朝著最短路徑行走——Token消耗有時候會偏離最優解。

它很多時候不知道哪些問題與當前任務直接相關,于是只能把所有文件都讀一遍。隨著對話輪次增長,上下文不斷積累,緩存的計算任務不斷膨脹。用戶每次輸入后,Agent甚至可能需要重新計算完整的對話記錄和文件數據。這導致Token成本指數級增長。

Agent工具的Token消耗量遠超過去的AI對話工具。百度智能云大模型平臺總經理忻舟2025年12月曾對《財經》表示,Agent系統執行的是一系列任務。任務過程中,模型會不斷用代碼規劃任務、調用工具并記錄執行狀態,每個步驟都可能觸發新的模型調用。一次對話可能只消耗數千Token,但一次任務可能就會消耗數萬,甚至數十萬Token。

今年3月,一位名為shelvenzhou的開發者在Github進行了一項基準測試,記錄自己的OpenClaw日常工作(包括代碼、郵件、PDF、圖片、搜索等)Token消耗情況——第一輪對話Token成本0.0050美元;第五輪對話Token成本0.0665美元,是第一輪的13.3倍;第10輪的Token成本達到了0.13美元,是第一輪的26倍。


類似情況在《財經》團隊的工作流中同樣存在。今年3月,《財經》嘗試用全球熱門的獨立AI代碼生成平臺Cursor統計財報數據——閱讀20份亞馬遜財報PDF文件,統計最近20個季度亞馬遜AWS的營收、利潤并繪表。

Cursor使用OpenAI的GPT-5.3-Codex模型自動運行近30分鐘。任務并沒有一次性成功。Cursor逐一嘗試了四種路徑,每次任務失敗后再尋找新路徑并自動編寫新代碼,歷經十多輪最終完成統計。整個過程花費了130萬Token,占20美元/月Token用量約5%。但人工復核后發現,個別季度統計仍然出錯了——這次任務雖然完成了,但結果不可用。

這次失敗的財報統計任務,耗費了近30分鐘和7元Token費用。那么,這130萬Token是如何被消耗掉的?

實際任務中,1個中文字符約等于0.6個Token,1個英文字符約等于0.3個Token。亞馬遜一份季度財報通常50頁,超過10萬字符,對應約3萬Token。

一位算法工程師對《財經》表示,Cursor不會把20份PDF文檔從頭到尾全部讀完,而是根據任務提取PDF文檔中的關鍵句子并理解,隨后自動編寫任務代碼,把所有季度的數據進行匯總。編寫代碼的過程也消耗Token。在Agent多輪調用過程中,由于上下文反復傳遞以及多種路徑嘗試,Token消耗被進一步放大,最終達到130萬Token以上的量級。

這種個人辦公任務還不算復雜,但在企業生產系統,任務執行時間更長、更復雜。這會變成持續性的Token成本。

今年3月末,Lumigo&Vexp聯合創始人尼古拉·阿萊西(Nicola Alessi)在技術社區記錄了自己的編程 Agent一周Token消耗情況。他認為,其中70%的Token被浪費了。

他的代碼Agent使用了Claude Sonnet 4.6模型,被用于一個擁有超過200個文件的嚴肅生產場景。他強調,這不是普通的試驗項目。

尼古拉·阿萊西長期監測發現,平均每次提問,Agent會發起23次工具調用——先掃描全部文件,再按編程語言過濾一遍代碼,隨后逐一打開文件、讀取內容,如此循環超過20輪,才終于開始處理實際問題。這20輪循環中,每次對話平均消耗約18萬個Token,其中與問題真正相關的Token,不超過5萬個。

按照這一數據計算,Token浪費率高達72%。以Claude Sonnet 4.6定價計算,每次對話平均浪費的Token費用在1美元左右。單次對話浪費的Token看似只有約1美元,但在大規模部署和持續高頻調用下,這會逐漸累積成巨額算力支出。

因為員工規模動輒數萬甚至數十萬的大型科技公司,尤其在技術部門,工程師的每月Token費用甚至已在萬元以上。做好成本優化,每年可節省千萬元級別的算力成本。

一家員工數超過30萬人的國際科技巨頭人士對《財經》表示,他所在的公司每個人使用的Token是無限量的。他的工程師同事長期使用Claude系列的模型編寫代碼,一周Token成本高達2000美元-3000美元。

一家員工數超過10萬人的中國科技公司技術人士對《財經》表示,他在云基礎設施部門,日常使用Claude Opus 4.6模型寫代碼,每周Token成本高達3000元。

一家員工數5萬人左右的互聯網硬件公司人士對《財經》表示,他所在公司已經為全員配備Agent辦公或AI代碼生成工具。他們有自研模型,因此員工使用Token不限額度。在他看來,Agent造成的Token浪費幾乎是見怪不怪。他在日常辦公中有30%-50%的Token由于Agent工程不夠完善被浪費了。


誰在為浪費的Token買單?

Agent造成的浪費讓Token消耗量變得難以預測。這甚至在影響整個市場的蛋糕分配。

從技術來看,Token浪費是Agent框架不成熟導致的。但從產業結構來看,它更像是技術發展早期的成本傳導——“算力-模型-應用”之間的蛋糕還沒分好,成本不斷向下游傳導,這些Token成本最終是由企業客戶承擔的。

過去數字化轉型階段(2024年之前),市場蛋糕劃分相對清晰。云廠商提供算力資源,SaaS(應用軟件)公司提供軟件產品,企業客戶按需采購,三者邊界清晰、角色分明。當時,企業IT成本相對可預測。企業可以根據業務規模規劃云資源,還能和云廠商簽訂長約獲得折扣。軟件是訂閱制的,按年/月訂閱座席付費,成本相對固定。

2025年之后,AI落地速度加快,蛋糕逐漸變得劃分不均。云廠商分走了大部分收入與利潤,模型廠商收入快速增長卻仍普遍在虧損,SaaS公司轉售Token有“管道化”的趨勢。

產業鏈最末端的企業CTO(首席技術官)/CIO(首席信息官)面對的不再是云和軟件訂閱賬單,而是一種類似流量管控和動態限速的混合計費賬單。Token賬單變得難以預測。



其一,Agent任務執行過程本身Token消耗波動就很大。不同Agent框架成熟度不同,Token消耗量差異也很大。

今年4月,一款名為Hermes的Agent迅速流行,它在開發者社區口碑迅速超過OpenClaw。Hermes會將經驗自動生成Skill(技能),減少反復低效試錯,Token消耗相對更少。4月12日,一位開發者在Reddit社區記錄稱,他用OpenClaw和Hermes處理同一任務,OpenClaw 10分鐘消耗200多萬Token,Hermes僅消耗50萬Token。

其二,不同模型之間,性能與定價差異明顯。即使性能相近,Token定價差距仍然顯著,這讓成本評估變得更復雜。

目前在開發者口碑最好的Claude Sonnet 4.6、GPT-5.4的Token定價普遍是國產模型的3倍-10倍。國產同級別模型,Token定價差距也在1倍-3倍之間。如何根據合適的場景選擇合適的模型,這對企業來說決策成本很高。

其三,Token套餐(Coding Plan或Token Plan)雖然看似價格固定,但套餐內的Token額度、并發數量、緩存計費規則差異明顯。套餐用盡后的超額費用、降級策略也各不相同。企業很難在紙面上提前對比評估真實成本。

目前大多數Token套餐以5小時為刷新周期,限制用戶時間窗口內的最大調用次數或最大Token額度。一旦5小時內使用超額,系統會觸發限速、排隊或降低模型性能等機制。這個機制原本是為了盡量公平分配算力資源,卻讓企業提前算賬變得更難了。

這一系列問題讓企業的IT預算編制變得困難?!敦斀洝妨私獾降那闆r是,一些頭部零售、制造企業為解決這個問題,正在嘗試獨立編制專門的Token預算。

一位服務了多家頭部零售、制造企業的企業級大模型服務商CEO(首席執行官)今年3月對《財經》表示,企業普遍在AI焦慮期。這些Token預算正在吃掉傳統軟件、外包開發的預算。不過,目前很難精確計算Token預算的ROI(投資回報率)。

企業客戶正在付出更高的Token成本,這帶動了模型廠商、應用廠商收入的快速增長。然而作為供給方,模型廠商、應用廠商并沒有想象中那么賺錢。

美國和中國的模型創業公司普遍在虧損。在美國市場,OpenAI 2026年2月ARR(年度經常性收入,當月收入×12)超過250億美元,預計2030年盈利。Anthropic 2026年3月ARR超過300億美元,預計最早將在2029年盈利。

在中國市場,月之暗面2026年2月收入超過2025全年,到2026年3月ARR甚至超過1億美元。MiniMax 2025年營收0.79億美元(約合5.6億元),2026年2月ARR超過1.5億美元(約合10.5億元)。智譜2025年營收7.2億元,2026年3月模型API(應用接口)的ARR達到17億元,同比增長60倍。

不過,這三家公司也在虧損。月之暗面的虧損規模尚未披露。MiniMax 2025年經調整后的凈虧損2.5億美元(約合17.5億元),智譜2025年經調整后的凈虧損31.8億元。

新興的AI應用公司普遍在虧損,甚至成了封裝Token的管道——接入模型公司的API(應用接口),將Token轉售給客戶。軟件原本的定價權轉移到了云廠商和模型公司手里。

美國知名投資機構貝塞默風險投資(Bessemer Venture Partners)長期聚焦SaaS和AI賽道。貝塞默風險投資2025年調查10家AI明星創業公司發現,這些公司平均毛利率僅為25%,部分表現優秀的公司平均毛利率約為60%。

但根據貝塞默風險投資2023年調查結果,高增長SaaS公司毛利率中位數約為77%。也就是說,AI應用相比過去的SaaS軟件,毛利率正大幅下滑。

最典型案例是,全球最大的獨立AI代碼生成工具Cursor。它在2026年2月年化收入超過20億美元。但美國市場調研機構AI Funding Tracker 2026年2月報告稱,Cursor 2025年虧損規模至少在1.5億美元。Cursor幾乎所有收入都被用于調用Anthropic、OpenAI的模型。公司還要支付員工工資、辦公場所等其他運營費用。


全球最大的SaaS公司,如Salesforce、Adobe、ServiceNow這幾家老牌公司同樣在面臨AI相關毛利率下降的問題。SaaS軟件毛利率長期在80%左右,一直被認為是高毛利的好生意。但現在情況正在變化。

Salesforce管理層2025年12月公開表示,在Agent業務快速擴張階段,公司短期內可以接受這部分業務的利潤率承受壓力。

Adobe管理層在2026財年一季度財報電話會(2026年3月12日)表示,Firefly和 Express這兩款生成式AI應用會帶來更高的Token成本,并可能會影響公司利潤率。

ServiceNow管理層在2025年四季度財報電話會(2026年1月28日)表示,預計2026年訂閱毛利率為82%,將略微下滑。AI相關的算力投入是影響毛利率的主要來源。

綜上所述,Token消耗雖然在增長,但目前至少在模型公司、應用公司、企業客戶這里都還沒有真正形成正循環。這些成本在層層傳導的產業鏈中被不斷放大和轉移。


如何從Token浪費中榨出利潤?

減少Token浪費,本質上是在為“算力-模型-應用-企業客戶”整個產業鏈減少無效成本,進而釋放出利潤空間。只有這樣,“Token經濟”的飛輪才能真正轉起來。

當前減少Token浪費的主流技術方案包括兩大類:一是KV Cache(Key-Value Cache,鍵值緩存),二是Agent工程。

KV Cache是什么?簡單理解,這是模型對已計算上下文的結果進行緩存,避免生成新Token時重復計算整個上下文。這正在成為模型公司榨取利潤空間的關鍵技術。

今年4月,一位中國大模型創業公司人士對《財經》表示,他們銷售的Token套餐本身幾乎不賺錢,利潤空間主要來自KV Cache的命中率。換句話說,KV Cache命中得越多,模型廠商的實際計算成本就越低,利潤空間也就越大。

OpenAI的開發者技術文檔顯示,OpenAI通過KV緩存輸入Token成本最高下降90%。一位云計算廠商智能算法負責人2025年12月曾對《財經》表示,利用KV緩存等技術,他們能夠把推理成本降至10%-20%。

Agent工程,也就是把Agent的調度、記憶、模型路由、上下文裁剪和工作流管理做成一套可控的系統工程。它的目的是,減少Agent不必要的重復計算、工具調用、思考推理和空轉循環。這在今天也被稱為Harness——這個詞字面意義上是韁繩和馬具。

這是云廠商、模型公司、應用公司都在優化的方向。騰訊集團高級執行副總裁、云與智慧產業事業群CEO湯道生今年4月發表文章稱,人工智能正式進入Harness時代。Harness是韁繩,它將(大模型)這股原始力量轉化為可控的、可預期的、可協作的能力……馴服一匹野馬,需要一副趁手的韁繩,和一個知道目的地的騎手。

湯道生發現,在騰訊內部,在同樣的模型能力下,不同的腳手架設計,比如給模型調用什么工具、如何做分層的上下文工程、如何管理長記憶、如何設計工作流,對實際使用效果與Token成本有很大的影響。

Agent工程成熟與否,直接決定了同一項任務的Token消耗量——這將直接影響企業的Token成本。

微軟雷德蒙德實驗室今年4月披露了一個利用不同Agent對云基礎設施進行自動故障處理的案例。在使用同一模型定位故障問題這個環節,不同Agent的Token消耗差距明顯。表現最好的GPT-w-Shell,在71%正確率下僅消耗約5000個Token;ReAct在57%正確率的情況下消耗了6800個Token。TaskWeaver正確率僅29%,Token消耗高達19萬。


2026年初,浙江大學計算機輔助設計與圖形學國家重點實驗室研究團隊向ICLR(國際學習表征會議,機器學習領域三大國際頂級會議之一)提交了一篇名為《Stop Wasting Your Tokens》(停止浪費你的Token)的論文。

該研究團隊提出,通過在Agent系統中引入一個“監督Agent”,可以在不改變模型結構的前提下,實時識別錯誤、低效行為與冗余上下文,減少無效計算。實驗結果顯示,這個方法在保持任務成功率的同時,將Token消耗平均降低了30%。

微軟的工程實踐、浙江大學的試驗,這些都處于控制Token浪費的早期。這些經驗隨著技術成熟,將逐漸落地到更多公司。

未來一段時間,誰能用更少的Token完成同樣的任務,誰就會擁有更高的利潤空間。也會擁有更加確定的未來。

上述互聯網硬件公司人士對《財經》表示,無需因Token浪費而悲觀。這是Agent現在這個發展必然經歷的過程。他所在的公司目前有大量精力投入到Agent工程,這不單是為了節省Token成本,也為了提升任務準確率。在當下,提效遠比降本重要。

2010年以后移動互聯網起步,流量浪費和流量焦慮一度讓用戶關心,但在今天已經無人關注這些問題。Token浪費情況類似。Token浪費推動了試錯,試錯推動了優化,優化最終會推動“算力-模型-應用-企業客戶”整個產業鏈走向成熟。

“Token經濟”的正向循環也將在這個過程中逐漸形成。


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
尚界汽車法務部:北京國際車展現場有觀眾蓄意破壞展車內飾,造成車輛損傷,已做好取證

尚界汽車法務部:北京國際車展現場有觀眾蓄意破壞展車內飾,造成車輛損傷,已做好取證

都市快報橙柿互動
2026-04-25 12:33:09
斯馬特:艾頓被驅逐的判罰簡直扯淡,輸球沒關系我們洛杉磯見

斯馬特:艾頓被驅逐的判罰簡直扯淡,輸球沒關系我們洛杉磯見

懂球帝
2026-04-27 14:44:26
歐爾班寡頭卷數百億福林瘋狂外逃!馬扎爾戳破贓款流向多國

歐爾班寡頭卷數百億福林瘋狂外逃!馬扎爾戳破贓款流向多國

老馬拉車莫少裝
2026-04-26 11:42:14
胡金秋:想盡量延續職業生涯,在CBA打到父子同場

胡金秋:想盡量延續職業生涯,在CBA打到父子同場

懂球帝
2026-04-26 18:37:15
孩子脫臼復位只收100元,家長舉報亂收費!衛健委:應收110元,你還少給了!家長拒繳費后離開!

孩子脫臼復位只收100元,家長舉報亂收費!衛健委:應收110元,你還少給了!家長拒繳費后離開!

醫脈圈
2026-04-25 20:04:06
刺殺特朗普細節曝光,種種跡象表明,這可能是特朗普的自導自演!

刺殺特朗普細節曝光,種種跡象表明,這可能是特朗普的自導自演!

米果說識
2026-04-27 14:36:03
皮蛋再次成為關注對象!研究發現:高血脂吃皮蛋,身體或有6改善

皮蛋再次成為關注對象!研究發現:高血脂吃皮蛋,身體或有6改善

健康科普365
2026-04-25 09:27:08
汪峰官宣戀情才2年,森林北重蹈章子怡覆轍,汪峰或魔咒失靈

汪峰官宣戀情才2年,森林北重蹈章子怡覆轍,汪峰或魔咒失靈

一盅情懷
2026-04-27 15:08:37
森林狼擊敗掘金后,約基奇引發大規模沖突,NBA宣布處罰決定:約基奇罰50000美元,蘭德爾罰35000美元

森林狼擊敗掘金后,約基奇引發大規模沖突,NBA宣布處罰決定:約基奇罰50000美元,蘭德爾罰35000美元

魯中晨報
2026-04-27 11:20:04
丁俊暉:就算趙心童狀態不好也能世錦賽衛冕,他比所有球員都厲害

丁俊暉:就算趙心童狀態不好也能世錦賽衛冕,他比所有球員都厲害

楊華評論
2026-04-26 21:47:34
用“編制”換了一條命?!吧习丁鼻绑w檢查出心肌梗塞

用“編制”換了一條命?!吧习丁鼻绑w檢查出心肌梗塞

螞蟻大喇叭
2026-04-26 14:16:38
Shams:約基奇最后在更衣室找到了自己的內褲

Shams:約基奇最后在更衣室找到了自己的內褲

懂球帝
2026-04-27 11:55:50
神操作!蓉城0元簽英超豪門舊將 如今8輪造10球成進攻核心 贏麻了

神操作!蓉城0元簽英超豪門舊將 如今8輪造10球成進攻核心 贏麻了

零度眼看球
2026-04-27 07:24:12
假空姐大鬧亞航后續:知情人士透露真實身份,這下輪到女子老實了

假空姐大鬧亞航后續:知情人士透露真實身份,這下輪到女子老實了

離離言幾許
2026-04-26 07:28:42
中國給美國量身打造的枷鎖起效,美國人的反應遠超預料

中國給美國量身打造的枷鎖起效,美國人的反應遠超預料

西莫的藝術宮殿
2026-04-27 01:22:43
奇瑞混動摩托正式亮相,代號007,摩托市場迎來新成員

奇瑞混動摩托正式亮相,代號007,摩托市場迎來新成員

行者啊
2026-04-26 09:45:13
生理旺盛的女性,大多有這3個特征,超準!

生理旺盛的女性,大多有這3個特征,超準!

皓皓情感說
2026-04-25 19:09:10
中國拋得太及時,8500億美債沒人接盤。

中國拋得太及時,8500億美債沒人接盤。

流蘇晚晴
2026-04-26 18:32:23
互聯網是有記憶的,她的黑歷史一大堆?。?>
    </a>
        <h3>
      <a href=互聯網是有記憶的,她的黑歷史一大堆??! BenSir本色說
2026-04-15 22:38:07
立訊精密觸及漲停

立訊精密觸及漲停

每日經濟新聞
2026-04-27 13:39:42
2026-04-27 15:39:00
財經AI湃 incentive-icons
財經AI湃
聚焦AI和產業AI化
636文章數 647關注度
往期回顧 全部

科技要聞

DeepSeek V4上線三天,第一批實測出來了

頭條要聞

美海軍考慮從外國購買軍艦和零部件:日韓成潛在選擇

頭條要聞

美海軍考慮從外國購買軍艦和零部件:日韓成潛在選擇

體育要聞

最抽象的天才,正在改變瓜迪奧拉

娛樂要聞

《奔跑吧14》剛播就把一手好牌打稀爛

財經要聞

DeepSeek融資、字節加碼 AI開始真燒錢了

汽車要聞

在不確定中尋找確定性:大眾汽車的中國解法

態度原創

旅游
本地
家居
時尚
健康

旅游要聞

“寶藏”小城,何以寧國?

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

家居要聞

江景風格 流動的秩序

春天衣服別只穿黑色,看看下面這些彩色穿搭,亮眼還有感染力

干細胞如何讓燒燙傷皮膚"再生"?

無障礙瀏覽 進入關懷版