網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

今天，50%的Token正在被浪費

2026-04-16 10:25:34　來源: 財經(jīng)AI湃

北京舉報

分享至

技術(shù)發(fā)展早期，沒有浪費，就沒有進(jìn)步。但未來誰能用更少的Token完成同樣的任務(wù)，誰就會擁有更高的利潤空間。也會擁有更加確定的未來

文｜《財經(jīng)》研究員吳俊宇

編輯｜謝麗容

2026年是Agent（智能體）真正普及的一年。隨之而來的是，Token（詞元）浪費也正在成為技術(shù)和學(xué)術(shù)領(lǐng)域被廣泛討論的新問題。

今年4月，小米MiMo大模型負(fù)責(zé)人羅福莉在社交媒體X（Twitter前身）上發(fā)布了一條動態(tài)，討論現(xiàn)在OpenClaw“龍蝦”等Agent工具低效的問題。她認(rèn)為，全球算力供給，正無法跟上Agent帶來的Token需求增長。

羅福莉解釋了這背后的原因——OpenClaw這類Agent工具每次用戶對話，都會發(fā)起多輪低價值的工具調(diào)用。每一輪都作為獨立API（應(yīng)用接口）請求發(fā)送，并產(chǎn)生一個很長的上下文（通常超過10萬Token）。即便有緩存命中，這種方式依然非常浪費。極端情況下，還會提高其他請求的緩存失效率。

Token浪費（在技術(shù)社區(qū)、論文平臺中被稱為Token Waste），并非單個產(chǎn)品的問題。它是Agent能力提升過程中的必經(jīng)之路。

《財經(jīng)》統(tǒng)計了全球最大的代碼和開源技術(shù)社區(qū)GitHub上有關(guān)“Token Waste”相關(guān)Issues（問題，可理解成技術(shù)議題討論）的數(shù)量。這一討論至少有5200個，僅2026年一季度就誕生了4150個。越來越多的開發(fā)者在實際業(yè)務(wù)中正面臨控制Token浪費的問題。

《財經(jīng)》統(tǒng)計了全球最大預(yù)印本論文平臺arXiv(計算機(jī)等領(lǐng)域的科研人員習(xí)慣在此上傳論文初稿)上“Token Waste”相關(guān)論文。2025年1月以來，這個主題直接或間接相關(guān)的論文至少有92篇，且2026年一季度就誕生38篇。學(xué)術(shù)界也越來越關(guān)注Token浪費成因以及如何減少Token浪費這一課題。

開發(fā)者和研究者的常見觀點是——Agent在復(fù)雜多輪任務(wù)中，歷史文件、對話會不斷累積，大量無用、冗余、過期的信息會不斷產(chǎn)生并且重復(fù)計算。Token消耗因此指數(shù)級增長，但其中可能有30%-60%的Token被浪費了。

Token浪費的商業(yè)影響是，雖然算力消耗的飛輪轉(zhuǎn)動起來了，但上下游的良性商業(yè)循環(huán)仍未建立。上游的模型公司（如美國市場的OpenAI、Anthropic，中國市場的月之暗面、MiniMax、智譜）、應(yīng)用公司（如全球最大的獨立AI代碼生成平臺Cursor）營收在增長，卻仍在虧損。下游開發(fā)者和企業(yè)用戶的Token賬單不斷膨脹且難以精確預(yù)估。

不過，多位企業(yè)開發(fā)者和算法工程師對《財經(jīng)》表示，無需因Token浪費而悲觀。事實上，企業(yè)、開發(fā)者都在嘗試為Agent加上更好的“腳手架”——通過優(yōu)化Agent框架等方式減少Token浪費。

因為在技術(shù)發(fā)展早期，沒有浪費就沒有進(jìn)步。Token浪費才會推動試錯，Agent會在技術(shù)進(jìn)化和市場選擇中不斷成熟。

Token是如何被浪費的？

Agent目前框架還不夠成熟，Token很容易被浪費。

當(dāng)下的Agent，簡單理解，就像一匹尚未被完全馴服的“野馬”。這匹“野馬”執(zhí)行任務(wù)時四處飛奔，不一定會按照人的意志朝著最短路徑行走——Token消耗有時候會偏離最優(yōu)解。

它很多時候不知道哪些問題與當(dāng)前任務(wù)直接相關(guān)，于是只能把所有文件都讀一遍。隨著對話輪次增長，上下文不斷積累，緩存的計算任務(wù)不斷膨脹。用戶每次輸入后，Agent甚至可能需要重新計算完整的對話記錄和文件數(shù)據(jù)。這導(dǎo)致Token成本指數(shù)級增長。

Agent工具的Token消耗量遠(yuǎn)超過去的AI對話工具。百度智能云大模型平臺總經(jīng)理忻舟2025年12月曾對《財經(jīng)》表示，Agent系統(tǒng)執(zhí)行的是一系列任務(wù)。任務(wù)過程中，模型會不斷用代碼規(guī)劃任務(wù)、調(diào)用工具并記錄執(zhí)行狀態(tài)，每個步驟都可能觸發(fā)新的模型調(diào)用。一次對話可能只消耗數(shù)千Token，但一次任務(wù)可能就會消耗數(shù)萬，甚至數(shù)十萬Token。

今年3月，一位名為shelvenzhou的開發(fā)者在Github進(jìn)行了一項基準(zhǔn)測試，記錄自己的OpenClaw日常工作（包括代碼、郵件、PDF、圖片、搜索等）Token消耗情況——第一輪對話Token成本0.0050美元；第五輪對話Token成本0.0665美元，是第一輪的13.3倍；第10輪的Token成本達(dá)到了0.13美元，是第一輪的26倍。

類似情況在《財經(jīng)》團(tuán)隊的工作流中同樣存在。今年3月，《財經(jīng)》嘗試用全球熱門的獨立AI代碼生成平臺Cursor統(tǒng)計財報數(shù)據(jù)——閱讀20份亞馬遜財報PDF文件，統(tǒng)計最近20個季度亞馬遜AWS的營收、利潤并繪表。

Cursor使用OpenAI的GPT-5.3-Codex模型自動運行近30分鐘。任務(wù)并沒有一次性成功。Cursor逐一嘗試了四種路徑，每次任務(wù)失敗后再尋找新路徑并自動編寫新代碼，歷經(jīng)十多輪最終完成統(tǒng)計。整個過程花費了130萬Token，占20美元/月Token用量約5%。但人工復(fù)核后發(fā)現(xiàn)，個別季度統(tǒng)計仍然出錯了——這次任務(wù)雖然完成了，但結(jié)果不可用。

這次失敗的財報統(tǒng)計任務(wù)，耗費了近30分鐘和7元Token費用。那么，這130萬Token是如何被消耗掉的？

實際任務(wù)中，1個中文字符約等于0.6個Token，1個英文字符約等于0.3個Token。亞馬遜一份季度財報通常50頁，超過10萬字符，對應(yīng)約3萬Token。

一位算法工程師對《財經(jīng)》表示，Cursor不會把20份PDF文檔從頭到尾全部讀完，而是根據(jù)任務(wù)提取PDF文檔中的關(guān)鍵句子并理解，隨后自動編寫任務(wù)代碼，把所有季度的數(shù)據(jù)進(jìn)行匯總。編寫代碼的過程也消耗Token。在Agent多輪調(diào)用過程中，由于上下文反復(fù)傳遞以及多種路徑嘗試，Token消耗被進(jìn)一步放大，最終達(dá)到130萬Token以上的量級。

這種個人辦公任務(wù)還不算復(fù)雜，但在企業(yè)生產(chǎn)系統(tǒng)，任務(wù)執(zhí)行時間更長、更復(fù)雜。這會變成持續(xù)性的Token成本。

今年3月末，Lumigo&Vexp聯(lián)合創(chuàng)始人尼古拉·阿萊西（Nicola Alessi）在技術(shù)社區(qū)記錄了自己的編程 Agent一周Token消耗情況。他認(rèn)為，其中70%的Token被浪費了。

他的代碼Agent使用了Claude Sonnet 4.6模型，被用于一個擁有超過200個文件的嚴(yán)肅生產(chǎn)場景。他強(qiáng)調(diào)，這不是普通的試驗項目。

尼古拉·阿萊西長期監(jiān)測發(fā)現(xiàn)，平均每次提問，Agent會發(fā)起23次工具調(diào)用——先掃描全部文件，再按編程語言過濾一遍代碼，隨后逐一打開文件、讀取內(nèi)容，如此循環(huán)超過20輪，才終于開始處理實際問題。這20輪循環(huán)中，每次對話平均消耗約18萬個Token，其中與問題真正相關(guān)的Token，不超過5萬個。

按照這一數(shù)據(jù)計算，Token浪費率高達(dá)72%。以Claude Sonnet 4.6定價計算，每次對話平均浪費的Token費用在1美元左右。單次對話浪費的Token看似只有約1美元，但在大規(guī)模部署和持續(xù)高頻調(diào)用下，這會逐漸累積成巨額算力支出。

因為員工規(guī)模動輒數(shù)萬甚至數(shù)十萬的大型科技公司，尤其在技術(shù)部門，工程師的每月Token費用甚至已在萬元以上。做好成本優(yōu)化，每年可節(jié)省千萬元級別的算力成本。

一家員工數(shù)超過30萬人的國際科技巨頭人士對《財經(jīng)》表示，他所在的公司每個人使用的Token是無限量的。他的工程師同事長期使用Claude系列的模型編寫代碼，一周Token成本高達(dá)2000美元-3000美元。

一家員工數(shù)超過10萬人的中國科技公司技術(shù)人士對《財經(jīng)》表示，他在云基礎(chǔ)設(shè)施部門，日常使用Claude Opus 4.6模型寫代碼，每周Token成本高達(dá)3000元。

一家員工數(shù)5萬人左右的互聯(lián)網(wǎng)硬件公司人士對《財經(jīng)》表示，他所在公司已經(jīng)為全員配備Agent辦公或AI代碼生成工具。他們有自研模型，因此員工使用Token不限額度。在他看來，Agent造成的Token浪費幾乎是見怪不怪。他在日常辦公中有30%-50%的Token由于Agent工程不夠完善被浪費了。

誰在為浪費的Token買單？

Agent造成的浪費讓Token消耗量變得難以預(yù)測。這甚至在影響整個市場的蛋糕分配。

從技術(shù)來看，Token浪費是Agent框架不成熟導(dǎo)致的。但從產(chǎn)業(yè)結(jié)構(gòu)來看，它更像是技術(shù)發(fā)展早期的成本傳導(dǎo)——“算力-模型-應(yīng)用”之間的蛋糕還沒分好，成本不斷向下游傳導(dǎo)，這些Token成本最終是由企業(yè)客戶承擔(dān)的。

過去數(shù)字化轉(zhuǎn)型階段（2024年之前），市場蛋糕劃分相對清晰。云廠商提供算力資源，SaaS（應(yīng)用軟件）公司提供軟件產(chǎn)品，企業(yè)客戶按需采購，三者邊界清晰、角色分明。當(dāng)時，企業(yè)IT成本相對可預(yù)測。企業(yè)可以根據(jù)業(yè)務(wù)規(guī)模規(guī)劃云資源，還能和云廠商簽訂長約獲得折扣。軟件是訂閱制的，按年/月訂閱座席付費，成本相對固定。

2025年之后，AI落地速度加快，蛋糕逐漸變得劃分不均。云廠商分走了大部分收入與利潤，模型廠商收入快速增長卻仍普遍在虧損，SaaS公司轉(zhuǎn)售Token有“管道化”的趨勢。

產(chǎn)業(yè)鏈最末端的企業(yè)CTO（首席技術(shù)官）/CIO（首席信息官）面對的不再是云和軟件訂閱賬單，而是一種類似流量管控和動態(tài)限速的混合計費賬單。Token賬單變得難以預(yù)測。

其一，Agent任務(wù)執(zhí)行過程本身Token消耗波動就很大。不同Agent框架成熟度不同，Token消耗量差異也很大。

今年4月，一款名為Hermes的Agent迅速流行，它在開發(fā)者社區(qū)口碑迅速超過OpenClaw。Hermes會將經(jīng)驗自動生成Skill（技能），減少反復(fù)低效試錯，Token消耗相對更少。4月12日，一位開發(fā)者在Reddit社區(qū)記錄稱，他用OpenClaw和Hermes處理同一任務(wù)，OpenClaw 10分鐘消耗200多萬Token，Hermes僅消耗50萬Token。

其二，不同模型之間，性能與定價差異明顯。即使性能相近，Token定價差距仍然顯著，這讓成本評估變得更復(fù)雜。

目前在開發(fā)者口碑最好的Claude Sonnet 4.6、GPT-5.4的Token定價普遍是國產(chǎn)模型的3倍-10倍。國產(chǎn)同級別模型，Token定價差距也在1倍-3倍之間。如何根據(jù)合適的場景選擇合適的模型，這對企業(yè)來說決策成本很高。

其三，Token套餐（Coding Plan或Token Plan）雖然看似價格固定，但套餐內(nèi)的Token額度、并發(fā)數(shù)量、緩存計費規(guī)則差異明顯。套餐用盡后的超額費用、降級策略也各不相同。企業(yè)很難在紙面上提前對比評估真實成本。

目前大多數(shù)Token套餐以5小時為刷新周期，限制用戶時間窗口內(nèi)的最大調(diào)用次數(shù)或最大Token額度。一旦5小時內(nèi)使用超額，系統(tǒng)會觸發(fā)限速、排隊或降低模型性能等機(jī)制。這個機(jī)制原本是為了盡量公平分配算力資源，卻讓企業(yè)提前算賬變得更難了。

這一系列問題讓企業(yè)的IT預(yù)算編制變得困難。《財經(jīng)》了解到的情況是，一些頭部零售、制造企業(yè)為解決這個問題，正在嘗試獨立編制專門的Token預(yù)算。

一位服務(wù)了多家頭部零售、制造企業(yè)的企業(yè)級大模型服務(wù)商CEO（首席執(zhí)行官）今年3月對《財經(jīng)》表示，企業(yè)普遍在AI焦慮期。這些Token預(yù)算正在吃掉傳統(tǒng)軟件、外包開發(fā)的預(yù)算。不過，目前很難精確計算Token預(yù)算的ROI（投資回報率）。

企業(yè)客戶正在付出更高的Token成本，這帶動了模型廠商、應(yīng)用廠商收入的快速增長。然而作為供給方，模型廠商、應(yīng)用廠商并沒有想象中那么賺錢。

美國和中國的模型創(chuàng)業(yè)公司普遍在虧損。在美國市場，OpenAI 2026年2月ARR（年度經(jīng)常性收入，當(dāng)月收入×12）超過250億美元，預(yù)計2030年盈利。Anthropic 2026年3月ARR超過300億美元，預(yù)計最早將在2029年盈利。

在中國市場，月之暗面2026年2月收入超過2025全年，到2026年3月ARR甚至超過1億美元。MiniMax 2025年營收0.79億美元（約合5.6億元），2026年2月ARR超過1.5億美元（約合10.5億元）。智譜2025年營收7.2億元，2026年3月模型API（應(yīng)用接口）的ARR達(dá)到17億元，同比增長60倍。

不過，這三家公司也在虧損。月之暗面的虧損規(guī)模尚未披露。MiniMax 2025年經(jīng)調(diào)整后的凈虧損2.5億美元（約合17.5億元），智譜2025年經(jīng)調(diào)整后的凈虧損31.8億元。

新興的AI應(yīng)用公司普遍在虧損，甚至成了封裝Token的管道——接入模型公司的API（應(yīng)用接口），將Token轉(zhuǎn)售給客戶。軟件原本的定價權(quán)轉(zhuǎn)移到了云廠商和模型公司手里。

美國知名投資機(jī)構(gòu)貝塞默風(fēng)險投資（Bessemer Venture Partners）長期聚焦SaaS和AI賽道。貝塞默風(fēng)險投資2025年調(diào)查10家AI明星創(chuàng)業(yè)公司發(fā)現(xiàn)，這些公司平均毛利率僅為25%，部分表現(xiàn)優(yōu)秀的公司平均毛利率約為60%。

但根據(jù)貝塞默風(fēng)險投資2023年調(diào)查結(jié)果，高增長SaaS公司毛利率中位數(shù)約為77%。也就是說，AI應(yīng)用相比過去的SaaS軟件，毛利率正大幅下滑。

最典型案例是，全球最大的獨立AI代碼生成工具Cursor。它在2026年2月年化收入超過20億美元。但美國市場調(diào)研機(jī)構(gòu)AI Funding Tracker 2026年2月報告稱，Cursor 2025年虧損規(guī)模至少在1.5億美元。Cursor幾乎所有收入都被用于調(diào)用Anthropic、OpenAI的模型。公司還要支付員工工資、辦公場所等其他運營費用。

全球最大的SaaS公司，如Salesforce、Adobe、ServiceNow這幾家老牌公司同樣在面臨AI相關(guān)毛利率下降的問題。SaaS軟件毛利率長期在80%左右，一直被認(rèn)為是高毛利的好生意。但現(xiàn)在情況正在變化。

Salesforce管理層2025年12月公開表示，在Agent業(yè)務(wù)快速擴(kuò)張階段，公司短期內(nèi)可以接受這部分業(yè)務(wù)的利潤率承受壓力。

Adobe管理層在2026財年一季度財報電話會（2026年3月12日）表示，F(xiàn)irefly和 Express這兩款生成式AI應(yīng)用會帶來更高的Token成本，并可能會影響公司利潤率。

ServiceNow管理層在2025年四季度財報電話會（2026年1月28日）表示，預(yù)計2026年訂閱毛利率為82%，將略微下滑。AI相關(guān)的算力投入是影響毛利率的主要來源。

綜上所述，Token消耗雖然在增長，但目前至少在模型公司、應(yīng)用公司、企業(yè)客戶這里都還沒有真正形成正循環(huán)。這些成本在層層傳導(dǎo)的產(chǎn)業(yè)鏈中被不斷放大和轉(zhuǎn)移。

如何從Token浪費中榨出利潤？

減少Token浪費，本質(zhì)上是在為“算力-模型-應(yīng)用-企業(yè)客戶”整個產(chǎn)業(yè)鏈減少無效成本，進(jìn)而釋放出利潤空間。只有這樣，“Token經(jīng)濟(jì)”的飛輪才能真正轉(zhuǎn)起來。

當(dāng)前減少Token浪費的主流技術(shù)方案包括兩大類：一是KV Cache（Key-Value Cache，鍵值緩存），二是Agent工程。

KV Cache是什么？簡單理解，這是模型對已計算上下文的結(jié)果進(jìn)行緩存，避免生成新Token時重復(fù)計算整個上下文。這正在成為模型公司榨取利潤空間的關(guān)鍵技術(shù)。

今年4月，一位中國大模型創(chuàng)業(yè)公司人士對《財經(jīng)》表示，他們銷售的Token套餐本身幾乎不賺錢，利潤空間主要來自KV Cache的命中率。換句話說，KV Cache命中得越多，模型廠商的實際計算成本就越低，利潤空間也就越大。

OpenAI的開發(fā)者技術(shù)文檔顯示，OpenAI通過KV緩存輸入Token成本最高下降90%。一位云計算廠商智能算法負(fù)責(zé)人2025年12月曾對《財經(jīng)》表示，利用KV緩存等技術(shù)，他們能夠把推理成本降至10%-20%。

Agent工程，也就是把Agent的調(diào)度、記憶、模型路由、上下文裁剪和工作流管理做成一套可控的系統(tǒng)工程。它的目的是，減少Agent不必要的重復(fù)計算、工具調(diào)用、思考推理和空轉(zhuǎn)循環(huán)。這在今天也被稱為Harness——這個詞字面意義上是韁繩和馬具。

這是云廠商、模型公司、應(yīng)用公司都在優(yōu)化的方向。騰訊集團(tuán)高級執(zhí)行副總裁、云與智慧產(chǎn)業(yè)事業(yè)群CEO湯道生今年4月發(fā)表文章稱，人工智能正式進(jìn)入Harness時代。Harness是韁繩，它將（大模型）這股原始力量轉(zhuǎn)化為可控的、可預(yù)期的、可協(xié)作的能力……馴服一匹野馬，需要一副趁手的韁繩，和一個知道目的地的騎手。

湯道生發(fā)現(xiàn)，在騰訊內(nèi)部，在同樣的模型能力下，不同的腳手架設(shè)計，比如給模型調(diào)用什么工具、如何做分層的上下文工程、如何管理長記憶、如何設(shè)計工作流，對實際使用效果與Token成本有很大的影響。

Agent工程成熟與否，直接決定了同一項任務(wù)的Token消耗量——這將直接影響企業(yè)的Token成本。

微軟雷德蒙德實驗室今年4月披露了一個利用不同Agent對云基礎(chǔ)設(shè)施進(jìn)行自動故障處理的案例。在使用同一模型定位故障問題這個環(huán)節(jié)，不同Agent的Token消耗差距明顯。表現(xiàn)最好的GPT-w-Shell，在71%正確率下僅消耗約5000個Token；ReAct在57%正確率的情況下消耗了6800個Token。TaskWeaver正確率僅29%，Token消耗高達(dá)19萬。

2026年初，浙江大學(xué)計算機(jī)輔助設(shè)計與圖形學(xué)國家重點實驗室研究團(tuán)隊向ICLR（國際學(xué)習(xí)表征會議，機(jī)器學(xué)習(xí)領(lǐng)域三大國際頂級會議之一）提交了一篇名為《Stop Wasting Your Tokens》（停止浪費你的Token）的論文。

該研究團(tuán)隊提出，通過在Agent系統(tǒng)中引入一個“監(jiān)督Agent”，可以在不改變模型結(jié)構(gòu)的前提下，實時識別錯誤、低效行為與冗余上下文，減少無效計算。實驗結(jié)果顯示，這個方法在保持任務(wù)成功率的同時，將Token消耗平均降低了30%。

微軟的工程實踐、浙江大學(xué)的試驗，這些都處于控制Token浪費的早期。這些經(jīng)驗隨著技術(shù)成熟，將逐漸落地到更多公司。

未來一段時間，誰能用更少的Token完成同樣的任務(wù)，誰就會擁有更高的利潤空間。也會擁有更加確定的未來。

上述互聯(lián)網(wǎng)硬件公司人士對《財經(jīng)》表示，無需因Token浪費而悲觀。這是Agent現(xiàn)在這個發(fā)展必然經(jīng)歷的過程。他所在的公司目前有大量精力投入到Agent工程，這不單是為了節(jié)省Token成本，也為了提升任務(wù)準(zhǔn)確率。在當(dāng)下，提效遠(yuǎn)比降本重要。

2010年以后移動互聯(lián)網(wǎng)起步，流量浪費和流量焦慮一度讓用戶關(guān)心，但在今天已經(jīng)無人關(guān)注這些問題。Token浪費情況類似。Token浪費推動了試錯，試錯推動了優(yōu)化，優(yōu)化最終會推動“算力-模型-應(yīng)用-企業(yè)客戶”整個產(chǎn)業(yè)鏈走向成熟。

“Token經(jīng)濟(jì)”的正向循環(huán)也將在這個過程中逐漸形成。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.