无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

巨頭開始“燒不動Token”了

0
分享至


▲本文圖片均來自網絡,如有侵權請聯系刪除

科技巨頭們正在收縮Token支出

本文 首發于影子備忘錄

文 陌影笙

一家未具名的科技巨頭,因為忘了給員工的Claude使用許可證設置上限,短短一個月內在AI上的支出高達5億美元——折合人民幣約33億元,相當于每天燒掉超1億元。

這家公司是誰,至今沒人確認,但社交媒體上的猜測幾乎都指向了亞馬遜,一個在2026年資本支出高達約兩千億美元的龐然大物。

五億美元意味著什么?足夠一家中等規模科技公司干一整年營收的錢,只夠這家巨頭在AI大模型上點一個月“外賣”。

更令人咋舌的是,這并非孤例。Uber的CTO在內部備忘錄中坦承,公司將Claude Code部署給約5000名工程師后,短短四個月內就用光了全年的AI預算。

單個工程師每月產生的API成本高達500到2000美元,即便對于這家市值1500億美元的企業,賬單依然讓高管措手不及。

微軟也在同一時間緊急收緊了內部AI工具的使用權限,逐步關停大部分Claude Code授權,要求數以千計的工程師強制遷移回自家的GitHub Copilot。

Meta、亞馬遜同樣在最近幾周收緊了內部AI Token消耗指標——數以十億美元計的計算資源被消耗,卻幾乎沒有可衡量的業務產出。

如果說此前市場上關于AI泡沫的討論還停留在口頭辯論,那么此時此刻,真金白銀的賬單已經給出了答案:巨頭真的燒不動Token了。



Token是如何從“白菜價”

變成“奢侈品”的

兩年前,Token還不是個問題。

2024年,大模型廠商瘋狂燒錢訓練更大的模型,通過免費送Token、低價傾銷搶占市場。當時甚至有人說“賣Token不如賣礦泉水”——百萬元級的輸入Token只要幾毛錢,貴一點的模型不過一兩美元。

整個行業沉浸在“成本將持續下降”的敘事里,所有人都相信規模效應會像互聯網一樣將邊際成本無限攤薄。

然而,2025年下半年開始,風向變了。

根據OpenRouter的統計,過去一年全球周度Token消耗量從2.1T激增至24.5T,2026年以來周度消耗同比增幅達280%。

在國內,日均Token調用量從2024年初的1000億飆升至2026年3月的140萬億,兩年增長超1000倍,僅2026年第一季度就較2025年底增長了40%。

需求端的急劇膨脹,瞬間撕開了供給端的缺口。

Epoch AI發布的報告算了一筆簡單的賬:全球Blackwell芯片的算力增速是每年約3.4倍,而全球Token需求增速是每年約10倍。3.4對10,差距在逐年撕裂。

更致命的是,一旦上下文窗口拉長到128k,吞吐量會暴跌50倍。而當企業級應用普及后,絕大多數任務恰恰需要處理海量上下文,這就意味著有效供給比理論值還要緊俏。

供給端的瓶頸是結構性且短中期無解的。HBM高帶寬內存是AI服務器的“心臟”,三星、SK海力士和美光三家占據了全球95%以上的產能,其擴產周期長達24到36個月。

2025年下半年以來,HBM價格漲幅超過50%,直接推高了AI芯片的成本。CoWoS封裝產能同樣嚴重不足,臺積電即便在2025年將產能翻倍,2026年的訂單依然排到了年底。

受此擠壓,普通DDR5內存半年的漲價幅度高達300%,256G服務器內存單條報價已突破4萬元。

算力租賃市場率先反映了這種緊張。自2026年2月以來,租用英偉達最先進的B200芯片的費用已翻了一番,接近每小時6美元。

即使是舊款的H100,一年期租賃合約價格也從2025年10月的約1.7美元/小時,上漲至2026年3月的2.35美元/小時,漲幅近四成。

一臺8卡的英偉達B300服務器,報價從3月份前的不到400萬元,飆升至約700萬元,而且“到貨就被掃光”。

傳導到模型層,結果就是全線漲價。GPT-5.5定價翻倍,Gemini部分場景漲價3倍,Claude的API價格水漲船高。曾幾何時被津津樂道的“AI成本將持續下降”的神話,已經被現實擊得粉碎。


為什么越燒Token,產出越少?

如果說成本上漲是外部環境的“天災”,那么企業內部的管理問題,則是讓賬單更加觸目驚心的“人禍”。

亞馬遜、Meta等巨頭此前推崇的AI使用量內部排行榜,催生了一個被稱為“Tokenmaxxing”的現象——員工通過AI代理執行毫無意義的任務來消耗Token,目的只是為了在排行榜上獲得更高的排名。亞馬遜工程高級副總裁事后不得不公開告誡員工:“請不要為了用AI而用AI”。

Meta類似的管理指標催生了幾乎同樣的問題。該公司約8.5萬名員工每月消耗60萬億Token,換算下來每位員工每天燒掉約100萬輸出Token。

部分工程團隊被允許每天在Token上花費300美元,夠一個人一天生成2500萬輸出Token。

蘋果的案例更讓人咋舌,部分工程團隊被允許每天在Token上花費300美元——按當時的價格算,夠一個人一天生成2500萬輸出Token。

最荒謬的是那筆5億美元的賬單——由于沒有設置使用上限,導致AI工具被毫無節制地濫用。高額Token賬單迅速堆積,財務部門收到時,數據甚至已經過時了三天。

但比管理失控更值得追問的是:這些燒掉的Token,到底創造了多少真實價值?

開發者生產力平臺Entelligence.AI匯總了2444家企業的數據,給出了一個令人警醒的答案:每投入1美元AI Token費用,只有18美分產生了觸達用戶的實際價值。

高達44美分被用來修復AI自身引入的Bug,27美分流向返工,11美分被審查摩擦所消耗。這意味著大部分Token不僅沒有提升效率,反而成為了效率的損耗源。

洋蔥集團創始人甚至直言:“很多員工,其實在拿公司的Token摸魚,甚至接私活。白天在公司上班,同時接外面的私活——開發單、設計單、運營單”。

甚至閑魚等二手平臺上,大量賣家正在利用公司配發的模型額度對外接單。AI還沒淘汰人類,人類倒先把公司的AI預算給報銷了。

Uber的遭遇同樣揭示了這種困局。該公司將Claude Code部署給約5000名工程師后,月使用率飆升至95%,全員AI素養得到了極大提升,但單月成本卻超出了全年的預算規劃。

Uber不得不緊急制定嚴苛的分級管理制度,像當年節省紙張一樣精打細算每一個Token的成本。

一個更加反常識的結論正在被越來越多的企業意識到:在某些場景下,AI不僅沒有提升效率,甚至反而拖慢了效率。

METR的最新研究顯示,Claude Code在實測中讓資深開發者的完成速度慢了19%。投入Token,修復Bug,返工,審查摩擦——這個循環正在吞噬原本應該被創造出來的效率空間。

當巨頭們把Token使用量納入KPI考核,員工們唯一能理性做的事情,就是無限制地消耗Token來刷分數。這套激勵機制本身就是對“效率最大化”最大的諷刺。



效率越高,燒錢越快

當人們談論AI的效率提升時,通常談論的是“單位Token產出的價值”。但這個公式存在一個被有意無意忽略的前提——Token總量是有限的。

實際上,隨著AI性能的提升,用戶的使用頻率和單次任務的復雜度只會越來越高。這是一個內在的、不可調和的悖論。

中信證券的報告數據顯示,AI計算需求已呈指數級擴張。從核心廠商的消耗數據來看,國內字節跳動(豆包)2025年12月的日均Token消耗量達到63萬億,與OpenAI的52萬億、谷歌的65萬億處于同一量級。

到2026年3月,這一數字突破120萬億,三個月內實現了翻倍增長。豆包日均Token調用量相比2024年5月增長了整整1000倍。

僅2026年前四個月,部分企業就已經耗盡了全年的Token預算。

谷歌在I/O大會上宣布,Gemini的使用量已從2025年5月的每月480萬億Token躍升至2026年5月的每月3200萬億Token,增幅超過6倍,主要驅動因素正是代理型AI(Agent)和編碼工具——這兩者消耗的計算資源遠超基本的聊天機器人查詢。

在英偉達內部的一次交流中,甚至有員工坦率地提出擔憂:“對我的團隊而言,AI成本已超過了人力成本”。

當AI比人還貴的時候,“用AI替代人力”的邏輯起點就不復存在了。

這就引出了一個根本性的問題:AI的邊際成本結構,和傳統工業是截然不同的。

過去工業革命的底層邏輯是“買斷制”——建工廠、買設備需要極高的初始投入,但一旦機器運轉起來,多生產一件產品的邊際成本幾乎為零。機器不需要按時薪結算,產量越大,平攤到單件上的成本就越低。

而到了AI時代,邏輯變成了“租賃制”。初始成本幾乎為零,你只需要按Token付費來“租賃”AI的思考能力。

但這種模式的致命弱點在于:當任務變得復雜時,Token消耗會呈指數級爆炸。一個樸素的算術題擺在了所有人面前:AI省下的那點人力成本,未必填得上Token的賬單。

具體來看技術維度的錯配也相當明顯。在大模型的推理成本結構中,約60%到70%來自工具調用和上下文處理,這一比例在復雜Agent任務中會更高。

以“訂機票+酒店+租車”的復合任務為例:用戶輸入占比不足1%,模型內部推理(思考鏈)約占5%到10%,工具調用(API交互)約占85%到90%,最終輸出不足5%。這意味著僅僅通過優化模型推理來降本的空間極為有限,真正的大頭消耗來自Agent與外部環境的反復交互。

當AI從“一問一答”變為“自主執行”,消耗的Token量級從幾百躍升到幾十萬甚至上百萬,這就是為什么開源模型和閉源模型之間曾經的價格差距,在企業級用量面前幾乎毫無意義——問題是用了多少,而不是單價多便宜。

就連微軟這樣擁有充沛云資源和完整AI產業鏈的巨頭,也開始反思這一悖論。微軟停用了內部對Anthropic旗下Claude Code的使用授權,因為按照Token按量計費的模式,哪怕是自家云資源配合使用,依然覺得成本高到難以承受。

這釋放了一個危險的信號:當基礎設施的提供者自己都燒不起Token的時候,第三方企業用戶的日子只會更難過。


成本劇烈增加,趨勢不可逆增加

AI行業曾以一種近乎天真的樂觀主義堅信“摩爾定律”能持續適用于大模型成本。但事實正在給出不同的答案。

盡管技術優化一直在路上,但在需求爆發的浪潮面前,一切優化都被稀釋了。NVIDIA在2025年GTC大會上公布的公開數據顯示,通過量化和KV Cache優化,推理成本理論上可以降低50%到70%。

但同期,GPT-4到GPT-4o的推理成本下降了約50%,而用戶調用量增長了5倍。技術優化的幅度遠遠追不上需求膨脹的速度。

更進一步的數據顯示,自2024年以來,谷歌處理的Token量年增10倍,其他供應商的增速也差不多。而全球AI算力每年只增長3.4倍,芯片內存帶寬每年增長4.1倍。

3.4對10的巨大鴻溝,意味著算力需求的增長在可預見的未來都將領先于供給,而這將不可避免地推動Token價格繼續走高。

從整個產業來看,Token成本正在重構AI經濟的底層邏輯。中信證券指出,供需失衡將推動云產業鏈進入量價齊升周期。

優刻得因硬件成本結構性上漲上調服務價格;阿里云宣布AI算力、存儲產品最高漲價34%。國內頭部大模型企業單月收入突破10億元,部分企業20天的收入就超過了2025年全年。

這組數據的背后,是Token已經從“獲客成本”變成了企業必須嚴肅對待的“硬成本”。

算力需求的全球競爭也在加速推高成本。據統計,美國四大云服務商(微軟、亞馬遜、谷歌、Meta)2025至2026年計劃資本開支合計分別達到4002億、6500億美元。

國內阿里、騰訊、百度、字節同期合計投入507.16億、669.71億美元。全球范圍內的算力軍備競賽,使得任何一家企業都難以獨善其身。

在成本端,高盛預計到2030年,AI Agent所消耗的Token用量將增長24倍,達每月120千萬億個Token。

每日數億元的Token“燃燒”,意味著Token已經從一個技術細節,上升為企業財務模型中最不可忽視的變量。AI的推理成本,正在成為這個時代最昂貴的賬單之一。

技術的進步還帶來了另一重悖論:模型變得更強大,意味著單次調用消耗更多資源。

以Anthropic最新開放的百萬級上下文窗口為例,一個90萬Token的請求與一個9千Token的請求單價完全一致。

表面上看這似乎是降價,但前提是你確實需要90萬Token。當多模態處理和完整代碼庫分析成為標準配置,單次請求的Token消耗自然水漲船高。技術的發展并未減少Token消耗,反而在功能上為更大量的消耗提供了空間。

這一現實的連鎖反應已經開始顯現,據IT桔子數據,2026年第一季度,已有超過10家AI應用初創公司停止運營或轉型。

純API創業公司既無自有流量生態,也無算力囤貨,更無私有化部署能力,它們成為Token成本上漲沖擊下最先倒下的群體。這并非短期的價格波動,而是AI產業結構性洗牌的開始。


出路在哪里?

面對天價Token賬單,整個行業正在經歷一場深刻的反思。

第一條出路,是技術層面的降本。以DeepSeek為代表的新一代開源模型,正在用稀疏注意力等架構創新大幅壓低推理成本。

DeepSeek R1的API調用價格低至$0.001/千token,僅為GPT-4 Turbo的十分之一,成本來源于三大技術優化:量化壓縮使模型體積縮減75%;動態批處理算法將GPU利用率提升至92%;架構級優化使計算量減少50%。

這種“性能不減、成本腰斬”的技術路徑,為整個行業提供了可借鑒的降本范式。DeepSeek V3的訓練成本僅為前沿模型的十分之一到二十分之一,API價格低至同類的十六分之一,在Hacker News等開發者社區引發了廣泛討論。這也說明,AI算力的普及并不必然等同于高成本,關鍵在于技術架構的革新。

第二條出路,是企業內部的管理重構。亞馬遜已經在行動,他們關閉了鼓勵Tokenmaxxing的內部排行榜KiroRank,轉而采用名為“標準化部署”的指標,衡量的是實際交付的AI輔助代碼,而非消耗的Token數量。

Uber也制定了嚴格的分級管理制度,限制工程師的AI工具使用流量。從“用量考核”到“結果考核”,這一轉變意味著企業對AI的態度已經從“追求普及率”轉向“追求投資回報率”。

正如Uber的遭遇所揭示的那樣,讓全員用上AI并不難,難的是讓AI為業務創造價值。

第三條出路,是商業模式的重構。國內豆包開始推出付費訂閱,從每月68元到500元不等;百度文心一言也推出49.9元/月會員;Kimi試水每月49元至199元檔位。

雖然用戶對收費反應不一,但一個事實已經明確:靠資本輸血維持免費模式的階段已經走到了盡頭。

同時,Anthropic將Claude企業版的定價模式從固定訂閱轉向“基礎費+按實際算力消耗付費”的混合模式。

舊模式下最高需為每位授權用戶支付每月200美元,新模式下則在每用戶每月20美元的基礎費之上額外按實際消耗的算力付費。在此背景下,AI成本的最終承擔者,將從風險投資和企業IT預算,逐漸轉移至最終用戶。

技術降本、管理增效、商業變現——這三條路沒有一條是輕松的,但它們合在一起,構成了AI經濟走向可持續的唯一路徑。


結語

當人們回顧2026年的這個夏天,很可能會發現,這是AI從神話回歸常識的轉折點。

“AI一定比人便宜”,這句過去兩年被無數次重復的信念,如今終于迎來了審視。

簡單任務上AI確實遠比人工廉價,但當任務變得復雜、當循環思考上線、當Agent開始“永不下班”,昂貴的API賬單終將反超人類薪資。

Token的稀缺不是技術問題,而是經濟問題。它提醒所有人:算力雖大,但不是無限的;效率雖高,但不是免費的;創新雖好,但不是無代價的。

AI帶來的效率提升是真實的,但同時伴隨著成本的劇烈增加——這才是完整的、不被有意忽略的經濟賬。

巨頭們收縮AI預算并不意味著放棄AI,而是一次健康的回調。

從“燒Token競賽”回歸到“價值創造”,從“為了用AI而用AI”回到“AI是工具不是目的”——這些判斷雖然聽起來像是常識,但在狂熱的市場中,常識往往是最容易被遺忘的東西。

下一次,當你打開對話框問AI一個簡單的問題,消耗幾百個Token時,不妨想一想那些在后臺循環思考數萬次的Agent,那些反復調用外部工具去完成一個任務的自動化流程,那些為了一個代碼Bug而繞了無數彎路的復雜推理——每一個Token的背后,都是一筆真實賬。

AI的賬,終究要有人來付。


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
男子16歲時便出軌嫂子,婚后瞞著妻子繼續出軌,還與嫂子生下一子

男子16歲時便出軌嫂子,婚后瞞著妻子繼續出軌,還與嫂子生下一子

老貓觀點
2026-05-07 07:12:10
苗僑偉溫哥華練拳擊,狀態好到爆!這才是越老越有味道的男人

苗僑偉溫哥華練拳擊,狀態好到爆!這才是越老越有味道的男人

看盡落塵花q
2026-06-16 19:48:04
夏天最補的魚,不是草魚和泥鰍,而是這3種,中老年人要舍得吃

夏天最補的魚,不是草魚和泥鰍,而是這3種,中老年人要舍得吃

花小廚
2026-06-16 12:22:04
每天500記三分!徐杰洛杉磯特訓曝光,29.4%命中率的短板能根治嗎?

每天500記三分!徐杰洛杉磯特訓曝光,29.4%命中率的短板能根治嗎?

蘭亭墨未干
2026-06-16 14:11:10
普通家庭最大的問題:把托舉的順序搞反了

普通家庭最大的問題:把托舉的順序搞反了

諾媽家有男寶娃
2026-06-16 17:12:46
戰鷹:恭喜星昊拿到第二個世冠,他成為中國圍棋新的頂梁柱

戰鷹:恭喜星昊拿到第二個世冠,他成為中國圍棋新的頂梁柱

懂球帝
2026-06-16 18:17:07
杰富瑞:PCB核心材料全面短缺,銅箔迎來新一輪價值重估

杰富瑞:PCB核心材料全面短缺,銅箔迎來新一輪價值重估

新浪財經
2026-06-16 16:42:14
同樣是22歲打總決賽,文班26分11.2籃板2.6助攻,鄧肯表現如何呢

同樣是22歲打總決賽,文班26分11.2籃板2.6助攻,鄧肯表現如何呢

猴哥聊體育
2026-06-16 07:30:05
人民日報劃重點!油車電車收費迎來調整,開車的抓緊看

人民日報劃重點!油車電車收費迎來調整,開車的抓緊看

阿芒娛樂說
2026-06-16 11:20:37
張本美和奪冠不到24小時,首次登上世界第一,她漲球實在是太快了

張本美和奪冠不到24小時,首次登上世界第一,她漲球實在是太快了

寒律
2026-06-16 17:50:27
選老公,就是選終身合伙人

選老公,就是選終身合伙人

說情感世界
2026-06-12 06:25:17
48隊擴軍徹底翻車!世界杯經典底蘊全無,被新賽制徹底消磨殆盡!

48隊擴軍徹底翻車!世界杯經典底蘊全無,被新賽制徹底消磨殆盡!

田先生籃球
2026-06-16 09:13:43
陳忠偉任江蘇省委常委

陳忠偉任江蘇省委常委

新京報
2026-06-16 18:22:39
中方制裁令下,阿基諾家族出面了,要求菲方反擊,怪馬科斯太軟

中方制裁令下,阿基諾家族出面了,要求菲方反擊,怪馬科斯太軟

何氽簡史
2026-06-16 15:52:34
曾是國乒女隊長,退役嫁男乒帥哥生倆女兒,如今在老家當大學教授

曾是國乒女隊長,退役嫁男乒帥哥生倆女兒,如今在老家當大學教授

鍋鍋愛歷史
2026-06-15 12:34:06
于丹被北師大免職,跌落神壇后竟活成這樣!人人都該警醒...

于丹被北師大免職,跌落神壇后竟活成這樣!人人都該警醒...

華人星光
2024-11-07 13:39:41
特朗普讓步了:將允許伊朗進行有限的低水平鈾濃縮活動,伊媒:未來若要達成任何協議,特朗普還需要做出更多讓步

特朗普讓步了:將允許伊朗進行有限的低水平鈾濃縮活動,伊媒:未來若要達成任何協議,特朗普還需要做出更多讓步

政知新媒體
2026-06-15 18:34:07
變天了?729票奪回黨魁!如若登上大位,普京內塔將是最大受益者

變天了?729票奪回黨魁!如若登上大位,普京內塔將是最大受益者

深析古今
2026-06-16 20:40:05
追隨瓦良格來華的蘇聯航母設計師,如今過得怎樣?

追隨瓦良格來華的蘇聯航母設計師,如今過得怎樣?

阿器談史
2026-06-05 04:41:04
號稱泰國第二王室,育坤家族主導兩任泰王近親結婚,被瑪哈恨死了

號稱泰國第二王室,育坤家族主導兩任泰王近親結婚,被瑪哈恨死了

安寧007
2026-06-15 21:57:09
2026-06-16 21:39:00
影子聊科技 incentive-icons
影子聊科技
帶你了解前沿科技資訊
28文章數 1關注度
往期回顧 全部

科技要聞

DeepSeek融資500億,梁文鋒牢牢握住控制權

頭條要聞

歐盟稱已核實"中方訓練俄軍人員在烏作戰" 外交部回應

頭條要聞

歐盟稱已核實"中方訓練俄軍人員在烏作戰" 外交部回應

體育要聞

身價5萬的門將,擋住了12億歐元的狂轟濫炸

娛樂要聞

吳文忻葬禮:2個女兒在靈堂內茫然失措

財經要聞

2萬億存款去哪兒了?

汽車要聞

smart #6上市后 竟然很少被討論參數

態度原創

健康
本地
數碼
時尚
公開課

粽子一次吃多少不傷胃?專家講解

本地新聞

這屆年輕人為什么都在找心流時刻?

數碼要聞

618鼠標熱銷榜來了!哪款才是你的本命裝備

專訪丨重排版《青蛇》:“戀愛腦”還是“完美主義”?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版