![]()
![]()
4月4日,忍耐了許久的Anthropic,終于宣布切斷了第三方客戶端掛在Claude Pro/Max訂閱賬號(hào)的通路。
這一舉動(dòng)瞬間在開發(fā)者社區(qū)激起了軒然大波。不少習(xí)慣了通過OpenClaw和OpenCode等代理工具薅官方訂閱羊毛的用戶對(duì)此表示極為不滿,畢竟,為數(shù)不多的幾條通往國(guó)際頂級(jí)大模型的“低價(jià)高速”又少了一條。
兩天之后,小米AI團(tuán)隊(duì)的羅福莉發(fā)布了一篇關(guān)于Mimo Token Plan的推文,批判了當(dāng)前智能體行業(yè)中算力分配的亂象。
![]()
兩家AI公司的彼此獨(dú)立的商業(yè)動(dòng)作,異口同聲地揭示了一個(gè)不易發(fā)現(xiàn)的行業(yè)真相:
大模型正在從互聯(lián)網(wǎng)免費(fèi)午餐的幻覺中退場(chǎng),回歸作為稀缺能源的物理本質(zhì)。
01
訂閱制的崩塌
一個(gè)擺在眼前的事實(shí)是:算力的“大鍋飯”,已經(jīng)供不起爆發(fā)兩個(gè)多月的智能體了。
在傳統(tǒng)的SaaS時(shí)代,訂閱制就是互聯(lián)網(wǎng)公司商業(yè)文明的基石。
無論是著名的Netflix,還是以前幾乎每個(gè)人電腦中都必須安裝的Office 365,商業(yè)邏輯都是一樣的:“用大多數(shù)人的閑置來補(bǔ)貼極少數(shù)的重度用戶”。
但在如今的智能體時(shí)代,這個(gè)邏輯已經(jīng)失效。
羅福莉在推文中隱含了一個(gè)深刻的洞察:在當(dāng)前的算力成本下,低廉的token價(jià)格、高強(qiáng)度的使用頻率和第三方代理的完全開放,構(gòu)成了一個(gè)不可能三角。
對(duì)于幾個(gè)月前的大語(yǔ)言模型,傳統(tǒng)的對(duì)話式使用(Chatbot)受到人類輸入和閱讀的速度限制,單次會(huì)話的Token消耗基本存在一個(gè)明確的上限。
但Agent毫無征兆地徹底打破了這個(gè)博弈規(guī)則。
一個(gè)像OpenClaw這樣的編程代理,想要執(zhí)行任務(wù)就必須進(jìn)行高頻的環(huán)境感知和工具調(diào)用。
越復(fù)雜的任務(wù),模型需要記住的內(nèi)容就越多,在真實(shí)應(yīng)用場(chǎng)景下,隱藏在每一次微小修改背后的,可能是超過上百萬的token消耗。
如果把訂閱制比作健身房的會(huì)員卡,過去的用戶只是偶爾去運(yùn)動(dòng)一個(gè)小時(shí)打個(gè)卡。
但現(xiàn)在的智能體用戶,就是帶著一群大胃王去吃自助餐,而且每個(gè)人的胃都是無底洞。
按照目前Claude Opus 4.6的API價(jià)格,輸入端5美元/百萬token,輸出端25美元/百萬token,一個(gè)深度開發(fā)者通過第三方代理進(jìn)行短短幾個(gè)小時(shí)的重度編程,實(shí)際消耗的token價(jià)值可能輕而易舉地消耗上百美元。
結(jié)論顯而易見,Anthropic賣出一份幾十或是上百美元的訂閱,不僅不賺錢,甚至要虧損不少算力成本。
Anthropic在正式切斷第三方接入之前,已經(jīng)不止一次封禁各種渠道的外部訂閱,而Google的Antigravity和OpenAI的Codex也同樣有類似的操作。
本質(zhì)上,這就是AI企業(yè)不約而同的一次商業(yè)化止損,防止訂閱制被智能體帶來的算力黑洞徹底吞噬。
國(guó)內(nèi)的AI企業(yè)當(dāng)然也不能幸免。
今年3月起,智譜、阿里、騰訊等企業(yè)推出的Coding Plan訂閱服務(wù)陸續(xù)宣布大幅度漲價(jià)。
短短一周之內(nèi),和此前的外賣大戰(zhàn)如出一轍的低價(jià)獲客活動(dòng)就草草落幕。
02
計(jì)費(fèi)模式的演進(jìn)
模型越變?cè)綇?qiáng),用戶越來越多,AI行業(yè)的計(jì)費(fèi)邏輯也正在經(jīng)歷著從模糊到精確的演進(jìn),而這背后則是用戶付費(fèi)認(rèn)知與廠商成本壓力之間的博弈。
①明碼標(biāo)價(jià)的API
原生的API就是最初的工業(yè)級(jí)“電表”。
API從AI行業(yè)走入人們視野至今,一直都是最透明的計(jì)費(fèi)方式,也是讓普通用戶最焦慮的方式。
它和每家每戶的電表一樣實(shí)時(shí)跳動(dòng),每一句“你是誰(shuí)”都在扣費(fèi)。
極其公平的計(jì)費(fèi)方式,實(shí)際價(jià)格卻觸目驚心:
![]()
Anthropic被全球用戶詬病的超高定價(jià)自然不必多說,但國(guó)內(nèi)的AI巨頭們發(fā)布的旗艦?zāi)P虯PI價(jià)格也絕對(duì)說不上便宜。
價(jià)格門檻不僅阻礙了大規(guī)模的C端普及,B端用戶也不得不仔細(xì)考量本地部署的經(jīng)濟(jì)效益。
但在AI企業(yè)相繼推出訂閱服務(wù)之前,這就是用戶唯一能選擇的付費(fèi)方式。
也因此,開發(fā)者的每一次調(diào)用都伴隨著極大的“算力焦慮”,這種焦慮也扼殺了AI本該帶來的探索性嘗試。而更多的用戶,選擇繼續(xù)在網(wǎng)頁(yè)中與AI免費(fèi)交流。
②隨處可見的Coding Plan
面對(duì)這種付費(fèi)欲望極低的困境,Coding Plan成為了變現(xiàn)的良機(jī)。
雖然名稱各有不同,但目前國(guó)內(nèi)外主流大模型幾乎全部推出了訂閱制的Coding Plan,這也是付費(fèi)認(rèn)知和成本壓力彼此妥協(xié)的最終產(chǎn)物。
它通過“每5小時(shí)1200次請(qǐng)求”這樣的模糊規(guī)則,將算力包裝成了一種類似寬帶包月的服務(wù)。
隨著Coding Agent的誕生,其價(jià)值逐步得以體現(xiàn):它成功建立了一部分開發(fā)者用戶的付費(fèi)習(xí)慣。
這些程序員們成為了第一批吃螃蟹的人,他們開始在電腦上讓AI幫著編寫代碼、運(yùn)行、調(diào)試、修復(fù)bug,而不是通過復(fù)制粘貼的方式頻繁切換窗口和網(wǎng)頁(yè)中的AI進(jìn)行交互。
不過,僅僅兩個(gè)月之后,這種計(jì)費(fèi)方式的局限性也暴露出來:不透明。
這1200次請(qǐng)求,可不是用戶給AI發(fā)送消息的次數(shù),而是調(diào)用模型的次數(shù)。
用戶的1次提問,就會(huì)觸發(fā)幾次甚至幾十次的模型調(diào)用。完成一個(gè)任務(wù)需要幾次提問、幾次模型調(diào)用?沒人能說得清。
除此之外,廠商為了控制成本,往往要在后端進(jìn)行精細(xì)的流量控制,甚至在壓力過大時(shí)通過模型降級(jí)等方式來維持服務(wù)。
這種計(jì)費(fèi)模式,最終直接導(dǎo)致了用戶使用體驗(yàn)的斷裂。對(duì)于專業(yè)開發(fā)者來說,一旦進(jìn)入高強(qiáng)度的編程狀態(tài),要么是發(fā)現(xiàn)AI突然降智,要么是因?yàn)槎啻螌?duì)話達(dá)到頻率限制而不得不中斷。
③小米發(fā)布的Token Plan
這是4天前小米剛剛推行的一套新的計(jì)費(fèi)邏輯,也是羅福莉在推文中極力倡導(dǎo)的方案。
值得注意的是,發(fā)布當(dāng)天晚上,騰訊也推出了同樣的計(jì)費(fèi)方式。
與Coding Plan不同的是,它不再使用以次數(shù)為限制的虛無縹緲的承諾,而是像手機(jī)流量包的配額制一樣,明確告知用戶一個(gè)周期內(nèi)套餐中能夠使用的token數(shù)量。
當(dāng)然,羅福莉作為小米AI團(tuán)隊(duì)的代表,一篇推文的發(fā)布必然優(yōu)先立足于小米的商業(yè)化利益。
與此同時(shí),如果只看旗艦?zāi)P停∶椎腗iMo-V2-Pro能力和國(guó)內(nèi)第一梯隊(duì)的智譜、MiniMax、Kimi也拉不開太大的差距,但價(jià)格卻并不“親民”。定價(jià)表中“一杯咖啡”的價(jià)格,怕是給星巴克用戶專門定制的。
![]()
但必須承認(rèn)的是,這種計(jì)費(fèi)方式是目前能夠兼顧算力緊缺現(xiàn)狀和商業(yè)利益的唯一解法,也是最符合貨幣經(jīng)濟(jì)運(yùn)行規(guī)律的方式。
人們花錢購(gòu)買生產(chǎn)資料,而產(chǎn)出的價(jià)值則取決于生產(chǎn)力。
AI服務(wù)被量化為可預(yù)測(cè)的成本,“提效”的壓力也交還給了開發(fā)者。
一個(gè)月前被賣到脫銷的Coding Plan已經(jīng)告訴我們,在底層大語(yǔ)言模型的性能拉不開差距的情況下,一價(jià)定律在訂閱服務(wù)上是成立的。
因此,可以預(yù)見,在4月接下來的幾周內(nèi),Token Plan即將接管新的token計(jì)費(fèi)戰(zhàn)場(chǎng)。
至于小米的模型能力到底對(duì)不對(duì)得起定價(jià),市場(chǎng)競(jìng)爭(zhēng)最終會(huì)給出公平的答案。
03
技術(shù)層面的反思
高昂的API調(diào)用成本、限流限售的Coding Plan、再加上讓token進(jìn)一步漲價(jià)的Token Plan,算力緊缺的問題從來沒有被根本解決,反而進(jìn)一步籠罩了全球AI市場(chǎng)。
以前AI巨頭們抱怨算力不夠,是因?yàn)橐?guī)模化定律(Scaling Law)始終在發(fā)揮作用。
在那個(gè)大語(yǔ)言模型跑分決定一切的年代(盡管就是幾個(gè)月以前),想要推出具有競(jìng)爭(zhēng)力的新一代旗艦?zāi)P停惴ā⑺懔蛿?shù)據(jù)就必須有所突破
顯然,相比起算法,算力和數(shù)據(jù)的堆砌在工程上與投入呈明顯的正相關(guān)關(guān)系,只要有更好的數(shù)據(jù)和更多的芯片,模型就必然會(huì)更強(qiáng)大。
但Agent時(shí)代,規(guī)模化定律雖然仍在生效,但效果已經(jīng)不如先前顯著。
如今的算力缺口,從訓(xùn)練階段轉(zhuǎn)移到了推理階段,而Vibe Coding技術(shù)和以O(shè)penClaw為代表的代理程序可謂是罪魁禍?zhǔn)住?/p>
就像我之前的觀點(diǎn)一樣,OpenClaw等一眾桌面代理的出現(xiàn)創(chuàng)造了前所未有的偽需求。
而推理階段中出現(xiàn)很大一部分算力缺口,就是因?yàn)槠?strong>Agent框架設(shè)計(jì)粗糙,人為制造出了大量毫無必要且效能低下的交互。
SGLang的核心貢獻(xiàn)者趙晨陽(yáng)在4月6日發(fā)布的一篇文章中,把這種現(xiàn)象成為“用消防水龍頭澆花”。
而起因是因?yàn)樗谟^測(cè)現(xiàn)有的Agent框架實(shí)際產(chǎn)生的請(qǐng)求模式時(shí),發(fā)現(xiàn)緩存命中率(Cache Hit Rate)慘不忍睹。
這與羅福莉推文中提到的問題完全一致:目前的第三方Agent框架在上下文管理上表現(xiàn)得極其“懶惰”。
為了在復(fù)雜任務(wù)中不會(huì)因?yàn)檫z忘信息而脫離應(yīng)用場(chǎng)景,Agent往往會(huì)在每一輪對(duì)話中都重新發(fā)送一次全量且未經(jīng)優(yōu)化的上下文。
而在接近上下文窗口的上限時(shí),大約每3步就會(huì)“破壞性”地壓縮一次工具響應(yīng)信息。
這種行為在工程角度來看最為直觀和簡(jiǎn)便,但幾乎讓為推理引擎設(shè)計(jì)的提示詞緩存機(jī)制變得無效。
趙晨陽(yáng)的描述很符合目前AI行業(yè)軟硬件發(fā)展的現(xiàn)狀:
硬件工程師拼命把HBM做大,推理引擎工程師拼命優(yōu)化KV Cache內(nèi)存布局,然后上層Agent框架以一種愚蠢的請(qǐng)求方式將資源揮霍殆盡。
這就是各種Claw爆火的匪夷所思之處和商業(yè)邏輯:
模型能力不足→靠Agent框架增加token消耗來彌補(bǔ)→token銷量增加→廠商漲價(jià)
自工業(yè)革命以來,這套運(yùn)行邏輯不符合任何技術(shù)演進(jìn)的過程。
這就好比有人設(shè)計(jì)了一輛極度費(fèi)油、甚至一邊開一邊漏油的破車,駕駛者不僅沒能跑的更遠(yuǎn),反而因?yàn)槔速M(fèi)了大量燃油而推高油價(jià)。
而現(xiàn)實(shí)已經(jīng)證明,這種依靠低效堆砌換來的繁榮必然是虛假的:
3月上旬安裝龍蝦成為凈賺幾百元的生意;
3月中旬AI企業(yè)開始免費(fèi)給用戶安裝龍蝦;
3月下旬上門卸載龍蝦再次成為凈賺幾百元的生意;
4月龍蝦在普通用戶中無人問津。
羅福莉推文中說的一句話值得所有開發(fā)者牢記:
痛苦最終會(huì)轉(zhuǎn)化為工程紀(jì)律。
只有Token變貴到人們不能揮霍的程度,開發(fā)者才會(huì)有動(dòng)力去思考:
如何用更少的Token完成更多的任務(wù)。
04
算力不再是“免費(fèi)午餐”
人們總是在說,AI,或者說token,未來將會(huì)成為水和電一樣的生活基本資源。
于是,AI行業(yè)內(nèi)也普遍形成了一個(gè)共識(shí),未來token的成本將會(huì)被打到一個(gè)極低的水平。
但現(xiàn)實(shí)也如此嗎?
至少目前的趨勢(shì),是token在越來越貴。
國(guó)內(nèi)受限于芯片出口限制,算力必須作為“省著花”的存量資源;國(guó)外受限于電力基建和電網(wǎng)功能,算力變成了有上限的增量資源。
在這種既需要算力加強(qiáng)基礎(chǔ)模型性能,又需要算力滿足爆發(fā)的推理需求的環(huán)境下,算力的供不應(yīng)求已經(jīng)不僅是AI企業(yè)需要考慮的問題,全球的AI用戶也必須承擔(dān)一部分經(jīng)濟(jì)成本的壓力。
也因此,Coding Plan幾周前的價(jià)格戰(zhàn)無需任何叫停的聲音就已經(jīng)銷聲匿跡。
按照火山引擎總裁譚待所說,國(guó)內(nèi)智能體用戶的體量只有百萬級(jí),而這已經(jīng)能讓各大AI企業(yè)在短短一周之內(nèi)接連漲價(jià)訂閱服務(wù),核心原因仍然是:
其中存在大量快速消耗token但產(chǎn)出價(jià)值極低的偽需求。當(dāng)算力以大鍋飯的形式供給大眾時(shí),這些偽需求就會(huì)快速擠占公共資源。
于是,“精準(zhǔn)配給制”理所應(yīng)當(dāng)?shù)爻霈F(xiàn)了。
Google的Gemini API增加了付費(fèi)優(yōu)先級(jí),小米和騰訊推出了價(jià)格更高的token訂閱服務(wù),本質(zhì)上都是在通過價(jià)格手段進(jìn)行資源的最優(yōu)配置。
按token使用量計(jì)費(fèi),正是要讓更具價(jià)值的token分配給能創(chuàng)造出更多價(jià)值的人。
而這場(chǎng)算力經(jīng)濟(jì)的變局,遲早要深刻影響每一個(gè)AI用戶的日常。
在過去的二十年里,軟件工程的主旋律一直是“用空間換時(shí)間”和“用硬件換開發(fā)效率”。
但在Agent時(shí)代,算力被抽象為token,顛覆了這套邏輯并成為了最昂貴的變量。
未來的AI用戶,可能不會(huì)再有0門檻使用AI完成生產(chǎn)任務(wù)的機(jī)會(huì),還必須做出一個(gè)艱難的二選一:
要么有錢購(gòu)買高價(jià)值token,要么懂得算力預(yù)算管理。
也就是說,對(duì)于絕大部分人們,在使用AI時(shí)都必須有清醒的認(rèn)知,并準(zhǔn)確判斷一項(xiàng)任務(wù)值得調(diào)用什么水平的模型,甚至是一段上下文如何進(jìn)行更有效地摘要和每一次工具調(diào)用是否是冗余的操作。
或許不容易意識(shí)到,但我們已經(jīng)被迫進(jìn)入了一個(gè)算力精算的時(shí)代。
不僅是開發(fā)者,每一個(gè)AI用戶都必須站在推理引擎、模型能力和業(yè)務(wù)價(jià)值的十字路口做出權(quán)衡。
低效的用戶依靠暴力堆砌token,在頻繁的改錯(cuò)和吵架中耗盡額度,最終和拒絕使用AI的人并無兩樣。
而高效的用戶學(xué)會(huì)設(shè)計(jì)出更好的提示詞架構(gòu),用更聰明的調(diào)度方式讓模型在更短的上下文中給出答案。
這場(chǎng)由Anthropic切斷第三方渠道引發(fā)的討論,已經(jīng)給所有人敲響了警鐘:
算力紅利接近枯竭,算力紀(jì)律已經(jīng)降臨。
我們必須接受高價(jià)值token正在變得昂貴而稀缺的現(xiàn)實(shí),而且只能在這個(gè)現(xiàn)實(shí)中尋找新的工程最優(yōu)解。
羅福莉在推文的最后給出了一句結(jié)論:
Agent時(shí)代不屬于燒算力最兇猛的人,而屬于利用算力最聰明的人。
提高生產(chǎn)力的關(guān)鍵,絕不是規(guī)定每個(gè)員工一個(gè)月必須要用掉多少token這種滑稽的做法,而是如何把單位算力的智商產(chǎn)出比提升一個(gè)數(shù)量級(jí),這才是Agent時(shí)代的入場(chǎng)券。
至于通用人工智能(AGI),在現(xiàn)有的底層模型能力和Agent算法框架水平下,還只是春秋大夢(mèng)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.