文 | 深流研究所,作者 | 之豐
上周,豆包正式開(kāi)始收費(fèi)了。它推出了一個(gè)專業(yè)版,分成三檔價(jià)格,最高級(jí)的套餐包年費(fèi)用達(dá)到了5088元。
緊接著,一向以"價(jià)格屠夫"聞名天下的DeepSeek,也要更換計(jì)價(jià)方式。實(shí)行新的峰谷定價(jià)模式后,每天上午9點(diǎn)到12點(diǎn)、下午2點(diǎn)到6點(diǎn)算高峰,調(diào)用成本直接翻倍。
![]()
圖源:DeepSeek開(kāi)放平臺(tái)
所有看似饋贈(zèng)的禮物,都暗中標(biāo)好了價(jià)格。ChatGPT今年2月初就往免費(fèi)用戶對(duì)話框里塞廣告,上星期還跑去法國(guó)大舉招商,廣告推送的密度一下子增加。
白嫖AI的時(shí)代,似乎馬上要結(jié)束了。去年這時(shí)候,各家還在打價(jià)格戰(zhàn),現(xiàn)在大家都在想:到底怎么能讓AI這門(mén)生意不再是只進(jìn)不出的無(wú)底洞?
1、商業(yè)化落地兩頭堵
一家AI公司想賺錢,無(wú)非兩條路。要么多收錢,要么少花錢。但現(xiàn)在,兩頭都堵住了。
過(guò)去幾年,大家想的都是怎么把用戶規(guī)模沖上去。畢竟,互聯(lián)網(wǎng)那套打法太深入人心了。前期瘋狂燒錢拉用戶,虧錢不要緊,等用戶規(guī)模夠大了,成本自然攤薄。但互聯(lián)網(wǎng)的邊際成本幾乎是零,多一個(gè)用戶訪問(wèn),服務(wù)器成本幾乎不漲。
AI產(chǎn)品更接近制造業(yè)邏輯,用戶規(guī)模沖上去,算力成本也跟著沖上去了。因?yàn)锳I的成本是剛性的。多一個(gè)用戶問(wèn)一句話,模型就得實(shí)打?qū)嵟芤淮瓮评恚瑹淮嗡懔ΑS脩粼蕉啵瑢?duì)話越多,燒得就越多。
月活用戶9億的OpenAI去年凈虧損385億美元,到了今年第一季度,情況也沒(méi)有改善,公司每收入1美元,就要賠1.22美元。豆包這邊,盡管日均token調(diào)用量已經(jīng)達(dá)到了180萬(wàn)億,日收入?yún)s不足100萬(wàn)元。
![]()
在ChatGPT詢問(wèn)“如何學(xué)習(xí)AI”的回答底部出現(xiàn)了廣告
另一方面,算力供給本身就是稀缺資源,這讓算力價(jià)格一直被頂在高位,總成本下不來(lái)。
現(xiàn)在來(lái)看,算力供給的約束是很硬的物理墻,沒(méi)那么容易突破。先是電。Gartner預(yù)測(cè),2030年全球數(shù)據(jù)中心用電量將超過(guò)1200TWh,屆時(shí)電網(wǎng)供電將無(wú)法滿足需求。再是芯片。全球高階AI芯片的先進(jìn)封裝幾乎全靠臺(tái)積電,但臺(tái)積電的產(chǎn)能擴(kuò)得再快,英偉達(dá)一家就能吃掉六成以上,剩下那四成還要被幾十家公司搶,有錢也排不到號(hào)。
更何況,AI形態(tài)正在從一問(wèn)一答的Chatbot,轉(zhuǎn)向需要持續(xù)運(yùn)行的Agent。Agent要將人類給的幾行任務(wù),轉(zhuǎn)化為在后臺(tái)進(jìn)行成百上千次的自我推理、工具調(diào)用與記憶吞吐,這個(gè)轉(zhuǎn)變對(duì)算力的需求是數(shù)量級(jí)的躍升。
所以說(shuō),算力成本面臨雙重夾擊。調(diào)用量漲多少,成本就跟著漲多少,規(guī)模無(wú)法攤薄成本;供給又還無(wú)法滿足持續(xù)攀升的需求,成本降不下來(lái)。
那就漲價(jià),多收錢不就行了嗎?
在To B的生產(chǎn)力場(chǎng)景,提價(jià)沒(méi)問(wèn)題。畢竟客戶買的是解決復(fù)雜專業(yè)問(wèn)題的能力,智能上限和真實(shí)能力是第一約束,企業(yè)能接受為此付出高成本。無(wú)論是Anthropic的ARR暴漲、智譜的股價(jià)上天還是workbuddy的廣受好評(píng),都說(shuō)明了這一點(diǎn)。
但在ToC場(chǎng)景里,情況完全不同。2025年ChatGPT的9億周活躍用戶中,個(gè)人訂閱用戶約5000萬(wàn),占比僅約5%。
國(guó)內(nèi)的付費(fèi)意愿更低。在"免費(fèi)+廣告"的互聯(lián)網(wǎng)模式的長(zhǎng)期浸泡下,國(guó)內(nèi)用戶沒(méi)有養(yǎng)成為獨(dú)立軟件付費(fèi)的習(xí)慣。5月初豆包試水訂閱時(shí),"豆包 笨還收費(fèi)"就沖上了熱搜。
說(shuō)白了,現(xiàn)在普通用戶對(duì)ToC的AI產(chǎn)品是沒(méi)有忠誠(chéng)度,誰(shuí)用起來(lái)方便和順手就用誰(shuí)。別說(shuō)提價(jià)了,就算從免費(fèi)到付費(fèi),都會(huì)趕跑一堆人。
那面前剩下給企業(yè)的路就是:在AI完成同等任務(wù)時(shí),能不能消耗更少的算力資源?
這就是現(xiàn)在整個(gè)行業(yè)都在干的事情:效率優(yōu)先。
2、讓每一分算力都花得值
從里到外,現(xiàn)在行業(yè)每一層都在沿著效率思路做事。
在最底下的硬件層,連英偉達(dá)都覺(jué)得光靠GPU不夠了。今年英偉達(dá)在GTC大會(huì)上推出了一種叫LPU的新芯片,基于它去年獲得技術(shù)授權(quán)的Groq打造,專門(mén)優(yōu)化AI推理場(chǎng)景。
怎么理解?GPU擅長(zhǎng)高并發(fā)的大規(guī)模計(jì)算,像一支萬(wàn)人方陣一起沖鋒,現(xiàn)在更多是用在大模型的預(yù)訓(xùn)練上,去提高智能上限。LPU像一個(gè)精銳小隊(duì),擅長(zhǎng)快速出擊完成任務(wù)。日常面向普通用戶的推理場(chǎng)景,其實(shí)不需要千軍萬(wàn)馬同時(shí)出擊,響應(yīng)又快、又省錢才是性價(jià)比最高的。
芯片之上是模型架構(gòu)。MoE(混合專家架構(gòu))這兩年成了主流,它的妙處是,模型的總參數(shù)可以堆到萬(wàn)億級(jí)別保證腦容量夠大,但每次干活只激活其中一小撮參數(shù),做到又強(qiáng)、又省。這可以理解為每次接到任務(wù),一家公司會(huì)按需調(diào)用,從全體人員中挑選出最合適這個(gè)任務(wù)的那幾個(gè)專家去干活。
把激活率壓低難,更難的是要選對(duì)"專家",不然該激活的沒(méi)激活,答案質(zhì)量就崩了。比如,DeepSeek V4 Pro總參數(shù)1.6萬(wàn)億,每次只激活490億,相當(dāng)于只動(dòng)用了3%的精銳員工。結(jié)果呢?編碼能力逼近頂級(jí)閉源模型,輸出價(jià)格只有GPT-5.5的八分之一。
騰訊前段時(shí)間開(kāi)源的hy3 preview也是這個(gè)路數(shù)。295B參數(shù)、激活僅21B,相當(dāng)于能力接近300B級(jí)模型,成本卻是20B級(jí)別。上了OpenRouter之后開(kāi)發(fā)者涌進(jìn)來(lái)用,除了免費(fèi),也是因?yàn)檫@個(gè)體量下性價(jià)比確實(shí)能打。
顯然是驗(yàn)證了這個(gè)方向走得通,最近騰訊灰度內(nèi)測(cè)的AI助手小微用的也同樣的思路。小微背后的模型叫WeLM,總參數(shù)800億,但每次只激活30億,激活率低到3.75%,比目前國(guó)內(nèi)極致成本性能的代表DeepSeek-V4-Flash(激活率4.6%)還要低。
為什么要把激活率壓這么低?因?yàn)橐晕⑿旁禄?4億的體量,一旦"小微"全量開(kāi)放,每天的推理量是天文數(shù)字,模型性價(jià)比不夠高的話,光電費(fèi)就能把利潤(rùn)吃干凈。所以小微絕大多數(shù)日常請(qǐng)求交給又快又便宜的WeLM,碰上真正的硬骨頭也有合作模型兜底。
在模型跑的過(guò)程中,還能靠工程巧勁再榨一輪算力。比如DeepSeek等等都在用的一招叫KV緩存復(fù)用,意思是你跟AI反復(fù)聊同一個(gè)話題,系統(tǒng)提示詞、常用前綴這些重復(fù)內(nèi)容,不需要每次都從頭算,直接調(diào)上次的計(jì)算結(jié)果就行。相當(dāng)于你通勤次數(shù)多了,熟悉路線后就不用每次都重新導(dǎo)航。
除了工程手段,DeepSeek還給出一個(gè)新招,那就是用價(jià)格杠桿來(lái)優(yōu)化算力調(diào)度。
在DeepSeek新的計(jì)價(jià)方式下,平峰時(shí)段價(jià)格不變,緩存命中依然壓到接近免費(fèi)。這等于用價(jià)格信號(hào)把一部分負(fù)載從白天引導(dǎo)到夜間低谷期,讓原本閑置的算力被利用起來(lái)。同一批GPU,24小時(shí)整體利用率更高,單位成本自然就降低了。
前面說(shuō)到,到了Agent時(shí)代,算力的問(wèn)題是更棘手的。Agent干活時(shí),大量token其實(shí)花在了重復(fù)搬運(yùn)信息上,不是真正生產(chǎn)新東西。多個(gè)Agent協(xié)作時(shí)更夸張,它們聚在一起,就像開(kāi)低效會(huì)議一樣,反復(fù)確認(rèn)已經(jīng)討論過(guò)的背景。任務(wù)越長(zhǎng)程,空轉(zhuǎn)越嚴(yán)重。
谷歌的A2A協(xié)議和Anthropic的MCP協(xié)議就是沖著解決這個(gè)問(wèn)題來(lái)的。簡(jiǎn)單來(lái)說(shuō),MCP能讓單個(gè)Agent內(nèi)部復(fù)用上下文,不用每次從頭來(lái)過(guò);A2A讓多個(gè)Agent之間共享已有成果,避免重復(fù)勞動(dòng)。一個(gè)管內(nèi)耗,一個(gè)管重復(fù),配合起來(lái)減少Agent協(xié)作時(shí)的無(wú)效推理。
效率優(yōu)先不只是企業(yè)的一廂情愿,用戶的需求本身也在分化。
有一個(gè)衡量市場(chǎng)AI付費(fèi)意愿的指標(biāo)叫LLM Token支出指數(shù),最近持續(xù)走低。指標(biāo)回落的背后,是用戶在加速離開(kāi)那些昂貴的、參數(shù)巨大的前沿模型,轉(zhuǎn)頭涌向性價(jià)比高、專門(mén)優(yōu)化過(guò)的輕量級(jí)和MoE模型。
![]()
圖源:Citadel Securities的報(bào)告《Tokennomics》
針對(duì)這些現(xiàn)象,最近Citadel Securities給出的判斷一針見(jiàn)血:前沿人工智能和"日常"("everyday")人工智能的使用,正在出現(xiàn)分化的跡象。換句話說(shuō),前沿AI追求的是智能上限,日常AI追求的是極致效率,已經(jīng)不能用同一把尺子比較兩種AI路線了。
這不是說(shuō)前沿模型不重要了。頭部大模型依然會(huì)不斷追求智能上限,這部分的需求也是有的。但大家已經(jīng)意識(shí)到,只有少數(shù)專業(yè)或者復(fù)雜化的場(chǎng)景值得調(diào)用昂貴的AI模型,大多數(shù)場(chǎng)景下其實(shí)可以主動(dòng)降級(jí)到性價(jià)比更高的模型。
畢竟,一家公司不會(huì)讓首席分析師去接前臺(tái)電話,模型使用也是一樣,大炮打蚊子只會(huì)浪費(fèi)資源。
而效率優(yōu)先做成了,企業(yè)和用戶兩頭都能受益。企業(yè)這頭,單次推理成本壓下來(lái),利潤(rùn)就能看得見(jiàn)。另一邊,企業(yè)端成本降下來(lái)后,還能反過(guò)來(lái)打開(kāi)降價(jià)空間。價(jià)格一降,原本被價(jià)格擋在門(mén)外的用戶進(jìn)得來(lái),付費(fèi)規(guī)模才能健康地往上走,形成正向循環(huán)。
3、做人人可用的AI
這段時(shí)間,除了To C端AI產(chǎn)品漲價(jià),巨頭們也在縮減內(nèi)部員工的token使用量。
微軟已經(jīng)開(kāi)始取消內(nèi)部的Claude Code 許可,讓員工轉(zhuǎn)向自家內(nèi)部更便宜的Copilot CLI。亞馬遜明確要求員工不要為了用AI而用AI,Meta也撤下了內(nèi)部的token消耗排行榜。
結(jié)果就是,大家被逼著去學(xué)習(xí)如何最大化利用token。一個(gè)懂行的工程師,確實(shí)能把AI的賬單壓得很低。他知道怎么精簡(jiǎn)提示詞、控制上下文長(zhǎng)度、避免讓模型反復(fù)讀同一份資料。對(duì)他來(lái)說(shuō),這些都是順手學(xué)習(xí)的事。
![]()
近期CSDN社區(qū)上有關(guān)節(jié)省token的技術(shù)帖子
但有多少普通用戶能讀懂這些省token的技術(shù)帖子,又能每次有意識(shí)地控制token使用?他們更可能是一直在為遠(yuǎn)超實(shí)際需要的算力買單,自己也不知道如何解決。
這個(gè)落差不應(yīng)該由用戶來(lái)填。怎么更高性價(jià)比地使用AI,應(yīng)該從用戶身上挪到機(jī)制層面。理想的情況是,用戶不需要知道背后有幾種模型在跑,系統(tǒng)能判斷這個(gè)簡(jiǎn)單任務(wù)交給便宜的小模型,那個(gè)任務(wù)復(fù)雜才調(diào)用貴的模型。就像你用搜索引擎不需要知道后面有多少臺(tái)服務(wù)器在響應(yīng)你一樣。
只有這樣,更多像你我這樣用AI的普通人,才能從這項(xiàng)新技術(shù)中受益。
說(shuō)到底,技術(shù)的價(jià)值,從來(lái)不在于它能做到多極致,而在于它能觸達(dá)多少人。如果AI能力不能為人人所用,它就只是一場(chǎng)精英的狂歡。
就像電力沒(méi)有走進(jìn)每一個(gè)家庭之前,它只是工廠的特權(quán),互聯(lián)網(wǎng)鋪到每一個(gè)縣城之前,信息鴻溝照樣橫亙?cè)谀抢铩I也是一樣,效率優(yōu)先不只是一個(gè)商業(yè)命題,它更是一個(gè)技術(shù)平權(quán)的問(wèn)題。
從少數(shù)人的工具變成所有人的基礎(chǔ)設(shè)施,是每一次技術(shù)革命的關(guān)鍵時(shí)刻。而AI的普及,不取決于最強(qiáng)的模型理論上能做什么,而取決于大規(guī)模跑AI的成本能壓到多低。現(xiàn)在,AI正站在這個(gè)時(shí)刻的門(mén)口,效率優(yōu)先就是推開(kāi)這扇門(mén)的那雙手。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.