網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

精打細(xì)算的AI時(shí)代到來(lái)了

2026-07-02 10:55:18　來(lái)源: 鈦媒體APP

北京舉報(bào)

分享至

文 | 深流研究所，作者 | 之豐

上周，豆包正式開(kāi)始收費(fèi)了。它推出了一個(gè)專業(yè)版，分成三檔價(jià)格，最高級(jí)的套餐包年費(fèi)用達(dá)到了5088元。

緊接著，一向以"價(jià)格屠夫"聞名天下的DeepSeek，也要更換計(jì)價(jià)方式。實(shí)行新的峰谷定價(jià)模式后，每天上午9點(diǎn)到12點(diǎn)、下午2點(diǎn)到6點(diǎn)算高峰，調(diào)用成本直接翻倍。

圖源：DeepSeek開(kāi)放平臺(tái)

所有看似饋贈(zèng)的禮物，都暗中標(biāo)好了價(jià)格。ChatGPT今年2月初就往免費(fèi)用戶對(duì)話框里塞廣告，上星期還跑去法國(guó)大舉招商，廣告推送的密度一下子增加。

白嫖AI的時(shí)代，似乎馬上要結(jié)束了。去年這時(shí)候，各家還在打價(jià)格戰(zhàn)，現(xiàn)在大家都在想：到底怎么能讓AI這門(mén)生意不再是只進(jìn)不出的無(wú)底洞？

1、商業(yè)化落地兩頭堵

一家AI公司想賺錢，無(wú)非兩條路。要么多收錢，要么少花錢。但現(xiàn)在，兩頭都堵住了。

過(guò)去幾年，大家想的都是怎么把用戶規(guī)模沖上去。畢竟，互聯(lián)網(wǎng)那套打法太深入人心了。前期瘋狂燒錢拉用戶，虧錢不要緊，等用戶規(guī)模夠大了，成本自然攤薄。但互聯(lián)網(wǎng)的邊際成本幾乎是零，多一個(gè)用戶訪問(wèn)，服務(wù)器成本幾乎不漲。

AI產(chǎn)品更接近制造業(yè)邏輯，用戶規(guī)模沖上去，算力成本也跟著沖上去了。因?yàn)锳I的成本是剛性的。多一個(gè)用戶問(wèn)一句話，模型就得實(shí)打?qū)嵟芤淮瓮评恚瑹淮嗡懔ΑＳ脩粼蕉啵瑢?duì)話越多，燒得就越多。

月活用戶9億的OpenAI去年凈虧損385億美元，到了今年第一季度，情況也沒(méi)有改善，公司每收入1美元，就要賠1.22美元。豆包這邊，盡管日均token調(diào)用量已經(jīng)達(dá)到了180萬(wàn)億，日收入?yún)s不足100萬(wàn)元。

在ChatGPT詢問(wèn)“如何學(xué)習(xí)AI”的回答底部出現(xiàn)了廣告

另一方面，算力供給本身就是稀缺資源，這讓算力價(jià)格一直被頂在高位，總成本下不來(lái)。

現(xiàn)在來(lái)看，算力供給的約束是很硬的物理墻，沒(méi)那么容易突破。先是電。Gartner預(yù)測(cè)，2030年全球數(shù)據(jù)中心用電量將超過(guò)1200TWh，屆時(shí)電網(wǎng)供電將無(wú)法滿足需求。再是芯片。全球高階AI芯片的先進(jìn)封裝幾乎全靠臺(tái)積電，但臺(tái)積電的產(chǎn)能擴(kuò)得再快，英偉達(dá)一家就能吃掉六成以上，剩下那四成還要被幾十家公司搶，有錢也排不到號(hào)。

更何況，AI形態(tài)正在從一問(wèn)一答的Chatbot，轉(zhuǎn)向需要持續(xù)運(yùn)行的Agent。Agent要將人類給的幾行任務(wù)，轉(zhuǎn)化為在后臺(tái)進(jìn)行成百上千次的自我推理、工具調(diào)用與記憶吞吐，這個(gè)轉(zhuǎn)變對(duì)算力的需求是數(shù)量級(jí)的躍升。

所以說(shuō)，算力成本面臨雙重夾擊。調(diào)用量漲多少，成本就跟著漲多少，規(guī)模無(wú)法攤薄成本；供給又還無(wú)法滿足持續(xù)攀升的需求，成本降不下來(lái)。

那就漲價(jià)，多收錢不就行了嗎？

在To B的生產(chǎn)力場(chǎng)景，提價(jià)沒(méi)問(wèn)題。畢竟客戶買的是解決復(fù)雜專業(yè)問(wèn)題的能力，智能上限和真實(shí)能力是第一約束，企業(yè)能接受為此付出高成本。無(wú)論是Anthropic的ARR暴漲、智譜的股價(jià)上天還是workbuddy的廣受好評(píng)，都說(shuō)明了這一點(diǎn)。

但在ToC場(chǎng)景里，情況完全不同。2025年ChatGPT的9億周活躍用戶中，個(gè)人訂閱用戶約5000萬(wàn)，占比僅約5%。

國(guó)內(nèi)的付費(fèi)意愿更低。在"免費(fèi)+廣告"的互聯(lián)網(wǎng)模式的長(zhǎng)期浸泡下，國(guó)內(nèi)用戶沒(méi)有養(yǎng)成為獨(dú)立軟件付費(fèi)的習(xí)慣。5月初豆包試水訂閱時(shí)，"豆包笨還收費(fèi)"就沖上了熱搜。

說(shuō)白了，現(xiàn)在普通用戶對(duì)ToC的AI產(chǎn)品是沒(méi)有忠誠(chéng)度，誰(shuí)用起來(lái)方便和順手就用誰(shuí)。別說(shuō)提價(jià)了，就算從免費(fèi)到付費(fèi)，都會(huì)趕跑一堆人。

那面前剩下給企業(yè)的路就是：在AI完成同等任務(wù)時(shí)，能不能消耗更少的算力資源？

這就是現(xiàn)在整個(gè)行業(yè)都在干的事情：效率優(yōu)先。

2、讓每一分算力都花得值

從里到外，現(xiàn)在行業(yè)每一層都在沿著效率思路做事。

在最底下的硬件層，連英偉達(dá)都覺(jué)得光靠GPU不夠了。今年英偉達(dá)在GTC大會(huì)上推出了一種叫LPU的新芯片，基于它去年獲得技術(shù)授權(quán)的Groq打造，專門(mén)優(yōu)化AI推理場(chǎng)景。

怎么理解？GPU擅長(zhǎng)高并發(fā)的大規(guī)模計(jì)算，像一支萬(wàn)人方陣一起沖鋒，現(xiàn)在更多是用在大模型的預(yù)訓(xùn)練上，去提高智能上限。LPU像一個(gè)精銳小隊(duì)，擅長(zhǎng)快速出擊完成任務(wù)。日常面向普通用戶的推理場(chǎng)景，其實(shí)不需要千軍萬(wàn)馬同時(shí)出擊，響應(yīng)又快、又省錢才是性價(jià)比最高的。

芯片之上是模型架構(gòu)。MoE（混合專家架構(gòu)）這兩年成了主流，它的妙處是，模型的總參數(shù)可以堆到萬(wàn)億級(jí)別保證腦容量夠大，但每次干活只激活其中一小撮參數(shù)，做到又強(qiáng)、又省。這可以理解為每次接到任務(wù)，一家公司會(huì)按需調(diào)用，從全體人員中挑選出最合適這個(gè)任務(wù)的那幾個(gè)專家去干活。

把激活率壓低難，更難的是要選對(duì)"專家"，不然該激活的沒(méi)激活，答案質(zhì)量就崩了。比如，DeepSeek V4 Pro總參數(shù)1.6萬(wàn)億，每次只激活490億，相當(dāng)于只動(dòng)用了3%的精銳員工。結(jié)果呢？編碼能力逼近頂級(jí)閉源模型，輸出價(jià)格只有GPT-5.5的八分之一。

騰訊前段時(shí)間開(kāi)源的hy3 preview也是這個(gè)路數(shù)。295B參數(shù)、激活僅21B，相當(dāng)于能力接近300B級(jí)模型，成本卻是20B級(jí)別。上了OpenRouter之后開(kāi)發(fā)者涌進(jìn)來(lái)用，除了免費(fèi)，也是因?yàn)檫@個(gè)體量下性價(jià)比確實(shí)能打。

顯然是驗(yàn)證了這個(gè)方向走得通，最近騰訊灰度內(nèi)測(cè)的AI助手小微用的也同樣的思路。小微背后的模型叫WeLM，總參數(shù)800億，但每次只激活30億，激活率低到3.75%，比目前國(guó)內(nèi)極致成本性能的代表DeepSeek-V4-Flash（激活率4.6%）還要低。

為什么要把激活率壓這么低？因?yàn)橐晕⑿旁禄?4億的體量，一旦"小微"全量開(kāi)放，每天的推理量是天文數(shù)字，模型性價(jià)比不夠高的話，光電費(fèi)就能把利潤(rùn)吃干凈。所以小微絕大多數(shù)日常請(qǐng)求交給又快又便宜的WeLM，碰上真正的硬骨頭也有合作模型兜底。

在模型跑的過(guò)程中，還能靠工程巧勁再榨一輪算力。比如DeepSeek等等都在用的一招叫KV緩存復(fù)用，意思是你跟AI反復(fù)聊同一個(gè)話題，系統(tǒng)提示詞、常用前綴這些重復(fù)內(nèi)容，不需要每次都從頭算，直接調(diào)上次的計(jì)算結(jié)果就行。相當(dāng)于你通勤次數(shù)多了，熟悉路線后就不用每次都重新導(dǎo)航。

除了工程手段，DeepSeek還給出一個(gè)新招，那就是用價(jià)格杠桿來(lái)優(yōu)化算力調(diào)度。

在DeepSeek新的計(jì)價(jià)方式下，平峰時(shí)段價(jià)格不變，緩存命中依然壓到接近免費(fèi)。這等于用價(jià)格信號(hào)把一部分負(fù)載從白天引導(dǎo)到夜間低谷期，讓原本閑置的算力被利用起來(lái)。同一批GPU，24小時(shí)整體利用率更高，單位成本自然就降低了。

前面說(shuō)到，到了Agent時(shí)代，算力的問(wèn)題是更棘手的。Agent干活時(shí)，大量token其實(shí)花在了重復(fù)搬運(yùn)信息上，不是真正生產(chǎn)新東西。多個(gè)Agent協(xié)作時(shí)更夸張，它們聚在一起，就像開(kāi)低效會(huì)議一樣，反復(fù)確認(rèn)已經(jīng)討論過(guò)的背景。任務(wù)越長(zhǎng)程，空轉(zhuǎn)越嚴(yán)重。

谷歌的A2A協(xié)議和Anthropic的MCP協(xié)議就是沖著解決這個(gè)問(wèn)題來(lái)的。簡(jiǎn)單來(lái)說(shuō)，MCP能讓單個(gè)Agent內(nèi)部復(fù)用上下文，不用每次從頭來(lái)過(guò)；A2A讓多個(gè)Agent之間共享已有成果，避免重復(fù)勞動(dòng)。一個(gè)管內(nèi)耗，一個(gè)管重復(fù)，配合起來(lái)減少Agent協(xié)作時(shí)的無(wú)效推理。

效率優(yōu)先不只是企業(yè)的一廂情愿，用戶的需求本身也在分化。

有一個(gè)衡量市場(chǎng)AI付費(fèi)意愿的指標(biāo)叫LLM Token支出指數(shù)，最近持續(xù)走低。指標(biāo)回落的背后，是用戶在加速離開(kāi)那些昂貴的、參數(shù)巨大的前沿模型，轉(zhuǎn)頭涌向性價(jià)比高、專門(mén)優(yōu)化過(guò)的輕量級(jí)和MoE模型。

圖源：Citadel Securities的報(bào)告《Tokennomics》

針對(duì)這些現(xiàn)象，最近Citadel Securities給出的判斷一針見(jiàn)血：前沿人工智能和"日常"（"everyday"）人工智能的使用，正在出現(xiàn)分化的跡象。換句話說(shuō)，前沿AI追求的是智能上限，日常AI追求的是極致效率，已經(jīng)不能用同一把尺子比較兩種AI路線了。

這不是說(shuō)前沿模型不重要了。頭部大模型依然會(huì)不斷追求智能上限，這部分的需求也是有的。但大家已經(jīng)意識(shí)到，只有少數(shù)專業(yè)或者復(fù)雜化的場(chǎng)景值得調(diào)用昂貴的AI模型，大多數(shù)場(chǎng)景下其實(shí)可以主動(dòng)降級(jí)到性價(jià)比更高的模型。

畢竟，一家公司不會(huì)讓首席分析師去接前臺(tái)電話，模型使用也是一樣，大炮打蚊子只會(huì)浪費(fèi)資源。

而效率優(yōu)先做成了，企業(yè)和用戶兩頭都能受益。企業(yè)這頭，單次推理成本壓下來(lái)，利潤(rùn)就能看得見(jiàn)。另一邊，企業(yè)端成本降下來(lái)后，還能反過(guò)來(lái)打開(kāi)降價(jià)空間。價(jià)格一降，原本被價(jià)格擋在門(mén)外的用戶進(jìn)得來(lái)，付費(fèi)規(guī)模才能健康地往上走，形成正向循環(huán)。

3、做人人可用的AI

這段時(shí)間，除了To C端AI產(chǎn)品漲價(jià)，巨頭們也在縮減內(nèi)部員工的token使用量。

微軟已經(jīng)開(kāi)始取消內(nèi)部的Claude Code 許可，讓員工轉(zhuǎn)向自家內(nèi)部更便宜的Copilot CLI。亞馬遜明確要求員工不要為了用AI而用AI，Meta也撤下了內(nèi)部的token消耗排行榜。

結(jié)果就是，大家被逼著去學(xué)習(xí)如何最大化利用token。一個(gè)懂行的工程師，確實(shí)能把AI的賬單壓得很低。他知道怎么精簡(jiǎn)提示詞、控制上下文長(zhǎng)度、避免讓模型反復(fù)讀同一份資料。對(duì)他來(lái)說(shuō)，這些都是順手學(xué)習(xí)的事。

近期CSDN社區(qū)上有關(guān)節(jié)省token的技術(shù)帖子

但有多少普通用戶能讀懂這些省token的技術(shù)帖子，又能每次有意識(shí)地控制token使用？他們更可能是一直在為遠(yuǎn)超實(shí)際需要的算力買單，自己也不知道如何解決。

這個(gè)落差不應(yīng)該由用戶來(lái)填。怎么更高性價(jià)比地使用AI，應(yīng)該從用戶身上挪到機(jī)制層面。理想的情況是，用戶不需要知道背后有幾種模型在跑，系統(tǒng)能判斷這個(gè)簡(jiǎn)單任務(wù)交給便宜的小模型，那個(gè)任務(wù)復(fù)雜才調(diào)用貴的模型。就像你用搜索引擎不需要知道后面有多少臺(tái)服務(wù)器在響應(yīng)你一樣。

只有這樣，更多像你我這樣用AI的普通人，才能從這項(xiàng)新技術(shù)中受益。

說(shuō)到底，技術(shù)的價(jià)值，從來(lái)不在于它能做到多極致，而在于它能觸達(dá)多少人。如果AI能力不能為人人所用，它就只是一場(chǎng)精英的狂歡。

就像電力沒(méi)有走進(jìn)每一個(gè)家庭之前，它只是工廠的特權(quán)，互聯(lián)網(wǎng)鋪到每一個(gè)縣城之前，信息鴻溝照樣橫亙?cè)谀抢铩I也是一樣，效率優(yōu)先不只是一個(gè)商業(yè)命題，它更是一個(gè)技術(shù)平權(quán)的問(wèn)題。

從少數(shù)人的工具變成所有人的基礎(chǔ)設(shè)施，是每一次技術(shù)革命的關(guān)鍵時(shí)刻。而AI的普及，不取決于最強(qiáng)的模型理論上能做什么，而取決于大規(guī)模跑AI的成本能壓到多低。現(xiàn)在，AI正站在這個(gè)時(shí)刻的門(mén)口，效率優(yōu)先就是推開(kāi)這扇門(mén)的那雙手。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.