開(kāi)發(fā)者對(duì)算力的需求,已經(jīng)具體到一種顆粒度——"token"(詞元)。一個(gè)token可能是一個(gè)詞、一個(gè)標(biāo)點(diǎn),甚至半個(gè)漢字。當(dāng)AI應(yīng)用爆發(fā),這個(gè)最小單位正在重塑云計(jì)算的底層邏輯。
Parasail,一家成立僅一年的云服務(wù)商,每天處理5000億個(gè)token。它的創(chuàng)始人Mike Henry來(lái)自芯片獨(dú)角獸Groq,剛拿到3200萬(wàn)美元A輪融資。他不自建數(shù)據(jù)中心,卻在40個(gè)數(shù)據(jù)中心之間"倒賣"算力,聲稱能比OpenAI便宜得多。
![]()
這聽(tīng)起來(lái)像套利生意。但Henry賭的是:開(kāi)源模型和AI Agent的爆發(fā),會(huì)讓"tokenmaxxing"(詞元最大化)成為下一代云計(jì)算的核心戰(zhàn)場(chǎng)。
從Groq出走:為什么專門服務(wù)"推理"場(chǎng)景?
Henry的背景很硬——物理芯片設(shè)計(jì)出身,在Groq負(fù)責(zé)搭建云服務(wù)。Groq以LLM(大語(yǔ)言模型)專用芯片聞名,Henry在那里最早意識(shí)到一件事:跑AI模型的開(kāi)發(fā)者,需要的不是通用云計(jì)算,而是專門優(yōu)化過(guò)的推理基礎(chǔ)設(shè)施。
訓(xùn)練模型是一次性燒錢,推理是持續(xù)性吸血。一個(gè)日活百萬(wàn)的AI應(yīng)用,每秒鐘可能產(chǎn)生數(shù)萬(wàn)次模型調(diào)用,每次都要消耗token。成本結(jié)構(gòu)完全不同,技術(shù)棧也完全不同。
2024年,Henry創(chuàng)立Parasail。公司不承諾自研芯片——雖然有一部分自有GPU,但核心模式是"全球采購(gòu)+智能調(diào)度":在15個(gè)國(guó)家的40個(gè)數(shù)據(jù)中心租算力,再?gòu)牧鲃?dòng)性市場(chǎng)買現(xiàn)貨,用軟件層把碎片資源整合成統(tǒng)一服務(wù)。
關(guān)鍵在調(diào)度算法。Henry的邏輯是:通過(guò)錯(cuò)峰分配負(fù)載、避開(kāi)需求高峰,可以用"二手算力"的價(jià)格,提供接近專線質(zhì)量的推理服務(wù)。相比之下,AWS、Azure這些巨頭自有芯片,卻被存量客戶的合同和工作負(fù)載綁死,靈活性反而差。
開(kāi)源模型的逆襲:為什么大廠API越來(lái)越"硌手"?
Parasail的野心,建立在一種趨勢(shì)判斷上:開(kāi)發(fā)者正在逃離OpenAI、Anthropic的封閉API。
「我們?cè)絹?lái)越多轉(zhuǎn)向開(kāi)源模型,因?yàn)榘褦?shù)十萬(wàn)請(qǐng)求發(fā)給OpenAI或Anthropic,體驗(yàn)相當(dāng)糟糕。」Elicit CEO Andreas Stuhlmüller說(shuō)。Elicit是一家做科研文獻(xiàn)分析的AI公司,剛完成2200萬(wàn)美元A輪融資,客戶包括頂級(jí)藥企。
Stuhlmüller的場(chǎng)景很典型:用LLM工具分析數(shù)萬(wàn)篇科學(xué)論文,單次任務(wù)就可能產(chǎn)生海量token。調(diào)用封閉API,不僅要按token付費(fèi),還要面對(duì)速率限制、延遲波動(dòng)、數(shù)據(jù)隱私審查。成本、可控性、合規(guī)性,三座大山。
開(kāi)源模型提供了替代路徑。Llama、Mistral、Qwen等模型性能追近GPT-4,卻可以私有化部署。問(wèn)題是:自己搭基礎(chǔ)設(shè)施,運(yùn)維復(fù)雜度極高;用普通云服務(wù),推理成本降不下來(lái)。
這就是Parasail切入的縫隙——比封閉API便宜,比自建基礎(chǔ)設(shè)施省心,專門優(yōu)化開(kāi)源模型的推理效率。
"Tokenmaxxing"的本質(zhì):云計(jì)算正在顆粒化
Henry反復(fù)提到的"tokenmaxxing",聽(tīng)起來(lái)像程序員黑話,背后是一套新的資源計(jì)量邏輯。
傳統(tǒng)云計(jì)算按實(shí)例(instance)計(jì)費(fèi)——租一臺(tái)虛擬機(jī),不管用不用滿,錢照付。AI推理場(chǎng)景極度碎片化:一個(gè)客服機(jī)器人凌晨閑置,中午突發(fā)流量,晚上平穩(wěn)運(yùn)行。按實(shí)例計(jì)費(fèi),大量算力浪費(fèi)在空轉(zhuǎn)。
Token是更精細(xì)的度量單位。開(kāi)發(fā)者只為自己實(shí)際消耗的模型輸出付費(fèi),云廠商則需要在底層把碎片需求拼成連續(xù)負(fù)載,提高硬件利用率。這是典型的雙邊市場(chǎng)效率游戲——和Uber把閑置車輛匹配給乘客,Airbnb把空房間匹配給旅客,邏輯同源。
Parasail的差異化在于:不做重資產(chǎn),專注調(diào)度層。全球40個(gè)數(shù)據(jù)中心+流動(dòng)性市場(chǎng)的組合,讓它可以實(shí)時(shí)把負(fù)載甩向價(jià)格最低的節(jié)點(diǎn)。Henry稱之為"算力套利",但技術(shù)門檻在于預(yù)測(cè)需求波動(dòng)、管理跨地域延遲、保證服務(wù)質(zhì)量的一致性。
這種模式的風(fēng)險(xiǎn)也明顯:依賴第三方基礎(chǔ)設(shè)施,議價(jià)能力有限;流動(dòng)性市場(chǎng)的算力價(jià)格波動(dòng),可能侵蝕利潤(rùn);一旦AWS、Google針對(duì)性降價(jià),價(jià)格優(yōu)勢(shì)能否維持?
Agent時(shí)代的基礎(chǔ)設(shè)施:誰(shuí)需要5000億token一天?
5000億token是什么概念?
按GPT-4的計(jì)費(fèi)標(biāo)準(zhǔn),1億token約等于75萬(wàn)字中文。5000億token,相當(dāng)于每天處理3750億漢字——約等于全人類一年出版書(shū)籍文字量的數(shù)倍。當(dāng)然,實(shí)際業(yè)務(wù)中大量是重復(fù)調(diào)用和短請(qǐng)求,但量級(jí)本身說(shuō)明:AI原生應(yīng)用正在經(jīng)歷爆發(fā)。
這些token流向哪里?Parasail的客戶畫像很清晰:不是訓(xùn)練大模型的實(shí)驗(yàn)室,而是把模型塞進(jìn)產(chǎn)品的應(yīng)用層公司。客服機(jī)器人、代碼助手、科研分析工具、內(nèi)容生成引擎——它們的共同特點(diǎn)是不追求模型最大,追求推理成本最低、響應(yīng)速度最快。
AI Agent(智能體)的興起,正在放大這種需求。單個(gè)Agent可能同時(shí)調(diào)用多個(gè)模型、執(zhí)行多步推理、處理長(zhǎng)上下文。一次用戶請(qǐng)求,背后可能觸發(fā)數(shù)十次模型調(diào)用,token消耗呈指數(shù)級(jí)增長(zhǎng)。
Stuhlmüller的Elicit就是典型。分析一篇論文,Agent需要理解摘要、提取方法、對(duì)比結(jié)論、生成綜述——每一步都是token。如果按OpenAI的API定價(jià),規(guī)模化部署的成本足以壓垮商業(yè)模式。
開(kāi)源模型+優(yōu)化推理基礎(chǔ)設(shè)施,成為破局組合。
云計(jì)算的第三次洗牌?
回顧云計(jì)算歷史,有過(guò)兩次格局重塑。
第一次是AWS開(kāi)創(chuàng)的"基礎(chǔ)設(shè)施即服務(wù)",把服務(wù)器變成可按小時(shí)租用的資源;第二次是Kubernetes推動(dòng)的"容器化",讓應(yīng)用部署從機(jī)器級(jí)別降到進(jìn)程級(jí)別。兩次變革的核心,都是資源顆粒度的細(xì)化。
AI推理正在催生第三次。Token作為計(jì)量單位,意味著云計(jì)算從"租機(jī)器"進(jìn)化到"租智能"。這要求全新的軟件棧:模型服務(wù)層、推理優(yōu)化層、調(diào)度編排層,每一層都有創(chuàng)業(yè)機(jī)會(huì)。
Parasail選擇切在調(diào)度層,避開(kāi)與英偉達(dá)、AWS的正面硬剛。但競(jìng)爭(zhēng)正在涌入:Together AI、Fireworks AI、Baseten等創(chuàng)業(yè)公司,都在做開(kāi)源模型的推理優(yōu)化;云巨頭也在反擊,AWS的SageMaker、Google的Vertex AI,都在強(qiáng)化推理端的性價(jià)比。
Henry的賭注是:在Agent應(yīng)用爆發(fā)的前夜,輕資產(chǎn)+全球調(diào)度能建立時(shí)間窗口。一旦開(kāi)發(fā)者形成使用習(xí)慣,遷移成本會(huì)筑起護(hù)城河。
這個(gè)邏輯是否成立,取決于兩個(gè)變量:開(kāi)源模型的性能能否持續(xù)逼近封閉模型,以及Agent應(yīng)用能否真正規(guī)模化落地。前者看Meta、Mistral的研發(fā)進(jìn)度,后者看2025-2026年的產(chǎn)品爆發(fā)。
數(shù)據(jù)收束
Parasail的3200萬(wàn)美元A輪融資,在AI基礎(chǔ)設(shè)施賽道不算大額——Groq單輪融資就達(dá)6.4億美元。但Henry的模式輕得多:不燒芯片研發(fā),不建數(shù)據(jù)中心,核心資產(chǎn)是調(diào)度算法和全球算力網(wǎng)絡(luò)的接入關(guān)系。
這種輕,既是優(yōu)勢(shì)也是脆弱性。優(yōu)勢(shì)在于快速擴(kuò)張——15個(gè)國(guó)家40個(gè)數(shù)據(jù)中心的布局,自建模式需要數(shù)年;脆弱性在于壁壘厚度——算法可以被復(fù)制,算力關(guān)系可以被挖角,價(jià)格戰(zhàn)一旦開(kāi)啟,利潤(rùn)空間瞬間壓縮。
但數(shù)字本身說(shuō)明問(wèn)題:5000億token/日,意味著Parasail已經(jīng)服務(wù)了相當(dāng)規(guī)模的AI原生應(yīng)用。在OpenAI、Anthropic壟斷 headlines 的時(shí)代,這是一個(gè)容易被忽視的信號(hào)——開(kāi)源生態(tài)的開(kāi)發(fā)者,正在用腳投票。
云計(jì)算的終局,可能不是一家獨(dú)大,而是分層割據(jù):訓(xùn)練層歸巨頭,推理層碎片化,調(diào)度層出現(xiàn)新一代平臺(tái)。Parasail押注的,正是這個(gè)"碎片化"的機(jī)會(huì)窗口。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.