網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

每天5000億個(gè)詞：這家云廠商在賭什么？

2026-04-15 21:19:47　來(lái)源: 我是一個(gè)粉刷匠2

北京舉報(bào)

分享至

開(kāi)發(fā)者對(duì)算力的需求，已經(jīng)具體到一種顆粒度——"token"（詞元）。一個(gè)token可能是一個(gè)詞、一個(gè)標(biāo)點(diǎn)，甚至半個(gè)漢字。當(dāng)AI應(yīng)用爆發(fā)，這個(gè)最小單位正在重塑云計(jì)算的底層邏輯。

Parasail，一家成立僅一年的云服務(wù)商，每天處理5000億個(gè)token。它的創(chuàng)始人Mike Henry來(lái)自芯片獨(dú)角獸Groq，剛拿到3200萬(wàn)美元A輪融資。他不自建數(shù)據(jù)中心，卻在40個(gè)數(shù)據(jù)中心之間"倒賣"算力，聲稱能比OpenAI便宜得多。

這聽(tīng)起來(lái)像套利生意。但Henry賭的是：開(kāi)源模型和AI Agent的爆發(fā)，會(huì)讓"tokenmaxxing"（詞元最大化）成為下一代云計(jì)算的核心戰(zhàn)場(chǎng)。

從Groq出走：為什么專門服務(wù)"推理"場(chǎng)景？

Henry的背景很硬——物理芯片設(shè)計(jì)出身，在Groq負(fù)責(zé)搭建云服務(wù)。Groq以LLM（大語(yǔ)言模型）專用芯片聞名，Henry在那里最早意識(shí)到一件事：跑AI模型的開(kāi)發(fā)者，需要的不是通用云計(jì)算，而是專門優(yōu)化過(guò)的推理基礎(chǔ)設(shè)施。

訓(xùn)練模型是一次性燒錢，推理是持續(xù)性吸血。一個(gè)日活百萬(wàn)的AI應(yīng)用，每秒鐘可能產(chǎn)生數(shù)萬(wàn)次模型調(diào)用，每次都要消耗token。成本結(jié)構(gòu)完全不同，技術(shù)棧也完全不同。

2024年，Henry創(chuàng)立Parasail。公司不承諾自研芯片——雖然有一部分自有GPU，但核心模式是"全球采購(gòu)+智能調(diào)度"：在15個(gè)國(guó)家的40個(gè)數(shù)據(jù)中心租算力，再?gòu)牧鲃?dòng)性市場(chǎng)買現(xiàn)貨，用軟件層把碎片資源整合成統(tǒng)一服務(wù)。

關(guān)鍵在調(diào)度算法。Henry的邏輯是：通過(guò)錯(cuò)峰分配負(fù)載、避開(kāi)需求高峰，可以用"二手算力"的價(jià)格，提供接近專線質(zhì)量的推理服務(wù)。相比之下，AWS、Azure這些巨頭自有芯片，卻被存量客戶的合同和工作負(fù)載綁死，靈活性反而差。

開(kāi)源模型的逆襲：為什么大廠API越來(lái)越"硌手"？

Parasail的野心，建立在一種趨勢(shì)判斷上：開(kāi)發(fā)者正在逃離OpenAI、Anthropic的封閉API。

「我們?cè)絹?lái)越多轉(zhuǎn)向開(kāi)源模型，因?yàn)榘褦?shù)十萬(wàn)請(qǐng)求發(fā)給OpenAI或Anthropic，體驗(yàn)相當(dāng)糟糕。」Elicit CEO Andreas Stuhlmüller說(shuō)。Elicit是一家做科研文獻(xiàn)分析的AI公司，剛完成2200萬(wàn)美元A輪融資，客戶包括頂級(jí)藥企。

Stuhlmüller的場(chǎng)景很典型：用LLM工具分析數(shù)萬(wàn)篇科學(xué)論文，單次任務(wù)就可能產(chǎn)生海量token。調(diào)用封閉API，不僅要按token付費(fèi)，還要面對(duì)速率限制、延遲波動(dòng)、數(shù)據(jù)隱私審查。成本、可控性、合規(guī)性，三座大山。

開(kāi)源模型提供了替代路徑。Llama、Mistral、Qwen等模型性能追近GPT-4，卻可以私有化部署。問(wèn)題是：自己搭基礎(chǔ)設(shè)施，運(yùn)維復(fù)雜度極高；用普通云服務(wù)，推理成本降不下來(lái)。

這就是Parasail切入的縫隙——比封閉API便宜，比自建基礎(chǔ)設(shè)施省心，專門優(yōu)化開(kāi)源模型的推理效率。

"Tokenmaxxing"的本質(zhì)：云計(jì)算正在顆粒化

Henry反復(fù)提到的"tokenmaxxing"，聽(tīng)起來(lái)像程序員黑話，背后是一套新的資源計(jì)量邏輯。

傳統(tǒng)云計(jì)算按實(shí)例（instance）計(jì)費(fèi)——租一臺(tái)虛擬機(jī)，不管用不用滿，錢照付。AI推理場(chǎng)景極度碎片化：一個(gè)客服機(jī)器人凌晨閑置，中午突發(fā)流量，晚上平穩(wěn)運(yùn)行。按實(shí)例計(jì)費(fèi)，大量算力浪費(fèi)在空轉(zhuǎn)。

Token是更精細(xì)的度量單位。開(kāi)發(fā)者只為自己實(shí)際消耗的模型輸出付費(fèi)，云廠商則需要在底層把碎片需求拼成連續(xù)負(fù)載，提高硬件利用率。這是典型的雙邊市場(chǎng)效率游戲——和Uber把閑置車輛匹配給乘客，Airbnb把空房間匹配給旅客，邏輯同源。

Parasail的差異化在于：不做重資產(chǎn)，專注調(diào)度層。全球40個(gè)數(shù)據(jù)中心+流動(dòng)性市場(chǎng)的組合，讓它可以實(shí)時(shí)把負(fù)載甩向價(jià)格最低的節(jié)點(diǎn)。Henry稱之為"算力套利"，但技術(shù)門檻在于預(yù)測(cè)需求波動(dòng)、管理跨地域延遲、保證服務(wù)質(zhì)量的一致性。

這種模式的風(fēng)險(xiǎn)也明顯：依賴第三方基礎(chǔ)設(shè)施，議價(jià)能力有限；流動(dòng)性市場(chǎng)的算力價(jià)格波動(dòng)，可能侵蝕利潤(rùn)；一旦AWS、Google針對(duì)性降價(jià)，價(jià)格優(yōu)勢(shì)能否維持？

Agent時(shí)代的基礎(chǔ)設(shè)施：誰(shuí)需要5000億token一天？

5000億token是什么概念？

按GPT-4的計(jì)費(fèi)標(biāo)準(zhǔn)，1億token約等于75萬(wàn)字中文。5000億token，相當(dāng)于每天處理3750億漢字——約等于全人類一年出版書(shū)籍文字量的數(shù)倍。當(dāng)然，實(shí)際業(yè)務(wù)中大量是重復(fù)調(diào)用和短請(qǐng)求，但量級(jí)本身說(shuō)明：AI原生應(yīng)用正在經(jīng)歷爆發(fā)。

這些token流向哪里？Parasail的客戶畫像很清晰：不是訓(xùn)練大模型的實(shí)驗(yàn)室，而是把模型塞進(jìn)產(chǎn)品的應(yīng)用層公司。客服機(jī)器人、代碼助手、科研分析工具、內(nèi)容生成引擎——它們的共同特點(diǎn)是不追求模型最大，追求推理成本最低、響應(yīng)速度最快。

AI Agent（智能體）的興起，正在放大這種需求。單個(gè)Agent可能同時(shí)調(diào)用多個(gè)模型、執(zhí)行多步推理、處理長(zhǎng)上下文。一次用戶請(qǐng)求，背后可能觸發(fā)數(shù)十次模型調(diào)用，token消耗呈指數(shù)級(jí)增長(zhǎng)。

Stuhlmüller的Elicit就是典型。分析一篇論文，Agent需要理解摘要、提取方法、對(duì)比結(jié)論、生成綜述——每一步都是token。如果按OpenAI的API定價(jià)，規(guī)模化部署的成本足以壓垮商業(yè)模式。

開(kāi)源模型+優(yōu)化推理基礎(chǔ)設(shè)施，成為破局組合。

云計(jì)算的第三次洗牌？

回顧云計(jì)算歷史，有過(guò)兩次格局重塑。

第一次是AWS開(kāi)創(chuàng)的"基礎(chǔ)設(shè)施即服務(wù)"，把服務(wù)器變成可按小時(shí)租用的資源；第二次是Kubernetes推動(dòng)的"容器化"，讓應(yīng)用部署從機(jī)器級(jí)別降到進(jìn)程級(jí)別。兩次變革的核心，都是資源顆粒度的細(xì)化。

AI推理正在催生第三次。Token作為計(jì)量單位，意味著云計(jì)算從"租機(jī)器"進(jìn)化到"租智能"。這要求全新的軟件棧：模型服務(wù)層、推理優(yōu)化層、調(diào)度編排層，每一層都有創(chuàng)業(yè)機(jī)會(huì)。

Parasail選擇切在調(diào)度層，避開(kāi)與英偉達(dá)、AWS的正面硬剛。但競(jìng)爭(zhēng)正在涌入：Together AI、Fireworks AI、Baseten等創(chuàng)業(yè)公司，都在做開(kāi)源模型的推理優(yōu)化；云巨頭也在反擊，AWS的SageMaker、Google的Vertex AI，都在強(qiáng)化推理端的性價(jià)比。

Henry的賭注是：在Agent應(yīng)用爆發(fā)的前夜，輕資產(chǎn)+全球調(diào)度能建立時(shí)間窗口。一旦開(kāi)發(fā)者形成使用習(xí)慣，遷移成本會(huì)筑起護(hù)城河。

這個(gè)邏輯是否成立，取決于兩個(gè)變量：開(kāi)源模型的性能能否持續(xù)逼近封閉模型，以及Agent應(yīng)用能否真正規(guī)模化落地。前者看Meta、Mistral的研發(fā)進(jìn)度，后者看2025-2026年的產(chǎn)品爆發(fā)。

數(shù)據(jù)收束

Parasail的3200萬(wàn)美元A輪融資，在AI基礎(chǔ)設(shè)施賽道不算大額——Groq單輪融資就達(dá)6.4億美元。但Henry的模式輕得多：不燒芯片研發(fā)，不建數(shù)據(jù)中心，核心資產(chǎn)是調(diào)度算法和全球算力網(wǎng)絡(luò)的接入關(guān)系。

這種輕，既是優(yōu)勢(shì)也是脆弱性。優(yōu)勢(shì)在于快速擴(kuò)張——15個(gè)國(guó)家40個(gè)數(shù)據(jù)中心的布局，自建模式需要數(shù)年；脆弱性在于壁壘厚度——算法可以被復(fù)制，算力關(guān)系可以被挖角，價(jià)格戰(zhàn)一旦開(kāi)啟，利潤(rùn)空間瞬間壓縮。

但數(shù)字本身說(shuō)明問(wèn)題：5000億token/日，意味著Parasail已經(jīng)服務(wù)了相當(dāng)規(guī)模的AI原生應(yīng)用。在OpenAI、Anthropic壟斷 headlines 的時(shí)代，這是一個(gè)容易被忽視的信號(hào)——開(kāi)源生態(tài)的開(kāi)發(fā)者，正在用腳投票。

云計(jì)算的終局，可能不是一家獨(dú)大，而是分層割據(jù)：訓(xùn)練層歸巨頭，推理層碎片化，調(diào)度層出現(xiàn)新一代平臺(tái)。Parasail押注的，正是這個(gè)"碎片化"的機(jī)會(huì)窗口。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.