无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

我測(cè)算了DeepSeek的計(jì)算成本,AI應(yīng)用距離規(guī)模性盈利應(yīng)該不遠(yuǎn)了

0
分享至

我一直聽到人工智能(AI)是個(gè)燒錢的行業(yè),尤其是在推理(inference)方面。雖然表面上看起來(lái)合理,但我對(duì)這類說(shuō)法一直持懷疑態(tài)度,因此決定深入研究一下。

目前還沒有人真正嘗試拆解大規(guī)模推理的成本,而這背后的經(jīng)濟(jì)問題讓我非常感興趣。

這篇文章是基于粗略估算(napkin math)完成的。我沒有運(yùn)行前沿模型的經(jīng)驗(yàn),但對(duì)在云端運(yùn)行高吞吐量服務(wù)的成本和經(jīng)濟(jì)性有深入了解,也知道超大規(guī)模云服務(wù)商與裸機(jī)(bare metal)相比的驚人利潤(rùn)率。歡迎指正我的錯(cuò)誤。

01

一些假設(shè)

我將僅考慮原始計(jì)算成本。這顯然是過(guò)于簡(jiǎn)化的,但考慮到當(dāng)前模型的實(shí)用性——即使假設(shè)沒有進(jìn)一步改進(jìn)——我想測(cè)試“推理成本高到完全不可持續(xù)”這一觀點(diǎn)是否站得住腳。

我假設(shè)單個(gè)H100 GPU的成本為每小時(shí)2美元。這實(shí)際上高于當(dāng)前按需租賃的零售價(jià)格,我希望大型AI公司能以更低的價(jià)格獲取這些資源。

H100租賃價(jià)格比較

其次,我將以DeepSeek R1的架構(gòu)作為基準(zhǔn):總計(jì)6710億參數(shù),通過(guò)專家混合(MoE)激活370億參數(shù)。考慮到其性能與Claude Sonnet 4和GPT-5相當(dāng),我認(rèn)為這是一個(gè)合理的假設(shè)。

02

從第一性原理推導(dǎo):H100的計(jì)算成本

生產(chǎn)環(huán)境設(shè)置

讓我們從一個(gè)現(xiàn)實(shí)的生產(chǎn)環(huán)境開始。假設(shè)一個(gè)包含72個(gè)H100 GPU的集群,每個(gè)GPU每小時(shí)2美元,總成本為每小時(shí)144美元。

為了滿足生產(chǎn)環(huán)境的延遲要求,我假設(shè)每個(gè)模型實(shí)例的批量大小為32個(gè)并發(fā)請(qǐng)求,這比基準(zhǔn)測(cè)試中可能使用的大批量更現(xiàn)實(shí)。通過(guò)在8個(gè)GPU上進(jìn)行張量并行(tensor parallelism),我們可以在72個(gè)GPU上同時(shí)運(yùn)行9個(gè)模型實(shí)例。

預(yù)填充階段(輸入處理)

H100的HBM內(nèi)存帶寬約為每GPU 3.35TB/s,這是大多數(shù)工作負(fù)載的限制因素。對(duì)于370億活躍參數(shù),在FP16精度下需要74GB內(nèi)存,我們可以計(jì)算出每秒大約能處理3,350GB/s ÷ 74GB = 45次前向傳播(forward passes)。

關(guān)鍵點(diǎn)在于:每次前向傳播會(huì)同時(shí)處理所有序列中的所有token。

假設(shè)我們的32個(gè)序列批次平均每個(gè)序列包含1000個(gè)token,即每次前向傳播處理32,000個(gè)token。這意味著每個(gè)實(shí)例每秒可處理45次傳播 × 32,000token = 144萬(wàn)個(gè)輸入token。在9個(gè)實(shí)例上,這相當(dāng)于每秒1300萬(wàn)個(gè)輸入token,或每小時(shí)468億個(gè)輸入token。

在MoE架構(gòu)中,批次中不同token可能需要加載不同的專家組合,這可能導(dǎo)致吞吐量降低2-3倍,尤其當(dāng)token路由到不同專家時(shí)。然而,實(shí)際中路由模式通常會(huì)集中在熱門專家上,且現(xiàn)代實(shí)現(xiàn)使用專家并行(expert parallelism)和容量因子(capacity factors)等技術(shù)來(lái)保持效率,因此實(shí)際影響可能僅為30-50%的吞吐量降低,而非最壞情況。

解碼階段(輸出生成)

輸出生成的場(chǎng)景完全不同。這里我們是按順序生成token——每次前向傳播每個(gè)序列生成一個(gè)token。因此,45次前向傳播每秒僅生成45 × 32 = 1,440個(gè)輸出token。9個(gè)實(shí)例總計(jì)每秒12,960個(gè)輸出token,或每小時(shí)4670萬(wàn)個(gè)輸出token。

token的原始成本

輸入和輸出的成本差異非常明顯:144美元 ÷ 468億 = 每百萬(wàn)輸入token0.003美元,而144美元 ÷ 4670萬(wàn) = 每百萬(wàn)輸出token3.08美元。這是一個(gè)千倍的差距!

當(dāng)計(jì)算成為瓶頸

我們的計(jì)算假設(shè)內(nèi)存帶寬是限制因素,這在典型工作負(fù)載中是正確的。但在某些場(chǎng)景下,計(jì)算能力會(huì)成為瓶頸。對(duì)于長(zhǎng)上下文序列,注意力機(jī)制的計(jì)算量隨序列長(zhǎng)度呈平方增長(zhǎng)。大批量大小和更多并行注意力頭也可能使系統(tǒng)從內(nèi)存受限轉(zhuǎn)為計(jì)算受限。

當(dāng)上下文長(zhǎng)度達(dá)到128k以上時(shí),注意力矩陣變得非常龐大,系統(tǒng)從內(nèi)存受限轉(zhuǎn)為計(jì)算受限。這可能使成本增加2-10倍,尤其是在超長(zhǎng)上下文場(chǎng)景下。

這解釋了一些有趣的產(chǎn)品決策。例如,Claude Code將上下文限制在200ktoken,不僅是為了性能,也是為了保持在成本較低的內(nèi)存受限模式,避免昂貴的計(jì)算受限長(zhǎng)上下文場(chǎng)景。

這也是為什么服務(wù)商對(duì)200k+上下文窗口額外收費(fèi)——經(jīng)濟(jì)模型發(fā)生了根本變化。

03

現(xiàn)實(shí)世界的用戶經(jīng)濟(jì)

根據(jù)我對(duì)成本的逆向推算(再次提醒,這是基于H100的零售租賃價(jià)格),我推測(cè)情況如下:

  • 輸入處理

    幾乎免費(fèi)(約每百萬(wàn) token 0.001美元)

  • 輸出生成

    有顯著成本(約每百萬(wàn) token 3美元)

這些成本與DeepInfra對(duì)R1托管的收費(fèi)相符,只是輸入token的加價(jià)更高。

DeepInfra R1定價(jià),見下圖:

A. 消費(fèi)者計(jì)劃

ChatGPT Pro用戶(每月20美元):重度日常使用,但受token限制

  • 每天10萬(wàn) token

  • 假設(shè)70%輸入/30%輸出:實(shí)際成本約每月3美元

  • OpenAI的加價(jià)為5-6倍

這是典型的重度用戶,每天使用模型進(jìn)行寫作、編碼和常規(guī)查詢。這里的經(jīng)濟(jì)性很強(qiáng)。

B. 開發(fā)者使用

Claude Code Max 5用戶(每月100美元):每天2小時(shí)重度編碼

  • 約200萬(wàn)輸入 token ,3萬(wàn)輸出 token /天

  • 大量輸入 token (便宜的并行處理)+少量輸出

  • 實(shí)際成本:約每月4.92美元 → 20.3倍加價(jià)

Claude Code Max 10用戶(每月200美元):每天6小時(shí)極重度使用

  • 約1000萬(wàn)輸入 token ,10萬(wàn)輸出 token /天

  • 大量輸入 token ,但生成 token 相對(duì)較少

  • 實(shí)際成本:約每月16.89美元 → 11.8倍加價(jià)

開發(fā)者用例的經(jīng)濟(jì)性尤為突出。像Claude Code這樣的編碼助手天然具有高度不對(duì)稱的使用模式——輸入整個(gè)代碼庫(kù)、文檔、堆棧跟蹤、多個(gè)文件和廣泛上下文(廉價(jià)輸入token),但只需要相對(duì)較小的輸出,如代碼片段或解釋。這完美契合了輸入幾乎免費(fèi)而輸出昂貴的成本結(jié)構(gòu)。

C. API利潤(rùn)率

  • 當(dāng)前API定價(jià):每百萬(wàn) token 3美元/15美元 vs 實(shí)際成本約0.01美元/3美元

  • 毛利率:80-95%+

API業(yè)務(wù)幾乎是印鈔機(jī)。這里的毛利率更像是軟件而非基礎(chǔ)設(shè)施。

04

結(jié)論

我們的分析基于許多假設(shè),有些可能不準(zhǔn)確。

但即使假設(shè)我們高估了3倍,經(jīng)濟(jì)性仍然看起來(lái)非常有利可圖。即使按H100的零售價(jià)格計(jì)算,原始計(jì)算成本表明,AI推理并非許多人宣稱的不可持續(xù)的燒錢坑。

最關(guān)鍵的洞察是,輸入處理的成本比輸出生成低得多——大約千倍的差距:輸入token約每百萬(wàn)0.005美元,而輸出token超過(guò)每百萬(wàn)3美元。

這種成本不對(duì)稱解釋了為什么某些用應(yīng)用其有利可圖,而其他應(yīng)用可能面臨挑戰(zhàn):

重度閱讀類應(yīng)用——消耗大量上下文但生成少量輸出的場(chǎng)景——幾乎在計(jì)算成本上處于免費(fèi)層。像對(duì)話代理、處理整個(gè)代碼庫(kù)的編碼助手、文檔分析工具和研究應(yīng)用都極大地受益于這種動(dòng)態(tài)。

視頻生成則完全相反——一個(gè)視頻模型可能只輸入50個(gè)token的簡(jiǎn)單文本提示,但需要生成數(shù)百萬(wàn)token來(lái)表示每個(gè)幀。當(dāng)從極少輸入生成大量輸出時(shí),經(jīng)濟(jì)性變得非常苛刻,這解釋了為什么視頻生成仍然昂貴,服務(wù)商要么收取高價(jià),要么嚴(yán)格限制使用。

“AI成本不可持續(xù)”的說(shuō)法可能更多服務(wù)于現(xiàn)有大公司的利益,而非反映經(jīng)濟(jì)現(xiàn)實(shí)。當(dāng)行業(yè)巨頭強(qiáng)調(diào)巨額成本和技術(shù)復(fù)雜性時(shí),會(huì)阻礙競(jìng)爭(zhēng)和對(duì)替代方案的投資。但如果我們的計(jì)算哪怕有一點(diǎn)準(zhǔn)確,尤其是在輸入密集型工作負(fù)載上,盈利性AI推理的門檻可能遠(yuǎn)低于普遍認(rèn)為的水平

讓我們不要過(guò)分夸大成本,以至于人們忽視了原始經(jīng)濟(jì)性。十多年前,大家對(duì)超大規(guī)模云服務(wù)商的云計(jì)算成本信以為真,讓它們變成了印鈔機(jī)。如果我們“不小心”,AI推理可能會(huì)重蹈覆轍。(作者:Martin Alderson)

轉(zhuǎn)載開白 | 商務(wù)合作 | 加群交流
請(qǐng)?zhí)砑游⑿牛篶utstill
添加微信請(qǐng)備注姓名公司與來(lái)意

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
23歲男子自帶挖掘機(jī)為社區(qū)修路墜崖身亡 家屬與社區(qū)就“工亡”認(rèn)定未達(dá)一致 律師解讀分歧

23歲男子自帶挖掘機(jī)為社區(qū)修路墜崖身亡 家屬與社區(qū)就“工亡”認(rèn)定未達(dá)一致 律師解讀分歧

封面新聞
2026-05-12 20:32:02
天價(jià)轉(zhuǎn)會(huì)費(fèi)+沖金球!阿爾瓦雷斯有望以1.5億歐空降大巴黎?

天價(jià)轉(zhuǎn)會(huì)費(fèi)+沖金球!阿爾瓦雷斯有望以1.5億歐空降大巴黎?

田先生籃球
2026-05-12 22:10:29
超預(yù)期!美國(guó),重磅發(fā)布

超預(yù)期!美國(guó),重磅發(fā)布

證券時(shí)報(bào)
2026-05-12 21:52:07
被Miu Miu拉黑的街道:退貨率超90%,網(wǎng)紅“穿完就退”成產(chǎn)業(yè)鏈

被Miu Miu拉黑的街道:退貨率超90%,網(wǎng)紅“穿完就退”成產(chǎn)業(yè)鏈

每日經(jīng)濟(jì)新聞
2026-05-12 18:00:09
中國(guó)外交部發(fā)聲:堅(jiān)決反對(duì)、強(qiáng)烈譴責(zé)巴方有關(guān)行徑!

中國(guó)外交部發(fā)聲:堅(jiān)決反對(duì)、強(qiáng)烈譴責(zé)巴方有關(guān)行徑!

一個(gè)有靈魂的作者
2026-05-12 21:21:19
太猖狂!四川凌晨追打事件后續(xù):6人一鍋端,被查女子蠻橫襲警

太猖狂!四川凌晨追打事件后續(xù):6人一鍋端,被查女子蠻橫襲警

奇思妙想草葉君
2026-05-12 16:24:04
特斯拉宣布停產(chǎn),震驚全網(wǎng)!

特斯拉宣布停產(chǎn),震驚全網(wǎng)!

財(cái)經(jīng)三分鐘pro
2026-05-12 15:10:58
全球進(jìn)入北京時(shí)間

全球進(jìn)入北京時(shí)間

環(huán)球時(shí)報(bào)國(guó)際
2026-05-12 14:44:04
宇樹發(fā)布GD01載人變形機(jī)甲 定價(jià)390萬(wàn)元起

宇樹發(fā)布GD01載人變形機(jī)甲 定價(jià)390萬(wàn)元起

財(cái)聯(lián)社
2026-05-12 12:27:07
出乎眾人預(yù)料,中方提前48小時(shí)官宣特朗普訪華,高市早苗心愿落空

出乎眾人預(yù)料,中方提前48小時(shí)官宣特朗普訪華,高市早苗心愿落空

策前論
2026-05-11 18:13:56
突發(fā)噩耗!名記曝灰熊29歲悍將突然去世 曾夏聯(lián)MVP+入選新秀一陣

突發(fā)噩耗!名記曝灰熊29歲悍將突然去世 曾夏聯(lián)MVP+入選新秀一陣

驚奇侃球
2026-05-13 02:55:53
12歲男孩確診癌癥晚期!父母透露孩子常把飲料當(dāng)開水喝 油炸、腌制零食吃起來(lái)毫無(wú)節(jié)制

12歲男孩確診癌癥晚期!父母透露孩子常把飲料當(dāng)開水喝 油炸、腌制零食吃起來(lái)毫無(wú)節(jié)制

閃電新聞
2026-05-12 18:27:14
上海大學(xué)通報(bào)“院長(zhǎng)蘇某某論文被舉報(bào)數(shù)據(jù)造假”:已成立調(diào)查組,啟動(dòng)調(diào)查程序 ,將根據(jù)調(diào)查情況嚴(yán)肅認(rèn)真處理

上海大學(xué)通報(bào)“院長(zhǎng)蘇某某論文被舉報(bào)數(shù)據(jù)造假”:已成立調(diào)查組,啟動(dòng)調(diào)查程序 ,將根據(jù)調(diào)查情況嚴(yán)肅認(rèn)真處理

魯中晨報(bào)
2026-05-12 16:54:06
美媒披露:阿聯(lián)酋秘密對(duì)伊朗發(fā)動(dòng)軍事打擊

美媒披露:阿聯(lián)酋秘密對(duì)伊朗發(fā)動(dòng)軍事打擊

參考消息
2026-05-12 20:36:12
網(wǎng)友屏蔽“愛國(guó)流量”名人企業(yè),司馬南、華為上榜,評(píng)論區(qū)太認(rèn)同

網(wǎng)友屏蔽“愛國(guó)流量”名人企業(yè),司馬南、華為上榜,評(píng)論區(qū)太認(rèn)同

譚談社會(huì)
2026-05-12 16:50:17
貪官末日來(lái)了!中央反腐新規(guī)5月重磅落地,在職退休一律終身追責(zé)

貪官末日來(lái)了!中央反腐新規(guī)5月重磅落地,在職退休一律終身追責(zé)

宏哥談商道
2026-05-12 19:00:03
曝東契奇要求湖人留下里夫斯!詹姆斯去留棘手:騎勇很可能招攬他

曝東契奇要求湖人留下里夫斯!詹姆斯去留棘手:騎勇很可能招攬他

羅說(shuō)NBA
2026-05-12 21:43:19
特朗普訪華隨行團(tuán)名單里,藏著一份重要轉(zhuǎn)向密碼

特朗普訪華隨行團(tuán)名單里,藏著一份重要轉(zhuǎn)向密碼

識(shí)局Insight
2026-05-12 19:33:20
遲到清算!江蘇原教育廳長(zhǎng)沈健落馬,主導(dǎo)480分高考曾毀多少天才

遲到清算!江蘇原教育廳長(zhǎng)沈健落馬,主導(dǎo)480分高考曾毀多少天才

音樂時(shí)光的娛樂
2026-05-13 00:11:59
官宣,王勵(lì)勤勸了都沒用,樊振東深夜發(fā)文戳穿現(xiàn)實(shí):不做工具人

官宣,王勵(lì)勤勸了都沒用,樊振東深夜發(fā)文戳穿現(xiàn)實(shí):不做工具人

隱于山海
2026-05-13 00:49:15
2026-05-13 05:36:49
硅基星芒AI
硅基星芒AI
錦緞旗下人工智能研究與媒體服務(wù)平臺(tái)
58文章數(shù) 6關(guān)注度
往期回顧 全部

科技要聞

宇樹發(fā)布載人變形機(jī)甲,定價(jià)390萬(wàn)元起

頭條要聞

特朗普稱將同中方討論對(duì)臺(tái)軍售和黎智英案 外交部回應(yīng)

頭條要聞

特朗普稱將同中方討論對(duì)臺(tái)軍售和黎智英案 外交部回應(yīng)

體育要聞

騎士終于玩明白了?

娛樂要聞

白鹿風(fēng)波升級(jí)!掉粉20萬(wàn)評(píng)論區(qū)淪陷

財(cái)經(jīng)要聞

利潤(rùn)再腰斬 京東干外賣后就沒過(guò)過(guò)好日子

汽車要聞

吉利銀河“TT”申報(bào)圖曝光 電動(dòng)尾翼+激光雷達(dá)

態(tài)度原創(chuàng)

游戲
本地
房產(chǎn)
家居
公開課

活久見!電棍與香鍋怒噴被擼圈開除后和解,祝Mlxg母親節(jié)日快樂

本地新聞

用蘇繡的方式,打開江西婺源

房產(chǎn)要聞

穗八條引爆樓市!萬(wàn)博寶藏紅盤,五一勁銷出圈

家居要聞

極簡(jiǎn)主義下的居住場(chǎng)域與空間

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版