![]()
作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com
單個(gè) token 的價(jià)格在下降,但很多 AI 產(chǎn)品的賬單并沒(méi)有變輕。
一家亞太的 AI 情感陪伴出海公司就撞上過(guò)這個(gè)問(wèn)題。它不是沒(méi)人用,而是用戶漲得越快,虧得越多。語(yǔ)音交互、多模態(tài)生成、持續(xù)在線的陪伴關(guān)系,把每一次調(diào)用都變成一筆細(xì)賬,模型要跑,數(shù)據(jù)要傳,結(jié)果要送回海外用戶手里。后來(lái)它換了一套推理基礎(chǔ)設(shè)施,把整體 AI 與 IT 成本砍掉約六成,項(xiàng)目才從虧損轉(zhuǎn)向盈利。
我們帶著這筆賬,找到了李文濤。他是 Akamai 亞太區(qū)云計(jì)算架構(gòu)師總監(jiān),這些年經(jīng)手過(guò)大量出海團(tuán)隊(duì)的算力架構(gòu)。在他看來(lái),出海的 AI 團(tuán)隊(duì)這兩年正在發(fā)生一個(gè)明顯的轉(zhuǎn)變。三年前,多數(shù)團(tuán)隊(duì)還在試水,多是拿 AI 給主營(yíng)產(chǎn)品加點(diǎn)增值功能,在自己的模型上做些調(diào)優(yōu)和打磨,服務(wù)也沒(méi)真正上量。今年開(kāi)始,重心從打磨模型,轉(zhuǎn)向把正式服務(wù)發(fā)出去、把錢(qián)投到推理上。越來(lái)越多團(tuán)隊(duì)跑通了產(chǎn)品,接下來(lái)要做的是快速鋪向全球、盡快盈利。
在他接觸的出海團(tuán)隊(duì)里,AI 的用法也越來(lái)越廣,從早期做營(yíng)銷(xiāo)、廣告和游戲素材的文生圖,擴(kuò)展到文生視頻,再到情感陪伴、智能客服、會(huì)議轉(zhuǎn)寫(xiě)、實(shí)時(shí)翻譯,以及電商個(gè)性化、庫(kù)存預(yù)測(cè)、用戶行為分析等場(chǎng)景。其中面向消費(fèi)者的實(shí)時(shí)交互類(lèi)應(yīng)用,比如陪伴和對(duì)話,對(duì)成本和延遲尤其敏感。
接下來(lái)的問(wèn)題就很具體了。一個(gè)手里已經(jīng)有模型、可能正在用 H100 或者消費(fèi)級(jí)卡的團(tuán)隊(duì),到底該怎么把這筆賬算清楚。我們和李文濤聊了三件事,選哪張卡,怎么算賬,把推理放在哪里跑。
當(dāng)年出海團(tuán)隊(duì)選 CDN,是在為網(wǎng)頁(yè)、視頻和下載體驗(yàn)算賬;現(xiàn)在選推理跑在哪里,是在為每一次回答、每一幀視頻、每一段語(yǔ)音算賬。區(qū)別只是,這一次賬單來(lái)得更快,也更難藏在后臺(tái)。
以下為實(shí)錄,經(jīng)不改變?cè)獾木庉嫛?/b>
硅星人:很多團(tuán)隊(duì)默認(rèn),跑推理就得上 H100,真是這樣嗎?
李文濤:不一定。英偉達(dá)的數(shù)據(jù)中心卡分好幾檔,從中高端的 H100,到中端的 RTX PRO 6000 Blackwell,再到更老更小的型號(hào),每張卡擅長(zhǎng)的工作不一樣。英偉達(dá)對(duì)這些卡有定位,有些更適合訓(xùn)練,有些更適合推理。訓(xùn)練吃的是多卡互聯(lián)和內(nèi)存帶寬,推理更看重單卡能不能把模型裝下、把并發(fā)頂住,所以對(duì)很多推理場(chǎng)景來(lái)說(shuō),H100 是殺雞用牛刀。
按英偉達(dá)自己的產(chǎn)品線資料,RTX PRO 6000 在推理這一檔被標(biāo)為最高性價(jià)比。它最關(guān)鍵的一個(gè)特點(diǎn)是原生支持 FP4 精度,這一點(diǎn) H100 這一代(Hopper 架構(gòu))還做不到,只能到 FP8。FP4 比 FP8 省一半顯存,對(duì)很多模型來(lái)說(shuō)精度損失很小,省下來(lái)的顯存可以多扛并發(fā)。再加上 96GB 的大顯存,量化后單卡就能裝下一個(gè) 70B-140B的 模型,這是它跑大模型推理時(shí)真正占便宜的地方。
硅星人:能舉個(gè)例子嗎,同樣是 AI,不同場(chǎng)景怎么配不同的卡?
李文濤:我們一個(gè)韓國(guó)客戶就是例子,做《跑跑姜餅人》系列的 DevSisters。它在全球運(yùn)營(yíng)實(shí)時(shí)在線游戲,有兩個(gè) AI 場(chǎng)景,用了兩張完全不同的卡。一個(gè)是游戲里 NPC 的實(shí)時(shí)對(duì)話,背后是一個(gè) 70B 的大模型,對(duì)實(shí)時(shí)性要求高,跑在 RTX PRO 6000 上,在 int8 精度下,96GB 顯存可以裝下這個(gè)模型,還留出 20 多 GB 給用戶上下文和并發(fā),基本能把這張卡跑滿。另一個(gè)是離線生成游戲素材的文生圖,模型小得多,用上一代的 RTX 4000 Ada 就夠,更早之前他們用的是 A10、L20 這類(lèi)更老的卡。一張高端卡跑實(shí)時(shí)大模型,一張小卡跑離線生成,就是按模型和場(chǎng)景把錢(qián)花在刀刃上。
![]()
硅星人:那為了省錢(qián),直接上消費(fèi)級(jí)游戲卡,或者顯存小一些的便宜卡,行不行?
李文濤:國(guó)內(nèi)確實(shí)有不少客戶用比較低端、甚至消費(fèi)級(jí)的卡跑推理,比如 5090 這種PC游戲卡,這里面有幾個(gè)問(wèn)題。一個(gè)是算力,創(chuàng)業(yè)初期拿它跑通產(chǎn)品沒(méi)問(wèn)題,但用戶量一上來(lái)、模型一迭代,很快會(huì)撞到顯存容量和帶寬的瓶頸。再一個(gè)是可靠性,消費(fèi)級(jí)卡在這塊設(shè)計(jì)上有局限,比如沒(méi)有 ECC 顯存糾錯(cuò)機(jī)制,KV 緩存里一旦出錯(cuò),就可能導(dǎo)致服務(wù)中斷。還有擴(kuò)展性,它不支持 NVLink,連卡間GPUDirect P2P直通也不支持,一旦要多卡協(xié)作,性能會(huì)斷崖式下跌。所以從算力到可靠性再到擴(kuò)展性,消費(fèi)級(jí)卡都不是長(zhǎng)久之計(jì)。另外有些團(tuán)隊(duì)用顯存 48GB 甚至更小的卡,比 RTX PRO 6000 小一半左右,跑小模型沒(méi)問(wèn)題,真要跑一個(gè) 70B,單卡裝不下就得拆成兩張,卡和卡之間的通信復(fù)雜度和開(kāi)銷(xiāo)一上來(lái),反而不劃算。
硅星人:聊回 RTX PRO 6000,你們自己測(cè)過(guò),說(shuō)它的推理吞吐能做到 H100 的 1.63 倍。這個(gè)數(shù)怎么測(cè)的,又是什么樣的團(tuán)隊(duì)其實(shí)不該選它?
李文濤:那個(gè)測(cè)試用的是業(yè)界開(kāi)源的 Llama 70B 模型,按英偉達(dá)推薦的標(biāo)準(zhǔn)方法測(cè)的,從吞吐看,RTX PRO 6000 能做到 H100 的 1.63 倍。而且這還只是吞吐的比較,從性價(jià)比的角度看,優(yōu)勢(shì)會(huì)顯著高于 1.63 倍。這里我補(bǔ)充一個(gè)點(diǎn),我們?cè)?RTX PRO 6000 上跑的時(shí)候用的是 FP4 精度,相比常用的 FP8、int8,它在精度幾乎不損失的情況下又把顯存需求降了一半;H100 這一代還不支持 FP4,只能用 FP8。即便這樣,我們的吞吐還是做到了它的 1.63 倍。
至于什么樣的團(tuán)隊(duì)不該選它,如果是要訓(xùn)練參數(shù)量在數(shù)百億甚至更大的模型,需要 HBM3 那種高顯存帶寬、支持 NVLink 的卡,那 H100、甚至 B300 這類(lèi)更高端卡的會(huì)更合適。RTX PRO 6000 的強(qiáng)項(xiàng)是推理,而且它能用的場(chǎng)景很廣,從推理、后訓(xùn)練調(diào)優(yōu)到數(shù)據(jù)分析、科學(xué)計(jì)算、實(shí)時(shí)渲染都行,是英偉達(dá)數(shù)據(jù)中心卡里用途最廣的一款。選卡說(shuō)到底,還是看它配不配得上自己的模型和業(yè)務(wù),最強(qiáng)的那張往往不是最劃算的。
(硅星人注:1.63 倍是 RTX PRO 6000 用 FP4、H100 用 FP8 比出來(lái)的,差距很大一部分來(lái)自精度本身,并不是同精度下的硬件差距。第三方測(cè)試機(jī)構(gòu) CloudRift 做過(guò)一組同模型、同量化、同框架的對(duì)比,結(jié)論是兩張卡的推理吞吐基本持平,RTX PRO 6000 每百萬(wàn) token 的成本低約三成。換句話說(shuō),拉到同一精度兩者接近,能用上 FP4,才是 RTX PRO 6000 真正拉開(kāi)差距的地方。)
硅星人:選完卡,接下來(lái)是算賬。推理的成本,除了 GPU 每小時(shí)多少錢(qián),還有哪些容易被忽略的?
李文濤:除了 GPU 的租金,推理時(shí)其實(shí)還有不少周邊成本容易被忽略,比如 CPU、存儲(chǔ)和網(wǎng)絡(luò)流量。以 GCP 為例,同一臺(tái) GPU 機(jī)器里的 CPU 和存儲(chǔ)是分開(kāi)計(jì)費(fèi)的,只看 GPU 單價(jià)各家差不多,把 CPU、本地存儲(chǔ)、網(wǎng)絡(luò)都算進(jìn)去,差距就拉開(kāi)了。Akamai 是把 GPU、CPU、存儲(chǔ)、網(wǎng)絡(luò)打包賣(mài)的,據(jù)我們自己測(cè)算,同樣一臺(tái)機(jī)器的性價(jià)比比 GCP 的同類(lèi)機(jī)型高出一倍多。
最容易被低估的是出站流量,也就是 egress。訓(xùn)練是一次性投入,推理卻是持續(xù)在跑,做語(yǔ)音、圖片、視頻這類(lèi)多模態(tài)生成,一次請(qǐng)求傳出去可能就是幾十兆到幾百兆。Akamai 的出站流量按約 0.005 美元一 GB 算,只有大廠常見(jiàn)價(jià)格的二十分之一左右,大廠動(dòng)輒要 0.08 到 0.10 美元。這和我們做了多年 CDN 的底子有關(guān),長(zhǎng)期和運(yùn)營(yíng)商互聯(lián),把緩存服務(wù)器放進(jìn)運(yùn)營(yíng)商網(wǎng)絡(luò),帶寬和跨網(wǎng)結(jié)算的成本結(jié)構(gòu)本來(lái)就和一般云廠商不同。
另外,AI 應(yīng)用現(xiàn)在很多是多云架構(gòu),要和別的云上的應(yīng)用互訪。Akamai 用做 CDN 起家的那張全球骨干網(wǎng),把自己所有的云區(qū)域打通,還和幾乎所有主流云直連,客戶跨云互訪不額外掏一筆帶寬費(fèi)。隨著 AI Agent 越來(lái)越多地調(diào)用外部工具和云上服務(wù),多云之間的頻繁互訪會(huì)把網(wǎng)絡(luò)成本和延遲重新放大,這種打通到時(shí)會(huì)更加提升性價(jià)比,應(yīng)用部署也更加靈活。
硅星人:價(jià)格上,Akamai 在市場(chǎng)里大概是什么位置?
李文濤:大廠的 GPU 定價(jià)普遍偏高,條款也比較苛刻,往往要客戶承諾比較大的使用量,才放出一點(diǎn)折扣。純賣(mài)裸 GPU 的算力云確實(shí)便宜,但很多是規(guī)模不大的初創(chuàng)公司,算力的全球分布并不完整,服務(wù)質(zhì)量和可靠性也有待驗(yàn)證。Akamai 想兼顧的,是性價(jià)比和企業(yè)級(jí)的全球網(wǎng)絡(luò)與服務(wù)。
對(duì)出海團(tuán)隊(duì)來(lái)說(shuō),還有很重要的一層是本地化服務(wù)。很多問(wèn)題不是出在國(guó)內(nèi)總部,而是出在目標(biāo)市場(chǎng),當(dāng)?shù)赜袥](méi)有技術(shù)團(tuán)隊(duì)、能不能做24*7的架構(gòu)咨詢和故障響應(yīng),會(huì)直接影響生產(chǎn)服務(wù)能不能長(zhǎng)期穩(wěn)定地跑下去。Akamai 在中國(guó)做了十幾年,一直服務(wù)中國(guó)企業(yè)出海,在國(guó)內(nèi)和目標(biāo)市場(chǎng)都有技術(shù)團(tuán)隊(duì)和資源,客戶也能方便地用上我們?nèi)虻募夹g(shù)支持。除了性價(jià)比,這是客戶很看重的地方。
硅星人:能不能講一個(gè)真實(shí)的案例,從選卡、部署到成本,賬是怎么一步步算下來(lái)的?
李文濤:我們有一個(gè)做情感陪伴的亞太客戶。它原來(lái)用大廠的 A100,比較老的旗艦訓(xùn)練卡,做多模態(tài)的語(yǔ)音交互。A100 的租金本來(lái)就高,再疊加比我們高 20 多倍的出站流量,每生成一百萬(wàn) token 的綜合成本接近 4.5 到 5 美元。后來(lái)我們幫它優(yōu)化架構(gòu),換到 Akamai 推理云、用 RTX PRO 6000、精度上 采用FP4,出站流量也降到幾乎可以忽略,綜合成本降到 1.8 美元,整體的 AI 與 IT 開(kāi)銷(xiāo)砍掉六成,項(xiàng)目從虧損轉(zhuǎn)向盈利。這也是不少出海團(tuán)隊(duì)走的路,起步圖省事用大廠,跑到一定規(guī)模、單位成本壓不下去時(shí),再靠開(kāi)源自建加合理選卡遷出來(lái)。遷移這件事,我們配了專(zhuān)門(mén)的架構(gòu)師和商務(wù)方面的支持。
硅星人:除了選卡和選云,模型這邊還有壓成本的空間嗎?
李文濤:空間不小。我們推薦 FP4 量化,它比 FP8 對(duì)顯存的需求小一半,精度損耗幾乎可以忽略,省下來(lái)的顯存可以多扛并發(fā)、放更大的上下文。再加上把 KV 緩存從顯存挪到內(nèi)存,單卡能服務(wù)的量就上去了。我們有個(gè)做 AI 消費(fèi)體驗(yàn)的海外客戶,靠這些辦法,把單張圖片的生成成本壓到了一美分上下。模型側(cè)和基礎(chǔ)設(shè)施側(cè)的優(yōu)化是疊加的,兩邊都做,單位成本才真正壓得下來(lái)。
硅星人:延遲對(duì)出海的 AI 產(chǎn)品有多重要?位置對(duì)它的影響又有多大?
李文濤:延遲對(duì)出海產(chǎn)品比較重要的,畢竟中國(guó)出海的很多是 to C、實(shí)時(shí)交互類(lèi)的產(chǎn)品。對(duì)一個(gè)大模型來(lái)說(shuō),首個(gè) token 如果超過(guò)兩秒,用戶就會(huì)覺(jué)得 AI 卡住了,可能會(huì)流失,這跟以前網(wǎng)頁(yè)加載太慢、用戶放棄率高是一回事。對(duì)話類(lèi)大概是兩秒這個(gè)量級(jí),實(shí)時(shí)語(yǔ)音、在線客服會(huì)更苛刻,幾百毫秒用戶就能感覺(jué)到延遲大了。前面說(shuō)的 DevSisters,實(shí)時(shí)多人在線的游戲互動(dòng),也是要優(yōu)化延遲的場(chǎng)景。這些都還是 to C 的場(chǎng)景,再往后像自動(dòng)駕駛、機(jī)器人這種要在物理世界里實(shí)時(shí)反應(yīng)的,對(duì)延遲和可靠性的要求只會(huì)更高。這里面其實(shí)是兩件事,一是離用戶近不近,二是網(wǎng)絡(luò)路徑好不好,后面這點(diǎn)常被忽略。
從區(qū)域數(shù)量看,三大云全球大概 30 到 50 個(gè),我們的核心云區(qū)域在全球有32個(gè);在網(wǎng)絡(luò)邊緣我們鋪了 4400 個(gè)節(jié)點(diǎn),覆蓋了130個(gè)國(guó)家,這個(gè)量級(jí)上比三大云多了上百倍。節(jié)點(diǎn)離用戶越近,中間的網(wǎng)絡(luò)跳就越少。不過(guò)這些節(jié)點(diǎn)不是每個(gè)都能跑大模型,它為推理提供周邊服務(wù),如函數(shù)即服務(wù),容器服務(wù),邊緣AI網(wǎng)關(guān)等。。
網(wǎng)絡(luò)路徑這方面我們做過(guò)一個(gè)對(duì)比,幫一個(gè)卡牌游戲客戶,它之前用亞馬遜的華盛頓區(qū)域服務(wù)南美的西語(yǔ)用戶,換到我們的華盛頓區(qū)域之后,到南美的延遲縮短了大概 15%。兩邊都在華盛頓,物理距離沒(méi)變,變的是流量進(jìn)入和穿過(guò)互聯(lián)網(wǎng)的路徑。
硅星人:除了選區(qū)域,還有別的辦法降延遲、降成本嗎?
李文濤:有,有時(shí)候還能跳出純 GPU 的范圍。我們有個(gè)客戶做全球的家庭安防攝像頭,本來(lái)打算全部用 GPU 跑機(jī)器視覺(jué),后來(lái)發(fā)現(xiàn)這個(gè)工作流可以拆成兩步,先把視頻里有異常的幀抽出來(lái),再把這些幀交給 GPU 去識(shí)別。抽幀這一步我們用一個(gè)叫 VPU 的視頻處理芯片來(lái)做,把它從 GPU 上卸載下來(lái),跟 GPU 配合,成本降了三到五成。把一個(gè)推理流程拆開(kāi)、每段放在最合適的硬件上,能省不少成本。
當(dāng)然,不是所有推理都適合下沉到邊緣。大模型訓(xùn)練、超大模型的多卡推理,仍然更適合集中在少數(shù)高算力的集群里。邊緣真正擅長(zhǎng)的,是那些對(duì)響應(yīng)速度、跨區(qū)域體驗(yàn)和流量成本和數(shù)據(jù)合規(guī)更敏感的推理服務(wù)。
![]()
硅星人:往前看 6 到 12 個(gè)月,一個(gè)準(zhǔn)備出海的 AI 團(tuán)隊(duì),在算力這件事上最該提前準(zhǔn)備什么?
李文濤:這取決于業(yè)務(wù)形態(tài),但要說(shuō)通用的建議,現(xiàn)在 AI 的模型和技術(shù)迭代都非常快,越來(lái)越多企業(yè)在轉(zhuǎn)向 Agent 式的架構(gòu),所以設(shè)計(jì)云架構(gòu)時(shí)別只盯著當(dāng)前的需求,要往更長(zhǎng)遠(yuǎn)看,搭一個(gè)能適應(yīng) Agent 時(shí)代的平臺(tái)。具體是三點(diǎn)。一是多云友好,前面說(shuō)的跨云打通,就是在為這個(gè)做準(zhǔn)備。二是技術(shù)棧的選擇,是用大廠的私有技術(shù)棧,像 Bedrock、Vertex AI 這種,還是用開(kāi)源加基礎(chǔ)設(shè)施服務(wù),搭一個(gè)沒(méi)有技術(shù)鎖定、容易遷移的技術(shù)棧,這個(gè)選擇很重要。三是 Agent 時(shí)代會(huì)帶來(lái)新的擴(kuò)展性和安全需求,人和模型的交互如果是一個(gè)量級(jí),Agent 和 Agent 之間的交互可能是數(shù)百、數(shù)千甚至上萬(wàn)倍的量級(jí),平臺(tái)的擴(kuò)展性、可管理性和安全,都要充分考慮。
硅星人:最后一個(gè)問(wèn)題。對(duì)想出海的 AI 團(tuán)隊(duì),最該補(bǔ)的能力是什么?
李文濤:最該補(bǔ)的是規(guī)模化的運(yùn)營(yíng)能力。具體來(lái)說(shuō),是海外的安全合規(guī)、面向全球用戶的擴(kuò)展性,以及產(chǎn)品體驗(yàn)在不同市場(chǎng)的適配。技術(shù)上中國(guó)團(tuán)隊(duì)并不缺,更需要專(zhuān)注的是把一個(gè)能跑通的產(chǎn)品,做成一套能在全球穩(wěn)定、高擴(kuò)展、安全和低成本運(yùn)轉(zhuǎn)的系統(tǒng)。
尤其是合規(guī)和安全這方面,分量越來(lái)越重。應(yīng)用一旦做到歐洲,就要面對(duì) GDPR,做到美國(guó),又有 CCPA 這類(lèi)嚴(yán)格的數(shù)據(jù)合規(guī)要求,再加上 AI 應(yīng)用本身正在成為新的攻擊面。Akamai 本身是從 CDN 起家、轉(zhuǎn)向網(wǎng)絡(luò)安全、再轉(zhuǎn)向云的,防 DDoS、全球合規(guī)這些能力,是直接長(zhǎng)在這套推理云基礎(chǔ)設(shè)施里的。對(duì)出海團(tuán)隊(duì)來(lái)說(shuō),算力和安全合規(guī),可以在一處一起解決。
![]()
點(diǎn)個(gè)“愛(ài)心”,再走 吧
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.