圖文原創(chuàng):親愛的數(shù)據(jù)
開源好,真是好,
DeepSeek現(xiàn)在在各個(gè)行業(yè)落地(做推理),
我們直奔重點(diǎn),
推理(Inference)的時(shí)候,
下面的底座重要嗎?
底座是一整套系統(tǒng)軟件,是幕后英雄,
我們距離這個(gè)底座最近的那次是,
DeepSeek開源七天大放送。
開源出來(lái)一堆英文名,
好多人一看不知道具體干啥,
這些,都是“底座”的核心組件。
DeepEP、3FS、DualPipe……
這不是炫技,是一個(gè)現(xiàn)代AI云,
所需的基礎(chǔ)設(shè)施能力棧。
大模型要跑得好,
光有算力(私有化部署,公有云)還不夠,
要能“跑得快,還“吞吐量大”,
這就靠“底座”了。
這玩意有多重要呢?
如果不開源,
所有的云廠商都關(guān)起門,自己建設(shè)自己的。
為啥呀?核心競(jìng)爭(zhēng)力。
反正云廠商就兩條路:
套著自己馬車(模型)賺錢,
套著別人馬車(開源模型)賺錢,
無(wú)論哪條路,都要推理(inference)系統(tǒng)好。
說到DeepSeek開源,還有個(gè)“內(nèi)部笑話”
一開始,沒說會(huì)把底座里的哪幾個(gè)重要組件開源,
于是,有實(shí)力的云廠商,
注意,還得是有實(shí)力,
立馬埋頭苦干。
那些沒實(shí)力的廠商,只能干瞪眼。
結(jié)果,抓馬了,那些有實(shí)力的團(tuán)隊(duì)一頓忙活,
白受累了,DeepSeek開源了。
這次輪到?jīng)]實(shí)力的廠商笑彎腰了,
直接撿便宜了。
所有人全部回到起點(diǎn)。
其實(shí)勤奮的研發(fā)同學(xué)不白做,
在認(rèn)知上肯定有提高,
說到這,無(wú)論誰(shuí)想把DeepSeek玩好,
底座就非常重要了,
說俗一點(diǎn),只要這種底層軟件厲害,
云計(jì)算的服務(wù)就可以賣上價(jià)了。
因?yàn)檫@個(gè)軟件可以和模型,
和算力一起賣,利潤(rùn)高,很賺錢。
這種軟件是推理(Inference)的基礎(chǔ)軟件。
DeepSeek之后,
大廠把重點(diǎn)工作進(jìn)一步向模型的推理能力傾斜,
如何支持推理那就太重要了。
這種系統(tǒng)軟件主要有兩個(gè)重點(diǎn),
穩(wěn)定和容錯(cuò)。
談到賺錢,這部分服務(wù)成本有兩部分構(gòu)成:
第一基礎(chǔ)軟件人力成本,
沒錯(cuò),就是一幫技術(shù)扎實(shí),頭腦聰明的人,
沒日沒夜加班干出來(lái)的,
于是,阿里字節(jié)百度的辦公大樓里,
凌晨的燈光,
少不了是基礎(chǔ)軟件團(tuán)隊(duì)在熬夜加班。
第二,英偉達(dá)芯片的使用成本,
也粗說就是機(jī)器成本。
這是成本是固定的,
沒有什么讓利和打折的空間。
當(dāng)然,我們拋開政府部門補(bǔ)貼,
別人家老舊機(jī)型而省下來(lái)的錢。
如果你是國(guó)產(chǎn)芯片,那就另說。
有位大神舉了個(gè)例子。
如果有個(gè)電廠燒錢免費(fèi)讓你用他家的電,
為了價(jià)格優(yōu)惠,電廠必然虧本,客戶來(lái)了不少。
過一段時(shí)間,你就對(duì)這家電廠有忠誠(chéng)度了么?
不,因?yàn)殡娛菢?biāo)品。
AI基礎(chǔ)軟件也是標(biāo)品,
A云廠商有,B云廠商有,C云廠商也有。
所以,第一步,先成為標(biāo)品,
不要虧本的標(biāo)品,
在標(biāo)品的市場(chǎng)上,因?yàn)榧夹g(shù)差,
成本就會(huì)高,利潤(rùn)就少了。
下一步,拉著模型賺錢。
閉源模型厲害,開源就是落后生產(chǎn)力,
開源模型厲害,閉源就是落后生產(chǎn)力,
落不落后,不看性格,不看基因,
只看生產(chǎn)力先進(jìn)與否。
閉源的出發(fā)點(diǎn)就是想把底層算力,
中層模型綁在一起賣。
出發(fā)點(diǎn)沒錯(cuò),任何一個(gè)理性經(jīng)濟(jì)主體都這么思考,
難點(diǎn)在于競(jìng)爭(zhēng)太激烈,俗稱,太卷了。
開源項(xiàng)目(如Llama,DeepSeek),
不斷挑戰(zhàn)閉源商業(yè)模型。
一旦開源社區(qū)拿下了性能和成本的制高點(diǎn),
閉源廠商壓力巨大。
都這樣了,就積極擁抱吧。
那如何賺錢呢?
這是云廠商要思考的問題,
我的觀察是,
云廠商想通過通用模型本身筑就壁壘幾乎不可能。
但是,當(dāng)下,
可以筑就“模型+底座軟件”的壁壘。
這也是DeepSeek的打法,
模型本身開源了,不是壁壘,
加上底座就有壁壘了。
因?yàn)榈鬃菫槟P驮O(shè)計(jì)的。
如果模型自己的,底座軟件自己的,
連芯片也是自己的,
那真的就是太好了,
譚老師我已經(jīng)在你辦公室門口了,開門啊。
這類廠商想把DeepSeek推理的吞吐做大,好難。
模型即服務(wù)明顯利潤(rùn)更高,
即便是這個(gè)模型不是你的。
這件事的早期,考驗(yàn)云廠商什么呢?
考驗(yàn)造出一套適配DeepSeek的底座軟件的能力。
我都不說這套系統(tǒng)有多好,
你得先有。
后面,大家就都有了,而且誰(shuí)也不會(huì)差。
還有一個(gè)問題,以前的底座不能繼續(xù)用嗎?
DeepSeek和之前以Llama系列,
通義千問72B為代表的模型架構(gòu)不同,
怎么不同呢?打個(gè)并不貼切的比喻,
一個(gè)是直升飛機(jī),一個(gè)是固定翼飛機(jī)。
你之前不是有停機(jī)坪能支持直升飛機(jī)起降嗎?
能支持固定翼飛機(jī)起降嗎?
輕輕柔柔一句話,
能支持,就是要再鋪一條跑道。
只有真正干“底座”的人,
才知道這句話的份量有多重。
那些跑在英偉達(dá)GPU上的云廠商基礎(chǔ)軟件團(tuán)隊(duì),
無(wú)奈背過臉輕輕擦去臉上的淚水,
那些非英偉達(dá)AI芯片吞吐量想做大就更累了。
因?yàn)镈eepSeek是在英偉達(dá)上訓(xùn)練出來(lái)的模型,
如果你也把模型部署在英偉達(dá)GPU上,
大可以抄作業(yè),
相反,就沒有作業(yè)可抄。
不過,好消息是,非英偉達(dá)AI芯片才有壁壘。
大家都知道,
固定翼飛機(jī)要一定長(zhǎng)度的跑道起降。
那些之前都是玩直升機(jī)的云廠商,
相當(dāng)于只有停機(jī)坪,沒有跑道,
需要提供DeepSeek的API接口給客戶用,
就得從頭開始鋪跑道。
那么啥也憋說了,趕緊造吧。
在這個(gè)值得紀(jì)念的,2025年的蛇年春節(jié),
所有的云廠商AI基礎(chǔ)軟件團(tuán)隊(duì)都在瘋狂加班,
原因就是這個(gè)。
而且,這個(gè)破班到現(xiàn)在,
到4月第一周了,都沒有加完。
一位在百度干這個(gè)活的小哥哥發(fā)的朋友圈說,
史上最夸張的加班。
為什么呢?因?yàn)殡y,因?yàn)檫€在猛干提高。
頭部云廠商的AI基礎(chǔ)設(shè)施團(tuán)隊(duì),都是一流團(tuán)隊(duì)。
弄了這么久只有一個(gè)原因,就是難。
美國(guó)硅谷AI芯片創(chuàng)業(yè)團(tuán)隊(duì)的核心研發(fā)給我說,
他要做一個(gè)輕版本,盡快給客戶用,
還要再做一套重版本,把每一個(gè)細(xì)節(jié)都設(shè)計(jì)好。
為什么要這樣呢?
他告訴我的原話是:
“難度陡然提升的原因是,
DeepSeek模型的思路和其它開源模型不一樣。
需要打破以前的慣例,
為他量身定制一套部署。
若還是Llama老路倒簡(jiǎn)單了。”
要知道,推理速度快和打滿是兩個(gè)技術(shù)路線,
勛章屬于“能在吞吐量上打敗所有人的英雄”。
云廠商的基礎(chǔ)軟件團(tuán)隊(duì)不是吃白飯的,
這個(gè)時(shí)期,要有一套基礎(chǔ)軟件,能夠媲美,
甚至超過DeepSeek原裝那套。
只有這樣才能賺錢。
如果價(jià)格比DeepSeek低,
你的成本還比它高,那就慘了。
這個(gè)時(shí)候的性價(jià)比,就和技術(shù)大大的相關(guān)了,
這里是云廠商AI的正面戰(zhàn)場(chǎng),
請(qǐng)享受這無(wú)可回避的痛苦。
說個(gè)有意思的,
老讀者都知道譚老師很喜歡和CTO對(duì)暗號(hào)。
如果你想顯示你很懂DeepSeek,
那有一個(gè)數(shù)據(jù)必須脫口而出,
說實(shí)話,譚老師我見到大神CTO的時(shí)候,
報(bào)出的暗號(hào)就是14.8K。
只要能報(bào)出這個(gè)數(shù)字,那就是自己人了。
要不知道這個(gè)數(shù)字,
那咱們就不再是朋友了。
技術(shù)濃度最高的部分就要來(lái)了。
14.8K是什么呢?是一個(gè)標(biāo)桿速度,
輸出吞吐約14.8ktokens/s,
也就是大模型一秒鐘吐出大約吐出15萬(wàn)個(gè)詞元。
為什么DeepSeek做到了?
這就說明它在基礎(chǔ)軟件(PD分離調(diào)度、批量吞吐調(diào)優(yōu)、算力利用率、KV Cache管理等)多個(gè)方面都非常頂,非常頂。
只追趕14.8K這一個(gè)指標(biāo)就夠了嗎?當(dāng)然不夠。
因?yàn)椴煌蛻簦煌瑘?chǎng)景的要求不同,
要做定制化調(diào)整,
比如,對(duì)話客服機(jī)器人,
用戶只說了幾句話,
然后模型要連續(xù)生成很多回答的內(nèi)容,
生成工作量大,速度不能慢;
而搜索增強(qiáng)生成(RAG)或如法律合同分析則不然,常常是輸入量大。
技術(shù)語(yǔ)是Prefill和Decode分離,俗稱PD分離,
速度是分開優(yōu)化的,
當(dāng)然,錢也得分開算的。
Prefill的成本是多少,Decode的成本又是多少。
換句話說,只要做到這個(gè)數(shù),
利潤(rùn)率基本接近DeepSeek原廠的了。
那天去海淀區(qū)上地奎科大廈喝奶茶,
百度智能云的技術(shù)小哥哥和我說,
他們已經(jīng)很接近這個(gè)數(shù)了,
為了證明這件事的真實(shí)性,
我和他繼續(xù)聊細(xì)節(jié),我們討論了賺錢的套路:
DeepSeek R1標(biāo)價(jià)是每一百萬(wàn)個(gè)詞元:
輸入4塊,輸出16塊;
他認(rèn)為DeepSeek R1成本是輸入三毛,
輸出1塊7毛。
很顯然,DeepSeek R1很賺錢。
假設(shè)每個(gè)廠商都有數(shù)量和型號(hào)相同的芯片,
誰(shuí)的系統(tǒng)的總吞吐量最高,誰(shuí)就最賺錢。
前段時(shí)間,
美國(guó)硅谷那邊的技術(shù)小哥哥和我聊了聊。
技術(shù)方面,對(duì)比DeepSeek和一眾友商的吞吐,DeepSeek高了10倍。
怎么做到的?
第一,改動(dòng)自注意力和FFN計(jì)算順序,
內(nèi)存瓶頸轉(zhuǎn)為通信瓶頸,節(jié)省時(shí)間2倍。
第二,KVCache 占比30%,batchsize可以變大,提升2倍,
第三,TP轉(zhuǎn)EP,提升2.5倍。“
這就是10倍的由來(lái)。
當(dāng)使用DeepSeek的需求激增,
好的AI全鏈路軟件是云廠商AI業(yè)務(wù)的生命線。
另外,吞吐量是各家都一直在努力提高的,
屬于動(dòng)態(tài)數(shù)據(jù),
咱們誰(shuí)也別刻舟求劍。
云廠商如果徹底跟不上DeepSeek,
自家的AI全鏈路軟件就等著落后,
開源大模型默認(rèn)不適配任何一家云廠商的底層軟硬件或優(yōu)化路徑,苦干是唯一的選擇。
這也是為什么你會(huì)看到,
阿里、騰訊、字節(jié)、百度,
都在投入專屬系統(tǒng),
做的其實(shí)和 DeepSeek 非常類似。
推理基礎(chǔ)設(shè)施必須自建嗎?或者能“白嫖”嗎?
可以這樣說:
如果你是云廠商,不搭一套推理基礎(chǔ)設(shè)施,
就像搞電商不建物流系統(tǒng)。
模型可以不是自己原創(chuàng)的,
只要?jiǎng)e人好就上別人的。
云廠商本質(zhì)是水電煤氣基礎(chǔ)設(shè)施提供商,
只是模型如果是自己的,整套賣那就更賺錢,
而且模型是打磨底座的利器,
沒有好模型,云廠商出去賣底座,
都會(huì)被人質(zhì)疑“零經(jīng)驗(yàn)”。
但要想用開源模型“量大,穩(wěn)定且掙錢”,
這套底座,少得了嗎?
(完)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.