別人卷參數(shù),他卷效率。 融資到賬第九天,梁文鋒的第一槍,打在了"讓現(xiàn)有模型跑得更快"上。
這幾天,AI 圈又被一個(gè)名字給刷屏了。
DSpark。
![]()
我第一眼看到的時(shí)候,還以為是哪家公司又發(fā)新模型了。。。
點(diǎn)進(jìn)去一看——好家伙,又是梁文鋒。
故事是這樣的。
6 月 16 號(hào),DeepSeek 剛剛完成成立以來(lái)的第一輪外部融資,超 500 億人民幣到賬,投后估值 3300 億。
騰訊、寧德、網(wǎng)易、京東,挨個(gè)排隊(duì)送錢。
按正常劇本走,融了這么多錢,下一步不是憋個(gè)大招放 V4.1,就是開(kāi)個(gè)發(fā)布會(huì)請(qǐng)明星站臺(tái)。
結(jié)果梁文鋒這哥們兒,錢到賬第 9 天,6 月 27 號(hào),啪的一下,在 GitHub 上低調(diào)掛了一篇論文。
聯(lián)合北大發(fā)的,本人署名。
沒(méi)發(fā)布會(huì),沒(méi)海報(bào),沒(méi) PR 通稿。
就這么悄咪咪地,把自家 V4 的"發(fā)動(dòng)機(jī)"拆了重裝。
一、那個(gè)讓我 PTSD 的數(shù)據(jù)
我看到那個(gè)數(shù)據(jù)的時(shí)候,是有點(diǎn) PTSD 的。
單用戶生成速度,比線上原來(lái)的 MTP-1 基線,直接提升 60%–85%。
![]()
V4-Flash 在 120 tok/s 嚴(yán)苛檔下的吞吐?
+661%。
我反復(fù)確認(rèn)了好幾遍,沒(méi)看錯(cuò),就是這個(gè)數(shù)。
什么概念呢。
以前你用 V4-Flash 讓它寫個(gè)長(zhǎng)文,你可以泡杯茶慢慢喝。
現(xiàn)在你點(diǎn)回車的瞬間,唰,全出來(lái)了。
而且最騷的是——
輸出分布跟原模型完全一致。 質(zhì)量不掉,純加速。二、它是怎么做到的
我嘗試用人話講清楚。
以前的大模型,說(shuō)白了就是個(gè)"擠牙膏型"選手。
![]()
你讓它寫 100 個(gè)字,它就老老實(shí)實(shí)算 100 次神經(jīng)網(wǎng)絡(luò),每次蹦一個(gè)字出來(lái)。
慢得摳腳。
后來(lái)圈子里有人想了一招,叫**"推測(cè)解碼"**。
意思是雇一個(gè)"小模型實(shí)習(xí)生",先唰唰唰幫你猜一長(zhǎng)串草稿,再讓"主模型老師"閉著眼一次性核驗(yàn),對(duì)的留、錯(cuò)的扔。
聽(tīng)起來(lái)很美好。
但這幫實(shí)習(xí)生干活兒有兩個(gè)毛病。
- 第一種實(shí)習(xí)生太老實(shí)
,跟老師一樣一個(gè)字一個(gè)字猜,自己也變得很慢。
- 第二種實(shí)習(xí)生太浪
,一口氣猜十幾個(gè)字,開(kāi)頭還行,越往后越抽象。
明明前文是 of,下一個(gè)該是 course,它非要給你寫個(gè) "of problem"。
這毛病在論文里還有個(gè)正經(jīng)名字——"后綴衰減"。
更騷的事還在后面。
主模型老師不管這些。
你扔過(guò)來(lái) 20 個(gè)字,它就老老實(shí)實(shí)校驗(yàn) 20 個(gè)字。
哪怕后 15 個(gè)字一看就是瞎扯,它也得算一遍。
在高并發(fā)的生產(chǎn)環(huán)境里,這就是災(zāi)難性的算力浪費(fèi)。
三、DSpark 的破局思路
就兩件事。
1. 讓實(shí)習(xí)生別瞎寫
它搞了個(gè) "半自回歸" 的混合架構(gòu)。
前面用并行主干一口氣鋪開(kāi)大塊草稿,后面疊一個(gè)極簡(jiǎn)的串行小模塊,讓每個(gè)字都"瞄一眼"前面已經(jīng)寫出來(lái)的內(nèi)容。
并行的快還在,串行的準(zhǔn)也補(bǔ)上了。
2. 讓老師別傻看
它給每個(gè)草稿字都打了個(gè) "靠譜分"。
調(diào)度器實(shí)時(shí)盯著——
置信度低?跳過(guò)別校。
置信度高?拉滿去驗(yàn)。
服務(wù)器空閑就敞開(kāi)了猜,服務(wù)器繁忙就收著點(diǎn)猜。
簡(jiǎn)單粗暴。
但是有效。
四、和誰(shuí)比?比多少?
對(duì)比對(duì)象
提升
Eagle3
(自回歸草稿)
平均接受長(zhǎng)度 +26.7% ~ +30.9%
DFlash
(并行草稿)
平均接受長(zhǎng)度 +16.3% ~ +18.4%
MTP-1
(線上生產(chǎn)基線)
單用戶生成速度 +60% ~ +85%
而且這套方案不挑模型。
Qwen3-4B、8B、14B 上挨個(gè)驗(yàn)證,全部能打。
五、為什么這件事比 V4.1 還值得說(shuō)
我跟一個(gè)做 Infra 的朋友聊起這事兒。
他來(lái)了一句:
"這玩意比發(fā) V4.1 讓我服多了。"
為啥。
2026 年了,參數(shù)堆到這個(gè)量級(jí),架構(gòu)創(chuàng)新的邊際收益已經(jīng)在遞減了。
真正的命門,是"同樣一張 H100 能跑出多少 tok/s"。
每提 10%,就是真金白銀。
而 DeepSeek 還把所有東西都開(kāi)源了。
- 模型權(quán)重
掛在 Hugging Face
- DeepSpec 全棧訓(xùn)練代碼
扔在 GitHub
- MIT 協(xié)議
,隨便商用
意思是——你拿去給 Qwen3、Gemma 訓(xùn)自己的草稿模型也行,隨便用。
上線一天,906 個(gè) star。
六、寫在最后
這兩年我看了太多發(fā)布會(huì)。
每場(chǎng)都恨不得把自己說(shuō)成下一個(gè) OpenAI。
PPT 上的數(shù)字一個(gè)比一個(gè)嚇人,落到真實(shí)用戶手里,卡得跟幻燈片似的。
但 DeepSeek 一直在悶頭干一件事——
把價(jià)格打下來(lái)。 把速度提上去。 把代碼扔出來(lái)。 把門檻踩下去。
500 億到賬第九天打的第一槍,沒(méi)打在新模型上,打在了"讓現(xiàn)有模型跑得更快"上。
這個(gè)選擇,挺梁文鋒的。
愿我們手里的 AI,
別再是擠牙膏的電子算盤。
而是一臺(tái),真正能陪你跑起來(lái)的發(fā)動(dòng)機(jī)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.