網易首頁 > 網易號 > 正文 申請入駐

DeepSeek掀桌后,大模型廠商應該關注什么?

0
分享至

文 | 利昂先生

4月24日,DeepSeek V4 雖遲但到。

1.6T 參數,MIT 協議全量開源,百萬級上下文直接拉滿。

鼓掌的除了整個科技圈,還有那些在前一天賣空Minimax和智譜股票的股民們。

但內行人更關注的是,DeepSeek V4創新性地用了兩套全新的底層設計:Engram 條件記憶模塊和mHC(流形約束超連接)。

核心目的只有一個:在保持模型效果的前提下,把訓練和推理的成本打下來。

這說明了一件事:模型層面的創新,正在和基礎設施層面的創新深度綁定。

一個月前,OpenAI 核心基礎設施團隊的大牛翁家翌說了一段話,在技術圈瘋傳:

“現在的大模型競爭,拼的不是 Idea 多精妙,而是 AI Infra 的正確性與單位時間內的迭代次數。Idea 是廉價的,能被快速驗證的 Idea 才值錢!

這句話,百度智能云的百舸團隊顯然聽進去了。

最近,他們開源了一個AI訓練框架,直接把這場"速度戰"的烈度往上抬了一個量級。

它叫 “LoongForge”。

//一個科普:訓練框架是個啥?

大模型訓練,不是寫幾行代碼就能跑的。

一個幾百億參數的模型,一張GPU卡裝不下,得“切”成很多塊,放到幾十張甚至幾千張卡上同時訓練。

這就帶來一堆問題:

怎么切?模型有幾百層,每層都要切,切錯了就跑不起來。

怎么通信?幾千張卡在訓練,每張卡算完自己的部分,要和其他卡交換數據。交換慢了,整個訓練就慢了。

怎么管理顯存?模型參數、梯度、優化器狀態,都要占顯存。顯存不夠,訓練就崩了。

怎么保證穩定?幾千張卡跑幾天幾夜,中間某張卡出問題了,整個訓練要重來嗎?

這些問題,如果讓每個工程師自己解決,那得累死。于是就有了“訓練框架”。

它像一個智能管家——自動切分模型、優化通信、管理顯存、保證容錯。

有了這個“老師傅”,工程師才能專注于模型創新,而不是被工程細節拖死。

多模態時代,老框架有心無力

把時間拉回兩年前,那時大模型基本都是“純文字”,訓練框架早就很成熟了,而且綁在NVIDIA一棵樹上。

但到了現在,情況變了:文生圖、圖生文、視頻理解、機器人控制……所有最性感的 AI 方向,都是多模態。

訓練多模態模型,和訓練純文字大模型,完全不是一個概念。

多模態模型——視覺編碼器(ViT)+ 語言模型(LLM)+ 投影層,三個模塊參數量差了上百倍。傳統框架只能給它們強制套用同一套并行策略——小的模塊閑死,大的模塊累死。

坑二:數據不均勻,GPU 互相等

多模態數據差異巨大:單張圖片 ~256 token,20分鐘視頻 ~100000+ token。

Attention 的計算復雜度是序列長度的平方級,分到視頻的那塊 GPU,計算量是分到圖片的上萬倍。

其他GPU,全在(摸魚)等它。

國產芯片越來越多地進入大模型訓練場景,但訓練框架是深度綁定英偉達 GPU 。換芯片?重寫一遍,維護兩套代碼,成本極高。好不容易遷移完了,還發現性能對不上。

老框架們面對多模態,就像中年人面對996,力不從心。

//LoongForge如何填坑(略長,但通俗易懂)

百度智能云百舸團隊給出的答案,就是“LoongForge”。

從技術上說,LoongForge 是一個全模態訓練框架——覆蓋純文字(LLM)、視覺語言(VLM)、機器人控制(VLA),甚至文生圖(Diffusion)場景。

但說人話就是:他們把上面那三個坑,一個一個填了。

一、讓每個模塊都擁有最優策略

傳統框架“一刀切”的并行策略,對視覺編碼器和語言模型都不友好。

LoongForge的做法是:把這兩者解耦,各自獨立配置最優的并行方案。

這相當于什么?以前是三個人擠一張桌子吃飯,小個子夠不著,大個子伸不開腿,F在是各坐各的桌椅,各用各的餐具,誰也不耽誤誰。

實測效果:

二、智能化分配任務,讓摸魚的 GPU動起來

傳統框架的“大鍋飯”思路,不只耽誤效率,還浪費成本。

LoongForge 引入了一套自動負載均衡機制:計算量大的樣本(比如長視頻),少分配一些;計算量小的樣本(比如單張圖片),多分配一些。目標是讓每塊 GPU 拿到的計算量盡量相當。

這就像一個聰明的項目經理,給能力強的人多分配任務,讓團隊整體效率最高。

這對提升大規模集群的擴展效率極為重要。

實測效果:

解釋一下這個 90%+ 是什么概念——千卡規模下,很多框架的擴展效率掉到 60-70% 就已經算不錯了。90%+ 意味著幾乎線性擴展,每一分算力都花在了刀刃上。


LoongForge的解法是做了一個叫 XPU_Plugin 的硬件接入層——底層硬件的差異,被這層插件吃掉了。

同一份訓練代碼,只改一個環境變量,就能在 GPU 和昆侖芯之間無縫切換。它意味著,那些想"兩條腿走路"的公司,不需要維護兩套代碼庫了。

當然,這事的意義也不只是"省事"。

它甚至意味著——NVIDIA的生態壁壘,被拆掉了一層。

當然,LoongForge 做的還不止這些——

比如:

因為MoE 有大量“專家”分散在不同GPU 上,所以訓練要頻繁跨 GPU 通信,長序列時通信成百上千次,速度被拖死。

業界的做法是讓計算和通信“重疊”,GPU算當前數據時,同時傳輸下一批數據,通信時間就“藏”在計算里。

但因為要提前存下一批數據,顯存爆炸。長序列時,這塊顯存可能比模型本身還大。

所以,MoE 模型訓練要么顯存爆炸,要么通信慢。

LoongForge搞了一套組合拳——

實測效果:

再比如:

DeepSeek v3.2用了一種叫稀疏注意力的新技術。只計算重要的關系,忽略不重要的關系,大幅降低計算量。

但這個技術實現起來很復雜,優化起來更難。

LoongForge對DeepSeek V3.2的稀疏注意力架構做了深度優化:算子融合(小操作合并成大操作)、索引優化(加速數據訪問)、KV 布局優化(減少顯存占用)、序列拼接(多小任務打包提高效率)。

實測效果:

這不是調個參數,是重寫計算內核。

又比如:

因為傳統框架的模型定義和分布式策略深度耦合,每來一個新模型,就得深入底層代碼改一遍,接入訓練框架,往往需要數周時間。

LoongForge 通過一套標準化的三層抽象,加上 YAML 配置文件驅動,把新模型接入的工作量,從數周壓縮到了數天。

這個速度,放在行業里,很能說明問題。

以具身智能為例。

具身智能需要的 VLA(Vision-Language-Action)模型——把視覺、語言、動作三個模態統一在一個模型里訓練,對訓練框架的顯存管理和通信效率要求極其苛刻,比普通多模態模型更折磨人。

很多做具身智能的團隊,都被卡在這里——模型設計好了,但訓練跑不動,或者跑太慢。

而 LoongForge 在這個場景下的表現,相當亮眼——

PI0.5(代表性 VLA 模型),相比社區框架,訓練速度提升了 49%。

這個數字意味著:同樣訓一個機器人控制模型,別人花 20 天,你花 10 天。

“首發”和“跟風”,區別立現。

//模型拼到底,拼的是什么?

一個更深層次的問題,現在大模型競爭這么激烈,大家都在拼什么?

以前大家只關心模型效果好不好、參數多不多、榜單排名高不高。現在越來越多的人開始意識到:算力才是真正拉開差距的地方。

為什么這么說?

先看歷史:

2007年,CUDA出現了。一個工具,改變了一個時代。

2017年,PyTorch出現了。一個框架,加速了一個行業。

再看現在:

多模態時代來了。同樣花 1 個億買芯片:用老框架的團隊,每天能跑 2 個實驗;用 LoongForge 的團隊,每天能跑 4-6 個實驗。

一個月下來,就是 60 個實驗 vs 180 個實驗的差距。這個差距,積累三個月,就是代差。

翁家翌的話再品一遍:

LoongForge做的,就是讓“快速驗證 Idea”這件事,變得更容易、更便宜。

現在,百度智能云把 LoongForge 以 Apache 2.0 協議完全開源了。這意味著,商用沒問題,改也沒問題,拿來養自己的模型也沒問題。

他們為什么敢開源?

一種可能是:這套東西他們已經在內部跑了很久,足夠自信,拿出來示人,順便吸引開發者圍繞昆侖芯構建生態。

這個邏輯,和當年英偉達用 CUDA 鎖定開發者生態,本質上是一樣的。先有好的訓練框架,再有繁榮的硬件生態,最后形成護城河。

現在,這條路上多了一個中國玩家。

LoongForge 能不能跑出來,還得看社區反饋和后續迭代。

但至少,方向是對的。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
退休后才明白:別人夸你“看起來真年輕”,千萬別答“哪有哪有”

退休后才明白:別人夸你“看起來真年輕”,千萬別答“哪有哪有”

心理觀察局
2026-05-07 08:18:05
敢用人才!張雪高薪請來64歲日本專家:地位僅遜自己 3奪世界冠軍

敢用人才!張雪高薪請來64歲日本專家:地位僅遜自己 3奪世界冠軍

念洲
2026-05-08 18:02:59
山東各地2026年一季度GDP總值排行:濰坊突破在即,威海接近千億

山東各地2026年一季度GDP總值排行:濰坊突破在即,威海接近千億

水又木二
2026-05-09 12:25:52
給寒戰演技最好8位演員排名:周潤發第3,梁家輝第2,第1無爭議

給寒戰演技最好8位演員排名:周潤發第3,梁家輝第2,第1無爭議

糊咖娛樂
2026-05-07 11:49:24
71歲老人將鋼圈套入陰莖15天后水腫發紫,背后原因竟然是壯陽?

71歲老人將鋼圈套入陰莖15天后水腫發紫,背后原因竟然是壯陽?

燈錦年
2026-05-09 17:32:29
日本全面叫停種植牙?種牙潛藏的風險與后遺癥,一次為你講明白

日本全面叫停種植牙?種牙潛藏的風險與后遺癥,一次為你講明白

垚垚分享健康
2026-04-11 08:51:57
網紅痞幼拿下張雪機車,純粹蹭熱度

網紅痞幼拿下張雪機車,純粹蹭熱度

喜歡歷史的阿繁
2026-05-09 01:27:27
英國教授:中國崛起不可怕,可怕的是,他是一個偽裝成國家的文明

英國教授:中國崛起不可怕,可怕的是,他是一個偽裝成國家的文明

抽象派大師
2026-05-03 00:24:11
離開中國不到20天,蘇林當著莫迪的面,給印度換了一個稱呼

離開中國不到20天,蘇林當著莫迪的面,給印度換了一個稱呼

許樠很機智
2026-05-09 16:52:16
羅翔:如果一個人突然努力工作,業余時間開始學習,不再參加社交活動,那么,身邊的人可能不僅不會幫他,還會拉他下來,原因就一個!

羅翔:如果一個人突然努力工作,業余時間開始學習,不再參加社交活動,那么,身邊的人可能不僅不會幫他,還會拉他下來,原因就一個!

譚老師地理大課堂
2026-04-22 00:03:57
6月1日起全國醫院統一新規,看病再也不用愁,誰都不能例外

6月1日起全國醫院統一新規,看病再也不用愁,誰都不能例外

老特有話說
2026-05-07 15:20:09
這居然是母子合影,47 歲巴西女星簡直凍齡

這居然是母子合影,47 歲巴西女星簡直凍齡

下水道男孩
2026-05-07 21:16:59
鄉鎮女大學生曬“低審美”穿搭,網友眼前一黑:求求你都扔了吧!

鄉鎮女大學生曬“低審美”穿搭,網友眼前一黑:求求你都扔了吧!

妍妍教育日記
2026-05-09 10:34:34
一個蘇北縣城,把“低空經濟”做實了

一個蘇北縣城,把“低空經濟”做實了

正解局
2026-05-08 17:19:58
61歲何智麗現狀:從日本回老家上海,與老友聚餐,面色紅潤沒發福

61歲何智麗現狀:從日本回老家上海,與老友聚餐,面色紅潤沒發福

以茶帶書
2026-04-14 14:09:22
貓貓車誕生后,中國再無輕步兵

貓貓車誕生后,中國再無輕步兵

遠方青木
2026-03-12 22:45:18
美媒終于承認:中國不期待特朗普訪華,是因為早就不把美當回事!

美媒終于承認:中國不期待特朗普訪華,是因為早就不把美當回事!

起喜電影
2026-05-09 11:45:27
廣東女子街頭當眾下跪求男友復合,路人紛紛勸和:長得漂亮原諒她

廣東女子街頭當眾下跪求男友復合,路人紛紛勸和:長得漂亮原諒她

搗蛋窩
2026-05-09 10:58:09
外交部:中洪合作不針對第三方 也不應受第三方干擾

外交部:中洪合作不針對第三方 也不應受第三方干擾

環球網資訊
2026-05-08 16:11:06
媽媽每次想逃出大山,我都偷偷告訴爸爸,只因我看了爸爸的日記本

媽媽每次想逃出大山,我都偷偷告訴爸爸,只因我看了爸爸的日記本

被選中的幸運兒
2025-11-11 20:16:40
2026-05-09 18:48:49
鈦媒體APP incentive-icons
鈦媒體APP
獨立財經科技媒體
133334文章數 862150關注度
往期回顧 全部

科技要聞

美國政府強力下場 蘋果英特爾達成代工協議

頭條要聞

國防部證實:中方建造的"麒麟"級潛艇首艇交付巴基斯坦

頭條要聞

國防部證實:中方建造的"麒麟"級潛艇首艇交付巴基斯坦

體育要聞

成立128年后,這支升班馬首奪頂級聯賽冠軍

娛樂要聞

50歲趙薇臉頰凹陷滄桑得認不出!

財經要聞

存儲芯片上演造富潮

汽車要聞

軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

態度原創

教育
時尚
數碼
藝術
游戲

教育要聞

商學院地理位置怎么影響求職?雷丁與北部城市的差距,比你想的大

今年春夏最火的3個穿搭思路,普通人可以直接照搬嗎?

數碼要聞

當貝2S Ultra:AI智養+干濕分離+全色域燈,養魚一步到位

藝術要聞

齊白石 紫藤蜜蜂

玩家十年沒清空過電腦回收站!一看容量當場傻眼了

無障礙瀏覽 進入關懷版