網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

DeepSeek掀桌后，大模型廠商應該關注什么？

2026-05-09 17:05:18　來源: 鈦媒體APP

北京舉報

0

分享至

文 | 利昂先生

4月24日，DeepSeek V4 雖遲但到。

1.6T 參數，MIT 協議全量開源，百萬級上下文直接拉滿。

鼓掌的除了整個科技圈，還有那些在前一天賣空Minimax和智譜股票的股民們。

但內行人更關注的是，DeepSeek V4創新性地用了兩套全新的底層設計：Engram 條件記憶模塊和mHC（流形約束超連接）。

核心目的只有一個：在保持模型效果的前提下，把訓練和推理的成本打下來。

這說明了一件事：模型層面的創新，正在和基礎設施層面的創新深度綁定。

一個月前，OpenAI 核心基礎設施團隊的大牛翁家翌說了一段話，在技術圈瘋傳：

“現在的大模型競爭，拼的不是 Idea 多精妙，而是 AI Infra 的正確性與單位時間內的迭代次數。Idea 是廉價的，能被快速驗證的 Idea 才值錢�！�

這句話，百度智能云的百舸團隊顯然聽進去了。

最近，他們開源了一個AI訓練框架，直接把這場"速度戰"的烈度往上抬了一個量級。

它叫 “LoongForge”。

//一個科普：訓練框架是個啥？

大模型訓練，不是寫幾行代碼就能跑的。

一個幾百億參數的模型，一張GPU卡裝不下，得“切”成很多塊，放到幾十張甚至幾千張卡上同時訓練。

這就帶來一堆問題:

怎么切？模型有幾百層，每層都要切，切錯了就跑不起來。

怎么通信？幾千張卡在訓練，每張卡算完自己的部分，要和其他卡交換數據。交換慢了，整個訓練就慢了。

怎么管理顯存？模型參數、梯度、優化器狀態，都要占顯存。顯存不夠，訓練就崩了。

怎么保證穩定？幾千張卡跑幾天幾夜，中間某張卡出問題了，整個訓練要重來嗎?

這些問題，如果讓每個工程師自己解決，那得累死。于是就有了“訓練框架”。

它像一個智能管家——自動切分模型、優化通信、管理顯存、保證容錯。

有了這個“老師傅”，工程師才能專注于模型創新，而不是被工程細節拖死。

多模態時代，老框架有心無力

把時間拉回兩年前，那時大模型基本都是“純文字”，訓練框架早就很成熟了，而且綁在NVIDIA一棵樹上。

但到了現在，情況變了：文生圖、圖生文、視頻理解、機器人控制……所有最性感的 AI 方向，都是多模態。

訓練多模態模型，和訓練純文字大模型，完全不是一個概念。

多模態模型——視覺編碼器（ViT）+ 語言模型（LLM）+ 投影層，三個模塊參數量差了上百倍。傳統框架只能給它們強制套用同一套并行策略——小的模塊閑死，大的模塊累死。

坑二：數據不均勻，GPU 互相等

多模態數據差異巨大：單張圖片 ~256 token，20分鐘視頻 ~100000+ token。

Attention 的計算復雜度是序列長度的平方級，分到視頻的那塊 GPU，計算量是分到圖片的上萬倍。

其他GPU，全在（摸魚）等它。

國產芯片越來越多地進入大模型訓練場景，但訓練框架是深度綁定英偉達 GPU 。換芯片？重寫一遍，維護兩套代碼，成本極高。好不容易遷移完了，還發現性能對不上。

老框架們面對多模態，就像中年人面對996，力不從心。

//LoongForge如何填坑（略長，但通俗易懂）

百度智能云百舸團隊給出的答案，就是“LoongForge”。

從技術上說，LoongForge 是一個全模態訓練框架——覆蓋純文字（LLM）、視覺語言（VLM）、機器人控制（VLA），甚至文生圖（Diffusion）場景。

但說人話就是：他們把上面那三個坑，一個一個填了。

一、讓每個模塊都擁有最優策略

傳統框架“一刀切”的并行策略，對視覺編碼器和語言模型都不友好。

LoongForge的做法是：把這兩者解耦，各自獨立配置最優的并行方案。

這相當于什么？以前是三個人擠一張桌子吃飯，小個子夠不著，大個子伸不開腿�，F在是各坐各的桌椅，各用各的餐具，誰也不耽誤誰。

實測效果：

二、智能化分配任務，讓摸魚的 GPU動起來

傳統框架的“大鍋飯”思路，不只耽誤效率，還浪費成本。

LoongForge 引入了一套自動負載均衡機制：計算量大的樣本（比如長視頻），少分配一些；計算量小的樣本（比如單張圖片），多分配一些。目標是讓每塊 GPU 拿到的計算量盡量相當。

這就像一個聰明的項目經理，給能力強的人多分配任務，讓團隊整體效率最高。

這對提升大規模集群的擴展效率極為重要。

實測效果：

解釋一下這個 90%+ 是什么概念——千卡規模下，很多框架的擴展效率掉到 60-70% 就已經算不錯了。90%+ 意味著幾乎線性擴展，每一分算力都花在了刀刃上。

LoongForge的解法是做了一個叫 XPU_Plugin 的硬件接入層——底層硬件的差異，被這層插件吃掉了。

同一份訓練代碼，只改一個環境變量，就能在 GPU 和昆侖芯之間無縫切換。它意味著，那些想"兩條腿走路"的公司，不需要維護兩套代碼庫了。

當然，這事的意義也不只是"省事"。

它甚至意味著——NVIDIA的生態壁壘，被拆掉了一層。

當然，LoongForge 做的還不止這些——

比如：

因為MoE 有大量“專家”分散在不同GPU 上，所以訓練要頻繁跨 GPU 通信，長序列時通信成百上千次，速度被拖死。

業界的做法是讓計算和通信“重疊”，GPU算當前數據時，同時傳輸下一批數據，通信時間就“藏”在計算里。

但因為要提前存下一批數據，顯存爆炸。長序列時，這塊顯存可能比模型本身還大。

所以，MoE 模型訓練要么顯存爆炸，要么通信慢。

LoongForge搞了一套組合拳——

實測效果：

再比如：

DeepSeek v3.2用了一種叫稀疏注意力的新技術。只計算重要的關系，忽略不重要的關系，大幅降低計算量。

但這個技術實現起來很復雜，優化起來更難。

LoongForge對DeepSeek V3.2的稀疏注意力架構做了深度優化：算子融合（小操作合并成大操作）、索引優化（加速數據訪問）、KV 布局優化（減少顯存占用）、序列拼接（多小任務打包提高效率）。

實測效果：

這不是調個參數，是重寫計算內核。

又比如：

因為傳統框架的模型定義和分布式策略深度耦合，每來一個新模型，就得深入底層代碼改一遍，接入訓練框架，往往需要數周時間。

LoongForge 通過一套標準化的三層抽象，加上 YAML 配置文件驅動，把新模型接入的工作量，從數周壓縮到了數天。

這個速度，放在行業里，很能說明問題。

以具身智能為例。

具身智能需要的 VLA（Vision-Language-Action）模型——把視覺、語言、動作三個模態統一在一個模型里訓練，對訓練框架的顯存管理和通信效率要求極其苛刻，比普通多模態模型更折磨人。

很多做具身智能的團隊，都被卡在這里——模型設計好了，但訓練跑不動，或者跑太慢。

而 LoongForge 在這個場景下的表現，相當亮眼——

PI0.5（代表性 VLA 模型），相比社區框架，訓練速度提升了 49%。

這個數字意味著：同樣訓一個機器人控制模型，別人花 20 天，你花 10 天。

“首發”和“跟風”，區別立現。

//模型拼到底，拼的是什么?

一個更深層次的問題，現在大模型競爭這么激烈，大家都在拼什么?

以前大家只關心模型效果好不好、參數多不多、榜單排名高不高。現在越來越多的人開始意識到：算力才是真正拉開差距的地方。

為什么這么說？

先看歷史：

2007年，CUDA出現了。一個工具，改變了一個時代。

2017年，PyTorch出現了。一個框架，加速了一個行業。

再看現在：

多模態時代來了。同樣花 1 個億買芯片：用老框架的團隊，每天能跑 2 個實驗；用 LoongForge 的團隊，每天能跑 4-6 個實驗。

一個月下來，就是 60 個實驗 vs 180 個實驗的差距。這個差距，積累三個月，就是代差。

翁家翌的話再品一遍：

LoongForge做的，就是讓“快速驗證 Idea”這件事，變得更容易、更便宜。

現在，百度智能云把 LoongForge 以 Apache 2.0 協議完全開源了。這意味著，商用沒問題，改也沒問題，拿來養自己的模型也沒問題。

他們為什么敢開源？

一種可能是：這套東西他們已經在內部跑了很久，足夠自信，拿出來示人，順便吸引開發者圍繞昆侖芯構建生態。

這個邏輯，和當年英偉達用 CUDA 鎖定開發者生態，本質上是一樣的。先有好的訓練框架，再有繁榮的硬件生態，最后形成護城河。

現在，這條路上多了一個中國玩家。

LoongForge 能不能跑出來，還得看社區反饋和后續迭代。

但至少，方向是對的。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

告別冗長思維鏈！Laser用「概率疊加」重塑多模態大模型隱式推理

機器之心Pro 2026-05-08 14:18:56
0 跟貼 0
活久見，時代少年團給大模型上了一課

機器之心Pro 2026-05-09 12:48:20
0 跟貼 0

生成式Critic重新定義LLM強化學習信用分配

機器之心Pro 2026-05-09 14:52:19
0 跟貼 0

港科大聯手社區開源StarVLA：一個框架揭秘所有主流VLA

機器之心Pro 2026-05-09 11:30:18
0 跟貼 0
AI突現首例自我復制！橫跨4國160小時無限繁殖

新智元 2026-05-09 18:31:30
0 跟貼 0

給貓做MBTI畫像，17.9g的AI項圈能撬動百億生意嗎？

鈦媒體APP 2026-05-09 17:26:29
0 跟貼 0

OpenAI翁家翌：梯度之外，下一個AI訓練范式有著落了？

機器之心Pro 2026-05-09 11:45:42
0 跟貼 0
xAI工程師曬離職！11位聯創全走，馬斯克600億拉來Cursor重建

新智元 2026-05-09 18:30:34
0 跟貼 0

Kimi即將完成20億美元融資，DeepSeek被曝投后估值或達450億美元

每日經濟新聞 2026-05-07 10:13:56
0 跟貼 0
美圖RoboNeo全新升級：首創影像創作Agent Teams

量子位 2026-05-09 17:20:20
0 跟貼 0
中國醫生拿 AI 修圖發 NEJM，僅 11 天論文就被撤回了

生物學霸 2026-05-09 17:18:20
0 跟貼 0
女子拿愛心冰箱的免費水洗腳，下一秒“現世報”滑倒跪地，網友：善有善報，惡有惡報

BRTV新聞 2026-05-08 21:12:25
785 跟貼 785
外賣小哥冒死沖進火場救火被物業收取50元“滅火器使用費”

閃電新聞 2026-05-09 09:31:06
5486 跟貼 5486
媒體：沙特被美國激怒海灣國家或將深化與中國關系

澎湃新聞 2026-05-08 17:48:29
3890 跟貼 3890
天舟飛船為什么不回收而是墜入大海？專家：增加返回功能會擠占運貨空間，飛船大部分結構燒蝕氣化，少量殘骸不會造成威脅

極目新聞 2026-05-08 21:58:00
5288 跟貼 5288
美軍在對伊朗的38天戰爭中，損失早已超過表面數據，16個軍事基地

戰武科普 2026-05-08 17:37:59
0 跟貼 0
美國突曝海量UFO文件，號稱前所未有，網友卻直言純屬炒冷飯

青煙小先生 2026-05-09 14:44:50
1 跟貼 1
關于中東地區架構與權力的轉變，賴岳謙與三妹的觀察點，值得參考

伢伢gagako 2026-05-08 00:39:06
0 跟貼 0
Excel公式寫到崩潰？這個隱藏函數讓你一次定義，全局復用

閃存獵手 2026-05-08 19:53:26
0 跟貼 0
體驗MG 4X，十萬左右，硬件配置挺厚道

苑叔聊車官方賬號 2026-05-06 08:00:00
0 跟貼 0
上線僅一天！復旦大學最新 Nature 被質疑

生物學霸 2026-05-09 17:17:57
0 跟貼 0
三天，三家公司，超百億美元：中國AI大模型的融資決戰周

鈦媒體APP 2026-05-09 15:18:51
0 跟貼 0
“排隊3小時，打卡1分鐘”，多景區迎“潑天流量”

澎湃新聞 2026-05-06 00:04:10
3887 跟貼 3887
985高校院長學術造假？細看這篇《Nature》后，這手法也太粗糙了

畢導 2026-05-09 17:21:02
0 跟貼 0
3.6億，大模型第一股買了個樓

財天COVER 2026-05-09 16:22:08
0 跟貼 0
嘴炮王者譚sir竟被邏輯女帝反殺成渣：愿大姐被歲月溫柔以待

解壓小劇場 2026-05-09 08:17:50
3 跟貼 3
2026數字文旅賽道作品展播｜AI圖識文物建筑——福建多模態文物數據活化與公眾傳播應用

金臺資訊 2026-05-08 17:23:54
0 跟貼 0
【AI大模型安全與評測】從DeepSeek-V4拆解真實評估邏輯，90%的人都搞錯了！企業級大模型評

盧菁老師 2026-05-09 09:07:47
0 跟貼 0
茶顏悅色，裝不下去了

中國新聞周刊 2026-05-07 22:15:57
298 跟貼 298
河北多地漫天楊絮似大雪紛飛省綠辦：多年前曾定下治理時間表每年都有打藥等防治措施

閃電新聞 2026-05-09 12:40:08
130 跟貼 130
海關總署：前4個月中國貨物貿易進出口總值增長14.9%

財聯社 2026-05-09 10:57:06
1277 跟貼 1277
iOS 26.5下周正式推送，一口氣上線五大新功能

環球網資訊 2026-05-08 10:49:06
533 跟貼 533
“排隊火過迪士尼”？上海這個“小花園”一年只開1個月！最新：已增加每周開放時間！

新民晚報 2026-05-08 16:56:04
168 跟貼 168
900V架構二排座椅旋轉全車舒適平權煥新極氪009搶先體驗

潮畔汽車 2026-05-08 10:00:00
0 跟貼 0
誤差如何被數學控制�。悍稊蹬c Banach 空間 | 泛函分析第五講

集智俱樂部 2026-05-09 14:35:16
0 跟貼 0
俄羅斯1-4月預算赤字擴大至5.877萬億盧布

財聯社 2026-05-08 18:47:03
682 跟貼 682
商務部：中俄貿易連續三年突破2000億美元

界面新聞 2026-05-09 10:17:43
388 跟貼 388
PS4版《原神》迎來最終更新，6周后徹底停更

霧野尋蹤2 2026-05-09 17:28:40
0 跟貼 0
戰和轉換之際，伊朗外長緊急訪華，要推動“去美化”中東安全架構

青松解局 2026-05-07 19:59:31
0 跟貼 0
罕見！韓媒：韓國總統、國會議長、韓執政黨黨首同日落淚

環球網資訊 2026-05-09 11:57:09
2 跟貼 2

退休后才明白：別人夸你“看起來真年輕”，千萬別答“哪有哪有”

退休后才明白：別人夸你“看起來真年輕”，千萬別答“哪有哪有”

心理觀察局

2026-05-07 08:18:05

敢用人才！張雪高薪請來64歲日本專家：地位僅遜自己 3奪世界冠軍

敢用人才！張雪高薪請來64歲日本專家：地位僅遜自己 3奪世界冠軍

念洲

2026-05-08 18:02:59

山東各地2026年一季度GDP總值排行：濰坊突破在即，威海接近千億

山東各地2026年一季度GDP總值排行：濰坊突破在即，威海接近千億

水又木二

2026-05-09 12:25:52

給寒戰演技最好8位演員排名：周潤發第3，梁家輝第2，第1無爭議

給寒戰演技最好8位演員排名：周潤發第3，梁家輝第2，第1無爭議

糊咖娛樂

2026-05-07 11:49:24

71歲老人將鋼圈套入陰莖15天后水腫發紫，背后原因竟然是壯陽？

71歲老人將鋼圈套入陰莖15天后水腫發紫，背后原因竟然是壯陽？

燈錦年

2026-05-09 17:32:29

日本全面叫停種植牙？種牙潛藏的風險與后遺癥，一次為你講明白

日本全面叫停種植牙？種牙潛藏的風險與后遺癥，一次為你講明白

垚垚分享健康

2026-04-11 08:51:57

網紅痞幼拿下張雪機車，純粹蹭熱度

網紅痞幼拿下張雪機車，純粹蹭熱度

喜歡歷史的阿繁

2026-05-09 01:27:27

英國教授：中國崛起不可怕，可怕的是，他是一個偽裝成國家的文明

英國教授：中國崛起不可怕，可怕的是，他是一個偽裝成國家的文明

抽象派大師

2026-05-03 00:24:11

離開中國不到20天，蘇林當著莫迪的面，給印度換了一個稱呼

離開中國不到20天，蘇林當著莫迪的面，給印度換了一個稱呼

許樠很機智

2026-05-09 16:52:16

羅翔：如果一個人突然努力工作，業余時間開始學習，不再參加社交活動，那么，身邊的人可能不僅不會幫他，還會拉他下來，原因就一個！

羅翔：如果一個人突然努力工作，業余時間開始學習，不再參加社交活動，那么，身邊的人可能不僅不會幫他，還會拉他下來，原因就一個！

譚老師地理大課堂

2026-04-22 00:03:57

6月1日起全國醫院統一新規，看病再也不用愁，誰都不能例外

6月1日起全國醫院統一新規，看病再也不用愁，誰都不能例外

老特有話說

2026-05-07 15:20:09

這居然是母子合影，47 歲巴西女星簡直凍齡

這居然是母子合影，47 歲巴西女星簡直凍齡

下水道男孩

2026-05-07 21:16:59

鄉鎮女大學生曬“低審美”穿搭，網友眼前一黑：求求你都扔了吧！

鄉鎮女大學生曬“低審美”穿搭，網友眼前一黑：求求你都扔了吧！

妍妍教育日記

2026-05-09 10:34:34

一個蘇北縣城，把“低空經濟”做實了

一個蘇北縣城，把“低空經濟”做實了

正解局

2026-05-08 17:19:58

61歲何智麗現狀：從日本回老家上海，與老友聚餐，面色紅潤沒發福

61歲何智麗現狀：從日本回老家上海，與老友聚餐，面色紅潤沒發福

以茶帶書

2026-04-14 14:09:22

貓貓車誕生后，中國再無輕步兵

遠方青木

2026-03-12 22:45:18

美媒終于承認：中國不期待特朗普訪華，是因為早就不把美當回事！

美媒終于承認：中國不期待特朗普訪華，是因為早就不把美當回事！

起喜電影

2026-05-09 11:45:27

廣東女子街頭當眾下跪求男友復合，路人紛紛勸和：長得漂亮原諒她

廣東女子街頭當眾下跪求男友復合，路人紛紛勸和：長得漂亮原諒她

搗蛋窩

2026-05-09 10:58:09

外交部：中洪合作不針對第三方也不應受第三方干擾

外交部：中洪合作不針對第三方也不應受第三方干擾

環球網資訊

2026-05-08 16:11:06

媽媽每次想逃出大山，我都偷偷告訴爸爸，只因我看了爸爸的日記本

媽媽每次想逃出大山，我都偷偷告訴爸爸，只因我看了爸爸的日記本

被選中的幸運兒

2025-11-11 20:16:40

獨立財經科技媒體

133334文章數 862150關注度

往期回顧全部

科技要聞

美國政府強力下場蘋果英特爾達成代工協議

頭條要聞

國防部證實:中方建造的"麒麟"級潛艇首艇交付巴基斯坦

頭條要聞

國防部證實:中方建造的"麒麟"級潛艇首艇交付巴基斯坦

體育要聞

成立128年后，這支升班馬首奪頂級聯賽冠軍

娛樂要聞

50歲趙薇臉頰凹陷滄桑得認不出！

財經要聞

存儲芯片上演造富潮

汽車要聞

軸距加長/智駕拉滿阿維塔07L定位大五座SUV

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

時尚

數碼

藝術

游戲

教育要聞

商學院地理位置怎么影響求職？雷丁與北部城市的差距，比你想的大

今年春夏最火的3個穿搭思路，普通人可以直接照搬嗎？

數碼要聞

當貝2S Ultra：AI智養+干濕分離+全色域燈，養魚一步到位

藝術要聞

齊白石紫藤蜜蜂

玩家十年沒清空過電腦回收站！一看容量當場傻眼了

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版