網易首頁 > 網易號 > 正文申請入駐

華為昇騰 910C 完成 DeepSeek 全參數訓練打破封鎖改寫行業格局

華為昇騰910C完成訓練

2026-06-07 13:00:04　來源: 科技生活快訊

山東舉報

分享至

#觀點創作激勵大賽#

6月5日，深圳河套學院聯合哈爾濱工業大學、華為等團隊，在昇騰910C國產AI算力集群上，完成了1.6萬億參數大模型DeepSeek-V4-Pro的全參數后訓練。模型算力利用率超過30%，關鍵訓練算子效率提升14%，各項指標均達到工業級運行標準。根據公開信息檢索，這也是業界首個由第三方機構基于國產算力集群完成的DeepSeek-V4-Pro全參數后訓練工程實踐。

這些數字，普通人讀起來可能沒什么感覺。我得先解釋一下這里面的彎彎繞繞。

大模型的訓練分兩步：預訓練和后訓練。預訓練是讓模型“識字讀書”，灌進去海量文本，學會基本的語言規則。后訓練更像是“雕琢”——通過讓模型學習人類的反饋、反復試錯和修正，把它從一個“會說話”的機器訓練成一個“會思考、會拒絕、會講人話”的助手。這是一個精細活，對芯片的調度能力和穩定性要求極高。

更麻煩的是DeepSeek-V4-Pro本身的架構。它采用的是混合專家模型，你可以把它想象成一個龐大的專家團：平時回答問題只激活少數幾位專家，看起來挺省事的。但后訓練的時候，“專家們”之間的溝通量是普通模型的幾十倍。這就像你讓一群專家同時開會討論，本來每個人分工明確，現在所有人都得互相打斷、頻繁交換意見，溝通鏈條一下子炸了。

以前的國產算力主要做的是讓大模型“能用”，也就是推理部署。好比給模型修了一條單行道，你輸入一個問題，它輸出一個答案。但“全參數后訓練”是要讓模型學會自我反思和調整，相當于在單行道的基礎上加了一座復雜的立交橋和多條反饋回路，計算量和通信量瞬間翻了好幾倍。

要把這件事做成，團隊在國產算力集群上搞定了三個硬骨頭。

第一個是“顯存拼圖”。萬億級大模型不可能只塞進一張計算卡里，團隊設計了精密的分布式方案，把龐大的模型參數像拼圖一樣，精確地分配到一千張卡的每一張上。

第二個是“負載均衡”。混合專家模型最怕的就是有的專家忙得夠嗆、有的卻在閑逛。團隊專門優化了調度策略，確保每個專家分工合理，跨卡通信不再堵車。

第三個最實際——有人“守夜”。全參數后訓練最怕跑著跑著系統突然崩潰。團隊搭建了完整的監控體系，所有指標可視可控，確保長達1500多步的訓練過程中，沒有出現一次中斷或報錯。

這三件事做到，才算是真正從“能跑”走到了“能訓穩訓優”。

從更深一層來看，這次突破其實一舉打破了三重天花板。

第一重是“訓練能力”的天花板。以前國產芯片只能做做推理、微調，真正的大規模訓練還得靠英偉達的高端產品。這次有人真的拿國產芯片訓了一個世界頂級的萬億參數大模型，而且是全過程、全參數，這就不是“能不能做實驗”的問題了，而是“能不能實際干活”的問題。

第二重是“市場生態”的天花板。摩根士丹利5月發布的報告預測，華為將在2026年占據中國本土AI加速器市場62%的份額。2025年中國市場的AI加速卡出貨約400萬塊，國產芯片占比41%，其中華為出貨量排名第二，拿下約20%的市場份額。英偉達CEO黃仁勛在公開訪談中承認，公司已基本將中國AI芯片市場讓給華為。他還在另一次節目中警告：“如果DeepSeek率先在華為平臺上發布，那對我們國家來說將是災難性的。”

第三重是“技術路線”的天花板。華為單顆芯片的算力相比英偉達確實存在差距，但它走的是另一條路——集群規模化。昇騰384超節點把384顆芯片通過高速總線連在一起，形成一個巨大的計算單元。華為副董事長徐直軍說過，超節點將成為AI基礎設施建設的新常態。

網上關于這件事一個很普遍的觀點是，如果以DeepSeek為代表的頂尖開源模型能夠優先在華為昇騰上運行，這對英偉達的CUDA生態將是一個真正的打擊。CUDA是英偉達做了二十年的軟件生態，全球數百萬AI開發者都在上面寫代碼，這才是它真正的護城河。一旦國產軟硬件形成閉環，這種依賴就會被打破。知乎上有人說：這不是“能不能用英偉達”的問題，而是“要不要依賴英偉達”的問題。

也有冷靜的聲音在提醒，訓練端目前仍然主要由英偉達主導，國產芯片在云端大模型訓練的穩定性還需要更多驗證。開發者生態的碎片化問題也依然存在——不同芯片廠商有不同的編程接口，缺乏CUDA那種統一的遷移能力。

快思慢想研究院院長、科技創新專家田豐指出，包括很多國際權威機構都預測，中國在AI芯片領域最有望在2026年迎來“DeepSeek時刻”。

所謂“DeepSeek時刻”，不只是芯片性能追上來了。它更本質的含義是，從模型到算力形成了一條閉環——DeepSeek作為世界頂級的開源模型，主動適配了華為昇騰，而不是像過去那樣萬事都圍繞英偉達的CUDA轉。這就好比一架飛機和一架引擎終于接上了，不再只是各自跑各自的。

360集團的周鴻祎在2026年初預測，AI芯片市場英偉達一家獨大的單極格局將在今年被打破，形成“英偉達主導訓練、多家廠商分食推理”的雙軌格局。現在回過頭看，這個預測正在被事實驗證。

這件事證明了一條路可以走通：當你拿不到最先進的制程、拿不到頂尖的HBM內存，你不一定要死磕那一條賽道。華為選擇了用系統設計來彌補單芯片的不足，用規模換性能，用算法適配來榨干每一分硬件的潛力。

這類技術突破并不總是靠最前沿的設備硬拼。很多時候，瓶頸在哪里，創新就會在哪里爆發。當先進制程被封鎖的時候，封裝技術頂上來了；當頂級算力買不到的時候，架構創新頂上來了。這不是彎道超車，這是一個被逼到絕路的人，在每一塊能發力的地方都硬生生地撕開了一道口子。

當然，國產芯片要走的路還很長。英偉達的算力代差依然存在，CUDA生態的慣性巨大，先進制程的制約短期內不會消失。但這次突破起碼說明了一個事實：在極限封鎖下，這條路是被堵死了，還是真的能走通，已經有了一次實戰檢驗的結果。

這大概才是這件事最觸及普通人內心的意義——是說明在一個被強行切斷供應鏈的世界里，出口可能不在你想的那個方向，但它確實存在。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.