#觀點創作激勵大賽#
6月5日,深圳河套學院聯合哈爾濱工業大學、華為等團隊,在昇騰910C國產AI算力集群上,完成了1.6萬億參數大模型DeepSeek-V4-Pro的全參數后訓練。模型算力利用率超過30%,關鍵訓練算子效率提升14%,各項指標均達到工業級運行標準。根據公開信息檢索,這也是業界首個由第三方機構基于國產算力集群完成的DeepSeek-V4-Pro全參數后訓練工程實踐。
這些數字,普通人讀起來可能沒什么感覺。我得先解釋一下這里面的彎彎繞繞。
大模型的訓練分兩步:預訓練和后訓練。預訓練是讓模型“識字讀書”,灌進去海量文本,學會基本的語言規則。后訓練更像是“雕琢”——通過讓模型學習人類的反饋、反復試錯和修正,把它從一個“會說話”的機器訓練成一個“會思考、會拒絕、會講人話”的助手。這是一個精細活,對芯片的調度能力和穩定性要求極高。
![]()
更麻煩的是DeepSeek-V4-Pro本身的架構。它采用的是混合專家模型,你可以把它想象成一個龐大的專家團:平時回答問題只激活少數幾位專家,看起來挺省事的。但后訓練的時候,“專家們”之間的溝通量是普通模型的幾十倍。這就像你讓一群專家同時開會討論,本來每個人分工明確,現在所有人都得互相打斷、頻繁交換意見,溝通鏈條一下子炸了。
以前的國產算力主要做的是讓大模型“能用”,也就是推理部署。好比給模型修了一條單行道,你輸入一個問題,它輸出一個答案。但“全參數后訓練”是要讓模型學會自我反思和調整,相當于在單行道的基礎上加了一座復雜的立交橋和多條反饋回路,計算量和通信量瞬間翻了好幾倍。
要把這件事做成,團隊在國產算力集群上搞定了三個硬骨頭。
第一個是“顯存拼圖”。萬億級大模型不可能只塞進一張計算卡里,團隊設計了精密的分布式方案,把龐大的模型參數像拼圖一樣,精確地分配到一千張卡的每一張上。
第二個是“負載均衡”。混合專家模型最怕的就是有的專家忙得夠嗆、有的卻在閑逛。團隊專門優化了調度策略,確保每個專家分工合理,跨卡通信不再堵車。
第三個最實際——有人“守夜”。全參數后訓練最怕跑著跑著系統突然崩潰。團隊搭建了完整的監控體系,所有指標可視可控,確保長達1500多步的訓練過程中,沒有出現一次中斷或報錯。
這三件事做到,才算是真正從“能跑”走到了“能訓穩訓優”。
從更深一層來看,這次突破其實一舉打破了三重天花板。
第一重是“訓練能力”的天花板。以前國產芯片只能做做推理、微調,真正的大規模訓練還得靠英偉達的高端產品。這次有人真的拿國產芯片訓了一個世界頂級的萬億參數大模型,而且是全過程、全參數,這就不是“能不能做實驗”的問題了,而是“能不能實際干活”的問題。
第二重是“市場生態”的天花板。摩根士丹利5月發布的報告預測,華為將在2026年占據中國本土AI加速器市場62%的份額。2025年中國市場的AI加速卡出貨約400萬塊,國產芯片占比41%,其中華為出貨量排名第二,拿下約20%的市場份額。英偉達CEO黃仁勛在公開訪談中承認,公司已基本將中國AI芯片市場讓給華為。他還在另一次節目中警告:“如果DeepSeek率先在華為平臺上發布,那對我們國家來說將是災難性的。”
第三重是“技術路線”的天花板。華為單顆芯片的算力相比英偉達確實存在差距,但它走的是另一條路——集群規模化。昇騰384超節點把384顆芯片通過高速總線連在一起,形成一個巨大的計算單元。華為副董事長徐直軍說過,超節點將成為AI基礎設施建設的新常態。
網上關于這件事一個很普遍的觀點是,如果以DeepSeek為代表的頂尖開源模型能夠優先在華為昇騰上運行,這對英偉達的CUDA生態將是一個真正的打擊。CUDA是英偉達做了二十年的軟件生態,全球數百萬AI開發者都在上面寫代碼,這才是它真正的護城河。一旦國產軟硬件形成閉環,這種依賴就會被打破。知乎上有人說:這不是“能不能用英偉達”的問題,而是“要不要依賴英偉達”的問題。
也有冷靜的聲音在提醒,訓練端目前仍然主要由英偉達主導,國產芯片在云端大模型訓練的穩定性還需要更多驗證。開發者生態的碎片化問題也依然存在——不同芯片廠商有不同的編程接口,缺乏CUDA那種統一的遷移能力。
快思慢想研究院院長、科技創新專家田豐指出,包括很多國際權威機構都預測,中國在AI芯片領域最有望在2026年迎來“DeepSeek時刻”。
所謂“DeepSeek時刻”,不只是芯片性能追上來了。它更本質的含義是,從模型到算力形成了一條閉環——DeepSeek作為世界頂級的開源模型,主動適配了華為昇騰,而不是像過去那樣萬事都圍繞英偉達的CUDA轉。這就好比一架飛機和一架引擎終于接上了,不再只是各自跑各自的。
360集團的周鴻祎在2026年初預測,AI芯片市場英偉達一家獨大的單極格局將在今年被打破,形成“英偉達主導訓練、多家廠商分食推理”的雙軌格局。現在回過頭看,這個預測正在被事實驗證。
這件事證明了一條路可以走通:當你拿不到最先進的制程、拿不到頂尖的HBM內存,你不一定要死磕那一條賽道。華為選擇了用系統設計來彌補單芯片的不足,用規模換性能,用算法適配來榨干每一分硬件的潛力。
這類技術突破并不總是靠最前沿的設備硬拼。很多時候,瓶頸在哪里,創新就會在哪里爆發。當先進制程被封鎖的時候,封裝技術頂上來了;當頂級算力買不到的時候,架構創新頂上來了。這不是彎道超車,這是一個被逼到絕路的人,在每一塊能發力的地方都硬生生地撕開了一道口子。
當然,國產芯片要走的路還很長。英偉達的算力代差依然存在,CUDA生態的慣性巨大,先進制程的制約短期內不會消失。但這次突破起碼說明了一個事實:在極限封鎖下,這條路是被堵死了,還是真的能走通,已經有了一次實戰檢驗的結果。
這大概才是這件事最觸及普通人內心的意義——是說明在一個被強行切斷供應鏈的世界里,出口可能不在你想的那個方向,但它確實存在。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.