整整1500步全程零中斷,華為昇騰910C打破行業(yè)最難的魔咒
行業(yè)里有一句話,說得很篤定:國(guó)產(chǎn)芯片只能做推理,訓(xùn)練這種重活,還是得用英偉達(dá)。
2026年6月7日,這句話被正式打臉了。
深圳河套學(xué)院聯(lián)合哈工大(深圳)、華為等團(tuán)隊(duì),依托昇騰910C國(guó)產(chǎn)芯片集群,成功完成了1.6萬億參數(shù)大模型DeepSeek-V4-Pro的全參數(shù)后訓(xùn)練。整個(gè)過程跑了1500多步,零中斷,零報(bào)錯(cuò),最終MFU(模型算力利用率)超過30%,關(guān)鍵訓(xùn)練算子效率提升14%。
官方說,這是全球第三方機(jī)構(gòu)首次在國(guó)產(chǎn)算力平臺(tái)上完成該級(jí)別模型訓(xùn)練的探索。
![]()
推理和訓(xùn)練,差了不止一個(gè)檔
很多人不理解"訓(xùn)練"和"推理"有什么區(qū)別。
推理,就是你打開DeepSeek問它一個(gè)問題,它給你回答。這是單行道——輸入進(jìn)去,輸出出來。
訓(xùn)練,是讓這個(gè)模型從零開始學(xué)習(xí),或者在原有基礎(chǔ)上繼續(xù)深化、更新參數(shù)。這是立交橋——每一步都有大量前向傳播、反向傳播、梯度更新,數(shù)據(jù)在芯片之間反復(fù)流動(dòng),通信量和計(jì)算量瞬間翻幾倍。
更恐怖的是,訓(xùn)練過程中,哪一塊芯片出問題,整個(gè)任務(wù)可能從頭來。1000塊芯片跑1500步,任何一塊在任何一步掉線,你前面幾天的工作白費(fèi)。
這就是為什么業(yè)內(nèi)一直說:推理湊合,訓(xùn)練不行。國(guó)產(chǎn)芯片的算力密度和容錯(cuò)能力,被認(rèn)為撐不住這種規(guī)模。
這次,撐住了。
三關(guān),分別是什么
![]()
DeepSeek
這次跑通1.6萬億參數(shù)訓(xùn)練,工程團(tuán)隊(duì)解決了三個(gè)核心難題。
第一關(guān):顯存拼圖。
1.6萬億參數(shù),單張芯片根本裝不下。必須把模型拆成小塊,精準(zhǔn)分配到每一張昇騰910C上,還要保證拆開又拼好,數(shù)值不出錯(cuò)。
第二關(guān):負(fù)載均衡。
DeepSeek-V4-Pro用的是MoE(混合專家)架構(gòu),運(yùn)行時(shí)只有部分"專家模塊"被激活,其他的閑著。這就導(dǎo)致有的芯片忙死,有的芯片空轉(zhuǎn)。團(tuán)隊(duì)針對(duì)昇騰910C重寫了調(diào)度算法,讓芯片們均勻分?jǐn)偣ぷ髁浚琈FU才能從接近0提升到30%以上。
第三關(guān):全程不掉線。
這是最考驗(yàn)工程能力的。團(tuán)隊(duì)搭了一套全鏈路監(jiān)控和容錯(cuò)體系,監(jiān)控每一塊芯片的狀態(tài),一旦有異常立即處理。1500多步,沒有一次中斷。
MFU 30%,到底算什么水平
![]()
英偉達(dá)
有人會(huì)問:才30%,英偉達(dá)能到多少?
根據(jù)業(yè)內(nèi)實(shí)測(cè)數(shù)據(jù),就算是最頂級(jí)的海外芯片,很多團(tuán)隊(duì)跑大模型訓(xùn)練的實(shí)際MFU也就在40%左右。
也就是說,昇騰910C集群的MFU只比頂級(jí)海外芯片低約10個(gè)百分點(diǎn)。
注意,這不是理論算力對(duì)比,這是實(shí)際跑起來、真實(shí)工程環(huán)境下的數(shù)字。
國(guó)產(chǎn)芯片打不了訓(xùn)練這場(chǎng)仗——這個(gè)判斷,從今天起不再成立。
這意味著什么
2022年,英偉達(dá)停止向中國(guó)出口A100;2023年,H800也被禁;2024年,連降配版的芯片也在限制范圍內(nèi)。
這三年,中國(guó)AI行業(yè)用國(guó)產(chǎn)芯片做推理、做部署,但訓(xùn)練大模型,大多數(shù)人默默繞開了這個(gè)話題——因?yàn)槎贾啦粔蛴谩?/p>
這次1.6萬億參數(shù)訓(xùn)練的成功,不是說國(guó)產(chǎn)芯片已經(jīng)超越英偉達(dá),也不是說從此高枕無憂。
但它證明了一件事:從"能用"到"能訓(xùn)",這個(gè)坎,已經(jīng)跨過去了。
往后,中國(guó)AI發(fā)展少了一條可以被卡住的路。
你覺得,國(guó)產(chǎn)AI芯片達(dá)到真正工業(yè)級(jí)水準(zhǔn),還需要多少年?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.