大數據文摘受權轉載自頭部科技
文丨譚梓馨
開源大模型接下來還能怎么搞?
2026年開年第一炮,DeepSeek團隊提出了一種全新架構mHC(流形約束超連接),DeepSeek創始人兼CEO梁文鋒署名發布。
![]()
簡單說,mHC為AI模型帶來了“智能穩定器”,在保持模型寬度的同時,通過“雙隨機矩陣”的流形約束,解決了超連接(HC)不穩定性問題,確保模型訓練穩健,配合算子融合等優化,mHC在MATH、GSM8K等任務上表現優異。
![]()
mHC將有助于加深對拓撲架構設計的理解,并為基礎模型的演進指明有前景的方向,不少開發者認為,這一趨勢進一步強化了人工智能基礎設施的核心約束從峰值浮點運算數(FLOPs)向內存帶寬、互連容量與系統軟件成熟度的平衡轉移的大方向。
網友們紛紛期待著DeepSeek下一代開源模型的推出,猜測會不會趕在2026年春節之際?就像2025年春節前夕的R1一樣再次席卷整個AI圈。
硬核“數學+工程”雙殺
近年來,以超連接(HC)為代表的研究通過拓寬殘差流寬度與豐富連接模式,對過去十年確立的、應用廣泛的殘差連接范式進行了拓展。
盡管該方法帶來了顯著的性能提升,但這種連接模式的多樣化從根本上破壞了殘差連接固有的恒等映射特性——這不僅導致嚴重的訓練不穩定性與受限的可擴展性,還會產生顯著的內存訪問開銷。
![]()
為解決上述問題,DeepSeek團隊提出了流形約束超連接(mHC)框架,這是一種針對Transformer類基礎模型的宏架構改進方案,其核心在于將HC的殘差連接空間投影至特定流形,以恢復恒等映射特性;同時,框架整合了嚴格的基礎設施優化策略,確保模型運行效率。
論文報告將數學理論(“雙隨機矩陣”、Sinkhorn-Knopp算法)與基礎設施優化工作(如內核融合、混合精度內核、重計算策略、流水線通信-計算重疊)相結合,成功降低了拓寬殘差流原本會帶來的高昂內存與通信開銷。
![]()
![]()
在基于DeepSeek-V3的混合專家(MoE)預訓練場景中(總參數量270億,激活參數量41.4 億),報告顯示mHC技術實現了以下效果:
(1)消除了 HC 技術存在的訓練不穩定性;(2)相比基線模型,最終訓練損失降低 0.021;(3)在8項下游基準測試中,有7項性能優于基線模型且超過HC技術;(4)在計算量縮放(30億、90億、270億參數量)與令牌量縮放(30億參數量模型訓練至1.05萬億令牌)過程中,性能優勢持續保持,在擴展系數n=4時,內部實測的額外訓練時間開銷僅為6.7%。
一種模型新范式前瞻
DeepSeek團隊表示,作為HC范式的通用擴展,mHC為未來研究開辟了多個極具潛力的方向。
盡管本研究采用雙隨機矩陣來保證穩定性,但該框架支持探索針對特定學習目標的多樣化流形約束,研究人員預計,對不同幾何約束的進一步研究,有望催生能夠更好地優化可塑性與穩定性平衡的全新方法。
![]()
此外,他們希望mHC能夠重新激發學術界對宏架構設計的關注,通過深化對“拓撲結構如何影響優化過程與表征學習”的理解,mHC將助力突破當前技術瓶頸,并有可能為下一代基礎模型架構的演進指明全新方向。
![]()
不少開發者認為,這件事比聽起來更重要。當主流大模型仍在沿用舊方法組裝大模型,DeepSeek試圖搭建一套更強、更穩、更高效的“新骨架”。
隨著模型架構變得越來越深、越來越復雜(例如,具有數百條殘差路徑的Transformer、多分支視覺模型、具有跨模塊反饋的代理系統),幾何違例會不斷累積,mHC本質上是在說:如果想要保持可擴展性,就必須維護表示的完整性,這也是對“蠻力式”模型搭建設計的一種無聲反駁。
期待下一個“DeepSeek”時刻
細心的網友發現,DeepSeek在論文論文中提到“在我們的內部大規模訓練實驗進一步佐證了這一結論”,這句“大規模訓練實驗”引發諸多猜想:其新一代模型可能已經成形。
![]()
截至目前,DeepSeek的旗艦模型在通用綜合能力與多模態上并非絕對領先者,僅在部分文本強相關賽道基準與開源模型中表現突出,過去的2025年,國內開源模型廠商的競逐同樣激烈,想要再次實現行業領跑并不容易。
![]()
今年春節“DeepSeek時刻”會不會再來一次?一起拭目以待。
GPU 訓練特惠!
H100/H200 GPU算力按秒計費,平均節省開支30%以上!
掃碼了解詳情?
點「贊」的人都變好看了哦!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.