![]()
來源:機器之心
編輯:冷貓
深度學習到底有沒有科學理論?
這是一個很微妙的時代。一邊是大模型以令人眩暈的速度迭代,參數量從百億沖向萬億;另一邊是學術界的一片沉默 —— 我們依然沒有找到深度學習的基本理論,神經網絡仍然是個黑盒子。
LeCun 在 X 上直言不諱:「深度學習的理論基礎仍然是一片荒原。」Geoffrey Hinton 多次在公開場合表達類似觀點:深度學習的成功更像煉金術而非科學 —— 我們知道什么有效,但不知道為什么有效。
但就在這片荒原上,一道裂縫正在被撬開。
最近,由來自 UC Berkeley、哈佛、斯坦福等名校的 14 名研究者組成的研究團隊發表了一篇論文,系統性地梳理了過去十年間散落在各處的理論碎片,并將它們拼成了一幅完整的圖景。
他們給這個正在形成的理論體系起了一個名字 ——Learning Mechanics(學習力學)。
![]()
論文標題:There Will Be a Scientific Theory of Deep Learning
論文鏈接:https://arxiv.org/pdf/2604.21691
就像經典力學統一了天體運動與地面落體、統計力學架起了微觀粒子與宏觀熱現象之間的橋梁、量子力學重新定義了物質的基本存在方式一樣,「學習力學」試圖為神經網絡的學習過程建立一套第一性原理級別的科學框架。
基礎理論去哪了?
過去十五年,深度學習的每一次突破幾乎都來自工程直覺和大規模實驗,而非理論推導。AlexNet 靠的是 GPU 并行計算的偶然發現;ResNet 來自何愷明對梯度消失問題的修補;Transformer 的注意力機制最初是為了解決序列建模中的長距離依賴……
這種「先做出來再說」的模式帶來了驚人的應用成果,但也留下了一個尷尬的現實:深度學習研究者,面對一個訓練失敗的模型,往往只能靠經驗和運氣來調參。
論文研究團隊的核心貢獻在于識別出五條研究線索。它們分別是:
可解的理想化設定:在簡化條件下,我們能否精確求解神經網絡的動力學?—— 深度線性網絡的全局最優解、NTK 極限下的諧振子類比,對應物理學中的諧振子與氫原子。
可處理的極限:當網絡趨向某些極端時,行為是否變得可預測?—— 寬網絡極限下的惰性 / 豐富二分法、深度 / 批量 / 學習率極限,對應熱力學極限。
經驗定律:是否存在跨越架構和數據集的普適規律?—— 神經縮放律、穩定性邊緣(Edge of Stability),對應開普勒定律與斯涅爾定律。
超參數理論:能否實現超參數的零樣本遷移?——μP 參數化、中心流、超參數解耦與消除,對應量綱分析。
普適行為:不同架構 / 數據集學到的表征為何如此相似?—— 表征收斂現象、通用表征假設,對應臨界普適性。
這五條線索并非平行發展,而是正在向同一個核心匯聚 ——一個能夠描述神經網絡學習過程的統一理論框架。
我們知道,在拉瓦錫之前,化學本質上也是「煉金術」—— 人們知道混合某些物質會產生特定反應,但不理解背后的原子機理。直到元素周期表和化學反應理論的建立,化學才從經驗積累躍升為一門精密科學。
深度學習正處于類似的轉折點。過去十年的高速增長,本質上是經驗主義驅動的「煉金時代」—— 我們發現了很多有效的配方(ResNet、Transformer、Adam 優化器),但對這些配方為什么有效缺乏根本性的理解。
「學習力學」的目標,就是成為深度學習領域的「元素周期表」。
「學習力學」的五根支柱:物理學的雙子星
這是整篇論文最精彩的部分。
可解的理想化設定 —— 神經網絡里的「氫原子」
物理學的發展史告訴我們:任何成熟的理論都必須從一個可以精確求解的簡化模型開始。經典力學有諧振子和開普勒問題,量子力學有氫原子 —— 這些都是高度理想化的系統,但它們提供了理解更復雜系統的概念基礎。
深度學習領域也找到了自己的「氫原子」:
![]()
深度線性網絡(Deep Linear Networks)。 當激活函數被替換為恒等映射時,一個任意深度的多層感知機退化為一個矩陣乘積。
研究者證明了 SGD 在這種網絡上總能找到全局最優解,并且可以精確描述每一步更新的軌跡。更重要的是,深度線性網絡的許多定性特征(如奇異值的動態演化)在非線性網絡中也得到了保留。
NTK(Neural Tangent Kernel)極限。 當神經網絡的寬度趨于無窮大時,網絡在訓練過程中的行為可以用一個固定的核函數來描述 —— 這就是 NTK 理論的核心洞見。在這個極限下,神經網絡的訓練等價于在由 NTK 定義的再生核希爾伯特空間(RKHS)中進行核回歸。這意味著我們可以用核方法的語言來精確預測無窮寬網絡的訓練動態。
論文特別強調了 NTK 與量子力學的類比:NTK 極限下的神經網絡,其行為類似于量子力學中的諧振子或氫原子 —— 兩者都是可以通過解析方法完全求解的「玩具模型」,但又蘊含著真實系統的關鍵物理特征。
在無限寬度下,網絡的輸出函數。關于參數 θ 的變化可以用一個時間無關的核函數來刻畫,而這個核函數在訓練過程中保持不變 —— 這與量子系統中哈密頓量守恒有著異曲同工之妙。
可處理的極限 —— 當網絡變得「無限大」
如果上一部分問的是「最簡單的神經網絡是什么」,那么這部分問的就是「當網絡的某個維度推向極端時會發生什么」。這正是物理學中熱力學極限的思維模式:通過研究粒子數趨于無窮的系統,獲得對有限系統的洞察。
深度學習中已經發現了多個這樣的「極限」:
寬網絡極限(Lazy vs. Rich Regime)。 這是近年來最重要的理論發現之一。當網絡寬度增加時,訓練動態會進入兩種截然不同的狀態:
惰性 regime(Lazy Training):網絡參數幾乎不離開初始化附近,功能上等價于核方法。此時網絡的表現像一個「懶惰的學生」—— 它不愿意真正改變自己,只是用初始狀態的微小擾動來擬合數據。
豐富 regime(Feature Learning):網絡的特征表示在訓練過程中發生實質性變化,真正學會了有用的內部表征。
這兩種 regime 之間的轉變取決于寬度、深度、學習率和批量大小之間的微妙平衡。這一工作嚴格刻畫了這個相變邊界,而論文指出這一發現的意義遠超技術細節 —— 它揭示了神經網絡訓練中存在真正的「相變」現象,就像水在 0°C 結冰一樣,神經網絡的行為在某些臨界點會發生質的改變。
其他重要極限還包括:
深度極限:當層數趨于無窮時,某些架構表現出連續動力學的特征
批量極限:大批量訓練與小批量訓練之間存在系統性差異
學習率極限:極小學習率對應梯度流,極大學習率則觸發全新的動力學
這些極限研究的共同價值在于:它們將離散的、有限的經驗觀察,轉化為連續的、可分析的數學對象。
經驗定律 —— 深度學習版的「開普勒定律」
這部分是實證發現 —— 就像開普勒從第谷的觀測數據中提煉出行星運動三定律一樣,深度學習研究者也從海量實驗中總結出了若干跨越架構和數據集的普適規律。
![]()
神經縮放律(Neural Scaling Laws)是其中最著名的一個。模型的測試損失隨計算量、參數量或數據量的增加呈現冪律衰減:
其中 α 是依賴于任務和架構的冪律指數。這個規律的驚人之處在于它的普適性:無論你用的是 Transformer 還是 ResNet,無論任務是語言建模還是圖像分類,冪律關系都成立,只是指數不同。
另一個重要的經驗規律是穩定性邊緣(Edge of Stability, EoS)。當使用較大學習率訓練時,梯度的最大特征值(即 Hessian 矩陣的最大特征值
)會自動穩定在 2/η 附近( η 為學習率)。
這種現象被稱為「穩定性邊緣」,它暗示了深度學習優化過程中存在某種自組織臨界性(Self-Organized Criticality)—— 這與沙堆坍塌、地震發生等自然界中的臨界現象共享相同的數學結構。
論文將其類比為光學中的斯涅爾定律(Snell's Law):斯涅爾描述了光在不同介質界面上的折射行為但沒有解釋其底層原因(那需要麥克斯韋方程組);EoS 描述了訓練過程中梯度穩定在臨界值的現象,但其深層機制仍有待「學習力學」的完整框架來揭示。
超參數理論 —— 深度學習版的「量綱分析」
任何一個調過模型的人都知道痛苦:學習率設太大爆炸,太小不收斂;batch size 和學習率必須配合調整;不同層的權重衰減該不該一樣?這些超參數的選擇長期以來依賴經驗和網格搜索,缺乏系統性的指導原則。
μP(Maximal Update Parameterization)的出現改變了這一切。 μP 框架提供了一種優雅的解決方案:通過對參數初始化和更新規則進行特定的縮放變換,使得超參數可以在不同規模的模型之間零樣本遷移。也就是說,你在一個小模型上調好的學習率,可以直接用到同架構的大模型上而無需重新調整。
μP 本質上是深度學習中的「量綱分析」(Dimensional Analysis)。
在物理學中,量綱分析允許我們在不完全知道具體方程的情況下,僅通過檢查物理量的量綱一致性就能得出重要結論。μP 做的事情類似:它不需要知道損失景觀的具體形狀,只需要保證不同規模下優化的「量綱」一致,就能實現超參數的可遷移性。
論文還提到了兩個相關的重要概念:
中心流(Central Flow)。 這是一種新的參數化方案,旨在讓優化軌跡在參數空間中保持良好的幾何性質,避免因尺度不一致導致的優化困難。
超參數解耦與消除(Decoupling and Elimination of Hyperparameters)。 更激進的想法是:能否從根本上減少自由超參數的數量?如果能證明某些超參數在理論上是不必要的(或者說可以被其他參數吸收),那么調參這件事本身就會大幅簡化。
普適行為 —— 不同的網絡學到驚人的相似
不同架構的神經網絡,在不同的數據集上訓練之后,學到的內部表征竟然高度相似。 這個現象被稱為表征收斂(Representation Convergence)或通用表征假設(Universal Representation Hypothesis)。
具體來說,如果你訓練兩個完全不同的網絡 —— 一個是 ResNet,一個是 Vision Transformer—— 在 ImageNet 上訓練到收斂,然后比較它們中間層的激活模式,你會發現它們的表征結構出奇地一致。更神奇的是,這種一致性甚至跨模態存在:視覺網絡和語言網絡在某些抽象層面上展現出相似的表征組織方式。
論文將這一現象類比為物理學中的臨界普適性(Critical Universality)。在統計力學中,完全不同的物理系統(如鐵磁體和液體 - 氣體相變)在接近臨界點時會表現出相同的行為 —— 它們的臨界指數只依賴于空間的維數和序參量的對稱性,而與微觀細節無關。這被稱為「普適性類」(Universality Class)。
如果深度學習也存在類似的普適性,那就意味著:不管你用什么架構、什么初始化、什么優化器,只要滿足某些基本條件,網絡就會收斂到同一類「吸引子」表征上。 這不僅能解釋為什么不同模型的表現趨于一致,也為理解智能的本質提供了新的視角 —— 也許智能本身就對應著某個高維空間中的「普適性吸引子」。
十個未解之謎
論文的最后部分坦誠地列出了十個尚未解決的關鍵問題。這些問題既是挑戰,也是路線圖 —— 任何一個的突破都可能推動「學習力學」從愿景變為現實。
1.非線性動力學的解析理論。目前大部分可解結果局限于線性網絡或無限寬極限。真實的有限寬度非線性網絡的訓練動力學仍然是黑洞。
2.縮放律的起源與斷裂點。冪律關系為什么成立?它在什么條件下會失效?最近的一些工作暗示縮放律可能在極高規模下出現相變。
3.惰性與豐富 Regime 的完整相圖。 我們知道兩種 regime 都存在,但它們之間的過渡區域是什么樣子的?是否存在第三種 regime?
4.超參數的「標準模型」。能否建立一個統一的框架,將 μP、中心流等各種參數化方案納入其中,并給出完整的超參數選擇指南?
5.表征收斂的數學證明。普適行為目前主要是實證觀察。能否從優化動力學的角度嚴格證明表征必然收斂?
6.泛化誤差的理論上界。為什么過參數化的網絡(參數遠多于樣本數)不會嚴重過擬合?這個問題困擾了統計學習理論二十年。
7.架構設計的理論指導。能否從第一性原理出發推導出最優的網絡架構,而不是靠試錯?
8.語言與推理的涌現機制。In-context learning、思維鏈推理等能力是在什么條件下涌現的?能否預測和控制這種涌現?
9.物理對稱性與神經網絡歸納偏置的聯系。物理世界具有平移不變性、旋轉對稱性、尺度不變性等 —— 神經網絡是否天然編碼了這些對稱性?還是說這些對稱性是從數據中學到的?
10.「學習力學」的形式化公理體系。最終,我們需要一套類似牛頓三定律或量子力學公理的嚴謹數學框架,而不僅僅是類比和啟發式論證。
在過去,關于深度學習理論的問題通常是怎么讓模型更高效。「學習力學」提出的則是另一種層次的問題:「支配神經網絡學習過程的底層規律是什么?」
科學史上,這樣的時刻并不多見。牛頓在蘋果樹下思考引力的時候,開普勒的行星數據已經在書架上等了他半個世紀。達爾文在貝格爾號上收集標本的時候,孟德爾的豌豆實驗已經在修道院的花園里默默進行了八年。
而今天,在 AI 領域每天涌出的無數的進展背后,在每一個深夜還在跑實驗的 GPU 集群里,在每一次模型進化的歡呼中 ——「學習力學」所需的全部碎片,可能已經散落在那里了。
需要的只是有人把它們撿起來,拼在一起。
閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”
![]()
未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告
(加入未來知識庫,全部資料免費閱讀和下載)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.