網易首頁 > 網易號 > 正文申請入駐

AI 術語通俗詞典：歸一化層

2026-05-20 07:04:07　來源: MediaTea

湖南舉報

分享至

歸一化層是深度學習、神經網絡、卷積神經網絡、Transformer 和人工智能模型訓練中非常重要的一類層結構。它用來描述一種對神經網絡中間表示進行標準化處理的計算層。換句話說，歸一化層是在回答：模型訓練過程中，如何讓每一層接收到的特征分布更加穩定，從而使訓練更容易、更平穩。

如果說卷積層、全連接層主要負責提取特征和變換特征，那么歸一化層更強調“穩定特征分布”和“改善訓練過程”。它通常不直接決定模型要學習什么模式，而是幫助模型在訓練時保持更好的數值狀態，減少梯度不穩定、收斂緩慢和訓練震蕩等問題。

因此，歸一化層常用于卷積神經網絡、循環神經網絡、Transformer、大語言模型和各種深度學習模型中，是理解現代神經網絡訓練穩定性的重要基礎。

一、基本概念：什么是歸一化層

歸一化層（Normalization Layer）是神經網絡中用于調整中間特征分布的一種層結構。

在神經網絡訓練中，每一層的輸出都會作為下一層的輸入。如果前一層輸出的數值分布變化很大，后一層就需要不斷適應這種變化，訓練可能變得不穩定。

歸一化層的基本思想是：先對一組特征計算均值和方差，再把這些特征轉換到相對穩定的分布范圍內。

常見形式可以寫為：

其中：

? x 表示需要歸一化的輸入特征

? μ 表示均值

? σ2 表示方差

? ε 是一個很小的正數，用于避免除以 0

? x? 表示歸一化后的結果

歸一化后，模型通常還會引入兩個可學習參數：

其中：

? γ 表示縮放參數

? β 表示平移參數

? y 表示歸一化層最終輸出

從通俗角度看，歸一化層不是簡單地把數據“壓平”，而是先把特征調整到更穩定的尺度，再允許模型通過 γ 和 β 學習合適的縮放和平移。

因此，歸一化層可以理解為：先讓特征分布更規整，再把是否需要放大、縮小或平移的自由度交還給模型學習。

二、為什么需要歸一化層

歸一化層之所以重要，是因為深度神經網絡訓練時，數據在層與層之間不斷變換。

一層的輸出可能會出現：

? 數值過大

? 數值過小

? 分布不斷漂移

? 不同通道尺度差異很大

? 梯度傳播不穩定

這些問題會影響后續層的學習。

例如，一個隱藏層輸出的特征有的范圍在 0 到 1 之間，有的范圍在 -100 到 100 之間，那么后一層在接收這些特征時，不同維度的影響尺度會很不一致，模型訓練可能變得困難。

歸一化層的作用就是緩解這種問題。它可以幫助模型：

? 穩定中間特征分布

? 改善梯度傳播

? 加快收斂速度

? 減少對參數初始化的敏感性

? 提高深層網絡訓練穩定性

從通俗角度看：歸一化層像是在神經網絡內部不斷“整理數據尺度”，讓后面的層更容易接著學習。

這也是為什么在很多現代神經網絡結構中，歸一化層幾乎已經成為標準組件。

三、歸一化層的核心計算過程

歸一化層的基本計算可以分成三步：

計算統計量 → 標準化 → 可學習縮放和平移

1、計算均值和方差

首先，在指定維度上計算均值：

再計算方差：

其中：

? m 表示參與統計的一組元素數量

? x? 表示其中第 i 個元素

? μ 表示這一組元素的平均值

? σ2 表示這一組元素的方差

不同歸一化層的主要區別，就在于“這一組元素”到底包括哪些維度。

例如：

? Batch Normalization 通常按 batch 維度統計

? Layer Normalization 通常按一個樣本內部的特征維度統計

? Instance Normalization 通常按單個樣本、單個通道的空間維度統計

? Group Normalization 會把通道分組后分別統計

2、進行標準化

計算出均值和方差后，對輸入進行標準化：

其中：

? x? 表示歸一化前的第 i 個元素

? x?? 表示歸一化后的第 i 個元素

? μ 表示均值

? σ2 表示方差

? ε 表示防止分母為 0 的小常數

從通俗角度看，這一步就是把特征轉換成“相對于平均水平偏高還是偏低”的形式。

3、縮放和平移

如果只做標準化，模型表達能力可能受到限制。

因此，歸一化層通常會再引入可學習參數：

其中：

? γ 控制縮放

? β 控制平移

? y? 表示最終輸出

這一步非常重要。它意味著歸一化層不是強行固定特征分布，而是給模型保留了學習合適分布的能力。

圖 1：歸一化層基本原理（以 Batch Normalization 為例）

從通俗角度看：

? 標準化負責“先整理”

? γ 和 β 負責“再按模型需要調整”

四、Batch Normalization：按批量歸一化

Batch Normalization 通常簡稱 BatchNorm，是早期深度學習中非常經典的歸一化層。

它的核心思想是：在一個 mini-batch 中，對同一特征通道上的數據計算均值和方差，然后進行歸一化。

在全連接網絡中，假設某一層輸出形狀為：

其中：

? N 表示 batch 中的樣本數量

? D 表示特征維度

BatchNorm 通常會對每一個特征維度，在 N 個樣本上計算均值和方差。

在卷積神經網絡中，輸入通常是：

其中：

? N 表示 batch 大小

? C 表示通道數

? H 表示特征圖高度

? W 表示特征圖寬度

BatchNorm2d 通常會對每個通道 C，統計 N、H、W 維度上的均值和方差。

也就是說，對于每個通道，BatchNorm 會統計這個 batch 中所有樣本、所有空間位置的分布。

從通俗角度看，BatchNorm 會問：這一批數據中，某個通道整體上偏大還是偏小？然后把它調整到更穩定的尺度。

BatchNorm 的常見優點是：

? 訓練通常更穩定

? 收斂速度可能更快

? 對初始化不那么敏感

? 在 CNN 中非常常見

不過，BatchNorm 也有局限。

它依賴 batch 統計量。如果 batch 很小，均值和方差估計可能不穩定。

因此，在小 batch 訓練、序列建?；蚰承┥扇蝿罩?，BatchNorm 不一定是最佳選擇。

五、訓練階段與推理階段的 BatchNorm

BatchNorm 有一個非常重要的特點：訓練階段和推理階段行為不同。

1、訓練階段

訓練時，BatchNorm 使用當前 mini-batch 的均值和方差：

其中：

? μ_B 表示當前 batch 的均值

? σ_B2 表示當前 batch 的方差

? m 表示參與統計的元素數量

同時，BatchNorm 會維護一個滑動平均統計量，用于推理階段。

2、推理階段

推理時，模型通常一次只處理一個樣本或少量樣本，不能穩定依賴當前 batch 統計量。

因此，BatchNorm 會使用訓練過程中累計得到的 running mean 和 running variance。

從通俗角度看：

? 訓練時：看當前這一批樣本的統計分布

? 推理時：使用訓練過程中積累下來的總體統計經驗

這也是為什么在 PyTorch 中，需要區分：

model.train()

和：

model.eval()

model.train() 會讓 BatchNorm 使用當前 batch 統計量。

model.eval() 會讓 BatchNorm 使用累計統計量。

如果推理時忘記調用 model.eval()，模型輸出可能會不穩定。

六、Layer Normalization：按層歸一化

Layer Normalization 通常簡稱 LayerNorm。

它的核心思想是：對單個樣本內部的一組特征進行歸一化，而不是依賴 batch 中其他樣本。

假設一個樣本的隱藏表示為：

LayerNorm 會在這個樣本自己的 d 個特征上計算均值和方差：

然后進行標準化：

其中：

? d 表示單個樣本中的特征維度數量

? x? 表示該樣本的第 i 個特征

? μ 和 σ2 都來自該樣本自身的特征維度

從通俗角度看：LayerNorm 不關心同一個 batch 中其他樣本是什么樣，而是只整理當前樣本自己的特征分布。

LayerNorm 的常見特點是：

? 不依賴 batch 大小

? 適合序列建模

? 在 Transformer 中非常常見

? 在大語言模型中是核心組件之一

在 Transformer 中，每個 token 都會有一個隱藏向量。LayerNorm 通常會對這個 token 的隱藏向量內部進行歸一化。

例如，一個 token 的隱藏表示是 d 維向量：

LayerNorm 就是在這 d 個維度上計算均值和方差。

從通俗角度看：LayerNorm 像是在整理每個 token 自己的內部表示，使它在進入下一層計算前保持穩定。

七、Instance Normalization 與 Group Normalization

除了 BatchNorm 和 LayerNorm，還有兩種常見歸一化層：

? Instance Normalization

? Group Normalization

1、Instance Normalization

Instance Normalization 通常簡稱 InstanceNorm。

它常用于圖像生成、風格遷移等任務。

對于輸入：

InstanceNorm 通常對每個樣本、每個通道，分別在 H 和 W 上計算均值和方差。

也就是說，它不跨樣本統計，也不跨通道統計。

從通俗角度看：InstanceNorm 會單獨整理每張圖片中每個通道的空間分布。

這在風格遷移中很有用，因為圖像風格往往與通道的整體統計特征有關。

2、Group Normalization

Group Normalization 通常簡稱 GroupNorm。

它會把通道分成若干組，在每一組內部計算均值和方差。

例如，如果輸入有 32 個通道，可以分成 8 組，每組 4 個通道。

從通俗角度看：GroupNorm 既不像 BatchNorm 那樣依賴 batch，也不像 LayerNorm 那樣把所有通道都放在一起，而是在通道之間分組歸一化。

GroupNorm 的常見特點是：

? 不依賴 batch 大小

? 適合小 batch 訓練

? 常用于檢測、分割等顯存占用較大的任務

? 在 CNN 中可以作為 BatchNorm 的替代方案

八、幾種歸一化層的直觀區別

不同歸一化層的核心區別，在于統計均值和方差時“看哪些維度”。

圖 2：不同歸一化層統計范圍的區別

1、BatchNorm：看同一通道在一批樣本中的分布

BatchNorm 通常在 batch 維度和空間維度上統計。

對于 CNN 中的輸入：

BatchNorm2d 通常對每個通道 C，在 N、H、W 上計算均值和方差。

從通俗角度看：BatchNorm 關心的是“一批樣本中某個通道整體是否穩定”。

2、LayerNorm：看單個樣本內部的特征分布

LayerNorm 通常對單個樣本內部的特征維度統計。

從通俗角度看：LayerNorm 關心的是“一個樣本自己的特征向量是否穩定”。

3、InstanceNorm：看單個樣本、單個通道的空間分布

InstanceNorm 對每個樣本的每個通道分別在空間維度上統計。

從通俗角度看：InstanceNorm 關心的是“一張圖里某個通道的空間風格是否穩定”。

4、GroupNorm：看單個樣本中一組通道的分布

GroupNorm 把通道分組，在每一組內部統計。

從通俗角度看：GroupNorm 關心的是“一個樣本中某一組通道的整體分布是否穩定”。

可以概括為：

? BatchNorm：跨 batch 統計

? LayerNorm：樣本內統計

? InstanceNorm：樣本內、通道內統計

? GroupNorm：樣本內、通道分組統計

九、歸一化層與數據歸一化的區別

歸一化層容易和數據預處理中的歸一化混淆。

二者都涉及“調整數值尺度”，但作用位置不同。

1、數據歸一化

數據歸一化通常發生在模型輸入之前。

例如，對表格數據做標準化：

或者把像素值從 0～255 縮放到 0～1。

它的目標是讓原始輸入數據更適合模型訓練。

從通俗角度看：數據歸一化是在“模型外部”整理輸入數據。

2、歸一化層

歸一化層發生在模型內部。

它處理的是中間層輸出，例如卷積特征圖、隱藏向量或 token 表示。

從通俗角度看：歸一化層是在“模型內部”整理中間表示。

因此，二者不能混為一談。

一個模型既可能需要輸入數據標準化，也可能在內部使用 BatchNorm、LayerNorm 或 GroupNorm。

十、歸一化層的優勢、局限與使用注意事項

1、歸一化層的主要優勢

歸一化層最大的優勢是提高訓練穩定性。

它可以讓中間特征分布更加平穩，使后續層更容易學習。

其次，歸一化層可以改善梯度傳播。

在深層網絡中，歸一化層常常有助于緩解數值不穩定問題。

再次，歸一化層可以提高訓練效率。

很多模型在加入合適歸一化層后，可以使用更大的學習率，收斂也可能更快。

從通俗角度看，歸一化層的優勢在于：它讓神經網絡內部的數據流更穩定，從而讓訓練更順暢。

2、歸一化層的主要局限

歸一化層也有局限。

首先，歸一化層不是萬能的。

如果模型結構不合理、學習率設置不當或數據質量差，歸一化層無法單獨解決所有問題。

其次，不同歸一化層適合不同場景。

BatchNorm 在大 batch CNN 中表現常見，但小 batch 時可能不穩定；LayerNorm 適合 Transformer，但不一定是所有 CNN 任務的首選。

再次，歸一化層會引入額外計算和參數。

雖然 γ 和 β 參數量通常不大，但歸一化過程本身仍然有一定計算開銷。

此外，BatchNorm 的訓練和推理行為不同，使用時要特別注意模型模式。

3、使用歸一化層時需要注意的問題

使用歸一化層時，需要注意：

? CNN 中常見 BatchNorm、GroupNorm

? Transformer 中常見 LayerNorm

? 小 batch 訓練時 BatchNorm 可能不穩定

? 推理前要切換到 eval 模式

? 歸一化層通常放在卷積層或全連接層附近

? 不同結構中歸一化層的位置可能不同

? 歸一化層不能替代輸入數據預處理

? BatchNorm 的 running mean 和 running variance 會影響推理結果

從實踐角度看，歸一化層應根據任務、模型結構、batch 大小和訓練穩定性選擇，而不是機械套用。

十一、歸一化層在常見網絡中的位置

歸一化層通常不會單獨出現，而是和其他層組合使用。

1、CNN 中的常見形式

在卷積神經網絡中，常見結構是：

卷積層 → BatchNorm → ReLU

也可以寫作：

從通俗角度看：卷積層提取局部特征，BatchNorm 穩定特征分布，ReLU 引入非線性。

這種結構在很多經典 CNN 中非常常見。

2、Transformer 中的常見形式

在 Transformer 中，LayerNorm 是非常關鍵的組件。

常見結構包括：

LayerNorm → 注意力層 → 殘差連接

或者：

注意力層 → 殘差連接 → LayerNorm

不同模型可能采用不同歸一化位置。

例如：

? Pre-LN：先歸一化，再進入子層

? Post-LN：先經過子層和殘差，再歸一化

從通俗角度看：Transformer 中的 LayerNorm 負責穩定 token 表示，使多層注意力和前饋網絡更容易訓練。

3、生成模型中的常見形式

在圖像生成、風格遷移等任務中，InstanceNorm、GroupNorm 或其他歸一化變體也很常見。

例如：

卷積層 → InstanceNorm → 激活函數

從通俗角度看：這些歸一化層不僅影響訓練穩定性，也可能影響生成圖像的風格和質感。

十二、Python 示例

下面給出幾個簡單示例，用來幫助理解歸一化層的基本使用。

示例 1：使用 BatchNorm1d 處理向量特征

這個例子中：

? 輸入形狀為 4 × 3

? 4 表示 batch 中有 4 個樣本

? 3 表示每個樣本有 3 個特征

? BatchNorm1d 會對每個特征維度在 batch 上計算均值和方差

從通俗角度看，它會分別整理第 1、2、3 個特征在這一批樣本中的分布。

示例 2：使用 BatchNorm2d 處理圖像特征圖

這個例子中：

? 輸入形狀為 N × C × H × W

? N = 8 表示 batch 大小

? C = 16 表示通道數

? H = W = 32 表示特征圖空間尺寸

? BatchNorm2d 會對每個通道分別統計 N、H、W 維度上的均值和方差

輸出形狀仍然是 8 × 16 × 32 × 32，說明 BatchNorm2d 改變的是數值分布，而不是特征圖形狀。

示例 3：使用 LayerNorm 處理隱藏向量

這個例子中：

? 輸入形狀為 4 × 6

? LayerNorm 不依賴 batch 中其他樣本

? 它對每個樣本自己的 6 個特征進行歸一化

從通俗角度看，LayerNorm 是逐個樣本整理內部特征分布。

示例 4：在 CNN 中使用 BatchNorm

這個結構中：

? Conv2d 負責提取局部特征

? BatchNorm2d 負責穩定通道特征分布

? ReLU 負責引入非線性

輸出形狀為 8 × 16 × 32 × 32。

示例 5：在 Transformer 風格模塊中使用 LayerNorm

這個例子中：

? 輸入形狀為 batch × seq_len × hidden_size

? LayerNorm 對每個 token 的 8 維隱藏向量做歸一化

? 輸出形狀不變

這說明 LayerNorm 常用于穩定每個 token 的內部表示。

小結

歸一化層是神經網絡中用于穩定中間特征分布的層結構。它通常先計算均值和方差，再進行標準化，并通過可學習參數 γ 和 β 恢復模型表達能力。BatchNorm 常用于 CNN，LayerNorm 常用于 Transformer，InstanceNorm 和 GroupNorm 適合特定視覺任務和小 batch 場景。對初學者而言，可以把歸一化層理解為：模型內部的“數值整理層”，它讓特征分布更穩定，使深層網絡更容易訓練。

“點贊有美意，贊賞是鼓勵”

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.