无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

AI 術語通俗詞典:歸一化層

0
分享至

歸一化層是深度學習、神經網絡、卷積神經網絡、Transformer 和人工智能模型訓練中非常重要的一類層結構。它用來描述一種對神經網絡中間表示進行標準化處理的計算層。換句話說,歸一化層是在回答:模型訓練過程中,如何讓每一層接收到的特征分布更加穩定,從而使訓練更容易、更平穩。

如果說卷積層、全連接層主要負責提取特征和變換特征,那么歸一化層更強調“穩定特征分布”和“改善訓練過程”。它通常不直接決定模型要學習什么模式,而是幫助模型在訓練時保持更好的數值狀態,減少梯度不穩定、收斂緩慢和訓練震蕩等問題。

因此,歸一化層常用于卷積神經網絡、循環神經網絡、Transformer、大語言模型和各種深度學習模型中,是理解現代神經網絡訓練穩定性的重要基礎。

一、基本概念:什么是歸一化層

歸一化層(Normalization Layer)是神經網絡中用于調整中間特征分布的一種層結構。

在神經網絡訓練中,每一層的輸出都會作為下一層的輸入。如果前一層輸出的數值分布變化很大,后一層就需要不斷適應這種變化,訓練可能變得不穩定。

歸一化層的基本思想是:先對一組特征計算均值和方差,再把這些特征轉換到相對穩定的分布范圍內。

常見形式可以寫為:

其中:

? x 表示需要歸一化的輸入特征

? μ 表示均值

? σ2 表示方差

? ε 是一個很小的正數,用于避免除以 0

? x? 表示歸一化后的結果

歸一化后,模型通常還會引入兩個可學習參數:

其中:

? γ 表示縮放參數

? β 表示平移參數

? y 表示歸一化層最終輸出

從通俗角度看,歸一化層不是簡單地把數據“壓平”,而是先把特征調整到更穩定的尺度,再允許模型通過 γ 和 β 學習合適的縮放和平移。

因此,歸一化層可以理解為:先讓特征分布更規整,再把是否需要放大、縮小或平移的自由度交還給模型學習。

二、為什么需要歸一化層

歸一化層之所以重要,是因為深度神經網絡訓練時,數據在層與層之間不斷變換。

一層的輸出可能會出現:

? 數值過大

? 數值過小

? 分布不斷漂移

? 不同通道尺度差異很大

? 梯度傳播不穩定

這些問題會影響后續層的學習。

例如,一個隱藏層輸出的特征有的范圍在 0 到 1 之間,有的范圍在 -100 到 100 之間,那么后一層在接收這些特征時,不同維度的影響尺度會很不一致,模型訓練可能變得困難。

歸一化層的作用就是緩解這種問題。它可以幫助模型:

? 穩定中間特征分布

? 改善梯度傳播

? 加快收斂速度

? 減少對參數初始化的敏感性

? 提高深層網絡訓練穩定性

從通俗角度看:歸一化層像是在神經網絡內部不斷“整理數據尺度”,讓后面的層更容易接著學習。

這也是為什么在很多現代神經網絡結構中,歸一化層幾乎已經成為標準組件。

三、歸一化層的核心計算過程

歸一化層的基本計算可以分成三步:

計算統計量 → 標準化 → 可學習縮放和平移

1、計算均值和方差

首先,在指定維度上計算均值:

再計算方差:

其中:

? m 表示參與統計的一組元素數量

? x? 表示其中第 i 個元素

? μ 表示這一組元素的平均值

? σ2 表示這一組元素的方差

不同歸一化層的主要區別,就在于“這一組元素”到底包括哪些維度。

例如:

? Batch Normalization 通常按 batch 維度統計

? Layer Normalization 通常按一個樣本內部的特征維度統計

? Instance Normalization 通常按單個樣本、單個通道的空間維度統計

? Group Normalization 會把通道分組后分別統計

2、進行標準化

計算出均值和方差后,對輸入進行標準化:

其中:

? x? 表示歸一化前的第 i 個元素

? x?? 表示歸一化后的第 i 個元素

? μ 表示均值

? σ2 表示方差

? ε 表示防止分母為 0 的小常數

從通俗角度看,這一步就是把特征轉換成“相對于平均水平偏高還是偏低”的形式。

3、縮放和平移

如果只做標準化,模型表達能力可能受到限制。

因此,歸一化層通常會再引入可學習參數:

其中:

? γ 控制縮放

? β 控制平移

? y? 表示最終輸出

這一步非常重要。它意味著歸一化層不是強行固定特征分布,而是給模型保留了學習合適分布的能力。


圖 1:歸一化層基本原理(以 Batch Normalization 為例)

從通俗角度看:

? 標準化負責“先整理”

? γ 和 β 負責“再按模型需要調整”

四、Batch Normalization:按批量歸一化

Batch Normalization 通常簡稱 BatchNorm,是早期深度學習中非常經典的歸一化層。

它的核心思想是:在一個 mini-batch 中,對同一特征通道上的數據計算均值和方差,然后進行歸一化。

在全連接網絡中,假設某一層輸出形狀為:

其中:

? N 表示 batch 中的樣本數量

? D 表示特征維度

BatchNorm 通常會對每一個特征維度,在 N 個樣本上計算均值和方差。

在卷積神經網絡中,輸入通常是:

其中:

? N 表示 batch 大小

? C 表示通道數

? H 表示特征圖高度

? W 表示特征圖寬度

BatchNorm2d 通常會對每個通道 C,統計 N、H、W 維度上的均值和方差。

也就是說,對于每個通道,BatchNorm 會統計這個 batch 中所有樣本、所有空間位置的分布。

從通俗角度看,BatchNorm 會問:這一批數據中,某個通道整體上偏大還是偏小?然后把它調整到更穩定的尺度。

BatchNorm 的常見優點是:

? 訓練通常更穩定

? 收斂速度可能更快

? 對初始化不那么敏感

? 在 CNN 中非常常見

不過,BatchNorm 也有局限。

它依賴 batch 統計量。如果 batch 很小,均值和方差估計可能不穩定。

因此,在小 batch 訓練、序列建?;蚰承┥扇蝿罩?,BatchNorm 不一定是最佳選擇。

五、訓練階段與推理階段的 BatchNorm

BatchNorm 有一個非常重要的特點:訓練階段和推理階段行為不同。

1、訓練階段

訓練時,BatchNorm 使用當前 mini-batch 的均值和方差:

其中:

? μ_B 表示當前 batch 的均值

? σ_B2 表示當前 batch 的方差

? m 表示參與統計的元素數量

同時,BatchNorm 會維護一個滑動平均統計量,用于推理階段。

2、推理階段

推理時,模型通常一次只處理一個樣本或少量樣本,不能穩定依賴當前 batch 統計量。

因此,BatchNorm 會使用訓練過程中累計得到的 running mean 和 running variance。

從通俗角度看:

? 訓練時:看當前這一批樣本的統計分布

? 推理時:使用訓練過程中積累下來的總體統計經驗

這也是為什么在 PyTorch 中,需要區分:

model.train()

和:

model.eval()

model.train() 會讓 BatchNorm 使用當前 batch 統計量。

model.eval() 會讓 BatchNorm 使用累計統計量。

如果推理時忘記調用 model.eval(),模型輸出可能會不穩定。

六、Layer Normalization:按層歸一化

Layer Normalization 通常簡稱 LayerNorm。

它的核心思想是:對單個樣本內部的一組特征進行歸一化,而不是依賴 batch 中其他樣本。

假設一個樣本的隱藏表示為:

LayerNorm 會在這個樣本自己的 d 個特征上計算均值和方差:

然后進行標準化:

其中:

? d 表示單個樣本中的特征維度數量

? x? 表示該樣本的第 i 個特征

? μ 和 σ2 都來自該樣本自身的特征維度

從通俗角度看:LayerNorm 不關心同一個 batch 中其他樣本是什么樣,而是只整理當前樣本自己的特征分布。

LayerNorm 的常見特點是:

? 不依賴 batch 大小

? 適合序列建模

? 在 Transformer 中非常常見

? 在大語言模型中是核心組件之一

在 Transformer 中,每個 token 都會有一個隱藏向量。LayerNorm 通常會對這個 token 的隱藏向量內部進行歸一化。

例如,一個 token 的隱藏表示是 d 維向量:

LayerNorm 就是在這 d 個維度上計算均值和方差。

從通俗角度看:LayerNorm 像是在整理每個 token 自己的內部表示,使它在進入下一層計算前保持穩定。

七、Instance Normalization 與 Group Normalization

除了 BatchNorm 和 LayerNorm,還有兩種常見歸一化層:

? Instance Normalization

? Group Normalization

1、Instance Normalization

Instance Normalization 通常簡稱 InstanceNorm。

它常用于圖像生成、風格遷移等任務。

對于輸入:

InstanceNorm 通常對每個樣本、每個通道,分別在 H 和 W 上計算均值和方差。

也就是說,它不跨樣本統計,也不跨通道統計。

從通俗角度看:InstanceNorm 會單獨整理每張圖片中每個通道的空間分布。

這在風格遷移中很有用,因為圖像風格往往與通道的整體統計特征有關。

2、Group Normalization

Group Normalization 通常簡稱 GroupNorm。

它會把通道分成若干組,在每一組內部計算均值和方差。

例如,如果輸入有 32 個通道,可以分成 8 組,每組 4 個通道。

從通俗角度看:GroupNorm 既不像 BatchNorm 那樣依賴 batch,也不像 LayerNorm 那樣把所有通道都放在一起,而是在通道之間分組歸一化。

GroupNorm 的常見特點是:

? 不依賴 batch 大小

? 適合小 batch 訓練

? 常用于檢測、分割等顯存占用較大的任務

? 在 CNN 中可以作為 BatchNorm 的替代方案

八、幾種歸一化層的直觀區別

不同歸一化層的核心區別,在于統計均值和方差時“看哪些維度”。


圖 2:不同歸一化層統計范圍的區別

1、BatchNorm:看同一通道在一批樣本中的分布

BatchNorm 通常在 batch 維度和空間維度上統計。

對于 CNN 中的輸入:

BatchNorm2d 通常對每個通道 C,在 N、H、W 上計算均值和方差。

從通俗角度看:BatchNorm 關心的是“一批樣本中某個通道整體是否穩定”。

2、LayerNorm:看單個樣本內部的特征分布

LayerNorm 通常對單個樣本內部的特征維度統計。

從通俗角度看:LayerNorm 關心的是“一個樣本自己的特征向量是否穩定”。

3、InstanceNorm:看單個樣本、單個通道的空間分布

InstanceNorm 對每個樣本的每個通道分別在空間維度上統計。

從通俗角度看:InstanceNorm 關心的是“一張圖里某個通道的空間風格是否穩定”。

4、GroupNorm:看單個樣本中一組通道的分布

GroupNorm 把通道分組,在每一組內部統計。

從通俗角度看:GroupNorm 關心的是“一個樣本中某一組通道的整體分布是否穩定”。

可以概括為:

? BatchNorm:跨 batch 統計

? LayerNorm:樣本內統計

? InstanceNorm:樣本內、通道內統計

? GroupNorm:樣本內、通道分組統計

九、歸一化層與數據歸一化的區別

歸一化層容易和數據預處理中的歸一化混淆。

二者都涉及“調整數值尺度”,但作用位置不同。

1、數據歸一化

數據歸一化通常發生在模型輸入之前。

例如,對表格數據做標準化:

或者把像素值從 0~255 縮放到 0~1。

它的目標是讓原始輸入數據更適合模型訓練。

從通俗角度看:數據歸一化是在“模型外部”整理輸入數據。

2、歸一化層

歸一化層發生在模型內部。

它處理的是中間層輸出,例如卷積特征圖、隱藏向量或 token 表示。

從通俗角度看:歸一化層是在“模型內部”整理中間表示。

因此,二者不能混為一談。

一個模型既可能需要輸入數據標準化,也可能在內部使用 BatchNorm、LayerNorm 或 GroupNorm。

十、歸一化層的優勢、局限與使用注意事項

1、歸一化層的主要優勢

歸一化層最大的優勢是提高訓練穩定性。

它可以讓中間特征分布更加平穩,使后續層更容易學習。

其次,歸一化層可以改善梯度傳播。

在深層網絡中,歸一化層常常有助于緩解數值不穩定問題。

再次,歸一化層可以提高訓練效率。

很多模型在加入合適歸一化層后,可以使用更大的學習率,收斂也可能更快。

從通俗角度看,歸一化層的優勢在于:它讓神經網絡內部的數據流更穩定,從而讓訓練更順暢。

2、歸一化層的主要局限

歸一化層也有局限。

首先,歸一化層不是萬能的。

如果模型結構不合理、學習率設置不當或數據質量差,歸一化層無法單獨解決所有問題。

其次,不同歸一化層適合不同場景。

BatchNorm 在大 batch CNN 中表現常見,但小 batch 時可能不穩定;LayerNorm 適合 Transformer,但不一定是所有 CNN 任務的首選。

再次,歸一化層會引入額外計算和參數。

雖然 γ 和 β 參數量通常不大,但歸一化過程本身仍然有一定計算開銷。

此外,BatchNorm 的訓練和推理行為不同,使用時要特別注意模型模式。

3、使用歸一化層時需要注意的問題

使用歸一化層時,需要注意:

? CNN 中常見 BatchNorm、GroupNorm

? Transformer 中常見 LayerNorm

? 小 batch 訓練時 BatchNorm 可能不穩定

? 推理前要切換到 eval 模式

? 歸一化層通常放在卷積層或全連接層附近

? 不同結構中歸一化層的位置可能不同

? 歸一化層不能替代輸入數據預處理

? BatchNorm 的 running mean 和 running variance 會影響推理結果

從實踐角度看,歸一化層應根據任務、模型結構、batch 大小和訓練穩定性選擇,而不是機械套用。

十一、歸一化層在常見網絡中的位置

歸一化層通常不會單獨出現,而是和其他層組合使用。

1、CNN 中的常見形式

在卷積神經網絡中,常見結構是:

卷積層 → BatchNorm → ReLU

也可以寫作:

從通俗角度看:卷積層提取局部特征,BatchNorm 穩定特征分布,ReLU 引入非線性。

這種結構在很多經典 CNN 中非常常見。

2、Transformer 中的常見形式

在 Transformer 中,LayerNorm 是非常關鍵的組件。

常見結構包括:

LayerNorm → 注意力層 → 殘差連接

或者:

注意力層 → 殘差連接 → LayerNorm

不同模型可能采用不同歸一化位置。

例如:

? Pre-LN:先歸一化,再進入子層

? Post-LN:先經過子層和殘差,再歸一化

從通俗角度看:Transformer 中的 LayerNorm 負責穩定 token 表示,使多層注意力和前饋網絡更容易訓練。

3、生成模型中的常見形式

在圖像生成、風格遷移等任務中,InstanceNorm、GroupNorm 或其他歸一化變體也很常見。

例如:

卷積層 → InstanceNorm → 激活函數

從通俗角度看:這些歸一化層不僅影響訓練穩定性,也可能影響生成圖像的風格和質感。

十二、Python 示例

下面給出幾個簡單示例,用來幫助理解歸一化層的基本使用。

示例 1:使用 BatchNorm1d 處理向量特征

這個例子中:

? 輸入形狀為 4 × 3

? 4 表示 batch 中有 4 個樣本

? 3 表示每個樣本有 3 個特征

? BatchNorm1d 會對每個特征維度在 batch 上計算均值和方差

從通俗角度看,它會分別整理第 1、2、3 個特征在這一批樣本中的分布。

示例 2:使用 BatchNorm2d 處理圖像特征圖

這個例子中:

? 輸入形狀為 N × C × H × W

? N = 8 表示 batch 大小

? C = 16 表示通道數

? H = W = 32 表示特征圖空間尺寸

? BatchNorm2d 會對每個通道分別統計 N、H、W 維度上的均值和方差

輸出形狀仍然是 8 × 16 × 32 × 32,說明 BatchNorm2d 改變的是數值分布,而不是特征圖形狀。

示例 3:使用 LayerNorm 處理隱藏向量

這個例子中:

? 輸入形狀為 4 × 6

? LayerNorm 不依賴 batch 中其他樣本

? 它對每個樣本自己的 6 個特征進行歸一化

從通俗角度看,LayerNorm 是逐個樣本整理內部特征分布。

示例 4:在 CNN 中使用 BatchNorm

這個結構中:

? Conv2d 負責提取局部特征

? BatchNorm2d 負責穩定通道特征分布

? ReLU 負責引入非線性

輸出形狀為 8 × 16 × 32 × 32。

示例 5:在 Transformer 風格模塊中使用 LayerNorm

這個例子中:

? 輸入形狀為 batch × seq_len × hidden_size

? LayerNorm 對每個 token 的 8 維隱藏向量做歸一化

? 輸出形狀不變

這說明 LayerNorm 常用于穩定每個 token 的內部表示。

小結

歸一化層是神經網絡中用于穩定中間特征分布的層結構。它通常先計算均值和方差,再進行標準化,并通過可學習參數 γ 和 β 恢復模型表達能力。BatchNorm 常用于 CNN,LayerNorm 常用于 Transformer,InstanceNorm 和 GroupNorm 適合特定視覺任務和小 batch 場景。對初學者而言,可以把歸一化層理解為:模型內部的“數值整理層”,它讓特征分布更穩定,使深層網絡更容易訓練。

點贊有美意,贊賞是鼓勵

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
李在明發表涉臺不當言論,否定安美經中,韓網友“珍惜中韓關系”

李在明發表涉臺不當言論,否定安美經中,韓網友“珍惜中韓關系”

民哥臺球解說
2026-06-12 10:57:16
有退休金的人發現一個奇怪的現象:手里有20、30萬存款的老人,最后過得好的,幾乎都做了同兩個讓子女意外的決定

有退休金的人發現一個奇怪的現象:手里有20、30萬存款的老人,最后過得好的,幾乎都做了同兩個讓子女意外的決定

心理觀察局
2026-06-07 06:37:04
一路走好!泰國王室宣告47歲帕公主去世,母親頌妃迎來最絕望結局

一路走好!泰國王室宣告47歲帕公主去世,母親頌妃迎來最絕望結局

娛說瑜悅
2026-06-12 17:11:11
希西爾,將訪華

希西爾,將訪華

政知新媒體
2026-06-12 16:21:47
韓國教授:漢朝前中國一直歸屬韓國統治,外國網友評論出奇一致

韓國教授:漢朝前中國一直歸屬韓國統治,外國網友評論出奇一致

小豫講故事
2026-06-12 06:00:09
尼克斯橫掃騎士晉級總決賽

尼克斯橫掃騎士晉級總決賽

體壇周報
2026-06-13 02:09:23
排面!Lisa穿李剛仁球衣,她是李剛仁財閥千金女友的閨蜜

排面!Lisa穿李剛仁球衣,她是李剛仁財閥千金女友的閨蜜

天光破云來
2026-06-12 12:01:15
你信嗎?有些事被迫終止,其實是老天在救你!網友:想想都后怕

你信嗎?有些事被迫終止,其實是老天在救你!網友:想想都后怕

另子維愛讀史
2026-06-12 19:50:24
現在的年輕人不敢開房了

現在的年輕人不敢開房了

微微熱評
2026-06-13 00:53:53
14天的冷淡期已過!中國不再給機會,欺負海外中企的荷蘭要遭殃

14天的冷淡期已過!中國不再給機會,欺負海外中企的荷蘭要遭殃

他想要很多很多的夢
2026-06-12 05:32:19
網傳武漢大學7000多退休職工,月均領10000,每年需9億社保供應…

網傳武漢大學7000多退休職工,月均領10000,每年需9億社保供應…

慧翔百科
2026-06-09 12:21:35
杭州男子失戀游湖南,遇苗族婚宴隨禮1000入席,離場卻被伴娘攔下

杭州男子失戀游湖南,遇苗族婚宴隨禮1000入席,離場卻被伴娘攔下

蘭姐說故事
2025-06-09 10:00:07
比亞迪一建廠項目暫停!

比亞迪一建廠項目暫停!

電動內參
2026-06-12 18:49:58
美國懵了,世界杯開始了,觀眾沒了?

美國懵了,世界杯開始了,觀眾沒了?

宋鴻兵
2026-06-12 20:02:47
小鵬GX上市首月銷量,讓我楞了三分鐘

小鵬GX上市首月銷量,讓我楞了三分鐘

ZAKER新聞
2026-06-12 16:36:08
險勝幾百票!藤森慶子當選秘魯總統,其父鐵腕統治歷史再引熱議

險勝幾百票!藤森慶子當選秘魯總統,其父鐵腕統治歷史再引熱議

完善法
2026-06-12 18:24:08
三大運營商終于作“死”了自己

三大運營商終于作“死”了自己

細雨中的呼喊
2026-06-10 23:49:50
關曉彤沒想到,2026世界杯開幕當天,36歲鹿晗會以這種方式火出圈

關曉彤沒想到,2026世界杯開幕當天,36歲鹿晗會以這種方式火出圈

丁丁鯉史紀
2026-06-12 11:41:48
卡卡:球迷常說我和阿扎爾是皇馬隊史最失敗引援,對此我接受

卡卡:球迷常說我和阿扎爾是皇馬隊史最失敗引援,對此我接受

懂球帝
2026-06-12 23:10:06
與王楚欽秘密領證真相大白后,陳夢近況曝光,難怪淡出國家隊

與王楚欽秘密領證真相大白后,陳夢近況曝光,難怪淡出國家隊

領悟看世界
2026-06-13 00:49:10
2026-06-13 02:31:00
MediaTea
MediaTea
專業的數字媒體、新媒體技術
1888文章數 80關注度
往期回顧 全部

科技要聞

剛剛,人類歷史上首位萬億美元富豪誕生!

頭條要聞

美加墨世界杯第二場比賽就現空座 英媒:尷尬

頭條要聞

美加墨世界杯第二場比賽就現空座 英媒:尷尬

體育要聞

歐洲恐韓?肉德維德?

娛樂要聞

一天4個瓜,肖戰熱巴最意外

財經要聞

萬億美元順差背后,透露這些信號

汽車要聞

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

態度原創

教育
房產
藝術
親子
公開課

教育要聞

家長成了“瘋女人”,被女兒作業搞崩潰,網友:太真實

房產要聞

海南最賺錢行業曝光!最快4年半,??谌钯I三房!

藝術要聞

砸了640億,再賠160億!沙特“The Line”項目徹底涼了?

親子要聞

給孩子報個幼兒園還要工資流水?難道這就是傳說中的“因財施教”

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版