AI 術(shù)語通俗詞典：隱藏層

2026-05-19 19:43:38　來源: MediaTea

湖南舉報

分享至

隱藏層是深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)和人工智能中非?；A(chǔ)的一個術(shù)語。它用來描述神經(jīng)網(wǎng)絡(luò)中位于輸入層和輸出層之間的計算層。換句話說，隱藏層是在回答：模型怎樣把原始輸入一步步加工成更有用的中間表示，再交給輸出層完成預(yù)測。

如果說輸入層負責(zé)接收數(shù)據(jù)，輸出層負責(zé)給出結(jié)果，那么隱藏層就是神經(jīng)網(wǎng)絡(luò)真正進行特征變換和表示學(xué)習(xí)的主要部分。它通過權(quán)重、偏置和激活函數(shù)，把上一層的信息轉(zhuǎn)換成新的表示。因此，隱藏層常用于多層感知器、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、Transformer、表示學(xué)習(xí)和深度學(xué)習(xí)模型訓(xùn)練，是理解神經(jīng)網(wǎng)絡(luò)表達能力的重要基礎(chǔ)。

一、基本概念：什么是隱藏層

隱藏層（Hidden Layer）是神經(jīng)網(wǎng)絡(luò)中位于輸入層和輸出層之間的層。

一個簡單神經(jīng)網(wǎng)絡(luò)可以表示為：

輸入層 → 隱藏層 → 輸出層

如果有多個隱藏層，則可以表示為：

輸入層 → 隱藏層 1 → 隱藏層 2 → … → 輸出層

隱藏層之所以叫“隱藏”，不是因為它真的無法查看，而是因為它既不是原始輸入，也不是最終輸出，而是模型內(nèi)部產(chǎn)生的中間表示。

設(shè)輸入為：

一個隱藏層通?？梢詫憺椋?/p>

其中：

? x 表示輸入向量

? W 表示權(quán)重矩陣

? b 表示偏置向量

? f 表示激活函數(shù)

? h 表示隱藏層輸出，也叫隱藏表示

從通俗角度看，隱藏層可以理解為：模型內(nèi)部的加工層，它把原始輸入轉(zhuǎn)換成更適合完成任務(wù)的中間特征。

圖 1：隱藏層在神經(jīng)網(wǎng)絡(luò)中的位置與作用

例如，在圖像識別中，輸入層接收像素值，輸出層給出類別，而隱藏層可能逐步提取邊緣、紋理、局部形狀和物體部件。

因此，隱藏層是神經(jīng)網(wǎng)絡(luò)從“原始數(shù)據(jù)”走向“任務(wù)結(jié)果”的中間橋梁。

二、為什么需要隱藏層

隱藏層之所以重要，是因為原始輸入通常不能直接支持復(fù)雜判斷。

例如，一張圖片輸入給模型時，本質(zhì)上是一組像素值。單個像素很難直接說明圖片中是否有貓、狗或汽車。模型需要把這些像素逐步組合成更有意義的視覺特征：

像素 → 邊緣 → 紋理 → 局部形狀 → 物體部件 → 類別

同樣，在文本處理中，原始 token 本身也需要被加工成上下文相關(guān)的語義表示：

token → 詞義表示 → 短語關(guān)系 → 句子語義 → 任務(wù)輸出

隱藏層的作用正是完成這種中間變換。

如果沒有隱藏層，模型往往退化為簡單線性模型。例如：

這類模型只能直接從輸入到輸出建立較簡單的關(guān)系。

加入隱藏層后，模型可以變成：

其中，h 是模型學(xué)到的中間表示。

從通俗角度看：隱藏層讓模型不必直接從原始輸入跳到最終答案，而是可以先學(xué)會一系列中間特征。

這正是神經(jīng)網(wǎng)絡(luò)能夠處理復(fù)雜非線性問題的重要原因。

三、隱藏層的核心計算過程

隱藏層的基本計算通常包括兩步：

線性變換 → 非線性激活

1、線性變換

隱藏層首先對上一層輸入進行加權(quán)組合：

其中：

? W 表示權(quán)重矩陣

? x 表示上一層輸入

? b 表示偏置向量

? z 表示線性輸入

如果展開看，第 j 個隱藏神經(jīng)元可以寫為：

其中：

? z? 表示第 j 個隱藏神經(jīng)元的線性輸入

? w?? 表示第 i 個輸入到第 j 個神經(jīng)元的權(quán)重

? b? 表示第 j 個神經(jīng)元的偏置

從通俗角度看：線性變換負責(zé)把上一層的信息按不同權(quán)重重新組合。

2、非線性激活

線性變換之后，隱藏層通常會使用激活函數(shù)：

常見激活函數(shù)包括：

? ReLU

? Tanh

? Sigmoid

? GELU

例如，ReLU 定義為：

如果沒有激活函數(shù)，多層線性變換疊加后仍然等價于一個線性變換：

因此，激活函數(shù)的作用是：讓隱藏層具有非線性表達能力。

從通俗角度看：

? 權(quán)重和偏置負責(zé)“重新組合信息”

? 激活函數(shù)負責(zé)“引入非線性判斷”

二者共同構(gòu)成隱藏層的基本計算。

四、隱藏層如何學(xué)習(xí)特征表示

隱藏層最重要的作用之一，是學(xué)習(xí)表示。

（Representation Learning）是指模型自動把原始數(shù)據(jù)轉(zhuǎn)換成更有用的內(nèi)部表示。

一個神經(jīng)網(wǎng)絡(luò)中的多層隱藏層可以寫為：

其中：

? h? 表示第一層隱藏表示

? h? 表示第二層隱藏表示

? h? 表示第三層隱藏表示

每一層都在上一層表示基礎(chǔ)上繼續(xù)變換。

從通俗角度看：隱藏層會把原始輸入逐步翻譯成模型更容易理解的數(shù)學(xué)表示。

圖 2：隱藏層如何逐層學(xué)習(xí)特征表示

以圖像識別為例：

? 第一層隱藏層可能學(xué)習(xí)邊緣、角點、顏色變化

? 中間隱藏層可能學(xué)習(xí)紋理、局部結(jié)構(gòu)

? 更深隱藏層可能學(xué)習(xí)眼睛、車輪、動物臉部等高級特征

以文本模型為例：

? 較低層可能學(xué)習(xí)詞形、詞義、局部搭配

? 中間層可能學(xué)習(xí)句法關(guān)系和上下文依賴

? 較高層可能學(xué)習(xí)任務(wù)相關(guān)語義表示

因此，隱藏層不是簡單的中間計算，而是神經(jīng)網(wǎng)絡(luò)自動構(gòu)建特征體系的地方。

五、隱藏層數(shù)量與神經(jīng)網(wǎng)絡(luò)深度

隱藏層的數(shù)量決定了神經(jīng)網(wǎng)絡(luò)的深度。

如果網(wǎng)絡(luò)只有一個隱藏層，通常稱為淺層神經(jīng)網(wǎng)絡(luò)或簡單多層感知器。

如果網(wǎng)絡(luò)有多個隱藏層，就形成更深的神經(jīng)網(wǎng)絡(luò)：

輸入層 → 隱藏層 1 → 隱藏層 2 → 隱藏層 3 → 輸出層

深度學(xué)習(xí)中的“深”，主要就是指模型包含多層隱藏層或多級特征變換。

從通俗角度看：隱藏層越多，模型可以進行越多級的信息加工。

例如：

? 低層：簡單特征

? 中層：組合特征

? 高層：語義特征

不過，隱藏層并不是越多越好。

隱藏層增加會帶來：

? 更強表達能力

? 更多參數(shù)

? 更高計算成本

? 更大過擬合風(fēng)險

? 更復(fù)雜的訓(xùn)練問題

例如，深層網(wǎng)絡(luò)可能遇到梯度消失、梯度爆炸或訓(xùn)練不穩(wěn)定等問題。

因此，選擇隱藏層數(shù)量時，需要結(jié)合：

? 數(shù)據(jù)規(guī)模

? 任務(wù)復(fù)雜度

? 模型類型

? 計算資源

? 驗證集表現(xiàn)

從實踐角度看，隱藏層數(shù)量是一個重要結(jié)構(gòu)超參數(shù)，需要通過實驗和驗證集評估來確定。

六、隱藏層寬度與神經(jīng)元數(shù)量

除了隱藏層數(shù)量，每個隱藏層中神經(jīng)元的數(shù)量也很重要。

隱藏層神經(jīng)元數(shù)量通常稱為隱藏層寬度。

例如：

輸入層 → 64 個神經(jīng)元 → 32 個神經(jīng)元 → 輸出層

可以表示為：

hidden_layer_sizes=(64, 32)

其中：

? 第一隱藏層有 64 個神經(jīng)元

? 第二隱藏層有 32 個神經(jīng)元

隱藏層寬度影響模型容量。

如果神經(jīng)元太少，模型可能表達能力不足，容易欠擬合。

如果神經(jīng)元太多，模型參數(shù)量增加，可能更容易過擬合，也會增加計算成本。

從通俗角度看：

? 隱藏層數(shù)量：決定模型加工多少輪

? 隱藏層寬度：決定每一輪能提取多少種特征

例如，在圖像任務(wù)中，一個隱藏層神經(jīng)元可能關(guān)注某種局部模式；更多神經(jīng)元意味著模型可以同時關(guān)注更多模式。

不過，寬度增加并不總是帶來更好效果。

如果數(shù)據(jù)量不足或正則化不足，較寬網(wǎng)絡(luò)可能只是在記憶訓(xùn)練集。

因此，隱藏層寬度同樣需要結(jié)合驗證集表現(xiàn)、任務(wù)復(fù)雜度和計算資源進行選擇。

七、隱藏層在不同網(wǎng)絡(luò)中的形式

隱藏層并不只存在于普通多層感知器中。不同類型的神經(jīng)網(wǎng)絡(luò)中，隱藏層有不同表現(xiàn)形式。

1、多層感知器中的隱藏層

在多層感知器中，隱藏層通常是全連接層加激活函數(shù)：

它主要用于對向量特征進行非線性變換。

常用于：

? 表格數(shù)據(jù)分類

? 表格數(shù)據(jù)回歸

? 簡單向量建模

? 基礎(chǔ)神經(jīng)網(wǎng)絡(luò)教學(xué)

2、卷積神經(jīng)網(wǎng)絡(luò)中的隱藏層

在卷積神經(jīng)網(wǎng)絡(luò)中，隱藏層常由卷積層、激活函數(shù)、池化層等組成：

卷積層 → ReLU → 池化層

它主要用于提取圖像局部特征。

例如：

像素 → 邊緣 → 紋理 → 局部形狀 → 物體部件

3、循環(huán)神經(jīng)網(wǎng)絡(luò)中的隱藏狀態(tài)

在循環(huán)神經(jīng)網(wǎng)絡(luò)中，隱藏層常與隱藏狀態(tài)（Hidden State）相關(guān)。

隱藏狀態(tài)會在時間步之間傳遞，用于保存序列中的歷史信息：

當前輸入 + 上一步隱藏狀態(tài) → 當前隱藏狀態(tài)

它適合處理時間序列、文本序列和語音序列。

4、Transformer 中的隱藏表示

在 Transformer 中，每一層都會產(chǎn)生 token 的隱藏表示。

這些隱藏表示經(jīng)過注意力機制和前饋網(wǎng)絡(luò)不斷更新：

token 表示 → 注意力層 → 前饋網(wǎng)絡(luò) → 新的隱藏表示

大語言模型中的每個 token 在每一層都有自己的隱藏表示。

從通俗角度看：不同神經(jīng)網(wǎng)絡(luò)中的隱藏層形式不同，但共同作用都是學(xué)習(xí)輸入的中間表示。

八、隱藏層的優(yōu)勢、局限與使用注意事項

1、隱藏層的主要優(yōu)勢

隱藏層最大的優(yōu)勢是增強模型表達能力。

它讓神經(jīng)網(wǎng)絡(luò)不再只是從輸入到輸出的一次線性映射，而可以通過多層變換學(xué)習(xí)復(fù)雜非線性關(guān)系。

其次，隱藏層支持表示學(xué)習(xí)。

模型可以自動學(xué)習(xí)中間特征，減少對人工特征工程的依賴。

再次，多層隱藏層可以形成層次化特征。

低層學(xué)習(xí)簡單模式，高層學(xué)習(xí)復(fù)雜語義。

從通俗角度看，隱藏層的優(yōu)勢在于：它讓模型能夠把復(fù)雜問題拆成多級加工過程。

2、隱藏層的主要局限

隱藏層也有局限。

首先，隱藏層越多、越寬，參數(shù)通常越多，計算成本越高。

其次，模型可能更難解釋。

隱藏層中每個神經(jīng)元或每個維度的含義不一定能直接用人類語言說明。

再次，隱藏層過多或過寬可能導(dǎo)致過擬合。

模型可能記住訓(xùn)練數(shù)據(jù)細節(jié)，而不是學(xué)到一般規(guī)律。

此外，深層網(wǎng)絡(luò)訓(xùn)練可能遇到梯度消失、梯度爆炸等問題，需要合適的初始化、歸一化、殘差連接和優(yōu)化器。

3、使用隱藏層時需要注意的問題

使用隱藏層時，需要注意：

? 隱藏層不是越多越好

? 神經(jīng)元數(shù)量不是越多越好

? 隱藏層后通常需要激活函數(shù)

? 輸入特征常需要標準化

? 復(fù)雜模型需要關(guān)注過擬合

? 深層模型訓(xùn)練要關(guān)注梯度傳播

? 模型效果應(yīng)以驗證集和測試集表現(xiàn)為準

從實踐角度看，隱藏層是神經(jīng)網(wǎng)絡(luò)能力的來源之一，但它必須和數(shù)據(jù)規(guī)模、任務(wù)復(fù)雜度、訓(xùn)練方法相匹配。

九、Python 示例

下面給出幾個簡單示例，用來幫助理解隱藏層的基本使用。

示例 1：使用 Scikit-learn 指定隱藏層結(jié)構(gòu)

這個例子中：

? hidden_layer_sizes=(16, 8) 表示兩個隱藏層

? 第一隱藏層有 16 個神經(jīng)元

? 第二隱藏層有 8 個神經(jīng)元

? activation="relu" 表示隱藏層使用 ReLU 激活函數(shù)

示例 2：使用 PyTorch 定義包含隱藏層的網(wǎng)絡(luò)

這個網(wǎng)絡(luò)結(jié)構(gòu)為：

4 維輸入 → 16 維隱藏層 → 8 維隱藏層 → 3 類輸出

其中：

? nn.Linear(4, 16) 是第一隱藏層的線性變換

? nn.ReLU() 是隱藏層激活函數(shù)

? nn.Linear(16, 8) 是第二隱藏層的線性變換

? 最后一層輸出 logits

示例 3：提取隱藏層輸出

有時，我們希望查看某一隱藏層學(xué)到的中間表示。

這個例子中：

? h1 是第一隱藏層表示

? h2 是第二隱藏層表示

? logits 是輸出層結(jié)果

從表示學(xué)習(xí)角度看，h1 和 h2 都是模型對輸入數(shù)據(jù)學(xué)習(xí)到的中間表示。

示例 4：比較不同隱藏層規(guī)模

這個例子展示：

? 不同隱藏層規(guī)模會影響模型表現(xiàn)

? 更大的隱藏層不一定總是更好

? 最終應(yīng)以驗證集或測試集表現(xiàn)判斷結(jié)構(gòu)是否合適

小結(jié)

隱藏層是神經(jīng)網(wǎng)絡(luò)中位于輸入層和輸出層之間的計算層。它通過權(quán)重、偏置和激活函數(shù)，把輸入逐步轉(zhuǎn)換成更有用的中間表示。隱藏層是神經(jīng)網(wǎng)絡(luò)表達能力和表示學(xué)習(xí)能力的重要來源：低層可以學(xué)習(xí)簡單特征，高層可以學(xué)習(xí)復(fù)雜語義。對初學(xué)者而言，可以把隱藏層理解為：模型內(nèi)部負責(zé)加工和重組信息的層，它讓神經(jīng)網(wǎng)絡(luò)能夠從原始數(shù)據(jù)逐步走向最終判斷。

“點贊有美意，贊賞是鼓勵”

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.