无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

AI 術語通俗詞典:LSTM

0
分享至

LSTM 是深度學習、循環神經網絡、自然語言處理、時間序列預測和人工智能模型訓練中非常經典的一個術語,全稱是 Long Short-Term Memory,通常翻譯為“長短期記憶網絡”。它用來描述一種能夠在序列數據中保留較長時間依賴關系的神經網絡結構。換句話說,LSTM 是在回答:模型怎樣在處理一串連續數據時,既記住前面重要信息,又忘掉不重要信息。

如果說普通前饋神經網絡主要處理固定輸入,卷積神經網絡擅長提取局部空間特征,那么 LSTM 更強調“按時間順序處理信息”。它不是一次只看一個孤立樣本,而是沿著序列一步步讀取輸入,并通過內部狀態保存歷史信息。

因此,LSTM 常用于文本建模、語音識別、機器翻譯、時間序列預測、金融數據分析、傳感器數據建模和早期序列生成任務中,是理解循環神經網絡和序列建模的重要基礎概念。

一、基本概念:什么是 LSTM

LSTM 是一種特殊的循環神經網絡(Recurrent Neural Network,RNN)。

普通 RNN 在處理序列時,會把上一步的隱藏狀態傳遞到下一步:

x? → h? → h? → h? → ... → h?

其中:

? x? 表示第 t 個時間步的輸入

? h? 表示第 t 個時間步的隱藏狀態

這種結構可以讓模型利用之前的信息。

但是,普通 RNN 在長序列中容易出現梯度消失或梯度爆炸問題,導致模型很難記住很久以前的信息。

LSTM 的核心改進是:在普通隱藏狀態之外,引入一個專門保存長期信息的“細胞狀態”。

LSTM 在每個時間步通常維護兩個狀態:

? h?:隱藏狀態,表示當前時間步的短期輸出信息

? c?:細胞狀態,表示沿時間傳遞的長期記憶信息

可以簡單表示為:

輸出 h? + 新狀態 c?

從通俗角度看,LSTM 像一個帶記憶本的讀者:

? h? 是當前讀到這一刻的理解

? c? 是一路保留下來的重要筆記

? 門控機制決定哪些內容要寫入、保留或輸出

因此,LSTM 不是簡單地把信息一路傳下去,而是通過門控結構控制信息流動。

二、為什么需要 LSTM

LSTM 之所以重要,是因為很多數據不是孤立樣本,而是有順序、有上下文、有前后依賴的序列。

例如:

? 一句話中,后面的詞依賴前面的語境

? 一段語音中,當前音素依賴前后發音

? 股票價格中,當前走勢依賴歷史變化

? 傳感器數據中,當前狀態依賴過去狀態

? 用戶行為序列中,當前點擊可能依賴之前興趣

普通神經網絡如果只看當前輸入,很難處理這類問題。

普通 RNN 雖然可以傳遞歷史信息,但它在長序列中常遇到一個問題:距離當前時間步越遠的信息,越難被有效保留下來。

例如,在句子:

這本書雖然前面鋪墊很長,但最后的結局非常精彩。

模型要理解“精彩”評價的是“結局”,也需要結合前文語境。如果序列很長,普通 RNN 可能逐漸遺忘前面信息。

LSTM 通過細胞狀態和門控機制緩解這一問題。

從通俗角度看:普通 RNN 像只靠腦子臨時記憶;LSTM 像一邊讀一邊做筆記,并且會判斷哪些筆記該保留、哪些該擦掉。

LSTM 的主要目標是:

? 記住重要的長期信息

? 忘掉不重要或過時的信息

? 緩解長序列中的梯度消失問題

? 更穩定地處理時間序列和文本序列

三、LSTM 的核心結構:細胞狀態與三個門

LSTM 的核心結構可以概括為:

細胞狀態 + 三個門

其中,細胞狀態負責保存長期信息,三個門負責控制信息如何流動。

三個門分別是:

? 遺忘門

? 輸入門

? 輸出門


圖 1:LSTM 的核心結構

1、細胞狀態:長期記憶通道

細胞狀態 c? 是 LSTM 中最關鍵的記憶通道。

它沿著時間方向傳遞,可以把重要信息保留較長時間。

可以簡單理解為:

c??? → c? → c???

從通俗角度看:細胞狀態像一條貫穿整個序列的“記憶主線”。

LSTM 不會每一步都完全重寫這條主線,而是通過門控機制決定:

? 哪些舊信息繼續保留

? 哪些舊信息應該忘記

? 哪些新信息應該寫入

2、遺忘門:決定忘掉什么

遺忘門決定上一時刻的細胞狀態 c??? 中哪些信息應該保留,哪些應該丟棄。

遺忘門輸出通常在 0 到 1 之間:

? 接近 1 表示保留

? 接近 0 表示遺忘

3、輸入門:決定寫入什么

輸入門決定當前輸入中的哪些新信息應該寫入細胞狀態。

它通常和候選記憶一起工作。

輸入門控制“寫不寫”,候選記憶提供“寫什么”。

4、輸出門:決定輸出什么

輸出門決定當前細胞狀態中的哪些信息應該作為隱藏狀態 h? 輸出。

隱藏狀態 h? 會傳給下一時間步,也可能用于當前任務預測。

從通俗角度看:

? 遺忘門:舊筆記哪些要擦掉

? 輸入門:新內容哪些要寫入

? 輸出門:當前哪些記憶要拿出來使用

四、LSTM 的計算過程

在每個時間步 t,LSTM 會接收當前輸入 x?、上一時間步隱藏狀態 h??? 和上一時間步細胞狀態 c???。

它會計算新的隱藏狀態 h? 和新的細胞狀態 c?。

1、遺忘門

遺忘門通常寫為:

其中:

? f? 表示遺忘門輸出

? σ 表示 Sigmoid 函數

? W_f 表示遺忘門權重矩陣

? b_f 表示遺忘門偏置

? h??? 表示上一時間步隱藏狀態

? x? 表示當前時間步輸入

? [h???, x?] 表示把二者拼接起來

f? 中的每個值都在 0 到 1 之間,用來控制舊記憶 c??? 的保留比例。

2、輸入門與候選記憶

輸入門為:

候選記憶為:

其中:

? i? 表示輸入門輸出

? c?? 表示候選細胞狀態

? tanh 用于生成候選記憶內容

輸入門 i? 決定候選記憶 c?? 中哪些部分應該寫入長期記憶。

3、更新細胞狀態

細胞狀態更新為:

其中:

? c? 表示當前時間步細胞狀態

? c??? 表示上一時間步細胞狀態

? f? ⊙ c??? 表示保留下來的舊記憶

? i? ⊙ c?? 表示寫入的新記憶

? ⊙ 表示逐元素相乘

這一步是 LSTM 的核心。

從通俗角度看:

當前長期記憶 = 保留下來的舊記憶 + 寫入的新記憶

4、輸出門與隱藏狀態

輸出門為:

隱藏狀態為:

其中:

? o? 表示輸出門輸出

? h? 表示當前時間步隱藏狀態

? tanh(c?) 表示把細胞狀態轉換到適合輸出的范圍

從通俗角度看:輸出門決定當前長期記憶中哪些內容要表現出來,形成當前輸出 h?。

五、LSTM 如何緩解長期依賴問題

長期依賴問題是指:模型需要利用較早時間步的信息,但普通 RNN 難以長期保留這些信息。

普通 RNN 的隱藏狀態每一步都被重新計算,長期信息容易在連續變換中逐漸消失。

LSTM 通過細胞狀態 c? 提供了一條相對穩定的信息通道。

在細胞狀態更新公式中:

舊記憶 c??? 可以通過遺忘門 f? 被部分保留下來。

如果某些維度的 f? 接近 1,那么這些信息可以較長時間地傳遞下去。

從通俗角度看:LSTM 的長期記憶不是每一步都被完全重寫,而是可以沿著時間線持續保留。

這有助于緩解普通 RNN 中常見的梯度消失問題。

不過,需要注意:LSTM 只能緩解長期依賴問題,并不能徹底解決所有長距離建模問題。

當序列非常長、依賴非常復雜時,LSTM 仍然可能困難。這也是后來 Transformer 和注意力機制在長文本建模中廣泛使用的重要原因之一。

六、LSTM 與普通 RNN、GRU 的區別

LSTM 經常與普通 RNN 和 GRU 一起比較。


圖 2:普通 RNN、LSTM、GRU 的比較

1、普通 RNN

普通 RNN 的結構比較簡單,通常只維護隱藏狀態 h?:

其中:

? h? 表示當前隱藏狀態

? h??? 表示上一時間步隱藏狀態

? x? 表示當前輸入

普通 RNN 結構簡單,但在長序列中容易遺忘早期信息。

2、LSTM

LSTM 同時維護隱藏狀態 h? 和細胞狀態 c?,并通過三個門控制信息流動。

它的特點是:

? 結構較復雜

? 參數量較多

? 能較好處理長期依賴

? 訓練通常比普通 RNN 更穩定

3、GRU

GRU 是 Gated Recurrent Unit,通常翻譯為“門控循環單元”。它可以看作一種比 LSTM 更簡化的門控循環網絡。

GRU 通常沒有單獨的細胞狀態,而是使用更新門和重置門控制隱藏狀態。

從通俗角度看:

? 普通 RNN:簡單記憶

? LSTM:長期記憶 + 三個門

? GRU:簡化門控記憶

可以概括為:

? 普通 RNN:結構簡單,但容易遺忘長期信息

? LSTM:門控更完整,適合較復雜長期依賴

? GRU:結構更簡潔,計算成本通常較低

在實際任務中,LSTM 和 GRU 沒有絕對優劣,需要根據數據規模、序列長度、任務類型和計算資源選擇。

七、LSTM 的常見應用場景

LSTM 適合處理具有時間順序或序列結構的數據。

1、自然語言處理

在 Transformer 普及之前,LSTM 是自然語言處理中的重要結構。

它曾廣泛用于:

? 文本分類

? 情感分析

? 機器翻譯

? 序列標注

? 語言建模

? 文本生成

例如,在情感分析中,LSTM 可以按順序讀取一句話,并把前后語境壓縮到隱藏狀態中,用于判斷整體情感。

2、時間序列預測

LSTM 常用于處理時間序列數據,例如:

? 股票價格

? 電力負荷

? 氣溫變化

? 交通流量

? 傳感器讀數

這些數據的當前值往往依賴歷史趨勢,LSTM 可以利用過去時間步的信息預測未來變化。

3、語音與音頻序列

語音信號天然具有時間順序。

LSTM 可以按時間步處理聲學特征,用于語音識別、語音情感分析和音頻事件檢測等任務。

4、用戶行為序列

在推薦系統中,用戶行為通常也是序列:

瀏覽商品 → 點擊商品 → 加入購物車 → 購買

LSTM 可以建模用戶興趣隨時間變化的過程。

從通俗角度看:凡是“當前結果依賴過去過程”的任務,都可能適合使用 LSTM。

八、LSTM 的優勢、局限與使用注意事項

1、LSTM 的主要優勢

LSTM 最大的優勢是能夠處理序列數據中的長期依賴。

它通過細胞狀態和門控機制,讓模型可以選擇性地保留重要歷史信息。

其次,LSTM 比普通 RNN 更穩定。

在長序列中,它通常比普通 RNN 更不容易完全遺忘早期信息。

再次,LSTM 適用范圍較廣。

文本、語音、時間序列、行為序列等任務都可以使用 LSTM 建模。

從通俗角度看,LSTM 的優勢在于:它讓模型既能順序閱讀數據,又能把重要信息記得更久。

2、LSTM 的主要局限

LSTM 也有局限。

首先,計算速度較慢。

由于 LSTM 必須按時間步依次處理序列,難以像 Transformer 那樣在時間維度上高度并行。

其次,結構較復雜。

LSTM 有多個門和多個權重矩陣,參數量比普通 RNN 多。

再次,非常長的依賴仍然困難。

雖然 LSTM 能緩解長期依賴問題,但面對很長文本或復雜全局關系時,仍可能不如注意力機制靈活。

此外,LSTM 對輸入順序敏感。

如果數據本身沒有明顯序列結構,使用 LSTM 未必合適。

3、使用 LSTM 時需要注意的問題

使用 LSTM 時,需要注意:

? 輸入通常需要整理成 batch × seq_len × feature_dim 或 seq_len × batch × feature_dim

? PyTorch 中 batch_first=True 會讓輸入形狀使用 batch × seq_len × feature_dim

? hidden size 決定隱藏狀態維度

? num_layers 可以堆疊多層 LSTM

? 雙向 LSTM 可以同時利用前向和后向信息

? 長序列訓練可能需要截斷反向傳播

? 序列長度不一致時通常需要 padding 或 packed sequence

? LSTM 輸出通常包括全部時間步輸出和最后狀態

從實踐角度看,LSTM 適合有明顯順序依賴的數據,但并不是所有任務都必須使用 LSTM。對于長文本和大規模語言建模,Transformer 通常更常見。

九、Python 示例

下面給出幾個簡單示例,用來幫助理解 LSTM 的基本使用。

示例 1:使用 PyTorch 創建 LSTM 層

輸出形狀通常為:

最后細胞狀態形狀: torch.Size([1, 4, 16]

其中:

? 4 表示 batch size

? 5 表示序列長度

? 8 表示輸入特征維度

? 16 表示 hidden size

? h_n 表示最后隱藏狀態

? c_n 表示最后細胞狀態

示例 2:用 LSTM 做簡單文本分類結構

此示例中:

? Embedding 層把 token id 轉為向量

? LSTM 按序列讀取 token 向量

? 最后隱藏狀態用于分類

? Linear 層輸出類別 logits

示例 3:雙向 LSTM

這里 output 最后一維是 32,是因為雙向 LSTM 會把前向和后向隱藏狀態拼接:

其中:

? 16 表示 hidden size

? 2 表示兩個方向:前向和后向

從通俗角度看:雙向 LSTM 既從前往后讀序列,也從后往前讀序列,因此可以同時利用左右上下文。

示例 4:LSTM 用于時間序列預測

此示例中:

? 每條序列有 20 個時間步

? 每個時間步有 3 個輸入特征

LSTM 讀取整段歷史序列,最后時間步表示用于預測一個連續值。

小結

LSTM 是一種用于處理序列數據的循環神經網絡結構。它通過細胞狀態保存長期記憶,并使用遺忘門、輸入門和輸出門控制信息保留、寫入和輸出。相比普通 RNN,LSTM 更適合處理較長依賴關系,但計算更復雜、并行性較弱。對初學者而言,可以把 LSTM 理解為:一種會選擇性記筆記的序列模型,它能在逐步讀取數據時保留重要歷史信息。

點贊有美意,贊賞是鼓勵

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美股漲幅擴大,道瓊斯指數漲1.01%

美股漲幅擴大,道瓊斯指數漲1.01%

每日經濟新聞
2026-06-12 23:04:04
12個非洲國家集體鎖礦!中國440億投資遇上最狠一刀

12個非洲國家集體鎖礦!中國440億投資遇上最狠一刀

甜心貓女
2026-06-01 16:05:10
老婆出軌初戀后,我半年沒碰她,她質問我原因,我說:我嫌臟

老婆出軌初戀后,我半年沒碰她,她質問我原因,我說:我嫌臟

千秋文化
2026-06-06 20:06:18
中國男網傳捷報!張之臻爆冷6號種子,轟11記ACE球,創造新紀錄!

中國男網傳捷報!張之臻爆冷6號種子,轟11記ACE球,創造新紀錄!

劉姚堯的文字城堡
2026-06-12 07:55:24
6月12日人民幣對美元中間價調升41個基點

6月12日人民幣對美元中間價調升41個基點

證券時報
2026-06-12 09:46:13
中國摩托首次闖入世界級賽車前三,張雪機車是誰?

中國摩托首次闖入世界級賽車前三,張雪機車是誰?

字節漫游指南
2026-06-13 00:22:17
黃仁勛說清穿皮夾克原因,17歲后全靠老婆買衣服,30度高溫也不脫

黃仁勛說清穿皮夾克原因,17歲后全靠老婆買衣服,30度高溫也不脫

大廠編外實習生
2026-06-12 17:45:33
嚴子怡究竟有多恐怖 #女子標槍

嚴子怡究竟有多恐怖 #女子標槍

98跑
2026-06-12 15:42:05
伊朗多地傳出爆炸聲!伊朗:正評估將馬斯克旗下企業列入打擊范圍,包括“星鏈”、SpaceX相關設施!特朗普遭以色列和伊朗同時“打臉”

伊朗多地傳出爆炸聲!伊朗:正評估將馬斯克旗下企業列入打擊范圍,包括“星鏈”、SpaceX相關設施!特朗普遭以色列和伊朗同時“打臉”

每日經濟新聞
2026-06-12 09:20:07
爽!中國制裁菲律賓“鉆后廚防長”:從嘴硬到全家傻眼,只用10天

爽!中國制裁菲律賓“鉆后廚防長”:從嘴硬到全家傻眼,只用10天

科學發掘
2026-06-12 16:17:28
防線全面崩潰,俄軍攻占羅斯科什,中方不愿看到的事,還是發生了

防線全面崩潰,俄軍攻占羅斯科什,中方不愿看到的事,還是發生了

激情與榮耀并存
2026-06-13 02:47:42
孤女遭親舅舅燒書阻止參加高考?實為劇本賣慘蹭流量丨真探隊

孤女遭親舅舅燒書阻止參加高考?實為劇本賣慘蹭流量丨真探隊

封面新聞
2026-06-12 12:54:21
外媒終于發現不對勁:平壤街頭大變樣,朝鮮靠著中國偷偷干件大事

外媒終于發現不對勁:平壤街頭大變樣,朝鮮靠著中國偷偷干件大事

舊窗老街
2026-06-13 03:11:21
丁克22年丈夫猝逝,她守著舊房不搬家:女人最后悔的,不是沒孩子

丁克22年丈夫猝逝,她守著舊房不搬家:女人最后悔的,不是沒孩子

飄飄然的娛樂匯
2026-06-12 19:30:08
馬刺1-3危機四伏!米奇該不該下課?波波維奇在下一盤大棋

馬刺1-3危機四伏!米奇該不該下課?波波維奇在下一盤大棋

世界體育圈
2026-06-12 18:27:08
淺灰針織+白色微喇褲|都市輕熟人妻穿搭,知性身段盡顯高級性感

淺灰針織+白色微喇褲|都市輕熟人妻穿搭,知性身段盡顯高級性感

只要高興就好
2026-05-30 15:11:26
《浪姐》五公組隊,她愛顯擺、突然罵人,這幾個做作的行為惹人煩

《浪姐》五公組隊,她愛顯擺、突然罵人,這幾個做作的行為惹人煩

洲洲影視娛評
2026-06-12 20:18:46
完美調整!陳熠3-1逆轉李恩惠晉級八強,這一站成女單獨苗!

完美調整!陳熠3-1逆轉李恩惠晉級八強,這一站成女單獨苗!

籃球資訊達人
2026-06-12 18:05:53
賴清德瘋了?誰敢把芯片賣大陸就得坐牢!臺積電一夜蒸發數百億

賴清德瘋了?誰敢把芯片賣大陸就得坐牢!臺積電一夜蒸發數百億

卷史
2026-06-12 11:46:00
韓媒:孫興慜出場時受到球迷熱烈歡迎,捷克球員出場時則被噓

韓媒:孫興慜出場時受到球迷熱烈歡迎,捷克球員出場時則被噓

懂球帝
2026-06-12 10:48:10
2026-06-13 05:28:49
MediaTea
MediaTea
專業的數字媒體、新媒體技術
1888文章數 80關注度
往期回顧 全部

科技要聞

剛剛,人類歷史上首位萬億美元富豪誕生!

頭條要聞

SpaceX上市首日收漲19% 總市值報2.1萬億美元

頭條要聞

SpaceX上市首日收漲19% 總市值報2.1萬億美元

體育要聞

歐洲恐韓?肉德維德?

娛樂要聞

一天4個瓜,肖戰熱巴最意外

財經要聞

萬億美元順差背后,透露這些信號

汽車要聞

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

態度原創

手機
數碼
藝術
親子
公開課

手機要聞

vivo X Fold6再預熱:天璣9500超能版+OriginOS 6 Fold

數碼要聞

英國監管機構警告:亞馬遜、eBay仍在售可能致命的假冒手機充電器

藝術要聞

砸了640億,再賠160億!沙特“The Line”項目徹底涼了?

親子要聞

給孩子報個幼兒園還要工資流水?難道這就是傳說中的“因財施教”

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版