網易首頁 > 網易號 > 正文申請入駐

AI 術語通俗詞典：GPT

2026-05-29 00:07:54　來源: MediaTea

湖南舉報

分享至

GPT 是自然語言處理、深度學習、Transformer、大語言模型和生成式人工智能中非常重要的一個術語，全稱是 Generative Pre-trained Transformer，通常可譯為“生成式預訓練 Transformer”。它用來描述一種基于 Transformer 架構、通過大規模文本預訓練獲得語言生成能力的模型。換句話說，GPT 是在回答：模型怎樣根據已有文本，繼續生成符合上下文的后續內容。

如果說 BERT 更像一個擅長閱讀理解的雙向編碼模型，那么 GPT 更像一個擅長續寫、回答、對話和生成內容的語言模型。它會根據前文不斷預測下一個 token，再把生成出的 token 接到上下文后面，繼續預測下一個 token，直到形成完整回答。

因此，GPT 常用于對話問答、文章寫作、摘要生成、翻譯、代碼生成、信息抽取、智能客服、工具調用、智能體規劃和多模態系統中的語言生成部分，是理解現代大語言模型的重要基礎概念之一。

一、基本概念：什么是 GPT

GPT 是 Generative Pre-trained Transformer 的縮寫。

它包含三個關鍵詞：

? Generative：生成式，表示模型能夠生成文本

? Pre-trained：預訓練，表示模型先在大規模文本上學習通用語言規律

? Transformer：表示模型基于 Transformer 架構

一個典型 GPT 任務可以是：

輸入：請解釋什么是機器學習。

輸出：機器學習是一種讓計算機從數據中學習規律，并用這些規律進行預測或決策的方法。

圖 1：什么是 GPT

從通俗角度看：GPT 就是一個根據上下文繼續生成文字的模型。

它不是簡單從資料庫中復制答案，而是根據訓練中學到的語言規律、知識關聯和當前輸入，逐 token 生成輸出。

GPT 的基本生成過程可以概括為：

已有上下文 → 預測下一個 token → 加入上下文 → 繼續預測 → 形成完整文本

例如：

人工智能 → 正在 → 改變 → 世界

模型每一步都在回答：根據前面已經出現的內容，下一個 token 最可能是什么？

二、為什么需要 GPT

GPT 之所以重要，是因為許多自然語言任務本質上都可以轉化為“根據輸入生成輸出”。

例如：

? 問答：根據問題生成答案

? 寫作：根據主題生成文章

? 摘要：根據原文生成簡短概括

? 翻譯：根據源語言生成目標語言

? 代碼：根據需求生成程序

? 對話：根據上下文生成回復

? 推理：根據問題逐步生成分析

在 GPT 出現之前，很多 NLP 任務往往需要分別設計模型或任務結構。

例如：

? 分類任務用分類模型

? 翻譯任務用翻譯模型

? 摘要任務用摘要模型

? 問答任務用問答模型

GPT 代表的生成式預訓練模型，讓許多任務都可以用統一的文本生成方式處理：

任務說明 + 輸入內容 → 生成結果

從通俗角度看：GPT 的價值在于，它把許多語言任務統一成了“讀懂提示詞，然后生成合適回答”的問題。

這也是現代大語言模型能夠通過提示詞完成多種任務的重要原因。

三、GPT 的核心結構：Transformer Decoder

GPT 基于 Transformer 架構，但它主要使用的是 Decoder 部分。

Transformer Decoder 的關鍵特點是：只能看到當前位置之前的 token，不能提前看到未來 token。這非常適合文本生成。

1、輸入 token 序列

一句話會先被切分成 token。

例如：

人工智能正在改變世界

可以被切分為：

人工 / 智能 / 正在 / 改變 / 世界

實際模型中的 token 切分可能更復雜，可能是字、詞、子詞或符號片段。

2、因果掩碼

GPT 在訓練和生成時使用因果掩碼，使當前位置只能關注前面的 token。

例如，生成第 k 個 token 時，模型只能看到：

t?, t?, ..., t???

而不能看到未來的：

t???, t???, ...

可以簡化表示為：

其中：

? t?, t?, …, t??? 表示已有 token

? t_k 表示當前要預測的 token

? p 表示模型預測概率

從通俗角度看：GPT 像寫文章時從左往右寫，不能先偷看后面的答案。

3、逐層更新表示

GPT 由多層 Transformer Decoder 堆疊而成。每一層都會根據已有上下文更新 token 表示。

可以簡化為：

其中：

? H???1? 表示上一層隱藏表示

? H??? 表示第 l 層輸出表示

經過多層處理后，模型會得到當前位置的上下文表示，并預測下一個 token。

四、自回歸生成：GPT 的關鍵思想

GPT 的核心生成方式是自回歸生成。

圖 2：GPT 的自回歸生成過程

自回歸生成指模型每次生成一個 token，并把這個 token 作為后續生成的上下文。

可以表示為：

其中：

? t?, t?, …, t_n 表示完整 token 序列

? p(t_k | t?, …, t???) 表示根據前文預測第 k 個 token 的概率

? ∏ 表示連乘

從通俗角度看：一句話不是一次性生成出來的，而是一個 token 一個 token 接出來的。

例如：

輸入：機器學習是一種

模型可能依次生成：

讓 → 計算機 → 從 → 數據 → 中 → 學習 → 規律 → 的 → 方法

每生成一步，上下文都會變長。

這使 GPT 能夠生成連貫文本，但也帶來一個問題：前面生成錯了，后面可能繼續沿著錯誤方向生成。

因此，GPT 的輸出質量不僅取決于模型能力，也取決于提示詞、上下文、解碼策略和外部工具。

五、GPT 如何預訓練

GPT 的預訓練目標通常是預測下一個 token。

訓練數據來自大量文本。

模型看到一段文本前綴，學習預測后續 token。

例如：

人工智能正在

模型需要預測：

改變

可以寫為：

其中：

? θ 表示模型參數

? t_k 表示第 k 個 token

? p_θ 表示模型在參數 θ 下給出的概率

? log 表示對數概率

這個目標的意思是：讓模型盡量提高真實下一個 token 的預測概率。

從通俗角度看：GPT 的預訓練像做“文本續寫練習”。

模型反復練習：看到前文，猜下一個 token。

經過大量文本訓練后，模型學會了：

? 詞語搭配

? 語法結構

? 事實關聯

? 文體風格

? 問答模式

? 代碼模式

? 推理表達方式

這就是 GPT 能夠進行多種語言任務的基礎。

六、從 GPT 到指令模型

原始 GPT 主要學會“續寫文本”。但現代用戶通常希望模型“按照指令完成任務”。

例如，用戶輸入：

請用三點解釋什么是過擬合。

用戶并不是希望模型隨便續寫，而是希望模型理解任務并按要求回答。

因此，GPT 類模型通常還會經過進一步訓練和對齊。

1、指令微調

指令微調使用大量“指令—回答”樣本訓練模型。

例如：

回答：梯度下降是一種……

它讓模型從“會續寫”變成“會按任務作答”。

可以概括為：

? 預訓練：學習語言規律

? 指令微調：學習執行任務

2、偏好對齊

偏好對齊讓模型更傾向于生成更有幫助、更清晰、更安全的回答。

常見方法包括：

? RLHF

? DPO

? RLAIF

這些方法通常使用“更好回答”和“較差回答”的比較數據。

3、安全訓練與系統約束

實際應用中的 GPT 類模型還需要遵守安全邊界。

例如：

? 不編造來源

? 遇到高風險問題要謹慎

? 遇到危險請求要拒絕

? 不泄露隱私

? 按指定格式回答

從通俗角度看：

? 預訓練讓 GPT 會說話

? 指令微調讓 GPT 會辦事

? 模型對齊讓 GPT 更可靠、更安全、更符合人類期望

七、GPT 與 BERT 的區別

GPT 和 BERT 都基于 Transformer，但設計目標不同。

圖 3：BERT 與 GPT 的區別

1、BERT：雙向理解

BERT 使用 Transformer Encoder，可以同時看左側和右側上下文。

它適合理解類任務，例如：

? 文本分類

? 情感分析

? 命名實體識別

? 閱讀理解

? 句子匹配

可以概括為：BERT 看完整輸入，理解文本。

2、GPT：單向生成

GPT 使用 Transformer Decoder，通過因果掩碼從左到右預測下一個 token。

它適合生成類任務，例如：

? 對話

? 寫作

? 摘要

? 翻譯

? 代碼生成

? 開放式問答

可以概括為：GPT 根據前文，繼續生成。

3、核心區別

? BERT：更像閱讀理解模型

? GPT：更像文本生成模型

更具體地說：

? BERT 的核心是雙向編碼

? GPT 的核心是自回歸生成

? BERT 常用于編碼與判別

? GPT 常用于生成與對話

從通俗角度看：

? BERT 擅長“讀懂一段話”

? GPT 擅長“接著寫一段話”

八、GPT、LLM 與 ChatGPT 的關系

GPT、LLM 和 ChatGPT 經常被混用，但它們不是完全同一個概念。

1、GPT 是一種模型路線

GPT 指生成式預訓練 Transformer 這一類模型思想。

它強調：

預訓練 + Transformer Decoder + 自回歸生成

2、LLM 是更大的類別

LLM 是 Large Language Model，即大語言模型。

GPT 類模型是 LLM 的重要代表，但 LLM 并不一定都叫 GPT。

可以概括為：GPT 是 LLM 的一種典型路線。

3、ChatGPT 是對話型應用

ChatGPT 是基于 GPT 類模型能力構建的對話式 AI 應用。

它不僅包含基礎模型，還包括：

? 對話界面

? 指令遵循

? 安全策略

? 工具調用

? 記憶或上下文管理

? 多模態能力

? 系統提示與產品規則

從通俗角度看：GPT 更偏模型技術概念，LLM 是模型類別。ChatGPT 是面向用戶的對話產品形態。

九、GPT 的優勢、局限與常見誤解

1、GPT 的主要優勢

GPT 最大的優勢是強大的生成能力和任務統一能力。

它可以：

? 自然對話

? 生成文章

? 總結文本

? 翻譯語言

? 編寫代碼

? 解釋概念

? 處理復雜提示詞

? 執行多步驟任務

? 調用工具完成外部操作

從通俗角度看：GPT 讓許多任務都可以通過自然語言接口來完成。

2、GPT 的主要局限

GPT 也有局限。

首先，GPT 可能產生幻覺。

它生成的是概率上合理的文本，不等于每個事實都經過核驗。

其次，GPT 對上下文依賴很強。

如果提示詞不清楚、材料不完整或上下文太長，模型可能誤解任務。

再次，GPT 的知識可能受訓練數據限制。

對于最新信息、實時數據、企業內部資料，應結合檢索或工具。

此外，GPT 不一定擅長所有精確任務。

例如復雜數學計算、嚴格事實核驗、法律判斷、醫療診斷等高風險任務，需要工具、來源和人工審核配合。

3、常見誤解

誤解一：GPT = 搜索引擎

不對。GPT 是生成模型，不是天然的實時搜索系統。

誤解二：GPT 輸出流暢，就一定正確

不對。流暢只說明語言生成自然，不代表事實可靠。

誤解三：GPT 會生成文字，所以等于真正理解世界

不準確。GPT 學到的是語言和知識模式，是否具備真實世界理解要結合任務、數據和外部環境判斷。

誤解四：GPT 只會聊天

不對。GPT 類模型可以用于寫作、編程、總結、分析、問答、工具調用和智能體系統。

十、Python 示例

下面給出幾個簡化示例，幫助理解 GPT 的基本思想。

示例 1：逐 token 生成的直觀過程

這個例子展示了 GPT 生成文本的直觀過程：

已有上下文 → 預測下一個 token → 加入上下文 → 繼續生成

真實 GPT 不是查字典，而是通過神經網絡輸出概率分布。

示例 2：下一個 token 概率分布

這個例子說明：GPT 生成時通常會得到候選 token 的概率分布。

模型可以選擇概率最高的 token，也可以按采樣策略生成更多樣的結果。

示例 3：貪心解碼

貪心解碼每次選擇概率最高的 token。它通常更穩定，但可能缺少變化。

示例 4：采樣生成

采樣生成會按照概率隨機選擇 token。它可以增加多樣性，但也可能帶來不穩定。

示例 5：提示詞影響輸出

這個例子說明：同一個模型在不同提示詞下，可能生成不同風格、深度和結構的回答。

GPT 的實際使用效果，很大程度上取決于提示詞、上下文和任務約束。

小結

GPT 是生成式預訓練 Transformer，核心思想是根據已有上下文預測下一個 token，并通過自回歸方式逐步生成文本。它基于 Transformer Decoder，適合對話、寫作、摘要、翻譯、代碼生成和開放式問答等生成任務。對初學者而言，可以把 GPT 理解為：一個先通過大量文本學會語言規律，再根據提示詞逐步生成回答的預訓練語言模型。

“點贊有美意，贊賞是鼓勵”

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.