无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

AI 術語通俗詞典:GPT

0
分享至

GPT 是自然語言處理、深度學習、Transformer、大語言模型和生成式人工智能中非常重要的一個術語,全稱是 Generative Pre-trained Transformer,通常可譯為“生成式預訓練 Transformer”。它用來描述一種基于 Transformer 架構、通過大規模文本預訓練獲得語言生成能力的模型。換句話說,GPT 是在回答:模型怎樣根據已有文本,繼續生成符合上下文的后續內容。

如果說 BERT 更像一個擅長閱讀理解的雙向編碼模型,那么 GPT 更像一個擅長續寫、回答、對話和生成內容的語言模型。它會根據前文不斷預測下一個 token,再把生成出的 token 接到上下文后面,繼續預測下一個 token,直到形成完整回答。

因此,GPT 常用于對話問答、文章寫作、摘要生成、翻譯、代碼生成、信息抽取、智能客服、工具調用、智能體規劃和多模態系統中的語言生成部分,是理解現代大語言模型的重要基礎概念之一。

一、基本概念:什么是 GPT

GPT 是 Generative Pre-trained Transformer 的縮寫。

它包含三個關鍵詞:

? Generative:生成式,表示模型能夠生成文本

? Pre-trained:預訓練,表示模型先在大規模文本上學習通用語言規律

? Transformer:表示模型基于 Transformer 架構

一個典型 GPT 任務可以是:

輸入:請解釋什么是機器學習。

輸出:機器學習是一種讓計算機從數據中學習規律,并用這些規律進行預測或決策的方法。


圖 1:什么是 GPT

從通俗角度看:GPT 就是一個根據上下文繼續生成文字的模型。

它不是簡單從資料庫中復制答案,而是根據訓練中學到的語言規律、知識關聯和當前輸入,逐 token 生成輸出。

GPT 的基本生成過程可以概括為:

已有上下文 → 預測下一個 token → 加入上下文 → 繼續預測 → 形成完整文本

例如:

人工智能 → 正在 → 改變 → 世界

模型每一步都在回答:根據前面已經出現的內容,下一個 token 最可能是什么?

二、為什么需要 GPT

GPT 之所以重要,是因為許多自然語言任務本質上都可以轉化為“根據輸入生成輸出”。

例如:

? 問答:根據問題生成答案

? 寫作:根據主題生成文章

? 摘要:根據原文生成簡短概括

? 翻譯:根據源語言生成目標語言

? 代碼:根據需求生成程序

? 對話:根據上下文生成回復

? 推理:根據問題逐步生成分析

在 GPT 出現之前,很多 NLP 任務往往需要分別設計模型或任務結構。

例如:

? 分類任務用分類模型

? 翻譯任務用翻譯模型

? 摘要任務用摘要模型

? 問答任務用問答模型

GPT 代表的生成式預訓練模型,讓許多任務都可以用統一的文本生成方式處理:

任務說明 + 輸入內容 → 生成結果

從通俗角度看:GPT 的價值在于,它把許多語言任務統一成了“讀懂提示詞,然后生成合適回答”的問題。

這也是現代大語言模型能夠通過提示詞完成多種任務的重要原因。

三、GPT 的核心結構:Transformer Decoder

GPT 基于 Transformer 架構,但它主要使用的是 Decoder 部分。

Transformer Decoder 的關鍵特點是:只能看到當前位置之前的 token,不能提前看到未來 token。這非常適合文本生成。

1、輸入 token 序列

一句話會先被切分成 token。

例如:

人工智能正在改變世界

可以被切分為:

人工 / 智能 / 正在 / 改變 / 世界

實際模型中的 token 切分可能更復雜,可能是字、詞、子詞或符號片段。

2、因果掩碼

GPT 在訓練和生成時使用因果掩碼,使當前位置只能關注前面的 token。

例如,生成第 k 個 token 時,模型只能看到:

t?, t?, ..., t???

而不能看到未來的:

t???, t???, ...

可以簡化表示為:

其中:

? t?, t?, …, t??? 表示已有 token

? t_k 表示當前要預測的 token

? p 表示模型預測概率

從通俗角度看:GPT 像寫文章時從左往右寫,不能先偷看后面的答案。

3、逐層更新表示

GPT 由多層 Transformer Decoder 堆疊而成。每一層都會根據已有上下文更新 token 表示。

可以簡化為:

其中:

? H???1? 表示上一層隱藏表示

? H??? 表示第 l 層輸出表示

經過多層處理后,模型會得到當前位置的上下文表示,并預測下一個 token。

四、自回歸生成:GPT 的關鍵思想

GPT 的核心生成方式是自回歸生成。


圖 2:GPT 的自回歸生成過程

自回歸生成指模型每次生成一個 token,并把這個 token 作為后續生成的上下文。

可以表示為:

其中:

? t?, t?, …, t_n 表示完整 token 序列

? p(t_k | t?, …, t???) 表示根據前文預測第 k 個 token 的概率

? ∏ 表示連乘

從通俗角度看:一句話不是一次性生成出來的,而是一個 token 一個 token 接出來的。

例如:

輸入:機器學習是一種

模型可能依次生成:

讓 → 計算機 → 從 → 數據 → 中 → 學習 → 規律 → 的 → 方法

每生成一步,上下文都會變長。

這使 GPT 能夠生成連貫文本,但也帶來一個問題:前面生成錯了,后面可能繼續沿著錯誤方向生成。

因此,GPT 的輸出質量不僅取決于模型能力,也取決于提示詞、上下文、解碼策略和外部工具。

五、GPT 如何預訓練

GPT 的預訓練目標通常是預測下一個 token。

訓練數據來自大量文本。

模型看到一段文本前綴,學習預測后續 token。

例如:

人工智能正在

模型需要預測:

改變

可以寫為:

其中:

? θ 表示模型參數

? t_k 表示第 k 個 token

? p_θ 表示模型在參數 θ 下給出的概率

? log 表示對數概率

這個目標的意思是:讓模型盡量提高真實下一個 token 的預測概率。

從通俗角度看:GPT 的預訓練像做“文本續寫練習”。

模型反復練習:看到前文,猜下一個 token。

經過大量文本訓練后,模型學會了:

? 詞語搭配

? 語法結構

? 事實關聯

? 文體風格

? 問答模式

? 代碼模式

? 推理表達方式

這就是 GPT 能夠進行多種語言任務的基礎。

六、從 GPT 到指令模型

原始 GPT 主要學會“續寫文本”。但現代用戶通常希望模型“按照指令完成任務”。

例如,用戶輸入:

請用三點解釋什么是過擬合。

用戶并不是希望模型隨便續寫,而是希望模型理解任務并按要求回答。

因此,GPT 類模型通常還會經過進一步訓練和對齊。

1、指令微調

指令微調使用大量“指令—回答”樣本訓練模型。

例如:

回答:梯度下降是一種……

它讓模型從“會續寫”變成“會按任務作答”。

可以概括為:

? 預訓練:學習語言規律

? 指令微調:學習執行任務

2、偏好對齊

偏好對齊讓模型更傾向于生成更有幫助、更清晰、更安全的回答。

常見方法包括:

? RLHF

? DPO

? RLAIF

這些方法通常使用“更好回答”和“較差回答”的比較數據。

3、安全訓練與系統約束

實際應用中的 GPT 類模型還需要遵守安全邊界。

例如:

? 不編造來源

? 遇到高風險問題要謹慎

? 遇到危險請求要拒絕

? 不泄露隱私

? 按指定格式回答

從通俗角度看:

? 預訓練讓 GPT 會說話

? 指令微調讓 GPT 會辦事

? 模型對齊讓 GPT 更可靠、更安全、更符合人類期望

七、GPT 與 BERT 的區別

GPT 和 BERT 都基于 Transformer,但設計目標不同。


圖 3:BERT 與 GPT 的區別

1、BERT:雙向理解

BERT 使用 Transformer Encoder,可以同時看左側和右側上下文。

它適合理解類任務,例如:

? 文本分類

? 情感分析

? 命名實體識別

? 閱讀理解

? 句子匹配

可以概括為:BERT 看完整輸入,理解文本。

2、GPT:單向生成

GPT 使用 Transformer Decoder,通過因果掩碼從左到右預測下一個 token。

它適合生成類任務,例如:

? 對話

? 寫作

? 摘要

? 翻譯

? 代碼生成

? 開放式問答

可以概括為:GPT 根據前文,繼續生成。

3、核心區別

? BERT:更像閱讀理解模型

? GPT:更像文本生成模型

更具體地說:

? BERT 的核心是雙向編碼

? GPT 的核心是自回歸生成

? BERT 常用于編碼與判別

? GPT 常用于生成與對話

從通俗角度看:

? BERT 擅長“讀懂一段話”

? GPT 擅長“接著寫一段話”

八、GPT、LLM 與 ChatGPT 的關系

GPT、LLM 和 ChatGPT 經常被混用,但它們不是完全同一個概念。

1、GPT 是一種模型路線

GPT 指生成式預訓練 Transformer 這一類模型思想。

它強調:

預訓練 + Transformer Decoder + 自回歸生成

2、LLM 是更大的類別

LLM 是 Large Language Model,即大語言模型。

GPT 類模型是 LLM 的重要代表,但 LLM 并不一定都叫 GPT。

可以概括為:GPT 是 LLM 的一種典型路線。

3、ChatGPT 是對話型應用

ChatGPT 是基于 GPT 類模型能力構建的對話式 AI 應用。

它不僅包含基礎模型,還包括:

? 對話界面

? 指令遵循

? 安全策略

? 工具調用

? 記憶或上下文管理

? 多模態能力

? 系統提示與產品規則

從通俗角度看:GPT 更偏模型技術概念,LLM 是模型類別。ChatGPT 是面向用戶的對話產品形態。

九、GPT 的優勢、局限與常見誤解

1、GPT 的主要優勢

GPT 最大的優勢是強大的生成能力和任務統一能力。

它可以:

? 自然對話

? 生成文章

? 總結文本

? 翻譯語言

? 編寫代碼

? 解釋概念

? 處理復雜提示詞

? 執行多步驟任務

? 調用工具完成外部操作

從通俗角度看:GPT 讓許多任務都可以通過自然語言接口來完成。

2、GPT 的主要局限

GPT 也有局限。

首先,GPT 可能產生幻覺。

它生成的是概率上合理的文本,不等于每個事實都經過核驗。

其次,GPT 對上下文依賴很強。

如果提示詞不清楚、材料不完整或上下文太長,模型可能誤解任務。

再次,GPT 的知識可能受訓練數據限制。

對于最新信息、實時數據、企業內部資料,應結合檢索或工具。

此外,GPT 不一定擅長所有精確任務。

例如復雜數學計算、嚴格事實核驗、法律判斷、醫療診斷等高風險任務,需要工具、來源和人工審核配合。

3、常見誤解

誤解一:GPT = 搜索引擎

不對。GPT 是生成模型,不是天然的實時搜索系統。

誤解二:GPT 輸出流暢,就一定正確

不對。流暢只說明語言生成自然,不代表事實可靠。

誤解三:GPT 會生成文字,所以等于真正理解世界

不準確。GPT 學到的是語言和知識模式,是否具備真實世界理解要結合任務、數據和外部環境判斷。

誤解四:GPT 只會聊天

不對。GPT 類模型可以用于寫作、編程、總結、分析、問答、工具調用和智能體系統。

十、Python 示例

下面給出幾個簡化示例,幫助理解 GPT 的基本思想。

示例 1:逐 token 生成的直觀過程

這個例子展示了 GPT 生成文本的直觀過程:

已有上下文 → 預測下一個 token → 加入上下文 → 繼續生成

真實 GPT 不是查字典,而是通過神經網絡輸出概率分布。

示例 2:下一個 token 概率分布

    

這個例子說明:GPT 生成時通常會得到候選 token 的概率分布。

模型可以選擇概率最高的 token,也可以按采樣策略生成更多樣的結果。

示例 3:貪心解碼

貪心解碼每次選擇概率最高的 token。它通常更穩定,但可能缺少變化。

示例 4:采樣生成

采樣生成會按照概率隨機選擇 token。它可以增加多樣性,但也可能帶來不穩定。

示例 5:提示詞影響輸出

    

這個例子說明:同一個模型在不同提示詞下,可能生成不同風格、深度和結構的回答。

GPT 的實際使用效果,很大程度上取決于提示詞、上下文和任務約束。

小結

GPT 是生成式預訓練 Transformer,核心思想是根據已有上下文預測下一個 token,并通過自回歸方式逐步生成文本。它基于 Transformer Decoder,適合對話、寫作、摘要、翻譯、代碼生成和開放式問答等生成任務。對初學者而言,可以把 GPT 理解為:一個先通過大量文本學會語言規律,再根據提示詞逐步生成回答的預訓練語言模型。

點贊有美意,贊賞是鼓勵

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
財務造假!10家A股公司退市,超25萬股東踩雷

財務造假!10家A股公司退市,超25萬股東踩雷

21世紀經濟報道
2026-06-12 18:59:56
普京再次回應戰爭起源:不是俄開戰,是基輔先向頓巴斯開火

普京再次回應戰爭起源:不是俄開戰,是基輔先向頓巴斯開火

桂系007
2026-06-12 23:57:08
美加墨世界杯第二場比賽就現空座,票價爭議浮出水面

美加墨世界杯第二場比賽就現空座,票價爭議浮出水面

澎湃新聞
2026-06-12 17:40:29
剛剛,人類歷史上首位萬億美元富豪誕生!

剛剛,人類歷史上首位萬億美元富豪誕生!

每日經濟新聞
2026-06-12 22:32:06
英媒一語驚人:中美貿易戰中,美國唯獨算錯的是中國的底牌!

英媒一語驚人:中美貿易戰中,美國唯獨算錯的是中國的底牌!

流史歲月
2026-06-12 18:30:08
現在的年輕人不敢開房了

現在的年輕人不敢開房了

微微熱評
2026-06-13 00:53:53
看完世界杯第2場,球迷看清了3個不爭事實,韓國最擅長踢歐洲球隊

看完世界杯第2場,球迷看清了3個不爭事實,韓國最擅長踢歐洲球隊

侃球熊弟
2026-06-12 11:56:01
CCTV5直播!世界杯“重頭戲”,超21億歐元對決,姆巴佩PK哈蘭德

CCTV5直播!世界杯“重頭戲”,超21億歐元對決,姆巴佩PK哈蘭德

麥子的籃球故事
2026-06-12 17:40:17
阿里高層這次真的生氣了

阿里高層這次真的生氣了

一見財經
2026-06-12 11:11:21
國安部披露:在我國某海域發現有較大型活體海洋動物被掛上傳感器,竊取海洋敏感數據

國安部披露:在我國某海域發現有較大型活體海洋動物被掛上傳感器,竊取海洋敏感數據

每日經濟新聞
2026-06-12 13:16:05
中國斷供稀土5個多月,日本工廠無一停產,是真擺脫了還是在硬撐

中國斷供稀土5個多月,日本工廠無一停產,是真擺脫了還是在硬撐

次元君情感
2026-06-01 14:27:53
63歲阿湯哥被曝“越老越瘋”,同行都看不下去了

63歲阿湯哥被曝“越老越瘋”,同行都看不下去了

生活觀察員啊
2026-06-11 01:22:03
打臉CBA,懷特塞德高調加入其他聯賽沒有傷病,上海隊陷入爭議

打臉CBA,懷特塞德高調加入其他聯賽沒有傷病,上海隊陷入爭議

宗介說體育
2026-06-12 16:35:22
美軍開始空襲伊朗

美軍開始空襲伊朗

財聯社
2026-06-11 05:42:11
劉宇寧發文回應戀情:清醒坦蕩的態度,才是明星該有的模樣

劉宇寧發文回應戀情:清醒坦蕩的態度,才是明星該有的模樣

陳意小可愛
2026-06-13 00:50:31
“張雪機車”獲得WSBK艾米利亞-羅馬涅站桿位賽第三名

“張雪機車”獲得WSBK艾米利亞-羅馬涅站桿位賽第三名

極目新聞
2026-06-12 23:00:07
中央開始嚴查,多地機關事業單位大整頓啟動,這幾類人受影響最大

中央開始嚴查,多地機關事業單位大整頓啟動,這幾類人受影響最大

職場資深秘書
2026-06-12 14:47:02
老人入住精神病院7年后查出梅毒;哈爾濱精神??瓢诐O泡醫院稱系舊疾,家屬出示入院前梅毒陰性檢測報告反駁

老人入住精神病院7年后查出梅毒;哈爾濱精神專科白漁泡醫院稱系舊疾,家屬出示入院前梅毒陰性檢測報告反駁

大風新聞
2026-06-12 12:12:20
內塔尼亞胡:特朗普不打伊朗了,沒提前告訴我

內塔尼亞胡:特朗普不打伊朗了,沒提前告訴我

政知新媒體
2026-06-12 19:06:11
謝娜再次翻車,這一次,她踢到鐵板了

謝娜再次翻車,這一次,她踢到鐵板了

桌子的生活觀
2026-06-12 11:58:27
2026-06-13 02:35:00
MediaTea
MediaTea
專業的數字媒體、新媒體技術
1888文章數 80關注度
往期回顧 全部

科技要聞

剛剛,人類歷史上首位萬億美元富豪誕生!

頭條要聞

美加墨世界杯第二場比賽就現空座 英媒:尷尬

頭條要聞

美加墨世界杯第二場比賽就現空座 英媒:尷尬

體育要聞

歐洲恐韓?肉德維德?

娛樂要聞

一天4個瓜,肖戰熱巴最意外

財經要聞

萬億美元順差背后,透露這些信號

汽車要聞

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

態度原創

本地
教育
親子
數碼
手機

本地新聞

AK劉彰邂逅河北南大港濕地

教育要聞

家長成了“瘋女人”,被女兒作業搞崩潰,網友:太真實

親子要聞

給孩子報個幼兒園還要工資流水?難道這就是傳說中的“因財施教”

數碼要聞

英國監管機構警告:亞馬遜、eBay仍在售可能致命的假冒手機充電器

手機要聞

vivo X Fold6再預熱:天璣9500超能版+OriginOS 6 Fold

無障礙瀏覽 進入關懷版