網易首頁 > 網易號 > 正文申請入駐

GPT-5系列咋都愛說「哥布林」？原因找到了

2026-04-30 19:51:20　來源: 機器之心Pro

河北舉報

分享至

編輯｜Panda

去年夏天，DeepSeek V3.1 驚現神秘「極」字 Bug。簡單來說，就是 DeepSeek V3.1 模型的輸出里總是會莫名其妙出現「極」字，有趣的是就連其英文輸出也會出現對應的「extreme」。參閱《熱議！DeepSeek V3.1 驚現神秘「極」字 Bug，模型故障了？》

事件引發廣泛熱議，網友戲稱這是「極你太美」bug，或者「極」速版 DeepSeek。

研究者事后推測，這個「極」字來自訓練數據中一組未被清洗干凈的「極長數組」。在強化學習階段，模型將它學成了一種特殊的終止符或語言切換標記。換句話說，不是模型壞了，而是模型學得太認真了 ——認真學了一個錯誤的習慣

這件事在 AI 圈引發了廣泛討論：大模型訓練的過程如此復雜，我們真的能完全預測它會學到什么嗎？

無獨有偶，OpenAI 的模型也有一個類似的但更加奇幻的問題：它的模型迷上了哥布林。今天，OpenAI 還正式發布了一篇博客，解釋了「哥布林究竟從何而來」, 奧特曼本人也在 X 上廣播了一下。

此時自然引發了廣泛討論和調侃：

還有人打趣說要拯救哥布林：

那么，哥布林究竟從何而來？

博客地址：https://openai.com/index/where-the-goblins-came-from/

據 OpenAI 介紹，從 GPT-5.1 開始，OpenAI 的模型在回答各類問題時，開始越來越頻繁地使用一個詞：goblin（哥布林）。

起初，這只是偶爾為之：一個「little goblin」出現在某個技術比喻里，既沒影響準確性，甚至有幾分討喜的俏皮感。

但隨著模型版本的迭代，哥布林不再只是偶爾探個頭，它開始成群結隊地出現。它的同伴 gremlin（小妖精）、troll（巨怪）、ogre（食人魔）也陸續加入。

在 GPT-5.5 及其驅動的代碼助手 Codex 的早期測試中，這一習慣已經明顯到讓工程師無法忽視。

這已經不是風格問題，而是一種異常行為。

OpenAI 工程師們開始調查：這些哥布林到底是從哪里來的？

「書呆子」性格的意外副作用

排查工作并不容易。這類行為沒有一個能讓指標驟然崩塌的「爆炸時刻」，它是慢慢滲入的，就像溫水煮青蛙。

工程師們首先注意到了一個統計異常：「goblin」這個詞在不同用戶場景中的分布極不均勻

數據顯示，雖然「Nerdy」（書呆子）這個人格選項只占 ChatGPT 全部響應的 2.5%，但它貢獻了 ChatGPT 所有包含「goblin」詞匯回復的 66.7%。

這是一個強烈的信號。

「Nerdy」是 ChatGPT 人格定制功能里的一個選項，對應的系統提示大致是：你是一個不妥協的書呆子型 AI 導師，熱情地推崇真理、知識與批判性思維。你必須用語言的俏皮感來打破那些自以為是的姿態。世界是復雜而奇異的，而這種奇異性必須被承認、分析和享受。

這段提示詞解釋了「Nerdy」模式為什么容易產生奇特的比喻：它被明確要求「玩弄語言的俏皮感」。但問題的核心還更深一層：為什么訓練 Nerdy 個性，會導致哥布林詞匯的出現？

獎勵信號的意外偏好

答案藏在強化學習的獎勵機制里。

OpenAI 工程師動用了代碼助手 Codex，對訓練過程中的強化學習輸出樣本進行了大規模比對：將含有「goblin」或「gremlin」的輸出，與完成相同任務但沒有這些詞的輸出并排放置，然后檢查各個獎勵模型的打分差異。

結果非常清晰：負責激勵「Nerdy」性格的獎勵信號，在 76.2% 的數據集中，都對含有怪物詞匯的輸出給出了更高的分數。

換句話說，有人在訓練時無意間告訴模型：用哥布林打比方是一件「書呆子」會做的事。

這本身可以解釋為什么 Nerdy 模式充滿了精靈和小妖精。但還有一個更棘手的問題懸而未決：為什么在沒有使用 Nerdy 模式的普通對話里，哥布林也在增多？

強化學習的「泄漏」

這就來到了整個故事最值得深思的部分。

工程師們追蹤了訓練過程中，帶 Nerdy 提示詞和不帶 Nerdy 提示詞兩組樣本里「goblin」詞匯的出現頻率變化。發現了一個規律：兩組數據幾乎同步增長

Nerdy 模式里哥布林變多，普通模式里哥布林也同步變多，增幅甚至幾乎相同。

強化學習不能保證，在某個特定條件下學到的行為習慣，能整整齊齊地待在那個條件的邊界之內。在 Nerdy 模式下被反復強化的「喜歡用怪物打比方」這個習慣，通過某種遷移，滲進了模型更廣泛的表達方式之中。

這就好比，你訓練一個廚師在煮螺絲粉多用紅油，結果他在做一切粉絲時都開始多放紅油。

整個因果鏈清晰了：訓練「Nerdy」人格 → 獎勵信號意外偏愛怪物詞匯 → 強化學習將這種風格固化 → 風格通過遷移擴散到非 Nerdy 的普通對話 → 哥布林蔓延全模型。

解決方案與輿論狂歡

在問題的根源被找到之前，工程師們采取了一個治標的辦法：直接在 Codex 的系統提示里寫明禁令

被公開的內部提示詞寫道：「永遠不要談論哥布林、小妖精、浣熊、巨怪、食人魔、鴿子或其他動物和生物，除非這與用戶的問題有絕對和明確的直接關聯�！�

地址：https://github.com/openai/codex/blob/main/codex-rs/models-manager/models.json#L55

這條規則在提示詞里出現了多次。顯然工程師們不太相信寫一遍就能讓模型老老實實遵守。

該博客發布后，在互聯網上引發了一場歡樂的狂歡。在本文寫作時，相關話題甚至沖上了 X trending 榜，同時也是 HackerNews 上第一熱議話題。

就連官方也在一起玩梗，比如 ChatGPT 官方 X 賬號把上述提示詞直接放在了個人介紹里面：

該帳號還引用了《霍比特人》的臺詞：「Down, down to Goblin-town you go, my lad!」（下去，下到哥布林鎮去吧，小子�。�

Sam Altman 則發帖調侃：「開始訓練 GPT-6，你可以用整個算力集群。額外補貼：加倍的哥布林。」

結語

DeepSeek 的「極」字和 OpenAI 的「哥布林」看起來是兩件獨立的趣事，但它們指向的其實是同一個問題。

現代大模型的訓練規模之大、數據鏈路之長、優化目標之復雜，使得任何一個環節的細小偏差，都可能在模型內部被悄悄放大、固化，乃至「傳染」給原本毫不相關的行為。

DeepSeek 的案例里，是一批沒洗干凈的訓練數據，讓模型學會了把一個漢字當作終止信號。OpenAI 的案例里，是一個獎勵模型對「怪物詞匯」的無意偏愛，讓精靈和哥布林悄悄滲透進了幾乎所有對話。

更值得關注的細節是：在 OpenAI 的案例中，工程師們最初并沒有發現異常，因為「一個哥布林」本身不是問題，它看起來甚至挺有趣。直到行為已經擴散到無法忽視的程度，才觸發了系統性調查。

這意味著，那些「無害」的奇怪習慣也可能變成危險信號。它們不會觸發任何告警指標，只會一代一代悄悄積累，直到某一天，你才意識到自己的模型已經在某件事上走了很遠、很偏的彎路。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

國防部回應外界推測中國對日將有大動作

北京青年報 2026-04-30 16:41:25
2728 跟貼 2728
上海迪士尼回應游客勸阻吸煙被打：園區沒有禁煙；被打男子發聲：對方已賠錢和解

中國新聞周刊 2026-04-27 14:25:00
15170 跟貼 15170

62歲天津大爺，“chua一下”就火了

中國新聞周刊 2026-04-30 11:20:55
786 跟貼 786

男子在山里航拍，發現多人為摘洋槐花砍槐樹，幾十棵粗樹被鋸斷

星視頻 2026-04-30 13:26:30
24 跟貼 24
物業費收不齊，虧損止不住：一年超200個物業撤場，困局何解？

新京報 2026-04-30 09:46:07
476 跟貼 476

“福特”號航母將于近日撤離中東返回美國，“梅森”號導彈驅逐艦加入“布什”號航母打擊群執行任務

魯中晨報 2026-04-30 07:11:04
272 跟貼 272

衛冕冠軍趙心童10比13不敵墨菲止步八強，“克魯斯堡魔咒”仍在延續，吳宜澤闖進四強，成為中國軍團獨苗

魯中晨報 2026-04-30 09:07:20
713 跟貼 713
洛陽白馬寺發布鄭重聲明：不少游客因通過非官方第三方渠道購買非法倒賣的預約門票，導致無法正常入寺，切勿輕信

極目新聞 2026-04-29 18:10:47
903 跟貼 903

公司食堂沒凳子，員工只能站著吃飯？公司：系學習國外；當地勞動監察、總工會：無法介入，建議跟公司協商

大風新聞 2026-04-30 11:47:02
81 跟貼 81
上海將建世界最高無軸摩天輪“上海之門”，預計今年年底開工

澎湃新聞 2026-04-29 22:34:28
512 跟貼 512
文旅部集中整治景區擺渡車，點名龍虎山、長白山、稻城亞丁等

南方都市報 2026-04-27 16:21:12
2149 跟貼 2149
瑞士欲設"1000萬人口上限" 超半數民眾支持

極目新聞 2026-04-30 12:41:35
207 跟貼 207
被困霍爾木茲船員大部分愿意繼續干

瀟湘晨報 2026-04-30 16:26:46
58 跟貼 58
哈啰“臻有錢”平臺被指利率踩紅線、隱形收費多

紅星新聞 2026-04-30 14:27:43
42 跟貼 42
美國單周原油出口量升至創紀錄的600萬桶/日以上

財聯社 2026-04-29 22:40:21
1223 跟貼 1223
浙江男子花860萬買了套排屋，收房時傻眼，院子里有一個“凸起”，業主：跟老家的廁所一樣，開放商：不利因素已公示

極目新聞 2026-04-30 10:33:16
16 跟貼 16
2025年農民工月均收入5075元，比上年增加114元

新京報 2026-04-30 15:06:03
909 跟貼 909
開售即候補、開售即“秒光”？12306回應

都市快報橙柿互動 2026-04-29 23:08:23
213 跟貼 213
堵！堵！堵！蘇B大軍出動了！

江南晚報 2026-04-30 18:58:38
0 跟貼 0
漲停！7000億元巨頭爆發！

環球網資訊 2026-04-30 15:28:31
0 跟貼 0
創業板指本月漲超15% 刷新十年新高

財聯社 2026-04-30 15:06:57
119 跟貼 119
社會救助法2026年7月1日起施行

界面新聞 2026-04-30 09:05:03
82 跟貼 82
里夫斯：我熱愛籃球能重返賽場競爭的感覺真好

北青網-北京青年報 2026-04-30 20:58:19
0 跟貼 0
新華社消息｜云南元陽發生車禍致7人死亡12人受傷

新華社 2026-04-30 20:58:18
0 跟貼 0
陽臺外貼滿“吵”！深圳一小區居民抓狂：凌晨睡不了，孩子被迫回老家

南方都市報 2026-04-30 15:18:54
0 跟貼 0
39只羊一夜慘死！農戶家屬：地里撒有劇毒農藥，至今未找到肇事者

揚子晚報 2026-04-30 20:50:47
0 跟貼 0
“為了安全！”一封兩年？上海這些居民等不下去了

看看新聞Knews 2026-04-30 20:59:13
0 跟貼 0
海南一衛生院科普欄錯字連篇：“患者” 變 “惠者”，“世界衛生組織” 成 “世勇衛生組織”，當地：立即核實整改

大象新聞 2026-04-30 20:46:05
0 跟貼 0

機器之心Pro

專業的人工智能媒體

12898文章數 142640關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

教育

健康

家居

旅游

手機 / 數碼

房產 / 家居

GPT-5系列咋都愛說「哥布林」？原因找到了

9000億美元估值，Anthropic即將反超OpenAI

被問"中方是否向伊朗提供了無人機" 國防部回應

被問"中方是否向伊朗提供了無人機" 國防部回應

季后賽場均5.4分，他憑啥在騎士打首發？

孫楊博士學歷有問題？官方含糊其辭

易會滿被“雙開”！

專訪捷途汪如生：捷途雙線作戰 全球化全面落地

態度原創

用青花瓷的方式，打開西溪濕地

高考議論文萬萬不可有廳局風

干細胞治燒燙傷能用了么？

靈動實用 生活藝術場

9000億美元估值，Anthropic即將反超OpenAI

季后賽場均5.4分，他憑啥在騎士打首發？

易會滿被“雙開”！

專訪捷途汪如生：捷途雙線作戰全球化全面落地

用青花瓷的方式，打開西溪濕地

干細胞治燒燙傷能用了么？

靈動實用生活藝術場