網易首頁 > 網易號 > 正文 申請入駐

GPT-5系列咋都愛說「哥布林」?原因找到了

0
分享至



編輯|Panda

去年夏天,DeepSeek V3.1 驚現神秘「極」字 Bug。簡單來說,就是 DeepSeek V3.1 模型的輸出里總是會莫名其妙出現「極」字,有趣的是就連其英文輸出也會出現對應的「extreme」。參閱《熱議!DeepSeek V3.1 驚現神秘「極」字 Bug,模型故障了?》

事件引發廣泛熱議,網友戲稱這是「極你太美」bug,或者「極」速版 DeepSeek。

研究者事后推測,這個「極」字來自訓練數據中一組未被清洗干凈的「極長數組」。在強化學習階段,模型將它學成了一種特殊的終止符或語言切換標記。換句話說,不是模型壞了,而是模型學得太認真了 ——認真學了一個錯誤的習慣

這件事在 AI 圈引發了廣泛討論:大模型訓練的過程如此復雜,我們真的能完全預測它會學到什么嗎?

無獨有偶,OpenAI 的模型也有一個類似的但更加奇幻的問題:它的模型迷上了哥布林。今天,OpenAI 還正式發布了一篇博客,解釋了「哥布林究竟從何而來」, 奧特曼本人也在 X 上廣播了一下。



此時自然引發了廣泛討論和調侃:



還有人打趣說要拯救哥布林:



那么,哥布林究竟從何而來?



博客地址:https://openai.com/index/where-the-goblins-came-from/

據 OpenAI 介紹,從 GPT-5.1 開始,OpenAI 的模型在回答各類問題時,開始越來越頻繁地使用一個詞:goblin(哥布林)。



起初,這只是偶爾為之:一個「little goblin」出現在某個技術比喻里,既沒影響準確性,甚至有幾分討喜的俏皮感。



但隨著模型版本的迭代,哥布林不再只是偶爾探個頭,它開始成群結隊地出現。它的同伴 gremlin(小妖精)、troll(巨怪)、ogre(食人魔)也陸續加入。



在 GPT-5.5 及其驅動的代碼助手 Codex 的早期測試中,這一習慣已經明顯到讓工程師無法忽視。



這已經不是風格問題,而是一種異常行為。

OpenAI 工程師們開始調查:這些哥布林到底是從哪里來的?

「書呆子」性格的意外副作用

排查工作并不容易。這類行為沒有一個能讓指標驟然崩塌的「爆炸時刻」,它是慢慢滲入的,就像溫水煮青蛙。

工程師們首先注意到了一個統計異常:「goblin」這個詞在不同用戶場景中的分布極不均勻

數據顯示,雖然「Nerdy」(書呆子)這個人格選項只占 ChatGPT 全部響應的 2.5%,但它貢獻了 ChatGPT 所有包含「goblin」詞匯回復的 66.7%。



這是一個強烈的信號。

「Nerdy」是 ChatGPT 人格定制功能里的一個選項,對應的系統提示大致是:你是一個不妥協的書呆子型 AI 導師,熱情地推崇真理、知識與批判性思維。你必須用語言的俏皮感來打破那些自以為是的姿態。世界是復雜而奇異的,而這種奇異性必須被承認、分析和享受。

這段提示詞解釋了「Nerdy」模式為什么容易產生奇特的比喻:它被明確要求「玩弄語言的俏皮感」。但問題的核心還更深一層:為什么訓練 Nerdy 個性,會導致哥布林詞匯的出現?

獎勵信號的意外偏好

答案藏在強化學習的獎勵機制里。

OpenAI 工程師動用了代碼助手 Codex,對訓練過程中的強化學習輸出樣本進行了大規模比對:將含有「goblin」或「gremlin」的輸出,與完成相同任務但沒有這些詞的輸出并排放置,然后檢查各個獎勵模型的打分差異。

結果非常清晰:負責激勵「Nerdy」性格的獎勵信號,在 76.2% 的數據集中,都對含有怪物詞匯的輸出給出了更高的分數。

換句話說,有人在訓練時無意間告訴模型:用哥布林打比方是一件「書呆子」會做的事。

這本身可以解釋為什么 Nerdy 模式充滿了精靈和小妖精。但還有一個更棘手的問題懸而未決:為什么在沒有使用 Nerdy 模式的普通對話里,哥布林也在增多?

強化學習的「泄漏」

這就來到了整個故事最值得深思的部分。

工程師們追蹤了訓練過程中,帶 Nerdy 提示詞和不帶 Nerdy 提示詞兩組樣本里「goblin」詞匯的出現頻率變化。發現了一個規律:兩組數據幾乎同步增長





Nerdy 模式里哥布林變多,普通模式里哥布林也同步變多,增幅甚至幾乎相同。

強化學習不能保證,在某個特定條件下學到的行為習慣,能整整齊齊地待在那個條件的邊界之內。在 Nerdy 模式下被反復強化的「喜歡用怪物打比方」這個習慣,通過某種遷移,滲進了模型更廣泛的表達方式之中。

這就好比,你訓練一個廚師在煮螺絲粉多用紅油,結果他在做一切粉絲時都開始多放紅油。

整個因果鏈清晰了:訓練「Nerdy」人格 → 獎勵信號意外偏愛怪物詞匯 → 強化學習將這種風格固化 → 風格通過遷移擴散到非 Nerdy 的普通對話 → 哥布林蔓延全模型。

解決方案與輿論狂歡

在問題的根源被找到之前,工程師們采取了一個治標的辦法:直接在 Codex 的系統提示里寫明禁令

被公開的內部提示詞寫道:「永遠不要談論哥布林、小妖精、浣熊、巨怪、食人魔、鴿子或其他動物和生物,除非這與用戶的問題有絕對和明確的直接關聯!



地址:https://github.com/openai/codex/blob/main/codex-rs/models-manager/models.json#L55

這條規則在提示詞里出現了多次。顯然工程師們不太相信寫一遍就能讓模型老老實實遵守。

該博客發布后,在互聯網上引發了一場歡樂的狂歡。在本文寫作時,相關話題甚至沖上了 X trending 榜,同時也是 HackerNews 上第一熱議話題。



就連官方也在一起玩梗,比如 ChatGPT 官方 X 賬號把上述提示詞直接放在了個人介紹里面:



該帳號還引用了《霍比特人》的臺詞:「Down, down to Goblin-town you go, my lad!」(下去,下到哥布林鎮去吧,小子。



Sam Altman 則發帖調侃:「開始訓練 GPT-6,你可以用整個算力集群。額外補貼:加倍的哥布林。」



結語

DeepSeek 的「極」字和 OpenAI 的「哥布林」看起來是兩件獨立的趣事,但它們指向的其實是同一個問題。

現代大模型的訓練規模之大、數據鏈路之長、優化目標之復雜,使得任何一個環節的細小偏差,都可能在模型內部被悄悄放大、固化,乃至「傳染」給原本毫不相關的行為。

DeepSeek 的案例里,是一批沒洗干凈的訓練數據,讓模型學會了把一個漢字當作終止信號。OpenAI 的案例里,是一個獎勵模型對「怪物詞匯」的無意偏愛,讓精靈和哥布林悄悄滲透進了幾乎所有對話。

更值得關注的細節是:在 OpenAI 的案例中,工程師們最初并沒有發現異常,因為「一個哥布林」本身不是問題,它看起來甚至挺有趣。直到行為已經擴散到無法忽視的程度,才觸發了系統性調查。

這意味著,那些「無害」的奇怪習慣也可能變成危險信號。它們不會觸發任何告警指標,只會一代一代悄悄積累,直到某一天,你才意識到自己的模型已經在某件事上走了很遠、很偏的彎路。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
王毅剛走,泰國拍板一萬億超級工程!中國將多一條高效便捷的通道

王毅剛走,泰國拍板一萬億超級工程!中國將多一條高效便捷的通道

你是我心中最美星空
2026-04-30 09:06:39
太閑了?大媽吐槽山上有人吸煙,恐引發山火,慘遭網友集體圍攻

太閑了?大媽吐槽山上有人吸煙,恐引發山火,慘遭網友集體圍攻

譚談社會
2026-04-30 11:33:35
華潤資產巨虧

華潤資產巨虧

地產微資訊
2026-04-30 11:00:43
追覓CEO俞浩要求所有員工開通社交賬號:每天發三條視頻

追覓CEO俞浩要求所有員工開通社交賬號:每天發三條視頻

DoNews
2026-04-30 14:45:05
斯諾克世錦賽徹底亂了:隨著羅伯遜10-13,世界前三都無緣爭冠

斯諾克世錦賽徹底亂了:隨著羅伯遜10-13,世界前三都無緣爭冠

側身凌空斬
2026-04-30 06:20:50
《黑袍》星光在GTA6“下!!街頭服務“攬客”

《黑袍》星光在GTA6“下!!街頭服務“攬客”

游民星空
2026-04-29 19:43:05
俄取消閱兵式上裝備展示,澤連斯基回懟萬斯

俄取消閱兵式上裝備展示,澤連斯基回懟萬斯

難得君
2026-04-30 13:42:42
終于,一位接地氣的專家說了大實話:中國老百姓的負擔太重了

終于,一位接地氣的專家說了大實話:中國老百姓的負擔太重了

巢客HOME
2026-04-28 05:25:03
湖南一9歲男童在學校操場被劇毒蛇咬傷,醫生:被毒蛇咬傷后,應立即減少肢體活動,在傷口近心端用布條等輕柔綁扎,并第一時間送醫

湖南一9歲男童在學校操場被劇毒蛇咬傷,醫生:被毒蛇咬傷后,應立即減少肢體活動,在傷口近心端用布條等輕柔綁扎,并第一時間送醫

揚子晚報
2026-04-30 17:43:50
想要良知?就不要在這個圈子里混!

想要良知?就不要在這個圈子里混!

通往遠方的路
2026-04-25 07:41:42
張柱個人介紹,他是哪里人?

張柱個人介紹,他是哪里人?

墜入二次元的海洋
2026-04-30 18:58:40
追覓首談造車:與小米同期啟動,不必燒上千億

追覓首談造車:與小米同期啟動,不必燒上千億

虎嗅APP
2026-04-29 22:06:59
電磁爐為啥悄無聲息退出中國家庭?內行人透底玄機,看完徹底懂了

電磁爐為啥悄無聲息退出中國家庭?內行人透底玄機,看完徹底懂了

老特有話說
2026-04-30 11:36:13
楊冪好漂亮,這也忒高級了吧,奶兇奶兇皮膚又白

楊冪好漂亮,這也忒高級了吧,奶兇奶兇皮膚又白

喜歡歷史的阿繁
2026-04-30 17:30:38
趙心童世錦賽出局,賽后回應墨菲的開球戰術,最新世界排名出爐了

趙心童世錦賽出局,賽后回應墨菲的開球戰術,最新世界排名出爐了

小火箭愛體育
2026-04-30 11:06:07
加盟尚未滿3個賽季,凱恩已經躋身拜仁隊史射手榜第10名

加盟尚未滿3個賽季,凱恩已經躋身拜仁隊史射手榜第10名

懂球帝
2026-04-30 18:09:21
快訊!日本航空徹底繃不住了!

快訊!日本航空徹底繃不住了!

達文西看世界
2026-04-30 13:17:17
葡超又爆冷!葡體2-2差本菲卡2分,穆帥笑了:后3場拿7分進歐冠

葡超又爆冷!葡體2-2差本菲卡2分,穆帥笑了:后3場拿7分進歐冠

體育知多少
2026-04-30 07:07:33
不好,CPU 也要被干漲價了。

不好,CPU 也要被干漲價了。

差評XPIN
2026-04-30 00:11:39
砸進六個師,談判桌都不給!鐵了心的以色列,真主黨在劫難逃嗎?

砸進六個師,談判桌都不給!鐵了心的以色列,真主黨在劫難逃嗎?

寰球經緯所
2026-04-27 23:35:08
2026-04-30 21:31:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12898文章數 142640關注度
往期回顧 全部

科技要聞

9000億美元估值,Anthropic即將反超OpenAI

頭條要聞

被問"中方是否向伊朗提供了無人機" 國防部回應

頭條要聞

被問"中方是否向伊朗提供了無人機" 國防部回應

體育要聞

季后賽場均5.4分,他憑啥在騎士打首發?

娛樂要聞

孫楊博士學歷有問題?官方含糊其辭

財經要聞

易會滿被“雙開”!

汽車要聞

專訪捷途汪如生:捷途雙線作戰 全球化全面落地

態度原創

本地
教育
健康
家居
旅游

本地新聞

用青花瓷的方式,打開西溪濕地

教育要聞

高考議論文萬萬不可有廳局風

干細胞治燒燙傷能用了么?

家居要聞

靈動實用 生活藝術場

旅游要聞

五一去哪兒玩?四川綿竹邀你逛花海、戶外撒歡,享煙火美食

無障礙瀏覽 進入關懷版