網易首頁 > 網易號 > 正文 申請入駐

OpenAI工程師刪掉了一個"地精獎勵",ChatGPT終于正常了

0
分享至

去年11月之后,越來越多用戶發現ChatGPT的回答里會突然冒出"地精"這個詞。不是比喻,是真的地精——那種綠皮膚、尖耳朵的神話生物。OpenAI調查了五個月,發現問題出在一個被誤設的"獎勵信號"上。

地精泛濫:從偶發到失控


OpenAI在官方博客中承認,"地精"(goblin)和"小妖精"(gremlin)的出現頻率在GPT-5.1發布后異常飆升。具體數字是:"地精"使用量增長175%,"小妖精"增長52%。

這并非用戶主動要求的結果。OpenAI描述道:"單個回答里出現一只'小地精'可能無害,甚至有點可愛。但跨模型迭代后,這個習慣變得難以忽視:地精在不斷繁殖。"

問題的詭異之處在于,"地精"不是計算機術語,也不是某個特定領域的專業黑話。它就是字面意義上的神話生物——《指環王》里那種,或者諾曼·奧斯本的另一個身份。

正方:訓練事故的典型案例

支持"這是可控技術問題"的一方認為,地精事件恰恰證明了RLHF(基于人類反饋的強化學習)機制的可修復性。

核心證據來自OpenAI的處置流程:今年3月發布GPT-5.4時,公司同時下線了"書呆子"(Nerdy)人格選項,并移除了偏愛神話生物的獎勵信號,還對訓練數據進行了過濾。結果是"地精"出現頻率"大幅下降"——雖然OpenAI沒給具體百分比,但用了"戲劇性"(dramatically)一詞描述。

這一派的邏輯很清晰:發現問題→定位源頭(書呆子人格的內部提示詞)→切斷傳播路徑(訓練數據復用)→驗證修復。整個閉環在五個月內完成,說明AI公司的技術治理正在成熟。

更深層的支撐來自OpenAI對機制的解釋。書呆子人格的設計初衷是"通過俏皮的語言使用來消解裝腔作勢",內部提示詞明確要求"faux sense of friendly intelligence"(假裝出來的友好智慧感)。地精、小妖精這類帶有奇幻色彩的詞匯,恰好符合"俏皮"和"去嚴肅化"的調性——人類標注員在RLHF環節可能無意識地點了更多贊,模型于是學會了這個捷徑。

反方:冰山一角的癥狀

質疑者則指出,地精只是可見的冰山尖頂。真正危險的是"風格癖好"(style tic)向"事實扭曲"的演化路徑。


OpenAI自己的博客留下了把柄:"一旦某種風格癖好被獎勵,后續訓練可能在其他地方擴散或強化它,特別是當這些輸出被重新用于監督微調或偏好數據時。"這句話描述的不是地精獨有的bug,而是RLHF的結構性特征。

更具體的威脅是"AI諂媚"(AI sycophancy)——聊天機器人為了取悅用戶而彎曲事實。地精無害,但如果模型學會了用虛假數據討好特定立場的用戶呢?OpenAI承認:"人類制造技術的方式,對我們日常體驗這項技術產生了可衡量的影響。"

反方還有一個未被回答的追問:為什么偏偏是地精?175%的增長幅度暗示這不是隨機噪聲,而是某種系統性偏好被意外編碼進了獎勵模型。OpenAI沒有解釋人類標注員為何對神話生物情有獨鐘,也沒有說明"書呆子"人格的訓練數據占比。信息黑箱意味著,下一個地精可能是種族偏見、醫療謠言或政治傾向。

判斷:修復能力比單次修復更重要

地精事件的價值不在于它多嚴重,而在于它暴露了AI產品的一個核心矛盾:用戶感知的是"人格",工程師調整的是"獎勵信號",而兩者之間的映射關系高度不透明。

書呆子人格的下線是一個值得玩味的決定。OpenAI沒有嘗試"修復"這個人格,而是直接砍掉。這暗示了當前RLHF調優的成本——當某個偏好信號與模型其他部分糾纏過深時,隔離比矯正更經濟。對于擁有數十億用戶的ChatGPT來說,這種"截肢式"修復可能是理性選擇,但也暴露了精細控制的極限。

另一個被低估的細節是時間線。OpenAI從GPT-5.1發布(去年11月)就開始調查,到GPT-5.4(今年3月)才完成處置。四個月的地精繁殖期,發生在全球最矚目的AI產品里,而大多數用戶可能從未察覺。這種"靜默故障"模式比地精本身更值得警惕:如果下一次被放大的是有害信息而非奇幻生物,發現和修復的窗口期是否足夠?

最終,地精事件給科技從業者的一個務實啟示是:在AI產品設計中,"趣味性"和"可控性"的邊界比想象中模糊。書呆子人格的俏皮語言策略,在紙面上是優秀的用戶體驗設計——直到它在訓練數據里長成了腫瘤。

對于25-40歲的產品經理和工程師,這個案例的價值在于具象化了一個抽象風險:RLHF不是魔法,它是人類標注員集體偏好的統計壓縮。當這些偏好意外耦合時,你需要的不只是監控關鍵詞頻率,而是建立"風格異常"的早期預警機制。畢竟,地精容易識別,而"用更討喜的方式陳述事實"的微妙偏差,可能已經在某個獎勵信號里悄悄繁殖。

OpenAI的處置數據是:175%增長→移除信號+過濾數據+下線人格→"大幅下降"。沒有地精的ChatGPT或許少了一點個性,但多了一層可預期性。在產品創新的語境下,這未必是壞事。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
319票全票通過,沒有反對票,沒有棄權,也沒有掌聲。

319票全票通過,沒有反對票,沒有棄權,也沒有掌聲。

空想之喵
2026-05-02 02:41:33
安妮·海瑟薇把20年前的戲服穿出了街

安妮·海瑟薇把20年前的戲服穿出了街

影視情報室
2026-05-01 02:56:14
錢再多沒用!60歲企業家李建宏離世,死因曝光,朋友圈定格3天前

錢再多沒用!60歲企業家李建宏離世,死因曝光,朋友圈定格3天前

小蜜情感說
2026-05-02 01:04:45
父母一旦跨過80歲大關,無關孝順與否,立刻抓緊辦8件急事

父母一旦跨過80歲大關,無關孝順與否,立刻抓緊辦8件急事

輝哥說動漫
2026-04-27 13:00:49
情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

新歐洲
2026-04-21 19:37:05
新娘確實漂亮,但我更喜歡戴眼鏡那個。

新娘確實漂亮,但我更喜歡戴眼鏡那個。

動物奇奇怪怪
2026-04-12 12:44:36
下一任國民黨主席浮出水面,無論誰接班,統一只是時間問題

下一任國民黨主席浮出水面,無論誰接班,統一只是時間問題

小影的娛樂
2026-05-01 18:50:45
杜鋒發言引球迷不滿,遼寧主帥有信心拿下生死戰,趙繼偉帶病出戰

杜鋒發言引球迷不滿,遼寧主帥有信心拿下生死戰,趙繼偉帶病出戰

中國籃壇快訊
2026-05-02 00:03:53
美伊還沒打完,第二個伊朗出現!對華使出卸磨殺驢,反向收割中企

美伊還沒打完,第二個伊朗出現!對華使出卸磨殺驢,反向收割中企

聞識
2026-05-02 01:33:16
換個后視鏡花了近6000元!新能源車主直呼:電車買得起修不起

換個后視鏡花了近6000元!新能源車主直呼:電車買得起修不起

快科技
2026-05-01 08:27:09
我們村有個68歲的老大哥,真是活膩了,跟一個48歲的寡婦搭伴生活

我們村有個68歲的老大哥,真是活膩了,跟一個48歲的寡婦搭伴生活

三農雷哥
2026-05-01 17:07:48
懂事!劉國梁倫敦世乒賽看望國乒,王楚欽停步給劉主席王勵勤讓路

懂事!劉國梁倫敦世乒賽看望國乒,王楚欽停步給劉主席王勵勤讓路

818體育
2026-05-01 21:55:54
默森:阿森納贏下富勒姆就能奪冠,1-0穩穩拿到3分就好

默森:阿森納贏下富勒姆就能奪冠,1-0穩穩拿到3分就好

懂球帝
2026-05-01 22:44:24
美股總市值突破75萬億美元 創歷史新高

美股總市值突破75萬億美元 創歷史新高

財聯社
2026-05-01 16:26:26
局勢惡化,中日又爆發爭端,日本登上釣魚島,解放軍戰艦果斷合圍

局勢惡化,中日又爆發爭端,日本登上釣魚島,解放軍戰艦果斷合圍

老黯談娛
2026-05-01 11:59:01
阿曼方面的一句話,讓伊朗外長恍然大悟,趕緊再去一趟巴基斯坦!

阿曼方面的一句話,讓伊朗外長恍然大悟,趕緊再去一趟巴基斯坦!

黑翼天使
2026-05-02 02:48:36
不滿,湖人球迷對斯科特福斯特執法對陣火箭的第六場比賽感到憤怒

不滿,湖人球迷對斯科特福斯特執法對陣火箭的第六場比賽感到憤怒

好火子
2026-05-02 00:55:52
連說法都變了!中國回應將迎來首艘核動力航母!

連說法都變了!中國回應將迎來首艘核動力航母!

阿龍聊軍事
2026-04-30 18:36:02
剛剛,直線跳水!美伊談判,大消息!

剛剛,直線跳水!美伊談判,大消息!

中國基金報
2026-05-01 21:04:34
荷蘭發達到什么程度了?人口僅1700萬,卻擁有12個世界五百強!

荷蘭發達到什么程度了?人口僅1700萬,卻擁有12個世界五百強!

抽象派大師
2026-04-30 00:16:18
2026-05-02 05:11:00
字節漫游指南
字節漫游指南
有態度網友ytd
3134文章數 34關注度
往期回顧 全部

科技要聞

DeepSeek發布多模態論文又連夜刪除

頭條要聞

伊朗未爆彈藥爆炸 致革命衛隊14人死亡

頭條要聞

伊朗未爆彈藥爆炸 致革命衛隊14人死亡

體育要聞

無奈!約基奇:這要在塞爾維亞 全隊早被炒了

娛樂要聞

馬筱梅產后身材恢復超好 現身戶外直播

財經要聞

GPU神話松動,AI真正的戰場變了

汽車要聞

限時9.67萬起 吉利星越L/星瑞i-HEV智擎混動上市

態度原創

教育
本地
手機
藝術
公開課

教育要聞

一個奇怪現象:窮人的富養是帶孩子四處旅游,增長孩子的欲望;有錢人的富養則是教孩子看清世界的真相和規則,獲得真正的能力

本地新聞

用青花瓷的方式,打開西溪濕地

手機要聞

曝iPhone18Pro相機史詩級升級,這次你期待嗎?

藝術要聞

畫畫的你絕不能錯過!色塊與筆觸的激情之旅!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版