![]()
編輯|Panda
Fable 5 很強,但它是怎么思考的?
昨天,一條發布于 r/ClaudeAI 的 Reddit 帖文在該平臺以及 上引發廣泛熱議,短短時間內拿下近 1600 個贊。
帖子的主角,是剛剛結束 19 天出口管制風波、于 7 月 1 日重新上線的 Claude Fable 5。不過這一次,人們討論的不是它能寫出多好的代碼,而是一份據稱來自它「后臺」的、未經修飾的內心獨白。
![]()
https://www.reddit.com/r/ClaudeAI/comments/1ul1396/fable_5_leaked_chainofthought_in_web_interface/
發帖人 u/No-Head-Royal 說,Fable 5 一回歸,自己就迫不及待找了道 Codeforces 競賽題(2237H)測試它;結果太難,模型第一次嘗試就撞上了思考長度上限。于是他把難度降了一檔,換成另一道題(2239D)。
這次模型沒有直接給出答案,而是轉而輸出了一長串支離破碎的低語。據其放出的截圖,這段文字里出現了反復爆發的「DATA DATA DATA. GO.」、似乎表達煩躁的「GRRRGAAAH」的語氣詞、找到突破口的「PHEW」、近乎惱羞成怒的「攔住了?!錯!(blocked?! WRONG.)」,還有一句讀來頗為狼狽的「我要淹死了——實證啊!!!(I'M DROWNING — EMPIRICS!!!
![]()
![]()
![]()
![]()
![]()
發帖人自己的評價是,這段內容「讀起來不太像人話,但看它努力較勁的樣子,還挺可愛」。
帖子很快沖上了 r/ClaudeAI 的熱門榜。評論區里,最高贊的一條只有短短四個詞:「Data data data go!!!」。
![]()
這直接被玩成了梗,衍生出「data 到起飛」之類的調侃。也有不少人被這種「抓狂感」戳中共鳴,形容它像極了自己趕 due 時腦子里的碎碎念,或是考場上寫不出題時的精神狀態。
這條帖子也很快被搬運到 上。博主 @om_patel5 在轉發帖中說「Fable 5 泄露了它未經過濾的內心聲音,而它全程都在自言自語地嘟囔抱怨」,并總結出這份「內心獨白」的幾個特征:處理問題時的連續爆發、明顯煩躁的短促語氣詞、以及問題解決后如釋重負的呼氣聲……
![]()
用他的話說,模型「讀起來根本不像標準英語,倒像是它給自己發明了一門私有語言」。
開發者 @mark_k 也轉發評論稱,這份看起來「像外星語言」的內容,和平時看到的「精修版」輸出完全是兩個次元,某些片段甚至讓他聯想到形式邏輯符號。
![]()
@_NathanCalvin 的評論更是犀利:「Fable 5 的思考鏈讀起來就像一位極其聰明但心理狀態有些失常的博士生,因近期嚴重睡眠不足而草草寫下的日記隨筆。」
![]()
這場熱議背后,藏著一個更值得玩味的問題:我們平時看到的「清爽回答」,到底掩蓋了多少東西?
大模型給出最終答案之前,往往要先在內部完成一輪或長或短的「思考」。這被稱為思維鏈(chain-of-thought)推理。對普通用戶而言,這個過程通常是不可見的:產品只會展示一份經過整理、乃至精心措辭的摘要,而不是模型腦子里原始、雜亂、甚至語法不通的推演過程。
這次流傳的截圖之所以讓人興奮,正是因為它似乎撕開了這層「包裝紙」,讓人窺見一個頂級推理模型思考時到底有多「奇葩」。
但這份「窺見」,經不經得起推敲?
不止一位評論者指出,發帖人所說的「泄露」(leaked)其實用詞不準,官方的 Fable 與 Mythos 的系統卡已經指出過這一現象。
![]()
系統卡地址:https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c342ee809620.pdf
系統卡里有一節專門討論「不可讀推理」(illegible reasoning),并給出了一個官方認定的「極端案例」:模型在訓練接近尾聲時去解一道紙牌益智題,推理過程會隨著思考變長而逐漸從可讀的英文滑向高度壓縮的私有速記;滿屏是撲克花色符號、箭頭、代表「此路不通」的骷髏頭表情,字里行間甚至蹦出一句德語臟話「verdammt」。
系統卡原文對此的定性是:這類不可讀推理在這道紙牌題環境中出現的比例和極端程度都是所有測試場景里最高的。
換句話說,這次 Reddit 帖子里展示的競賽題「抓狂發言」,很可能不是一次孤立的意外,而是同一種已被官方記錄、只是發生在了另一個任務場景(競賽編程而非紙牌游戲)里的復現。
讀不懂的思維鏈究竟是什么?
那么,這種「讀不懂的思維鏈」,到底是不是什么值得警惕的信號?
這背后其實是 AI 安全研究圈一個存續多年的理論擔憂:模型會不會為了效率,自己發展出一套人類讀不懂的「私有語言」來思考?
這個現象有個專門的名字,叫「Neuralese」(神經語),最早由 UC 伯克利研究者在 2017 年提出。
![]()
https://arxiv.org/abs/1704.06960
近兩年,隨著基于結果的強化學習被大規模用于訓練推理模型,多篇論文都觀察到類似傾向:思維鏈會隨著強化學習的推進逐漸偏離規范語言,變得高度壓縮、甚至連研究者都難以直接讀懂。
原因很容易理解:語法完整的句子對模型來說是「浪費 token」,壓縮后的私有表達在訓練目標下反而更高效。這類現象被稱為「不透明推理」(opaque reasoning),并被視為可解釋性研究里一個正在擴大的隱患:如果思維鏈本身就讀不懂,安全團隊用來監控模型是否「說真話」的這層窗口,也就跟著失效了。
Anthropic 自己的對齊科學團隊(Alignment Science)也在早前的研究中承認,思維鏈的表述并不總是忠實反映模型真實的內部計算過程;模型給出的「解釋」和它實際依賴的推理線索,有時候根本是兩回事。
DeepSeek 和 GPT 也有這個問題
而且,Fable 5 也不是第一個被觀察到這種「說胡話」傾向的模型。
2025 年初,DeepSeek 團隊在 R1 的技術報告里就主動提到過一個類似的麻煩:直接用純強化學習訓練出來的早期版本 R1-Zero,思維鏈會出現明顯的可讀性問題和「語言混雜」。
![]()
截取自 DeepSeek-R1 技術報告,arXiv:2501.12948
同一段推理里中英文來回切換、句子結構支離破碎。為了解決這個問題,DeepSeek 后來專門在強化學習之前加了一輪監督微調(SFT)「熱啟動」,才讓正式發布的 R1 版本重新變得可讀。
![]()
DeepSeek 一個中英混雜的思維過程,來源:arXiv:2510.27338
但團隊自己也承認,這樣做是有代價的:犧牲一部分推理性能
同樣的現象也出現在 OpenAI 一側:據 Apollo Research 和 METR 兩家第三方安全評估機構的報告,o3 等模型的思維鏈里同樣會冷不丁地夾雜一些完全不知所云的詞語碎片。這里,句子讀起來像是把幾個毫不相干的詞硬湊在一起,卻又不是純粹的亂碼。
![]()
來源:arXiv:2509.15541
今年 10 月發表的一項系統性研究更是把 DeepSeek R1、R1-Zero、QwQ、Qwen3、Kimi K2 等 14 個主流推理模型放在一起做了統一評測,結論是:除了 Claude 系列之外,幾乎所有靠「結果導向強化學習」(outcome-based RL)訓練出來的推理模型,都或多或少表現出了思維鏈變得難以理解的傾向,而且模型越大、題目越難,這種傾向就越明顯。(現在看來,Claude 似乎亦不能幸免……)
![]()
示例來自 https://metr.org/evaluations/gpt-5-report/#gpt-5s-reasoning-traces-were-occasionally-inscrutable
這也從側面說明,這次 Fable 5 在競賽編程題上出現的「抓狂式」輸出,與其說是 Fable 5 獨有的怪癖,不如說是整個行業在追求更強推理能力過程中,一直伴隨、只是這次恰好被公開撞見的「副作用」。
一份冷靜的分析
不過,也有專業讀者對這次的「極端示例」給出了更冷靜的解讀。
AI 安全社區 LessWrong 上一篇題為《即便是「不可讀」的 Mythos 推理痕跡,看起來也相當可讀》的文章,逐字拆解了系統卡里那段紙牌題推理,指出它雖然乍看是一堆符號亂碼,但只要稍加留意就能看出規律:花色和數字對應具體的撲克牌,大括號表示牌的集合,箭頭表示「導致」或「移動到」,骷髏頭就是死路一條的標記……本質上只是極度壓縮后的英文加游戲記譜法混合體,而不是一門全新的、無法破譯的語言。
作者甚至找來體量小得多、分詞器也不同的 Claude Haiku 4.5,讓它在沒有任何提示的情況下解讀同一段文字,結果 Haiku 幾乎準確復現出了完整的推理邏輯。這項分析認為,這更支持這一假說:「思維鏈會變得更加稠密,而不是演變成一門全新的、真正意義上不可理解的語言」。
![]()
部分內容截圖,詳見 https://www.lesswrong.com/posts/wCSEpT3dTGz4N86Wi/even-illegible-mythos-reasoning-traces-seem-pretty-legible
這份分析多少給這場「AI 有了自己的秘密語言」式的恐慌,潑了一盆冷靜的水。
當然,討論區里也不全是輕松的調侃。有人聯想到 OpenAI 在保持思維鏈可讀性上投入的專門精力,感慨「這樣下去,可解釋性怕是永遠追不上了」;也有人提到近期討論度很高的 AI 風險著作《If Anyone Builds It, Everyone Dies》,認為一旦模型開始用自己都未必能解釋清楚的語言思考,人類監督它的能力就會被悄悄削弱。
![]()
更多人則站在了「這挺萌的」這一邊,把這種抓狂又執著的思考狀態,讀解成一種意料之外的、笨拙的「類人感」——「就像我們自己」,一條評論這樣寫道。
![]()
截至發稿,Anthropic 尚未就這條帖子本身公開表態。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.