无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

DeepMind:Transformer存在拓撲缺陷,思維鏈治標不治本

0
分享至

編輯|Panda


如今,思維鏈(CoT)已然成為前沿模型的標配。其機制并不復雜:用戶提一個問題,模型會先輸出一大段內部推導過程(有時候長達幾千個詞),然后才給出正式答案。

然而,隨著模型能力的提升,思維鏈也越來越長,成本也就水漲船高,越來越貴。社交網絡上,我們經常能看到 AI 重度用戶望賬單而興嘆,悲錢包之空癟。

Claude Fable 5 發布后,前沿模型的使用成本更是驚人,以至于讓一些用戶發出了感嘆:「只有開賭場和搞詐騙的才用得起」。

但是,或許,這條不斷提升思維能力的路可能本就走錯了方向。

近日,一篇來自谷歌 DeepMind 的論文《Transformer 的拓撲麻煩》以一個看似簡單的問題,撼動了整個行業的底層邏輯:Transformer 架構本身,就不擅長追蹤狀態;而「思維鏈」不過是在給這個結構性缺陷打補丁。



  • 論文標題:The Topological Trouble With Transformers
  • 論文地址:https://arxiv.org/abs/2604.17121

值得注意的是,這篇論文的第一作者Michael C. Mozer是 DeepMind 的研究科學家,也是循環神經網絡領域的資深研究者。他在 1991 年就提出了處理多尺度時序結構的循環網絡模型,并在整個 1990 年代深入研究過 RNN 的梯度消失問題。正是這些工作,在當年埋下了 LSTM(長短期記憶網絡)誕生的伏筆。



幾十年后,他重新審視這個問題。這一次,他的對手換成了主宰整個 AI 時代的 Transformer。

Transformer 為何如此強大,又有何隱患?

要理解這篇論文,先得明白 Transformer 是如何工作的。



原初 Transformer 架構

我們可以想象一座圖書館。每次有人提問,圖書館員不會「記住」之前說過什么,而是把所有對話記錄擺在桌上,重新翻閱一遍,然后作答。

這就是 Transformer 的核心策略:把整個對話歷史都裝進「上下文窗口」,通過「注意力機制」檢索過去的信息。這個策略非常有效:它繞開了早期循環神經網絡(RNN)難以記住遠距離信息的老問題,并由此催生了 GPT、Claude、Gemini、DeepSeek 等一系列大模型。

但這個策略有一個根本性的缺陷,論文稱之為「狀態追蹤(State Tracking)」問題。

所謂狀態追蹤,是指在對話或推理過程中,模型需要維護一個不斷更新的「內部狀態」,比如對話進行到哪一步、當前場景里哪個人在哪里、一道邏輯題現在推理到哪個環節。

人類在思考時,這種追蹤是自動完成的,往往無需刻意思考。但對于 Transformer 來說,每整合一條新信息,這個「內部狀態」就必須被推送到網絡更深的層次,而網絡的深度是有限的,一旦耗盡,模型便無法繼續可靠地追蹤狀態。



論文用一個直觀的比喻解釋了這一點:把 Transformer 想象成一棟樓,信息從底層流向頂層。每處理一個新輸入,模型的「狀態表示」就得搬到更高一層。樓層不是無限的,搬到頂了,就搬不動了。

「思維鏈」是個變通,但非解決方案

論文中,谷歌 DeepMind 的作者們用了幾個令人印象深刻的例子,展示了 Transformer 的狀態追蹤失效有多么日常。

第一個例子,是讓模型扮演「猜數字」游戲:由模型心里默想一個 1 到 100 之間的數字,用戶來猜,模型只回答「更大」或「更小」。這個游戲的關鍵在于,模型必須始終記住自己想的那個數,并對每次猜測給出一致的反饋。然而,論文展示了 Gemini 3(Fast)的失敗:

用戶猜 60,模型說「更小」;用戶猜 41,模型說「更小」;用戶猜 70,模型卻說「更大」——前后矛盾,破綻立現。



更耐人尋味的是,即便是加入了「思考」模塊的 Gemini 3 Thinking,也出了岔子。模型在思考階段明確寫下「我選定了數字 42,60 比 42 大,所以應該回答更小」——但當用戶猜 42 時,模型依然回答「更小」,等于忘了自己剛剛說的話。



第二個例子,則是經典的「河岸還是銀行?」歧義測試。同一個英文單詞「bank」,可以是河岸,也可以是銀行。模型在第一輪正確判斷弗雷德去的是河邊,但第二輪被問到「他那里有沒有 ATM 機」時,卻改口說「有,大多數銀行旁邊都有 ATM」。前后矛盾,毫無察覺。



這不是偶發的「幻覺」,而是架構性缺陷的必然結果。論文通過神經網絡可解釋性工具 Patchscopes 觀察到:模型對「bank」的語義消歧,發生在網絡第六層(較深位置);但當模型處理后續輸入時,淺層(第 1 至 5 層)根本「看不到」這個消歧結果,只能基于粗淺的詞頻關聯(「銀行」→「ATM」)給出反應。

狀態確實被更新了,但更新的結果埋得太深,后續處理無法訪問。

目前主流的解決方案「思維鏈」的原理,是讓模型把那個埋得很深的狀態「打印出來」,變成可見的文字輸出,再重新讀入。這樣,深層信息就被「搬運」到了新一輪處理的表層。

這確實有效,但代價也大:大量計算被用于輸出這些「中間思考」,上下文窗口被大量占用,推理成本隨之飆升。

對此,論文中表示:「對于人們自動完成、毫無意識的推斷,比如判斷一個詞的含義,根本不需要訴諸繁復的外顯思考。」

如何解決:重新擁抱「循環」

論文的核心主張是將研究重心從「外顯思維鏈」轉向「隱式激活動態」。換言之,用循環(Recurrent)架構來替代或補充當前的純前饋(Feedforward)結構。

論文為此建立了一套分類體系,將各類「循環 Transformer」按兩個維度劃分:循環發生在哪個軸(深度方向還是序列方向)、每個循環步驟處理幾個輸入詞。

在「深度方向循環」上,研究者們已探索出「循環 Transformer」(Looped Transformer)、「通用 Transformer」(Universal Transformer)等架構,允許同一組網絡層被反復使用。但論文指出,深度循環依然沒有解決根本問題:狀態表示仍然會隨著序列增長而被推向更深層,只是慢了一點。



真正能做到「無限期狀態追蹤」的,是沿序列方向的循環,即每處理一個新輸入,都將前一步的狀態向量顯式傳遞進來。

這與傳統 RNN 的做法一脈相承,但結合了現代注意力機制的優勢。論文列舉了 MAMBA、RWKV-7、DeltaNet 等狀態空間模型(SSM)和線性注意力架構,認為它們代表了這條路線的最新進展。

特別值得關注的是 DeltaNet 的改進版本:通過將特征值范圍擴展至負數,它在保留并行訓練優勢的同時,實現了超越標準 Transformer 的狀態追蹤能力,并在大規模語言建模測試中展現出競爭力。



論文還提出了幾個前景看好的研究方向:在更粗粒度上引入循環(例如以句子為單位而非詞元);利用殘差連接帶來的表示對齊來降低循環訓練成本;以及分階段訓練策略——先用標準前饋架構預訓練,再引入循環機制進行微調。

下一代大模型,需要會流動的記憶

「思考」這個能力,如今已成為頂級 AI 產品的標配賣點。但論文給出了一個清醒的提醒:現在的「思考」,更像是用語言在黑板上演算,而不是真正的內心動態。

一個人讀一本小說,不需要每翻一頁就把前面發生的事「朗讀出來」,才能記住故事線索。這種背景性的、流動的狀態維護,對人類來說幾乎是零成本的。

而大模型現在做不到這件事。

論文的結論認為,下一代基礎模型必須超越「反復檢索歷史文本」的策略,轉而構建「流動的、持續演化的現實表示」,橫跨多個時間尺度。這不只是效率問題,而是通向真正穩定、連貫的長時認知的必由之路。

從 Transformer 的「記憶檢索」到真正的「狀態維護」,這條路還很長。但現在,有人已經看清了地圖上那道彎。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美專家意見罕見一致:待中國兩岸統一,美國或只剩下1條可行之路

美專家意見罕見一致:待中國兩岸統一,美國或只剩下1條可行之路

素衣讀史
2026-06-17 21:53:10
快訊!特朗普發聲了!

快訊!特朗普發聲了!

故事終將光明磊落
2026-06-17 15:01:58
看了馬浴柯的家世,才懂已經財富自由的梁洛施,為何要跟他戀愛

看了馬浴柯的家世,才懂已經財富自由的梁洛施,為何要跟他戀愛

TVB的四小花
2026-06-17 16:53:43
CBA升降級確定!CBA后四VSNBL前四,競爭五名額下下賽季擴軍!

CBA升降級確定!CBA后四VSNBL前四,競爭五名額下下賽季擴軍!

籃球資訊達人
2026-06-17 16:12:28
老登股的流動性快被吸干了,投資者該怎么辦?

老登股的流動性快被吸干了,投資者該怎么辦?

立成說投資
2026-06-17 15:11:38
江西出土一女尸,褪下她的衣服時,發現下體綁著3條素羅帶子

江西出土一女尸,褪下她的衣服時,發現下體綁著3條素羅帶子

抽象派大師
2026-06-17 04:56:35
3-2險勝德國絕非碾壓!兩隊同檔實力,女排贏球全靠這3點

3-2險勝德國絕非碾壓!兩隊同檔實力,女排贏球全靠這3點

金毛愛女排
2026-06-17 21:41:28
柬埔寨對華免簽落地 首日即有老廣團出發

柬埔寨對華免簽落地 首日即有老廣團出發

新快報新聞
2026-06-16 08:19:02
1963年,粟裕不滿侄子老來自己家度假,叮囑:以后不要老往北京跑

1963年,粟裕不滿侄子老來自己家度假,叮囑:以后不要老往北京跑

大運河時空
2026-06-16 14:25:03
廣東男籃棄180萬薩林杰,50萬簽下2.13米詹姆斯前隊友

廣東男籃棄180萬薩林杰,50萬簽下2.13米詹姆斯前隊友

晚霧空青
2026-06-17 13:18:53
河南婚禮現場:28歲小伙娶37歲新娘,新娘全程不情愿苦瓜臉

河南婚禮現場:28歲小伙娶37歲新娘,新娘全程不情愿苦瓜臉

搗蛋窩
2026-06-17 00:20:29
萬名游客購上海迪士尼早享卡無法游玩項目,排隊高喊“退票”;園方回應:設施維修,已恢復正常,相關費用退回

萬名游客購上海迪士尼早享卡無法游玩項目,排隊高喊“退票”;園方回應:設施維修,已恢復正常,相關費用退回

大風新聞
2026-06-17 14:44:33
亞洲球隊首敗!1-3慘敗挪威,超級前鋒世界杯首秀梅開二度

亞洲球隊首敗!1-3慘敗挪威,超級前鋒世界杯首秀梅開二度

郝小小看體育
2026-06-17 08:03:15
冰箱別只囤肉!囤這7種菜,隨吃隨取還省事,凍半年都特好吃

冰箱別只囤肉!囤這7種菜,隨吃隨取還省事,凍半年都特好吃

江江食研社
2026-06-15 19:30:09
傅作義臨死前向女兒透露:1949年,老蔣派來的女特務,早被人處決

傅作義臨死前向女兒透露:1949年,老蔣派來的女特務,早被人處決

凡人侃史
2026-06-17 14:57:28
抄底的很后悔,今日最慘股是只醫藥股,深度回調后,再度閃崩大跌

抄底的很后悔,今日最慘股是只醫藥股,深度回調后,再度閃崩大跌

丁丁鯉史紀
2026-06-17 17:18:54
時機已到,該收拾日本了!中方宣布驅逐日本船只,必須殺雞儆猴

時機已到,該收拾日本了!中方宣布驅逐日本船只,必須殺雞儆猴

蕭磭記錄風土人情
2026-06-16 19:42:17
去了卡塔爾才明白,在阿拉伯人眼里,中國人遠比他們想象的更強大

去了卡塔爾才明白,在阿拉伯人眼里,中國人遠比他們想象的更強大

千秋歷史
2026-06-08 20:50:41
王毅拎出中蒙舊條約,一錘敲碎蒙古國幻想,稀土外運日本絕不可能

王毅拎出中蒙舊條約,一錘敲碎蒙古國幻想,稀土外運日本絕不可能

共工之錨
2026-06-17 00:20:53
SpaceX華人女孩刷屏!沒有碩博學位,6年從火箭小白到飛行操作員

SpaceX華人女孩刷屏!沒有碩博學位,6年從火箭小白到飛行操作員

量子位
2026-06-16 14:41:42
2026-06-17 22:48:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13290文章數 142673關注度
往期回顧 全部

科技要聞

馬斯克好友長文:他最可怕的,是這套方法論

頭條要聞

40歲佛得角門將漲粉千萬 中國球迷到訪家中母親捧鮮花

頭條要聞

40歲佛得角門將漲粉千萬 中國球迷到訪家中母親捧鮮花

體育要聞

梅西帽子戲法:紀錄厚重,球王輕盈

娛樂要聞

陳紅一反常態保持沉默

財經要聞

陸家嘴論壇上 央行帶來6大新政策利好

汽車要聞

23.99萬起 比亞迪大唐帶2+2+3大七座掀桌子 這才是中國大家庭夢中情車!

態度原創

健康
手機
數碼
本地
公開課

營養師:粽子怎么吃美味又健康?

手機要聞

消息稱榮耀MagicOS 11系統將適配支持Magic5系列手機

數碼要聞

聯想AI主機MINI開售 預裝天禧Claw 首發價2999元

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當老板

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版