網易首頁 > 網易號 > 正文 申請入駐

三星 TRM 論文:少即是多,用遞歸替代深度,挑戰 Transformer 范式

0
分享至


大數據文摘整理

三星SAIL蒙特利爾實驗室的研究人員近日發布論文《Less is More: Recursive Reasoning with Tiny Networks》,提出一種名為Tiny Recursive Model(TRM)的新型遞歸推理架構。


這項研究顯示,在推理任務上,小網絡也能戰勝大型語言模型

TRM僅使用700萬參數、兩層神經網絡,就在多項高難度任務中超過了 DeepSeek R1、Gemini 2.5 Pro、O3-mini 等模型。

在架構上,TRM也放棄了自注意力層(僅限 TRM-MLP 變體;TRM-Att 仍含自注意力。)。論文表明,對于小規模固定輸入任務,MLP反而能減少過擬合。另外,當上下文長度較短時,注意力機制反而是一種浪費。TRM 在某些任務(例如 Sudoku、Maze-Hard 等)中, 使用純 MLP 結構優于 Transformer-based 模型。


圖注: Tiny Recursive Model(TRM)通過不斷在“答案 y和“潛在思考變量 z 之間遞歸更新,實現小參數模型的多輪自我修正推理。

傳統大模型依賴鏈式思維(Chain-of-Thought)生成推理步驟,但這種方法成本高、容易累積錯誤。

TRM 則通過遞歸地更新“答案”和“潛在思考變量”,讓模型在多輪自我修正中逼近正確結果。

論文總結:“TRM以極小的規模實現了前所未有的泛化能力。”在ARC-AGI推理基準上,TRM獲得45%(ARC-AGI-1)8%(ARC-AGI-2)的準確率,高于多數大型模型。在Sudoku-Extreme任務上,它的準確率更是達到87.4%,刷新紀錄。

研究團隊稱,這種結構的核心邏輯是“遞歸即深度”:深度遞歸可替代增加層數,模型不需更多層數,只需反復思考。

推理機制重構:少即是多

TRM的設計源自對上一代Hierarchical Reasoning Model(HRM)的反思。


HRM模型在兩種不同頻率下遞歸更新潛變量與的過程,通過先無梯度、后帶梯度的雙階段循環,實現高低頻遞歸推理的結合。

HRM 使用兩個網絡在不同“頻率層次”上遞歸運算,模仿人腦的多層推理結構。
然而,其訓練過程復雜,依賴固定點理論(Fixed-Point Theorem)和生物學假設。

TRM徹底放棄這些理論假設。

研究者發現,單一網絡加深度監督(Deep Supervision)即可實現相同甚至更好的推理效果。

模型通過多次前向遞歸更新內部潛變量z與當前答案y,讓推理鏈條在每一步收斂得更準。

與HRM相比,TRM的參數量減少參數縮減約74%,單步前向次數減半,同時提升準確率。

論文數據顯示:在Maze-Hard數據集上,TRM測試準確率為85.3%,高出HRM 10個百分點。

TRM還取消了傳統的“繼續計算”機制(Adaptive Computational Time, ACT)中第二次前向傳播。

研究者改用一個簡單的二元判斷來決定是否停止推理。

結果顯示,模型訓練速度顯著提升,準確率幾乎不變。

在架構上,TRM也放棄了自注意力層。對于小規模固定輸入任務(如數獨),使用多層感知機(MLP)反而能減少過擬合。

論文指出,“當上下文長度較短時,注意力機制反而是一種浪費。”這一發現挑戰了AI界“模型越大越強”的經驗法則。減少層數、加深遞歸,是讓模型學會‘思考’的關鍵。


結果與啟示:推理的新尺度

實驗結果表明,TRM不僅在性能上反超HRM,更在泛化能力與效率比上建立了新標準。


在Sudoku-Extreme上,它以5M參數實現87.4%準確率;


在Maze-Hard任務上,以7M參數實現85.3%;


在ARC-AGI系列測試中,表現超過Gemini 2.5 Pro與DeepSeek R1等大模型。

研究團隊將這一成果概括為:“以遞歸取代規模,以思考取代堆疊。

論文分析認為,大模型在生成式推理中往往容易被一次性錯誤放大,而TRM通過循環式的自我修正,將推理劃分為多個小步,顯著降低誤差傳播。

這種結構在小樣本條件下尤為有效。

作者還發現,兩層網絡的泛化能力優于更深模型。當層數增加到四層或以上時,性能反而下降,原因在于過擬合。

團隊引入指數移動平均(EMA)以穩定訓練,使模型在小數據集上保持一致收斂。

研究指出,這種方法提供了一條新的“輕量AI推理路線”:當算力與數據受限時,小模型通過遞歸學習仍可實現復雜思維行為。

這為未來的邊緣AI與低資源應用提供了方向。智能的深度,不一定來自規模,而可能來自重復思考。

注:頭圖AI生成

作者長期關注 AI 產業與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業動態與技術趨勢!

GPU 訓練特惠!

H100/H200 GPU算力按秒計費,平均節省開支30%以上!

掃碼了解詳情?

點「贊」的人都變好看了哦!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
東北沒有黑幫,只有“刀槍炮”:一場對香港百年社團的降維打擊

東北沒有黑幫,只有“刀槍炮”:一場對香港百年社團的降維打擊

黃麗搞笑小能手
2026-04-15 06:27:15
別人對你說“咱倆加個微信”,千萬別說 “您掃我還是我掃您?” 高情商的人這樣做

別人對你說“咱倆加個微信”,千萬別說 “您掃我還是我掃您?” 高情商的人這樣做

德魯克博雅管理
2026-04-23 17:02:27
軟件開發最后的一塊兒陣地,被AI攻克了......

軟件開發最后的一塊兒陣地,被AI攻克了......

碼農翻身
2026-04-23 08:59:23
伊朗革命衛隊已經事實獨立

伊朗革命衛隊已經事實獨立

難得君
2026-03-04 12:29:04
孫楊張豆豆相處太累,男方要人哄女方不撒嬌,網友直言二人不適合

孫楊張豆豆相處太累,男方要人哄女方不撒嬌,網友直言二人不適合

萌神木木
2026-04-23 17:20:57
陜西榆林32歲男子深陷境外虛擬貨幣黑平臺4年多,近30萬元打水漂,抑郁躺平不上班滿頭白發

陜西榆林32歲男子深陷境外虛擬貨幣黑平臺4年多,近30萬元打水漂,抑郁躺平不上班滿頭白發

大風新聞
2026-04-23 18:44:07
現在,要不要賣?

現在,要不要賣?

力哥說
2026-04-23 20:00:32
忘恩負義的菲律賓指望中國出手,人民日報通報全國,用新措辭回應

忘恩負義的菲律賓指望中國出手,人民日報通報全國,用新措辭回應

春序娛樂
2026-04-24 00:16:14
王者歸來!新款奔馳S級國內首發亮相:超50%部件改款煥新

王者歸來!新款奔馳S級國內首發亮相:超50%部件改款煥新

快科技
2026-04-23 15:25:06
事實證明,已經“消失”7年的周立波,早已走上一條不歸路

事實證明,已經“消失”7年的周立波,早已走上一條不歸路

素衣讀史
2026-04-16 19:41:20
湖北省紀委監委最新通報

湖北省紀委監委最新通報

新浪財經
2026-04-23 19:10:11
老外剛造出巴掌帽,義烏當天量產十萬單,國內外售價相差整整10倍

老外剛造出巴掌帽,義烏當天量產十萬單,國內外售價相差整整10倍

趣味萌寵的日常
2026-04-23 18:31:49
連斬20多名將領!美防長血洗部隊,陸軍部長掀桌,美國軍政大分裂

連斬20多名將領!美防長血洗部隊,陸軍部長掀桌,美國軍政大分裂

云舟史策
2026-04-23 07:17:39
1979年開戰前,廣州軍區副司令被軍委免職,許世友:此乃兵家大忌

1979年開戰前,廣州軍區副司令被軍委免職,許世友:此乃兵家大忌

墨說古今
2026-03-15 23:43:17
死了這條心!人民日報表態:中國不會救菲律賓,馬科斯投機到頭了

死了這條心!人民日報表態:中國不會救菲律賓,馬科斯投機到頭了

王姐懶人家常菜
2026-04-23 18:41:11
有色金屬行業今日凈流出資金175.06億元,紫金礦業等43股凈流出資金超億元

有色金屬行業今日凈流出資金175.06億元,紫金礦業等43股凈流出資金超億元

證券時報
2026-04-23 17:08:22
黃圣依瑞士游學狀態封神,一身鵝黃閉眼淺笑,松弛感直接拉滿

黃圣依瑞士游學狀態封神,一身鵝黃閉眼淺笑,松弛感直接拉滿

阿廢冷眼觀察所
2026-04-22 08:35:53
87年幫村長家曬糧睡偏房,夜里我竟摸到條粗黑辮子,一道女聲響起

87年幫村長家曬糧睡偏房,夜里我竟摸到條粗黑辮子,一道女聲響起

卡西莫多的故事
2026-04-20 14:44:05
7499元起售,OPPO這臺超大杯是真敢賣啊。。。

7499元起售,OPPO這臺超大杯是真敢賣啊。。。

差評XPIN
2026-04-23 00:10:47
文章上海餐館開業5天,終于迎來了第1個捧場的明星!

文章上海餐館開業5天,終于迎來了第1個捧場的明星!

無處遁形
2026-04-21 06:14:18
2026-04-24 01:12:49
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6852文章數 94541關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

媒體:海軍宣傳片出現的"新兵何劍" 傳遞了巨大信息量

頭條要聞

媒體:海軍宣傳片出現的"新兵何劍" 傳遞了巨大信息量

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

普華永道賠償10億 恒大股東見到"回頭錢"

汽車要聞

令人驚艷的奇瑞車 風云A9可不只是樣子貨

態度原創

藝術
游戲
親子
公開課
軍事航空

藝術要聞

吉達塔蓋到第100層,“它是沙特唯一能按期完成的大項目”

任天堂NS2銷量4倍碾壓PS5!差距懸殊 索尼難挽頹勢

親子要聞

新華讀報|打乒乓球有助提高兒童注意力

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

人民海軍成立77周年 主力艦艇亮相上海

無障礙瀏覽 進入關懷版