无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

ICML 2026 | 只用少量Thinking Tokens,大模型依然能深度思考

0
分享至



近年來,Chain-of-Thought(CoT)推理已經成為提升大語言模型和多模態大語言模型復雜問題求解能力的重要技術路徑。

然而,這種 “顯式思考” 也帶來了一個越來越突出的效率問題:模型往往需要生成大量的中間推理文本,導致推理 token 數顯著增加,從而帶來更高的推理延遲、顯存占用和計算成本。尤其在多模態大模型(MLLMs)中,輸入通常包含圖像、問題和復雜上下文,模型為了完成推理,往往需要先描述圖像內容、總結關鍵信息、分析視覺線索,再逐步推導最終答案。

這個過程雖然接近人類的 “逐步思考”,但對于大模型推理系統而言,每一個額外生成的 token 都意味著一次額外的自回歸解碼開銷。因此,一個最關鍵的問題就是:大模型的 “思考” 是否一定要以人類可讀的長文本形式顯式得生成出來

近期,來自浙江大學、Adobe Research、杜克大學等機構的研究團隊提出了一種面向多模態大模型的高效推理框架 ——Heima。該方法將冗長的文本 CoT 壓縮為少量抽象的 “thinking tokens”,讓模型在隱空間中完成高效推理,在大幅減少生成 token 數量的同時,盡可能保留 CoT 推理帶來的能力提升。更進一步,作者還構建了基于純語言模型(LLMs)的解釋器實驗,對這些抽象的 “thinking tokens” 進行解碼與重構,驗證了隱藏空間中確實存在可被還原和分析的推理過程。該論文題為 Efficient Reasoning with Hidden Thinking,已被 ICML 2026 接收。



  • 論文標題:Efficient Reasoning with Hidden Thinking
  • 方法名稱:Heima
  • 會議:ICML 2026
  • 代碼:https://github.com/shawnricecake/Heima

本文第一作者沈軒現為浙江大學 “百人計劃” 研究員,研究方向為高效人工智能,主要聚焦于大模型在 GPU、移動端、FPGA 和 ASIC 等多種硬件平臺上的高效部署與推理加速,以及面向 AI 計算的計算機體系結構與系統優化設計。

背景挑戰

CoT 推理的核心思想是讓模型在回答問題前先生成中間的推理過程。例如,對于一道多模態問題,模型可能會依次生成:1. 對輸入問題的總結;2. 對圖像內容的描述;3. 對視覺線索和問題之間關系的分析;4. 最終答案。這種方式能夠增強模型的可解釋性,也能提升模型處理復雜任務的能力。然而,其代價也十分明顯:模型需要生成大量額外的文本 token,導致推理成本變高。這些中間的 CoT 文本雖然對人類可讀,但其中也存在大量冗余信息。

現有一些方法嘗試在文本模型中進行 latent reasoning 或 CoT 壓縮,但它們通常局限于小規模語言模型、文本任務或特定數據集。相比之下,多模態大模型需要同時處理視覺輸入和語言輸入,推理過程也更復雜,因此如何在 MLLM 中壓縮 CoT,同時不破壞推理能力,仍然是一個開放問題。論文也指出,已有 latent reasoning 方法在小模型或文本任務上已有探索,但將 CoT 壓縮擴展到大規模多模態大模型仍存在明顯空白。

核心問題

本文探索的核心問題是:

能否讓多模態大模型不再生成冗長的顯式 CoT 文本,而是用少量隱式 thinking tokens 來完成推理?

這背后其實有一個很有意思的判斷:人類寫出來的推理文本,未必是模型內部 “思考” 的唯一形式。對于模型而言,中間推理過程也許可以被壓縮為更抽象、更緊湊的隱空間表示。只要這些表示能夠保留對最終答案有用的信息,模型就不一定需要完整輸出所有的推理文本。因此,Heima 的目標不是簡單地 “刪除” CoT,而是嘗試把原本冗長的 CoT 推理過程壓縮進少量特殊 token 中,讓模型仍然具備逐步推理能力,但避免在推理時生成大量自然語言中間步驟。這就類似于把 “寫滿一整頁的草稿紙” 壓縮成幾個模型內部能理解的思考符號:雖然人類可能看不懂這些符號,但模型可以用它們進行推理并給出答案。

方法概覽

為了解決上述問題,本文提出了 Heima,一個面向多模態大模型的 CoT 壓縮與隱式推理框架。論文摘要中將 Heima 描述為一種有效的 CoT compression framework,能夠把長 CoT 壓縮成少量抽象的 thinking tokens,同時保留關鍵推理信息并去除冗余。整體來看,Heima 包含三個關鍵設計:

1. 用 thinking token 替代冗長 CoT

傳統 CoT 方法會讓模型顯式生成完整的中間推理文本。例如,針對一張汽車圖片以及問題 “這輛車屬于哪個品牌?有哪些視覺特征可以支持這一判斷?”,模型可能會先逐步描述圖像內容,再基于視覺線索進行推斷:



這張圖中有一輛黑色汽車。車頭有一個特殊的標志。這個標志對應 BMW。因此答案是 BMW。

而 Heima 不再要求模型完整輸出這些文字推理,而是將不同階段的推理過程壓縮為特殊的 thinking tokens,例如:


, 結論:這張圖片展示了一輛黑色 BMW M3 在路上馳騁。

這些 token 本身很短,但其 hidden states 中編碼了對應階段的推理信息。也就是說,模型生成的不是完整推理文本,而是更緊湊的隱式思考表示。



論文圖 1 展示了一個汽車品牌識別的示例:Heima 首先基于輸入圖像和問題生成抽象的 thinking tokens,隨后再通過 interpreter 將這些 thinking tokens 重新解碼為人類可讀的推理過程,例如對汽車外觀、車標特征以及品牌歸屬進行分析。值得注意的是,這里的 interpreter 僅基于傳統大語言模型構建,并不直接接收原始圖像輸入,卻仍然能夠從純文本問題與 thinking token 表示中重建出與視覺內容相關的推理信息。這說明 thinking tokens 中確實編碼了關鍵的視覺推理線索,也從實驗層面驗證了模型隱空間中存在可被解析的推理過程。

2. 漸進式蒸餾:逐步把 CoT 壓縮進 token

直接把完整 CoT 一次性壓縮成少量 token 是很困難的,因為模型可能會丟失大量推理信息。為此,Heima 采用了progressive distillation的訓練策略。具體來說,模型并不是一次性把所有推理階段都替換成 thinking tokens,而是逐階段進行壓縮。這種漸進式訓練可以讓模型更平滑地從 “顯式文本推理” 過渡到 “隱式抽象 token 推理”,避免一次性壓縮帶來的性能下降。論文明確提出,Heima 會逐步將每個 CoT stage 蒸餾為 thinking token,而不是一次性完成所有階段的蒸餾。

3. Interpreter:把隱式思考重新解釋成人類可讀文本

隱式推理雖然高效,但也帶來一個問題:如果 thinking tokens 不是自然語言,人類如何知道模型到底有沒有在思考?或者說到底想了什么?

為此,本文設計了adaptive interpreter。它的作用是把 thinking tokens 映射回可變長度的文本序列,從而重建模型的推理過程,并進一步分析壓縮引入的信息差距。這一步非常關鍵,因為它讓 Heima 不只是一個 “把推理藏起來” 的加速方法,而是提供了一種分析和驗證隱式推理質量的機制。如果 interpreter 能夠在沒有視覺輸入的情況下,從 thinking tokens 中重建出與原始 CoT 接近的推理過程,就說明這些 tokens 確實保留了足夠多的推理信息。換句話說,Heima 一方面讓模型推理更快,另一方面又通過 interpreter 盡可能保留可解釋性。

理論分析

除了方法設計,本文還從信息論角度分析和直覺解釋了 CoT 壓縮帶來的信息差距。核心思想是:將文本 CoT 壓縮為 thinking tokens 必然會引入一定的信息損失,但只要這些 tokens 與原始 CoT 之間保留了非平凡互信息,模型的推理能力就仍然可以被保留。





實驗結果



本文在多個多模態推理 benchmark 上驗證了 Heima 的效果。Heima 不僅顯著減少了推理過程中生成的 token 數量,且在多個 benchmark 上,Heima 能夠在大幅減少 token 的同時保留大部分 CoT 推理能力。這意味著 Heima 能夠將原本冗長的 CoT 推理壓縮到非常短的 thinking token 序列中,從而顯著降低自回歸解碼成本,并且壓縮后的 thinking tokens 仍能保留處理視覺幻覺和語言幻覺問題所需的關鍵信息。



另外,為了進一步驗證 thinking tokens 中是否真的保留了推理信息,本文訓練了對應的 interpreter,并評估重建文本與原始 CoT 的接近程度。論文結果顯示,interpreter 能夠從壓縮后的 thinking tokens 中重建出連貫的 reasoning progress。尤其在 summary、caption 和 reasoning 三個階段中,interpreter 都能恢復出一定程度的人類可讀推理內容。這說明 Heima 并不是簡單地把推理過程 “黑箱化”,而是通過 interpreter 提供了一種觀察隱式思考內容的窗口。

總結與展望

Heima 提供了一種新的多模態大模型高效推理思路:與其讓模型顯式生成冗長的自然語言 CoT,不如將中間推理過程壓縮進少量 thinking tokens 中,讓模型在隱空間中完成更高效的 “隱藏思考”。相比傳統 CoT 方法,Heima 的優勢主要體現在三個方面:

  • 第一,推理更高效。通過大幅減少生成 token 數,Heima 直接降低了自回歸解碼開銷。
  • 第二,能力保持較好。在多個多模態推理 benchmark 上,Heima 能夠在顯著壓縮 token 的同時保持接近甚至超過原始 CoT 的性能。
  • 第三,仍具備可解釋性分析機制。通過 adaptive interpreter,Heima 可以將 hidden thinking tokens 重新映射為文本推理過程,從而分析壓縮后的隱式表示是否保留了足夠的推理信息。

從更長遠的角度看,Heima 探索了一個非常重要的問題:大模型的推理過程是否必須以人類語言顯式展開?如果模型可以用更緊湊的隱空間表示完成復雜推理,那么未來的大模型推理或許可以在 “可解釋性” 和 “效率” 之間找到新的平衡點。這一工作不僅為多模態大模型的 CoT 壓縮提供了新方法,也為 latent reasoning、efficient reasoning 和 scalable multimodal reasoning systems 提供了新的研究方向。隨著多模態模型被部署到更多真實場景中,如何減少推理 token、降低延遲和提升系統吞吐,將成為大模型走向實際應用的重要問題。Heima 的提出,為這一方向提供了一個簡潔而有效的解決方案。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
熊皇一劍封喉超越傳奇,皇馬1-0塞維利亞,一戰平2大隊史神跡

熊皇一劍封喉超越傳奇,皇馬1-0塞維利亞,一戰平2大隊史神跡

釘釘陌上花開
2026-05-18 04:30:32
哈登樂壞了!騎士狂勝活塞晉級東決,賽后4大好消息,總冠軍有戲

哈登樂壞了!騎士狂勝活塞晉級東決,賽后4大好消息,總冠軍有戲

林子說事
2026-05-18 11:57:27
網紅用AI假扮14歲少女,66歲戀童癖和她越聊越嗨,直到發現數萬人在圍觀

網紅用AI假扮14歲少女,66歲戀童癖和她越聊越嗨,直到發現數萬人在圍觀

英國那些事兒
2026-05-16 23:24:28
亞馬爾談身體狀況:世界杯之前我都不會碰球

亞馬爾談身體狀況:世界杯之前我都不會碰球

懂球帝
2026-05-18 00:37:12
《鬼滅之刃》無限城篇第二部:最爭議柱即將登場

《鬼滅之刃》無限城篇第二部:最爭議柱即將登場

追星雷達站
2026-05-18 02:08:45
駙馬一腳踢死康熙五公主,康熙得知后震怒,懲罰手段令人膽寒

駙馬一腳踢死康熙五公主,康熙得知后震怒,懲罰手段令人膽寒

卡西莫多的故事
2025-11-19 10:57:09
皇馬臉都打腫了!切爾西給阿隆索的特權,連穆里尼奧都沒沒有

皇馬臉都打腫了!切爾西給阿隆索的特權,連穆里尼奧都沒沒有

奶蓋熊本熊
2026-05-18 02:30:01
云南電工挫敗黑社會團伙,1人對抗120名混混,造成對方9死48傷

云南電工挫敗黑社會團伙,1人對抗120名混混,造成對方9死48傷

莫地方
2026-05-15 01:30:04
又遙遙領先?國產“固態電池”宣布裝車,充電10分鐘續航1000公里

又遙遙領先?國產“固態電池”宣布裝車,充電10分鐘續航1000公里

胖福的小木屋
2026-05-18 16:36:53
隨行記者拍攝的特朗普,與印象中的完全不同,致祝酒詞前還彩排了

隨行記者拍攝的特朗普,與印象中的完全不同,致祝酒詞前還彩排了

光電科技君
2026-05-17 14:00:38
昔日中超冠軍新主帥上任!國安前任正式接手,保級壓力大他能行么

昔日中超冠軍新主帥上任!國安前任正式接手,保級壓力大他能行么

林子說事
2026-05-18 15:39:44
歐盟不裝了,要學美國那套搞中國,中方已收到消息開始反擊

歐盟不裝了,要學美國那套搞中國,中方已收到消息開始反擊

小祁談歷史
2026-05-18 16:52:03
馬斯克居然轉發和雷軍的那張合照,還配了一個笑哭地表情包

馬斯克居然轉發和雷軍的那張合照,還配了一個笑哭地表情包

墜入二次元的海洋
2026-05-17 21:55:17
合資團滅!4月車市銷量前五驚變,小米把誰擠下去了?

合資團滅!4月車市銷量前五驚變,小米把誰擠下去了?

凡兮說
2026-05-17 14:01:36
我49歲才懂:如果一個女人還在穿十年前的舊衣裳,意味著什么?不是窮,而是活成了這兩種狀態!

我49歲才懂:如果一個女人還在穿十年前的舊衣裳,意味著什么?不是窮,而是活成了這兩種狀態!

心理觀察局
2026-05-17 08:35:09
樊振東輸球后,王楚欽梁靖崑意外躺槍!小胖下次要打得更好 隊友連喊:千萬不要

樊振東輸球后,王楚欽梁靖崑意外躺槍!小胖下次要打得更好 隊友連喊:千萬不要

好乒乓
2026-05-18 17:41:46
趁著3大契機,普京旋風訪華,談的不比中美少,行程卻比特朗普短

趁著3大契機,普京旋風訪華,談的不比中美少,行程卻比特朗普短

野渡舟山人
2026-05-18 18:15:51
曼聯即將敲定卡塞米羅盛贊的球星續約,協議已達成

曼聯即將敲定卡塞米羅盛贊的球星續約,協議已達成

綠茵情報局
2026-05-18 17:50:12
中國瘋狂買大豆爆倉,商家靈機一動:榨油賣給印度換錢

中國瘋狂買大豆爆倉,商家靈機一動:榨油賣給印度換錢

說宇宙
2026-04-19 12:10:03
漳州楊梅泡藥后續!商販為斂財被曝無人問津,果農無辜受牽該找誰

漳州楊梅泡藥后續!商販為斂財被曝無人問津,果農無辜受牽該找誰

社會日日鮮
2026-05-18 06:58:00
2026-05-18 19:35:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13027文章數 142650關注度
往期回顧 全部

科技要聞

同一公司,有人獎金是6年工資,我卻只有半年

頭條要聞

失業男子在車里住7天無奈向交警求助 如今找到新工作

頭條要聞

失業男子在車里住7天無奈向交警求助 如今找到新工作

體育要聞

41歲,他還想第5次踢世界杯

娛樂要聞

票房會破14億!口碑第一電影出現了

財經要聞

前4月工業生產較快增長 失業率5.3%

汽車要聞

二排座椅能躺能轉/三排座椅能收納 零跑D99座艙玩法多樣

態度原創

房產
數碼
本地
公開課
軍事航空

房產要聞

突發!海口重磅調規!碧桂園要解套;新埠島要起飛了!

數碼要聞

大疆ROMO P2評測:變態越障+恐怖吸力,無人機技術“降維”到地面

本地新聞

用蘇繡的方式,打開江西婺源

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

莫斯科遭一年多來最大規模無人機襲擊 3死18傷

無障礙瀏覽 進入關懷版