網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

多模態(tài)推理新范式ThinkMorph ，文字與圖像在統(tǒng)一架構(gòu)共同演化

2026-03-10 16:02:54　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

NUS、ZJU、UW、Stanford、CUHK 聯(lián)合提出「ThinkMorph」，主張讓文字與圖像在統(tǒng)一架構(gòu)里「原生協(xié)作」、「共同演化」，而不是像當(dāng)下大多數(shù)多模態(tài)模型那樣，看完圖像就閉上眼睛，后續(xù)完全靠文字鏈條推進(jìn)。僅用 2.4 萬條數(shù)據(jù)微調(diào) 7B 統(tǒng)一模型，視覺推理平均提升34.74%，多項(xiàng)任務(wù)比肩甚至超越GPT-4o和Gemini 2.5 Flash。更重要的是，模型涌現(xiàn)出未被訓(xùn)練覆蓋的視覺操作能力與自主模式切換，顯示出多模態(tài)推理走向「原生智能」或許正在跨過第一道門檻。

論文標(biāo)題：ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning
論文（arXiv）: https://arxiv.org/abs/2510.27492
代碼：https://github.com/ThinkMorph/ThinkMorph
主頁（全開源）：https://thinkmorph.github.io/

為什么需要「原生」多模態(tài)推理？

人類解決復(fù)雜問題時(shí)，「視覺思維」和「邏輯思維」是無縫切換的：看到一道幾何題，我們會(huì)在腦中構(gòu)建空間圖景，同時(shí)用邏輯推演約束條件；走迷宮時(shí)，我們一邊在視覺上追蹤路徑，一邊在語言層面排除死胡同。兩種思維模態(tài)彼此交織、互相推進(jìn)，這是人類認(rèn)知的基本方式。

圖 1：人類認(rèn)知中視覺與語言思維的自然協(xié)同

然而，當(dāng)前主流的多模態(tài)大模型并非如此。圖像只在輸入階段被 “看見” 一次，之后無論是思維鏈還是強(qiáng)化學(xué)習(xí)，提升的都是語言層面的推理。換言之，模型「看了一眼」之后就閉上了眼睛，純靠文字完成后續(xù)所有思考。

一種思路是調(diào)用外部視覺工具來間接彌補(bǔ)，但天花板有限。ThinkMorph 走的是更徹底的路：「原生多模態(tài)推理（Unified Multimodal Reasoning）」：模型可以在推理的任何階段自主生成中間圖像來輔助思考，再用文字分析圖像、推進(jìn)邏輯，形成交替演進(jìn)的推理鏈。整個(gè)過程在同一個(gè)統(tǒng)一模型中完成，不依賴任何外部工具或多階段流水線。

圖 2：工具增強(qiáng) vs 原生多模態(tài)推理

這與人類的認(rèn)知方式高度一致：我們解決視覺問題時(shí)，也是在「看」和「想」之間自然切換，而不是看一眼就閉上眼睛純靠語言推演。ThinkMorph 讓模型第一次具備了這種能力。

核心設(shè)計(jì)：互補(bǔ)而非同構(gòu)

ThinkMorph 的核心理念：文字與圖像在推理中應(yīng)提供互補(bǔ)信息，共同演化，而非同構(gòu)復(fù)制。

圖 3：文字與圖像互補(bǔ)協(xié)作，逐步推進(jìn)推理過程

文字負(fù)責(zé)抽象分析和邏輯驗(yàn)證（「這塊碎片左側(cè)有棕色紋理，應(yīng)在第三行第一列」），圖像負(fù)責(zé)空間可視化和細(xì)節(jié)呈現(xiàn)（生成重排后的拼圖效果圖、標(biāo)注邊界框、繪制路徑），兩者互相推動(dòng)，逐步逼近答案。

圖 4：四類視覺推理任務(wù)的交錯(cuò)推理實(shí)現(xiàn)

基于統(tǒng)一多模態(tài)模型Bagel-7B，研究團(tuán)隊(duì)構(gòu)建了約24K條高質(zhì)量交錯(cuò)推理訓(xùn)練數(shù)據(jù)，覆蓋四類視覺推理任務(wù)

圖 5：四類視覺推理訓(xùn)練任務(wù)

原生多模態(tài)推理有多強(qiáng)，又能走多遠(yuǎn)？

在同一個(gè)基座模型上，研究團(tuán)隊(duì)分別微調(diào)了純文字、純視覺和交錯(cuò)「三種推理模式」進(jìn)行對(duì)比。結(jié)果很清晰：交錯(cuò)推理在視覺密集型任務(wù)上全面領(lǐng)先。文字與圖像在推理中確實(shí)能互補(bǔ)協(xié)作，而非簡(jiǎn)單相加。

圖 6：三種推理模式的性能對(duì)比

更關(guān)鍵的是「泛化能力」。在全部 24K 數(shù)據(jù)聯(lián)合訓(xùn)練后，ThinkMorph 在9 個(gè)基準(zhǔn)上相比基礎(chǔ)模型平均提升 20.74%，其中包括多個(gè)從未見過的域外任務(wù)。盡管只有 7B 參數(shù)，它已可以與大規(guī)模模型比肩：在 BLINK-J 上超越 Qwen2.5-VL-72B 超過 10 個(gè)百分點(diǎn)，在 SAT 空間推理上領(lǐng)先 GPT-4o 24.67 個(gè)百分點(diǎn)，在 MMVP 上匹配 Gemini 2.5 Flash。

這不只是規(guī)模的勝利，而是訓(xùn)練策略的勝利：交錯(cuò)推理讓生成與理解相互強(qiáng)化，用更少的數(shù)據(jù)撬動(dòng)了更強(qiáng)的視覺推理能力。

圖 7：ThinkMorph 在 9 個(gè)基準(zhǔn)上的泛化表現(xiàn)

不止于性能：原生多模態(tài)推理的潛力遠(yuǎn)超想象

如果 ThinkMorph 只是「性能更好」，它可能只是又一篇刷榜論文。但比數(shù)字更重要的，是這個(gè)初步探索中涌現(xiàn)出的一系列積極信號(hào)。它們暗示：原生多模態(tài)推理的潛力，我們才剛剛觸及冰山一角。

圖 8：三個(gè)涌現(xiàn)信號(hào)概覽

信號(hào)一：未見視覺操作 —— 模型自主習(xí)得了 8 種新技能

訓(xùn)練數(shù)據(jù)中只包含四類基礎(chǔ)視覺操作（拼圖可視化、路徑繪制、邊界框標(biāo)注、區(qū)域高亮），但測(cè)試時(shí)模型自發(fā)展現(xiàn)了 8 種從未見過的操作如放大（zoom-in）、圖像修復(fù)（inpainting）等。

圖 9：模型涌現(xiàn)的未見視覺操作示例

最典型的例子：面對(duì)「這個(gè)燈籠椒是紅色還是黃色？」這個(gè)問題，模型自動(dòng)生成了一張放大圖來辨認(rèn)顏色的細(xì)微差異，完全模仿了人類湊近觀察的認(rèn)知策略，而這種操作在訓(xùn)練數(shù)據(jù)中從未出現(xiàn)。在某些基準(zhǔn)上，這類涌現(xiàn)操作占到了所有視覺生成的10% 以上。

研究團(tuán)隊(duì)分析了其來源機(jī)制：預(yù)訓(xùn)練賦予了原始的視覺操作能力，而交錯(cuò)推理微調(diào)激活了這些能力在推理場(chǎng)景中的目的性運(yùn)用。

信號(hào)二：自主模式切換 ——「這道題不需要視覺輔助」

盡管只用交錯(cuò)推理數(shù)據(jù)訓(xùn)練，模型在5.3%的測(cè)試案例中「自主切換」為純文字推理。這不是隨機(jī)行為：在切換的樣本上準(zhǔn)確率達(dá)到81.25%，比堅(jiān)持交錯(cuò)推理高出 7.29 個(gè)百分點(diǎn)。

模型學(xué)會(huì)了判斷「這道題需不需要視覺輔助」，像人類一樣靈活協(xié)調(diào)語言和視覺，而非機(jī)械執(zhí)行固定流程。

圖 10：自主模式切換案例與統(tǒng)計(jì)

信號(hào)三：協(xié)同解空間探索 —— 多樣性驅(qū)動(dòng)更好的測(cè)試時(shí)擴(kuò)展

在 Best-of-N 采樣下，交錯(cuò)推理一致優(yōu)于單模態(tài)推理，且分布偏移越大優(yōu)勢(shì)越明顯。在最具挑戰(zhàn)的 BLINK-J 上，交錯(cuò)推理從 65.33% 提升到 73.33%（+8.0%），而純視覺推理反而下降 2.0%。

原因在于：?jiǎn)文B(tài)推理鏈局限于單一表示空間，而交錯(cuò)推理同時(shí)在文字和圖像空間中探索，天然產(chǎn)生更「多樣化」的推理軌跡，覆蓋更廣的解空間。

圖 11：Best-of-N 測(cè)試時(shí)擴(kuò)展對(duì)比

涌現(xiàn)屬性的進(jìn)一步驗(yàn)證

上述三個(gè)涌現(xiàn)信號(hào)是否只是個(gè)別任務(wù)上的偶然？在更廣泛的域外基準(zhǔn)上，研究團(tuán)隊(duì)進(jìn)一步驗(yàn)證了它們的穩(wěn)健性。

測(cè)試時(shí)擴(kuò)展的表現(xiàn)因任務(wù)類型而異：在推理密集型任務(wù)（如 VStar）上，性能隨采樣數(shù) N 單調(diào)提升（+5.89%@N=8）；而在感知主導(dǎo)型任務(wù)（如 BLINK-J）上呈現(xiàn) U 形曲線，需要更大的采樣量才能逃離局部最優(yōu)。

圖 12：不同任務(wù)類型的測(cè)試時(shí)擴(kuò)展趨勢(shì)

此外，當(dāng)模型被允許在不同推理模式間靈活切換時(shí)，模式多樣性本身進(jìn)一步放大了測(cè)試時(shí)擴(kuò)展的收益，為未來更高效的多模態(tài)擴(kuò)展提供了方向。

圖 13：模式多樣性對(duì)測(cè)試時(shí)擴(kuò)展的增益

邊界在哪里？

ThinkMorph 同時(shí)討論了這種推理方式的邊界條件。在圖表分析中，關(guān)鍵信息本身就是文字（標(biāo)簽、數(shù)值），純文字推理反而略優(yōu)（+1.88%）；但在需要精確視覺定位的任務(wù)上（如 MMVP），交錯(cuò)推理優(yōu)勢(shì)明顯（+6.33%）。簡(jiǎn)單說：需要持續(xù)「看」的任務(wù)，交錯(cuò)推理最優(yōu)；一眼就能提取關(guān)鍵信息的任務(wù)，文字推理更高效。

圖 14：交錯(cuò)推理的邊界條件分析

總結(jié)：原生多模態(tài)推理的未來

ThinkMorph 仍是「原生多模態(tài)推理」的一場(chǎng)初步探索，但它已經(jīng)證明，文字與圖像一旦在統(tǒng)一架構(gòu)中共同演化，就會(huì)涌現(xiàn)出訓(xùn)練數(shù)據(jù)從未覆蓋的新能力，并學(xué)會(huì)自主判斷何時(shí)該看、何時(shí)該想。

如果說當(dāng)下的推理增強(qiáng)是在語言空間里把推理擰到極致，而 ThinkMorph 暗示下一次范式級(jí)突破可能不在更長(zhǎng)的文本鏈條里，而在視覺與語言「交錯(cuò)協(xié)作」的原生推理里。跨過第一道門檻之后，等待被釋放的是一種構(gòu)建智能的全新默認(rèn)方式。讓多模態(tài)成為默認(rèn)的思考方式，而這才剛剛開始。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.