網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

CVPR 2026 生物醫(yī)學(xué) AI 趨勢梳理：從看懂影像，到接管科研工作流

2026-05-26 19:40:49　來源: AI科技評論

廣東舉報

分享至

模型正從影像識別走向高效適配、臨床語義理解與跨模態(tài)推理。

作者丨鄭佳美

編輯丨馬曉寧

醫(yī)學(xué) AI 過去很長一段時間都在回答一個問題：模型能不能看得比人更準(zhǔn)？

于是，大量研究圍繞病灶識別、器官分割、影像分類和報告生成展開，目標(biāo)是在標(biāo)準(zhǔn)數(shù)據(jù)集上取得更高指標(biāo)。但現(xiàn)在，這個問題已經(jīng)不夠了。

真實的醫(yī)學(xué)與生物科研場景并不是一個干凈、統(tǒng)一、標(biāo)注充分的 benchmark，而是由不同設(shè)備、不同協(xié)議、不同數(shù)據(jù)質(zhì)量、不同任務(wù)目標(biāo)和不同專業(yè)知識共同組成的復(fù)雜系統(tǒng)。

因此，新的研究重點開始發(fā)生轉(zhuǎn)移。一個模型是否有價值，不再只取決于它在某個數(shù)據(jù)集上的分?jǐn)?shù)，而取決于它能否在新實驗室的數(shù)據(jù)上快速適配，能否用更少標(biāo)注學(xué)到有效推理，能否把 CT、超聲、病理、報告、空間轉(zhuǎn)錄組、運動傳感器、腦活動和多視角 X-ray 等異質(zhì)信息連接起來。

也就是說，醫(yī)學(xué)與生物視覺正在從“會看圖”走向“會理解任務(wù)”，從“模型本身更大”走向“系統(tǒng)整體更有用”。

CVPR 2026 相關(guān)論文中也能看到這種趨勢：一方面，AI agent、數(shù)據(jù)篩選和輕量化適配方法正在減少人工調(diào)參、數(shù)據(jù)標(biāo)注和模型微調(diào)成本；

另一方面，三維 CT 基礎(chǔ)模型、超聲圖文預(yù)訓(xùn)練、空間轉(zhuǎn)錄組預(yù)測、IMU-視頻對齊、fMRI 視頻重建和雙視角 X-ray 推理等工作，則不斷擴展醫(yī)學(xué)視覺模型能夠處理的信息邊界。

這些研究共同指向一個方向：醫(yī)學(xué) AI 的下一步，不只是訓(xùn)練更大的模型，而是讓模型真正進入真實科研與臨床流程。

少數(shù)據(jù)、少微調(diào)、少人工

來自加州理工學(xué)院、康奈爾大學(xué)、德克薩斯大學(xué)奧斯汀分校和倫斯勒理工學(xué)院的研究團隊在《Simple Agents Outperform Experts in Biomedical Imaging Workflow Optimization》中，關(guān)注的是如何用簡單的 AI agent 自動優(yōu)化生物醫(yī)學(xué)圖像分析工作流。

研究的重點不是重新訓(xùn)練一個新模型，而是讓 agent 為已有的成熟工具自動編寫圖像預(yù)處理和后處理代碼，從而解決不同實驗室、不同成像設(shè)備、不同數(shù)據(jù)分布下工具效果下降的問題。

論文在 Polaris、Cellpose 和 MedSAM 這 3 個真實生物醫(yī)學(xué)圖像分析流程上進行了實驗，覆蓋單分子點檢測、細(xì)胞實例分割和醫(yī)學(xué)圖像分割等不同尺度任務(wù)，結(jié)果發(fā)現(xiàn)簡單的基礎(chǔ) agent 就能超過專家手寫的官方優(yōu)化方案，尤其在 MedSAM 任務(wù)上提升非常明顯。

論文地址：https://arxiv.org/pdf/2512.06006v1

研究的亮點在于，它證明了在這種工程性很強、數(shù)據(jù)量有限、目標(biāo)明確的科研工作流優(yōu)化場景中，簡單、透明、低成本的 agent 往往已經(jīng)足夠有效，復(fù)雜的 agent 架構(gòu)、專家函數(shù)庫或 AutoML 并不一定穩(wěn)定帶來收益，甚至可能因為任務(wù)差異、搜索空間偏置或小驗證集過擬合而降低效果；

同時，論文還分析了不同任務(wù)中 API 空間和參數(shù)空間的差異，解釋了為什么同一種 agent 設(shè)計在不同工具上表現(xiàn)不同。

整體來看，這項工作把 LLM agent 從泛泛的自動化概念落到了真實科研工具適配中，說明 agent 可以幫助科研人員減少大量手工調(diào)參和代碼適配工作，并有潛力成為生物醫(yī)學(xué)圖像分析工具落地應(yīng)用中的實用輔助系統(tǒng)。

在工具工作流的自動適配之外，《Towards Efficient Medical Reasoning with Minimal Fine-Tuning Data》把問題轉(zhuǎn)向醫(yī)學(xué)推理模型的訓(xùn)練數(shù)據(jù)選擇。

來自華東師范大學(xué)、穆罕默德·本·扎耶德人工智能大學(xué)、蒙納士大學(xué)和上海人工智能實驗室的研究團隊提出 DIQ，即 Difficulty-Influence Quadrant，希望用極少量微調(diào)數(shù)據(jù)提升醫(yī)學(xué)推理模型的效率。

研究指出，醫(yī)學(xué) VLM / LLM 的監(jiān)督微調(diào)通常依賴大量帶推理鏈的數(shù)據(jù)，但其中存在許多重復(fù)、低質(zhì)量或優(yōu)化價值不高的樣本，直接擴大數(shù)據(jù)規(guī)模會帶來較高計算成本，也不一定提升復(fù)雜臨床推理能力。

論文認(rèn)為，單純按“難度”選數(shù)據(jù)容易選到噪聲大、過難且難以優(yōu)化的樣本，單純按“梯度影響”選數(shù)據(jù)又容易偏向淺層、好學(xué)但推理不深的樣本，因此 DIQ 同時計算每個樣本的醫(yī)學(xué)推理難度和訓(xùn)練影響力，把樣本劃分到不同象限，并優(yōu)先選擇“高難度、高影響力”的數(shù)據(jù)，讓模型在很小數(shù)據(jù)量下也能學(xué)到有價值的臨床推理模式。

實驗顯示，在 Huatuo 和 FineMed 等醫(yī)學(xué)推理數(shù)據(jù)上，DIQ 只用 1% 選中數(shù)據(jù)就能接近甚至超過全量微調(diào)效果，用 10% 數(shù)據(jù)時整體優(yōu)于隨機選擇、困惑度選擇、相似度選擇和 LESS 等基線；同時在人類和 LLM-as-a-judge 評估中，DIQ 選出的數(shù)據(jù)在鑒別診斷、安全檢查和證據(jù)引用等方面更符合專家臨床推理習(xí)慣。

論文地址：https://arxiv.org/pdf/2508.01450v3

它的亮點在于，不是繼續(xù)堆更多醫(yī)學(xué)推理數(shù)據(jù)，而是從“樣本是否有推理價值”和“樣本是否真正推動模型優(yōu)化”兩個角度做精細(xì)篩選，說明高質(zhì)量數(shù)據(jù)選擇比粗暴擴大數(shù)據(jù)規(guī)模更有效；

同時，DIQ 的影響力計算基于一階梯度點積，避免傳統(tǒng)影響函數(shù)的高成本，難度分?jǐn)?shù)又通過醫(yī)學(xué) BiomedBERT 分類器估計，因此整體方法相對輕量、可復(fù)用。

整體來看，這項工作為醫(yī)學(xué)推理模型提供了一種更省數(shù)據(jù)、更省計算的微調(diào)方案，尤其適合醫(yī)學(xué)數(shù)據(jù)昂貴、標(biāo)注困難、但又需要模型具備可靠臨床推理能力的場景。

進一步來看，《Decoupling Vision and Language: Codebook Anchored Visual Adaptation》關(guān)注的不是訓(xùn)練數(shù)據(jù)篩選，而是視覺語言模型在特定領(lǐng)域中的輕量化適配。

亞馬遜云科技和加州大學(xué)洛杉磯分校的研究團隊提出 CRAFT，全稱是 Codebook Regulated Fine-Tuning，主要研究如何在不改動大語言模型部分的情況下，讓大型視覺語言模型更好適應(yīng)醫(yī)學(xué)圖像、細(xì)粒度分類、植物病害識別等特定視覺領(lǐng)域。

論文指出，現(xiàn)有方法通常會微調(diào)視覺編碼器、投影層或 LLM，但這樣容易造成視覺特征空間變化，需要重新對齊語言模型，甚至?xí)屇Ｐ驮诙檀鸢笖?shù)據(jù)上過擬合，損害原本的指令遵循和解釋能力；

CRAFT 的核心思路是只微調(diào)離散視覺編碼器，并把視覺特征錨定到一個固定的離散 codebook 中，讓視覺編碼器學(xué)會選擇和排列已有的“視覺詞匯”，從而向凍結(jié)的語言模型傳遞更適合目標(biāo)領(lǐng)域的視覺信息。

訓(xùn)練時，方法結(jié)合 surrogate LLM 的對齊損失、commitment loss 和對比學(xué)習(xí)損失，保證離散 token 既貼近圖像內(nèi)容，又能被語言模型理解；推理時還加入基于 token 稀有度的剪枝機制，去掉大量背景或重復(fù) token，讓模型更關(guān)注關(guān)鍵視覺區(qū)域。

實驗覆蓋 IconQA、OCRVQA、ScienceQA、VQA-RAD、EuroSAT、Flowers、Kvasir、PlantVillage、Cars、Dogs 等 10 個分類和視覺問答基準(zhǔn)，結(jié)果顯示 CRAFT 相比原始離散模型平均提升 13.51%，在最強設(shè)置下平均準(zhǔn)確率達(dá)到 68.58%，并且在推理解釋能力上比 LoRA、projector fine-tuning 和連續(xù)特征微調(diào)更穩(wěn)定。

論為地址：https://arxiv.org/pdf/2602.19449v1

它的亮點在于把“視覺適配”和“語言推理”解耦：只更新視覺編碼器，不重新訓(xùn)練或破壞 LLM，卻能讓同一個適配后的編碼器遷移到共享 codebook 的不同語言模型上；

同時，離散 codebook 起到了穩(wěn)定接口的作用，避免連續(xù)特征微調(diào)帶來的跨模態(tài)錯位。整體來看，這項工作為領(lǐng)域?qū)Ｓ?LVLM 適配提供了一種更輕量、更可復(fù)用的方法，尤其適合那些視覺分布特殊、但又不希望重新訓(xùn)練大語言模型的應(yīng)用場景。

從三維 CT 到超聲圖文理解

在《Scaling Self-Supervised and Cross-Modal Pretraining for Volumetric CT Transformers》中，荷蘭埃因霍溫理工大學(xué)電氣工程系（ARIA 實驗室、AIMS 實驗室）提出了面向三維 CT 的開放式基礎(chǔ)模型 SPECTRE。

它的目標(biāo)是學(xué)習(xí)既包含體積影像空間結(jié)構(gòu)、又包含放射科報告臨床語義的通用 CT 表征。論文關(guān)注的核心問題是：三維 CT 不同于普通二維圖像，直接使用常規(guī)視覺基礎(chǔ)模型會遇到 token 數(shù)量過大、體素各向異性、掃描范圍和層厚不一致、醫(yī)學(xué)報告監(jiān)督噪聲較強等困難。

論文地址：https://arxiv.org/pdf/2511.17209v2

為此，作者設(shè)計了“局部 ViT + 全局 ViT”的兩級純 Transformer 架構(gòu)，先在局部三維窗口中提取精細(xì)結(jié)構(gòu)特征，再在全局層面整合完整掃描信息；訓(xùn)練上則結(jié)合自監(jiān)督學(xué)習(xí)和 CT-文本跨模態(tài)對齊，讓模型同時具備幾何理解能力和臨床語義理解能力。

實驗顯示，SPECTRE 在腫瘤生物標(biāo)志物預(yù)測、器官分割和文本到 CT 檢索等任務(wù)上整體優(yōu)于多數(shù)基線，尤其在文本檢索影像任務(wù)中提升明顯。

論文的亮點在于，它不是簡單把二維視覺模型擴展到三維醫(yī)學(xué)影像，而是針對體積 CT 的計算結(jié)構(gòu)、空間特性和報告語義進行了系統(tǒng)設(shè)計；

同時，它強調(diào)使用公開數(shù)據(jù)訓(xùn)練并開源模型和代碼，降低了醫(yī)學(xué)影像基礎(chǔ)模型對私有數(shù)據(jù)的依賴。整體來看，這項工作為三維 CT 基礎(chǔ)模型提供了一個更可復(fù)現(xiàn)、更適合體積醫(yī)學(xué)影像特點的方案，也說明純 Transformer 架構(gòu)在經(jīng)過合適設(shè)計后，可以在 CT 表征學(xué)習(xí)中兼顧空間細(xì)節(jié)和臨床語義。

與 SPECTRE 面向三維 CT 的體積建模不同，《Ultrasound-CLIP: Semantic-Aware Contrastive Pre-training for Ultrasound Image-Text Understanding》把重點放在超聲這一更依賴臨床經(jīng)驗、圖像表現(xiàn)更復(fù)雜、診斷屬性更細(xì)粒度的醫(yī)學(xué)影像模態(tài)上。

來自浙大城市學(xué)院、香港浸會大學(xué)、浙江大學(xué)、浙江大學(xué)醫(yī)學(xué)院附屬婦產(chǎn)科醫(yī)院、浙江大學(xué)醫(yī)學(xué)院附屬第一醫(yī)院和香港城市大學(xué)的研究團隊提出 Ultrasound-CLIP，主要研究如何為超聲圖像構(gòu)建更適合臨床語義理解的圖文預(yù)訓(xùn)練模型。

現(xiàn)有 CLIP 或醫(yī)學(xué) VLP 模型大多偏向 CT、MRI、病理等模態(tài)，超聲數(shù)據(jù)占比很低，而且超聲報告里有很多專門的診斷屬性，比如回聲、邊界、后方聲學(xué)現(xiàn)象和血流情況，普通圖文對比學(xué)習(xí)很難準(zhǔn)確處理這些細(xì)粒度語義。

為了解決這個問題，論文先構(gòu)建了大規(guī)模超聲圖文數(shù)據(jù)集 US-365K，包含約 36.4 萬對圖像—文本樣本，覆蓋 52 個解剖類別；

論為地址：https://arxiv.org/pdf/2604.01749v1

同時提出超聲診斷分類體系 UDT，把解剖層級和 9 類診斷屬性統(tǒng)一起來，再基于這些知識設(shè)計 Ultrasound-CLIP，通過語義軟標(biāo)簽減少“相似病例被當(dāng)成完全負(fù)樣本”的問題，并用異構(gòu)圖編碼器建模病灶和診斷屬性之間的結(jié)構(gòu)關(guān)系。

實驗顯示，該方法在超聲多屬性分類、圖文檢索以及下游零樣本、線性探測和微調(diào)任務(wù)上都優(yōu)于通用 CLIP 和多種醫(yī)學(xué) CLIP 基線，例如平均分類準(zhǔn)確率達(dá)到 59.61%，明顯高于最強基線 BiomedCLIP 的 33.81%，圖像到文本檢索的 R@10 也提升到 0.3745。

這項工作的亮點在于，它不是簡單收集超聲數(shù)據(jù)后套用標(biāo)準(zhǔn) CLIP，而是把超聲影像特有的解剖層級、診斷屬性和語義相似性顯式放進訓(xùn)練目標(biāo)中，使模型更能理解超聲報告里的臨床語言；

同時，數(shù)據(jù)集、分類體系和模型框架一起提出，也為后續(xù)超聲圖文理解、檢索、輔助診斷和跨數(shù)據(jù)集泛化提供了比較系統(tǒng)的基礎(chǔ)資源。

從病理、運動到 X-ray 雙視角

《HyperST: Hierarchical Hyperbolic Learning for Spatial Transcriptomics Prediction》來自廈門大學(xué)、上海人工智能實驗室、清華大學(xué)和鵬城實驗室的合作研究，關(guān)注的是如何從病理 H&E 全切片圖像中預(yù)測空間轉(zhuǎn)錄組的基因表達(dá)。

論文提出的方法叫 HyperST，核心問題在于：現(xiàn)有方法大多只做單個 spot 圖像和基因表達(dá)之間的局部匹配，容易忽略空間轉(zhuǎn)錄組數(shù)據(jù)本身的層次結(jié)構(gòu)，例如單個 spot 與周圍組織微環(huán)境 niche 之間的關(guān)系，以及病理形態(tài)信息與更細(xì)粒度分子表達(dá)信息之間的不對稱關(guān)系。

為了解決這個問題，論文把圖像和基因表達(dá)都建模成多層級表示，一方面提取 spot 級和 niche 級的病理圖像特征與基因表達(dá)特征，另一方面把這些表示投影到雙曲空間中，通過層次化對比對齊和層次化蘊含約束，讓模型顯式學(xué)習(xí)“spot 到 niche”“圖像到基因表達(dá)”這類由粗到細(xì)、由一般到具體的結(jié)構(gòu)關(guān)系，從而得到更有分子語義的圖像表征。

實驗方面，論文在來自 HEST-1K 的腎臟、結(jié)直腸、皮膚和肺部 4 個公開空間轉(zhuǎn)錄組數(shù)據(jù)集上驗證，結(jié)果顯示 HyperST 在 PCC@10、PCC@50、PCC@200、MSE、MAE 等指標(biāo)上整體優(yōu)于 TRIPLEX、StNet、BLEEP、Stem 等方法，其中相對第二強的 TRIPLEX，在 PCC@200 上分別提升約 10.95%、3.24%、2.52% 和 16.7%；

論文還做了臨床下游驗證，用在結(jié)直腸數(shù)據(jù)上訓(xùn)練的模型對外部 TCGA-COADREAD 數(shù)據(jù)進行零樣本基因表達(dá)預(yù)測，再用于 MSI 狀態(tài)分類，HyperST 在 MSI-H 和 MSS 上的 AUROC 達(dá)到 0.719 和 0.601，也高于最強基線。

論文地址：https://arxiv.org/pdf/2511.22107

它的亮點在于沒有把空間轉(zhuǎn)錄組預(yù)測簡單看成普通圖像回歸問題，而是抓住了空間組學(xué)中天然存在的層級結(jié)構(gòu)，并用雙曲幾何來表示這種樹狀、層次化關(guān)系；

同時，它不僅利用局部 spot 圖像，還引入周圍 niche 的組織上下文，并在圖像側(cè)用病理基礎(chǔ)模型 UNI 加 LoRA 做高效適配，使模型能同時保留組織形態(tài)信息和分子表達(dá)語義；

消融實驗也支持這一設(shè)計，去掉完整的層次雙曲對齊模塊會造成 PCC@200 明顯下降，說明雙曲空間和層級約束確實是性能提升的關(guān)鍵。

整體來看，這項工作把幾何深度學(xué)習(xí)引入空間轉(zhuǎn)錄組預(yù)測，用更符合生物組織層次結(jié)構(gòu)的方式連接病理圖像和基因表達(dá)，為低成本、可擴展的空間轉(zhuǎn)錄組推斷提供了一個更穩(wěn)健的建模思路。

在《MoBind: Motion Binding for Fine-Grained IMU–Video Pose Alignment》中，阿德萊德大學(xué)澳大利亞機器學(xué)習(xí)研究所將問題聚焦在可穿戴 IMU 傳感器信號與視頻中 2D 人體姿態(tài)序列之間的細(xì)粒度對齊。

論文提出的方法叫 MoBind，目標(biāo)是學(xué)習(xí)一個統(tǒng)一的跨模態(tài)表示，使系統(tǒng)能夠完成 IMU 到視頻檢索、視頻到 IMU 檢索、時間同步、人物和身體部位定位以及人體動作識別等任務(wù)。

它的核心思路不是直接對齊原始視頻像素，而是先從視頻中提取骨架運動信息，以減少背景干擾，再把全身運動拆成不同身體部位，讓每個部位軌跡與對應(yīng)的 IMU 傳感器進行局部對齊，最后通過 token 級、局部身體部位級和全局全身級的層次化對比學(xué)習(xí)來同時保留亞秒級時間同步能力和整體動作語義。

論文在 mRi、TotalCapture 和 EgoHumans 三個多模態(tài)數(shù)據(jù)集上驗證了方法，結(jié)果顯示 MoBind 在跨模態(tài)檢索中穩(wěn)定超過 IMU2CLIP、DeSPITE、SyncNet 等基線，在時間同步任務(wù)中也明顯更強，例如在隨機引入 [-7, 7] 秒偏移的 20 秒片段上，MoBind 在 TotalCapture 和 EgoHumans 上的平均誤差分別只有 0.05 秒和 0.04 秒，并且在 200 ms 容忍范圍內(nèi)的準(zhǔn)確率達(dá)到 0.98 和 1.00。

論文地址：https://arxiv.org/pdf/2602.19004v1

這項工作的亮點在于，它針對 IMU-視頻對齊中最難的幾個問題給出了比較完整的設(shè)計：一是用骨架姿態(tài)替代原始圖像，避免模型被無關(guān)視覺背景影響；

二是顯式建模多傳感器和身體部位之間的結(jié)構(gòu)關(guān)系，不只是把所有 IMU 信號簡單拼接；三是通過層次化對比學(xué)習(xí)解決重復(fù)動作、相位偏移和短時間錯位帶來的細(xì)粒度同步困難；四是加入 Masked Token Prediction 輔助任務(wù)，避免模型只關(guān)注局部同步而丟失動作類別語義。

整體來看，它把可穿戴傳感器和視頻人體運動之間的對應(yīng)關(guān)系做得更細(xì)、更穩(wěn)，不僅能用于無需人工校準(zhǔn)的多模態(tài)時間同步，也能用于多人物場景下判斷哪個人佩戴了哪個傳感器、傳感器位于哪個身體部位，并且在傳感器缺失時仍保持較強魯棒性，因而對運動分析、康復(fù)監(jiān)測、體育訓(xùn)練和多模態(tài)數(shù)據(jù)采集都有較直接的應(yīng)用意義。

從可穿戴傳感器和視頻之間的運動對齊繼續(xù)延伸，《SemVideo: Reconstructs What You Watch from Brain Activity via Hierarchical Semantic Guidance》進一步研究腦活動與視覺內(nèi)容之間的映射關(guān)系。

北京郵電大學(xué)和薩里大學(xué)的研究團隊提出 SemVideo，嘗試從人觀看視頻時記錄到的 fMRI 腦活動中重建其看到的動態(tài)視覺內(nèi)容。

它的核心目標(biāo)是解決現(xiàn)有 fMRI 到視頻重建方法中常見的兩個問題：一是跨幀主體外觀不穩(wěn)定，導(dǎo)致同一個物體在生成視頻里前后不一致；二是時間連續(xù)性差，容易出現(xiàn)動作錯位或幀間突變。

論文的思路不是直接讓腦信號恢復(fù)每一幀像素，而是先用 SemMiner 從原始視頻中挖掘三層語義信息，包括第一幀靜態(tài)錨點描述、面向動作的運動敘事和整體視頻摘要，再讓 SemVideo 通過語義對齊解碼器 SAD 將 fMRI 信號對齊到這些語義嵌入，通過運動適配解碼器 MAD 建模動態(tài)運動潛變量，最后用條件視頻渲染模塊把語義和運動信息融合生成視頻。

實驗在 CC2017 和 HCP 7T 兩個公開 fMRI-video 數(shù)據(jù)集上進行，論文稱方法在語義、像素和時空三個層面的 10 個指標(biāo)中的 8 個達(dá)到最好結(jié)果；在 CC2017 上，SemVideo 的 2-way-V、50-way-V、CLIP 和 EPE 分別達(dá)到 0.865、0.264、0.526 和 4.788，說明它不僅更能恢復(fù)視頻中的語義對象，也能更好保持動作和時序一致性。

論文地址：https://arxiv.org/pdf/2602.21819v2

它的亮點在于把“人腦看視頻時更偏向關(guān)鍵語義和動作記憶，而不是逐像素逐幀處理”的認(rèn)知假設(shè)轉(zhuǎn)化成可訓(xùn)練框架，用多層級語義作為中間監(jiān)督來彌補 fMRI 時間分辨率低、語義稀疏的問題；

同時，論文通過消融實驗證明三類語義提示都很重要，其中去掉運動敘事 Cmotion 會明顯損害像素級和時空指標(biāo)，去掉 MAD 后幀序?qū)R能力大幅下降，說明運動提升不是單純來自文本到視頻模型的先驗，而是確實從腦信號和運動語義中解碼出來的。

另一個有價值的點是，作者還做了腦區(qū)重要性可視化，發(fā)現(xiàn)錨點語義更依賴高級視覺皮層，運動語義與 MT、MST、TPOJ 等運動相關(guān)腦區(qū)更匹配，整體語義則分布在視覺和運動相關(guān)區(qū)域，這讓方法不僅是一個生成模型，也提供了一定的神經(jīng)科學(xué)可解釋性。

整體來看，這項工作把 fMRI 視頻重建從“生成看起來像的視頻”推進到“同時保持對象語義、動作軌跡和時間連貫性”的方向，為未來基于腦活動重建動態(tài)視覺體驗提供了一個更結(jié)構(gòu)化、更可解釋的框架。

如果說 MoBind 和 SemVideo 都是在時間序列層面做跨模態(tài)對齊，那么《Can a Second-View Image Be a Language? Geometric and Semantic Cross-Modal Reasoning for X-ray Prohibited Item Detection》則把跨模態(tài)思想用于空間幾何推理，尤其是安檢 X-ray 場景中的雙視角理解。

來自北京交通大學(xué)信息科學(xué)研究所和北京航空航天大學(xué)復(fù)雜與關(guān)鍵軟件環(huán)境國家重點實驗室的研究團隊關(guān)注安檢場景中的 X-ray 違禁品檢測，核心問題是：現(xiàn)實安檢人員通常會同時觀察俯視和側(cè)視兩張 X-ray 圖像來判斷物體結(jié)構(gòu)、遮擋關(guān)系和空間位置，但現(xiàn)有視覺語言模型多依賴單視角圖像或文本提示，缺乏對“雙視角幾何一致性”的顯式推理；

因此論文提出一個很有意思的觀點——第二視角圖像能否像語言一樣，為模型提供額外約束。圍繞這個問題，作者構(gòu)建了 DualXrayBench，這是一個結(jié)合雙視角圖像和多模態(tài)標(biāo)注的基準(zhǔn)，包含 45,613 對雙視角圖像、12 類違禁物品，以及 1,594 個專家驗證的視覺問答樣本，用來測試計數(shù)、識別、遮擋、空間關(guān)系、擺放屬性等 8 類跨視角推理能力。

方法上，論文提出 GSR，即 Geometric-Semantic Reasoner，基于 Qwen3-VL-MoE-8B 構(gòu)建，通過視覺編碼器、特征對齊模塊和語言推理模塊，把俯視圖、側(cè)視圖和文本問題統(tǒng)一到一個推理流程中，并進一步構(gòu)建 GSXray 數(shù)據(jù)集，將推理過程組織成、、這樣的結(jié)構(gòu)化 Chain-of-Thought，讓模型先分別理解兩個視角，再綜合得出結(jié)論。

實驗結(jié)果顯示，GSR-8B 在 DualXrayBench 上取得 65.4 的準(zhǔn)確率、70.6 的 F1 和 52.3 的 mIoU，明顯超過 GPT-4o、Gemini-2.5-Pro、Qwen3-VL-235B 等通用模型，也優(yōu)于單視角 X-ray 視覺語言模型；

消融實驗還表明，單純加入第二視角并不一定足夠，只有把雙視角信息和結(jié)構(gòu)化推理標(biāo)簽結(jié)合起來，才能穩(wěn)定提升幾何對齊、遮擋判斷和空間關(guān)系理解能力。

論文地址：https://arxiv.org/pdf/2511.18385v1

它的亮點在于，不只是把兩張圖簡單拼接做多模態(tài)輸入，而是把第二視角當(dāng)成一種“類語言模態(tài)”，用來約束和補充主視角中的不確定信息；

同時，論文同時貢獻了數(shù)據(jù)集、評測任務(wù)和模型框架，為安檢 X-ray 場景中更接近人工檢查流程的跨視角推理提供了系統(tǒng)方案。

整體來看，這項工作把視覺語言模型從單圖像語義理解推進到雙視角幾何—語義聯(lián)合推理，對于復(fù)雜遮擋、相似物體區(qū)分和未知違禁品泛化都有較強的應(yīng)用意義。

這次去 CVPR 現(xiàn)場，一定不要錯過

【認(rèn)識大牛+賺外快】的機會

需要你做什么：把你最關(guān)注的10個大會報告，每頁PPT都拍下來

你能獲得什么？

認(rèn)識大牛：你將可以進入CVPR名師博士社群；

錢多活少：提供豐厚獎金，任務(wù)量精簡；

聽會自由：你的行程你做主，順手就把外快賺。拍下你最感興趣的10個報告PPT即可。

如果你即將前往CVPR，想邊聽會邊賺錢，還能順便為AI學(xué)術(shù)社區(qū)做貢獻、認(rèn)識更多大牛，歡迎聯(lián)系我們：[添加微信號:MS_Yahei]

【限額5位，先到先得】

未經(jīng)「AI科技評論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載！

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán)，轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.