![]()
模型正從影像識別走向高效適配、臨床語義理解與跨模態(tài)推理。
作者丨鄭佳美
編輯丨馬曉寧
醫(yī)學(xué) AI 過去很長一段時間都在回答一個問題:模型能不能看得比人更準(zhǔn)?
于是,大量研究圍繞病灶識別、器官分割、影像分類和報告生成展開,目標(biāo)是在標(biāo)準(zhǔn)數(shù)據(jù)集上取得更高指標(biāo)。但現(xiàn)在,這個問題已經(jīng)不夠了。
真實的醫(yī)學(xué)與生物科研場景并不是一個干凈、統(tǒng)一、標(biāo)注充分的 benchmark,而是由不同設(shè)備、不同協(xié)議、不同數(shù)據(jù)質(zhì)量、不同任務(wù)目標(biāo)和不同專業(yè)知識共同組成的復(fù)雜系統(tǒng)。
因此,新的研究重點開始發(fā)生轉(zhuǎn)移。一個模型是否有價值,不再只取決于它在某個數(shù)據(jù)集上的分?jǐn)?shù),而取決于它能否在新實驗室的數(shù)據(jù)上快速適配,能否用更少標(biāo)注學(xué)到有效推理,能否把 CT、超聲、病理、報告、空間轉(zhuǎn)錄組、運動傳感器、腦活動和多視角 X-ray 等異質(zhì)信息連接起來。
也就是說,醫(yī)學(xué)與生物視覺正在從“會看圖”走向“會理解任務(wù)”,從“模型本身更大”走向“系統(tǒng)整體更有用”。
CVPR 2026 相關(guān)論文中也能看到這種趨勢:一方面,AI agent、數(shù)據(jù)篩選和輕量化適配方法正在減少人工調(diào)參、數(shù)據(jù)標(biāo)注和模型微調(diào)成本;
另一方面,三維 CT 基礎(chǔ)模型、超聲圖文預(yù)訓(xùn)練、空間轉(zhuǎn)錄組預(yù)測、IMU-視頻對齊、fMRI 視頻重建和雙視角 X-ray 推理等工作,則不斷擴展醫(yī)學(xué)視覺模型能夠處理的信息邊界。
這些研究共同指向一個方向:醫(yī)學(xué) AI 的下一步,不只是訓(xùn)練更大的模型,而是讓模型真正進入真實科研與臨床流程。
01
少數(shù)據(jù)、少微調(diào)、少人工
來自加州理工學(xué)院、康奈爾大學(xué)、德克薩斯大學(xué)奧斯汀分校和倫斯勒理工學(xué)院的研究團隊在《Simple Agents Outperform Experts in Biomedical Imaging Workflow Optimization》中,關(guān)注的是如何用簡單的 AI agent 自動優(yōu)化生物醫(yī)學(xué)圖像分析工作流。
研究的重點不是重新訓(xùn)練一個新模型,而是讓 agent 為已有的成熟工具自動編寫圖像預(yù)處理和后處理代碼,從而解決不同實驗室、不同成像設(shè)備、不同數(shù)據(jù)分布下工具效果下降的問題。
論文在 Polaris、Cellpose 和 MedSAM 這 3 個真實生物醫(yī)學(xué)圖像分析流程上進行了實驗,覆蓋單分子點檢測、細(xì)胞實例分割和醫(yī)學(xué)圖像分割等不同尺度任務(wù),結(jié)果發(fā)現(xiàn)簡單的基礎(chǔ) agent 就能超過專家手寫的官方優(yōu)化方案,尤其在 MedSAM 任務(wù)上提升非常明顯。
![]()
論文地址:https://arxiv.org/pdf/2512.06006v1
研究的亮點在于,它證明了在這種工程性很強、數(shù)據(jù)量有限、目標(biāo)明確的科研工作流優(yōu)化場景中,簡單、透明、低成本的 agent 往往已經(jīng)足夠有效,復(fù)雜的 agent 架構(gòu)、專家函數(shù)庫或 AutoML 并不一定穩(wěn)定帶來收益,甚至可能因為任務(wù)差異、搜索空間偏置或小驗證集過擬合而降低效果;
同時,論文還分析了不同任務(wù)中 API 空間和參數(shù)空間的差異,解釋了為什么同一種 agent 設(shè)計在不同工具上表現(xiàn)不同。
整體來看,這項工作把 LLM agent 從泛泛的自動化概念落到了真實科研工具適配中,說明 agent 可以幫助科研人員減少大量手工調(diào)參和代碼適配工作,并有潛力成為生物醫(yī)學(xué)圖像分析工具落地應(yīng)用中的實用輔助系統(tǒng)。
![]()
在工具工作流的自動適配之外,《Towards Efficient Medical Reasoning with Minimal Fine-Tuning Data》把問題轉(zhuǎn)向醫(yī)學(xué)推理模型的訓(xùn)練數(shù)據(jù)選擇。
來自華東師范大學(xué)、穆罕默德·本·扎耶德人工智能大學(xué)、蒙納士大學(xué)和上海人工智能實驗室的研究團隊提出 DIQ,即 Difficulty-Influence Quadrant,希望用極少量微調(diào)數(shù)據(jù)提升醫(yī)學(xué)推理模型的效率。
研究指出,醫(yī)學(xué) VLM / LLM 的監(jiān)督微調(diào)通常依賴大量帶推理鏈的數(shù)據(jù),但其中存在許多重復(fù)、低質(zhì)量或優(yōu)化價值不高的樣本,直接擴大數(shù)據(jù)規(guī)模會帶來較高計算成本,也不一定提升復(fù)雜臨床推理能力。
論文認(rèn)為,單純按“難度”選數(shù)據(jù)容易選到噪聲大、過難且難以優(yōu)化的樣本,單純按“梯度影響”選數(shù)據(jù)又容易偏向淺層、好學(xué)但推理不深的樣本,因此 DIQ 同時計算每個樣本的醫(yī)學(xué)推理難度和訓(xùn)練影響力,把樣本劃分到不同象限,并優(yōu)先選擇“高難度、高影響力”的數(shù)據(jù),讓模型在很小數(shù)據(jù)量下也能學(xué)到有價值的臨床推理模式。
實驗顯示,在 Huatuo 和 FineMed 等醫(yī)學(xué)推理數(shù)據(jù)上,DIQ 只用 1% 選中數(shù)據(jù)就能接近甚至超過全量微調(diào)效果,用 10% 數(shù)據(jù)時整體優(yōu)于隨機選擇、困惑度選擇、相似度選擇和 LESS 等基線;同時在人類和 LLM-as-a-judge 評估中,DIQ 選出的數(shù)據(jù)在鑒別診斷、安全檢查和證據(jù)引用等方面更符合專家臨床推理習(xí)慣。
![]()
論文地址:https://arxiv.org/pdf/2508.01450v3
它的亮點在于,不是繼續(xù)堆更多醫(yī)學(xué)推理數(shù)據(jù),而是從“樣本是否有推理價值”和“樣本是否真正推動模型優(yōu)化”兩個角度做精細(xì)篩選,說明高質(zhì)量數(shù)據(jù)選擇比粗暴擴大數(shù)據(jù)規(guī)模更有效;
同時,DIQ 的影響力計算基于一階梯度點積,避免傳統(tǒng)影響函數(shù)的高成本,難度分?jǐn)?shù)又通過醫(yī)學(xué) BiomedBERT 分類器估計,因此整體方法相對輕量、可復(fù)用。
整體來看,這項工作為醫(yī)學(xué)推理模型提供了一種更省數(shù)據(jù)、更省計算的微調(diào)方案,尤其適合醫(yī)學(xué)數(shù)據(jù)昂貴、標(biāo)注困難、但又需要模型具備可靠臨床推理能力的場景。
![]()
進一步來看,《Decoupling Vision and Language: Codebook Anchored Visual Adaptation》關(guān)注的不是訓(xùn)練數(shù)據(jù)篩選,而是視覺語言模型在特定領(lǐng)域中的輕量化適配。
亞馬遜云科技和加州大學(xué)洛杉磯分校的研究團隊提出 CRAFT,全稱是 Codebook Regulated Fine-Tuning,主要研究如何在不改動大語言模型部分的情況下,讓大型視覺語言模型更好適應(yīng)醫(yī)學(xué)圖像、細(xì)粒度分類、植物病害識別等特定視覺領(lǐng)域。
論文指出,現(xiàn)有方法通常會微調(diào)視覺編碼器、投影層或 LLM,但這樣容易造成視覺特征空間變化,需要重新對齊語言模型,甚至?xí)屇P驮诙檀鸢笖?shù)據(jù)上過擬合,損害原本的指令遵循和解釋能力;
CRAFT 的核心思路是只微調(diào)離散視覺編碼器,并把視覺特征錨定到一個固定的離散 codebook 中,讓視覺編碼器學(xué)會選擇和排列已有的“視覺詞匯”,從而向凍結(jié)的語言模型傳遞更適合目標(biāo)領(lǐng)域的視覺信息。
訓(xùn)練時,方法結(jié)合 surrogate LLM 的對齊損失、commitment loss 和對比學(xué)習(xí)損失,保證離散 token 既貼近圖像內(nèi)容,又能被語言模型理解;推理時還加入基于 token 稀有度的剪枝機制,去掉大量背景或重復(fù) token,讓模型更關(guān)注關(guān)鍵視覺區(qū)域。
實驗覆蓋 IconQA、OCRVQA、ScienceQA、VQA-RAD、EuroSAT、Flowers、Kvasir、PlantVillage、Cars、Dogs 等 10 個分類和視覺問答基準(zhǔn),結(jié)果顯示 CRAFT 相比原始離散模型平均提升 13.51%,在最強設(shè)置下平均準(zhǔn)確率達(dá)到 68.58%,并且在推理解釋能力上比 LoRA、projector fine-tuning 和連續(xù)特征微調(diào)更穩(wěn)定。
![]()
論為地址:https://arxiv.org/pdf/2602.19449v1
它的亮點在于把“視覺適配”和“語言推理”解耦:只更新視覺編碼器,不重新訓(xùn)練或破壞 LLM,卻能讓同一個適配后的編碼器遷移到共享 codebook 的不同語言模型上;
同時,離散 codebook 起到了穩(wěn)定接口的作用,避免連續(xù)特征微調(diào)帶來的跨模態(tài)錯位。整體來看,這項工作為領(lǐng)域?qū)S?LVLM 適配提供了一種更輕量、更可復(fù)用的方法,尤其適合那些視覺分布特殊、但又不希望重新訓(xùn)練大語言模型的應(yīng)用場景。
![]()
02
從三維 CT 到超聲圖文理解
在《Scaling Self-Supervised and Cross-Modal Pretraining for Volumetric CT Transformers》中,荷蘭埃因霍溫理工大學(xué)電氣工程系(ARIA 實驗室、AIMS 實驗室)提出了面向三維 CT 的開放式基礎(chǔ)模型 SPECTRE。
它的目標(biāo)是學(xué)習(xí)既包含體積影像空間結(jié)構(gòu)、又包含放射科報告臨床語義的通用 CT 表征。論文關(guān)注的核心問題是:三維 CT 不同于普通二維圖像,直接使用常規(guī)視覺基礎(chǔ)模型會遇到 token 數(shù)量過大、體素各向異性、掃描范圍和層厚不一致、醫(yī)學(xué)報告監(jiān)督噪聲較強等困難。
![]()
論文地址:https://arxiv.org/pdf/2511.17209v2
為此,作者設(shè)計了“局部 ViT + 全局 ViT”的兩級純 Transformer 架構(gòu),先在局部三維窗口中提取精細(xì)結(jié)構(gòu)特征,再在全局層面整合完整掃描信息;訓(xùn)練上則結(jié)合自監(jiān)督學(xué)習(xí)和 CT-文本跨模態(tài)對齊,讓模型同時具備幾何理解能力和臨床語義理解能力。
實驗顯示,SPECTRE 在腫瘤生物標(biāo)志物預(yù)測、器官分割和文本到 CT 檢索等任務(wù)上整體優(yōu)于多數(shù)基線,尤其在文本檢索影像任務(wù)中提升明顯。
論文的亮點在于,它不是簡單把二維視覺模型擴展到三維醫(yī)學(xué)影像,而是針對體積 CT 的計算結(jié)構(gòu)、空間特性和報告語義進行了系統(tǒng)設(shè)計;
同時,它強調(diào)使用公開數(shù)據(jù)訓(xùn)練并開源模型和代碼,降低了醫(yī)學(xué)影像基礎(chǔ)模型對私有數(shù)據(jù)的依賴。整體來看,這項工作為三維 CT 基礎(chǔ)模型提供了一個更可復(fù)現(xiàn)、更適合體積醫(yī)學(xué)影像特點的方案,也說明純 Transformer 架構(gòu)在經(jīng)過合適設(shè)計后,可以在 CT 表征學(xué)習(xí)中兼顧空間細(xì)節(jié)和臨床語義。
![]()
與 SPECTRE 面向三維 CT 的體積建模不同,《Ultrasound-CLIP: Semantic-Aware Contrastive Pre-training for Ultrasound Image-Text Understanding》把重點放在超聲這一更依賴臨床經(jīng)驗、圖像表現(xiàn)更復(fù)雜、診斷屬性更細(xì)粒度的醫(yī)學(xué)影像模態(tài)上。
來自浙大城市學(xué)院、香港浸會大學(xué)、浙江大學(xué)、浙江大學(xué)醫(yī)學(xué)院附屬婦產(chǎn)科醫(yī)院、浙江大學(xué)醫(yī)學(xué)院附屬第一醫(yī)院和香港城市大學(xué)的研究團隊提出 Ultrasound-CLIP,主要研究如何為超聲圖像構(gòu)建更適合臨床語義理解的圖文預(yù)訓(xùn)練模型。
現(xiàn)有 CLIP 或醫(yī)學(xué) VLP 模型大多偏向 CT、MRI、病理等模態(tài),超聲數(shù)據(jù)占比很低,而且超聲報告里有很多專門的診斷屬性,比如回聲、邊界、后方聲學(xué)現(xiàn)象和血流情況,普通圖文對比學(xué)習(xí)很難準(zhǔn)確處理這些細(xì)粒度語義。
為了解決這個問題,論文先構(gòu)建了大規(guī)模超聲圖文數(shù)據(jù)集 US-365K,包含約 36.4 萬對圖像—文本樣本,覆蓋 52 個解剖類別;
![]()
論為地址:https://arxiv.org/pdf/2604.01749v1
同時提出超聲診斷分類體系 UDT,把解剖層級和 9 類診斷屬性統(tǒng)一起來,再基于這些知識設(shè)計 Ultrasound-CLIP,通過語義軟標(biāo)簽減少“相似病例被當(dāng)成完全負(fù)樣本”的問題,并用異構(gòu)圖編碼器建模病灶和診斷屬性之間的結(jié)構(gòu)關(guān)系。
實驗顯示,該方法在超聲多屬性分類、圖文檢索以及下游零樣本、線性探測和微調(diào)任務(wù)上都優(yōu)于通用 CLIP 和多種醫(yī)學(xué) CLIP 基線,例如平均分類準(zhǔn)確率達(dá)到 59.61%,明顯高于最強基線 BiomedCLIP 的 33.81%,圖像到文本檢索的 R@10 也提升到 0.3745。
這項工作的亮點在于,它不是簡單收集超聲數(shù)據(jù)后套用標(biāo)準(zhǔn) CLIP,而是把超聲影像特有的解剖層級、診斷屬性和語義相似性顯式放進訓(xùn)練目標(biāo)中,使模型更能理解超聲報告里的臨床語言;
同時,數(shù)據(jù)集、分類體系和模型框架一起提出,也為后續(xù)超聲圖文理解、檢索、輔助診斷和跨數(shù)據(jù)集泛化提供了比較系統(tǒng)的基礎(chǔ)資源。
![]()
03
從病理、運動到 X-ray 雙視角
《HyperST: Hierarchical Hyperbolic Learning for Spatial Transcriptomics Prediction》來自廈門大學(xué)、上海人工智能實驗室、清華大學(xué)和鵬城實驗室的合作研究,關(guān)注的是如何從病理 H&E 全切片圖像中預(yù)測空間轉(zhuǎn)錄組的基因表達(dá)。
論文提出的方法叫 HyperST,核心問題在于:現(xiàn)有方法大多只做單個 spot 圖像和基因表達(dá)之間的局部匹配,容易忽略空間轉(zhuǎn)錄組數(shù)據(jù)本身的層次結(jié)構(gòu),例如單個 spot 與周圍組織微環(huán)境 niche 之間的關(guān)系,以及病理形態(tài)信息與更細(xì)粒度分子表達(dá)信息之間的不對稱關(guān)系。
為了解決這個問題,論文把圖像和基因表達(dá)都建模成多層級表示,一方面提取 spot 級和 niche 級的病理圖像特征與基因表達(dá)特征,另一方面把這些表示投影到雙曲空間中,通過層次化對比對齊和層次化蘊含約束,讓模型顯式學(xué)習(xí)“spot 到 niche”“圖像到基因表達(dá)”這類由粗到細(xì)、由一般到具體的結(jié)構(gòu)關(guān)系,從而得到更有分子語義的圖像表征。
實驗方面,論文在來自 HEST-1K 的腎臟、結(jié)直腸、皮膚和肺部 4 個公開空間轉(zhuǎn)錄組數(shù)據(jù)集上驗證,結(jié)果顯示 HyperST 在 PCC@10、PCC@50、PCC@200、MSE、MAE 等指標(biāo)上整體優(yōu)于 TRIPLEX、StNet、BLEEP、Stem 等方法,其中相對第二強的 TRIPLEX,在 PCC@200 上分別提升約 10.95%、3.24%、2.52% 和 16.7%;
論文還做了臨床下游驗證,用在結(jié)直腸數(shù)據(jù)上訓(xùn)練的模型對外部 TCGA-COADREAD 數(shù)據(jù)進行零樣本基因表達(dá)預(yù)測,再用于 MSI 狀態(tài)分類,HyperST 在 MSI-H 和 MSS 上的 AUROC 達(dá)到 0.719 和 0.601,也高于最強基線。
![]()
論文地址:https://arxiv.org/pdf/2511.22107
它的亮點在于沒有把空間轉(zhuǎn)錄組預(yù)測簡單看成普通圖像回歸問題,而是抓住了空間組學(xué)中天然存在的層級結(jié)構(gòu),并用雙曲幾何來表示這種樹狀、層次化關(guān)系;
同時,它不僅利用局部 spot 圖像,還引入周圍 niche 的組織上下文,并在圖像側(cè)用病理基礎(chǔ)模型 UNI 加 LoRA 做高效適配,使模型能同時保留組織形態(tài)信息和分子表達(dá)語義;
消融實驗也支持這一設(shè)計,去掉完整的層次雙曲對齊模塊會造成 PCC@200 明顯下降,說明雙曲空間和層級約束確實是性能提升的關(guān)鍵。
整體來看,這項工作把幾何深度學(xué)習(xí)引入空間轉(zhuǎn)錄組預(yù)測,用更符合生物組織層次結(jié)構(gòu)的方式連接病理圖像和基因表達(dá),為低成本、可擴展的空間轉(zhuǎn)錄組推斷提供了一個更穩(wěn)健的建模思路。
![]()
在《MoBind: Motion Binding for Fine-Grained IMU–Video Pose Alignment》中,阿德萊德大學(xué)澳大利亞機器學(xué)習(xí)研究所將問題聚焦在可穿戴 IMU 傳感器信號與視頻中 2D 人體姿態(tài)序列之間的細(xì)粒度對齊。
論文提出的方法叫 MoBind,目標(biāo)是學(xué)習(xí)一個統(tǒng)一的跨模態(tài)表示,使系統(tǒng)能夠完成 IMU 到視頻檢索、視頻到 IMU 檢索、時間同步、人物和身體部位定位以及人體動作識別等任務(wù)。
它的核心思路不是直接對齊原始視頻像素,而是先從視頻中提取骨架運動信息,以減少背景干擾,再把全身運動拆成不同身體部位,讓每個部位軌跡與對應(yīng)的 IMU 傳感器進行局部對齊,最后通過 token 級、局部身體部位級和全局全身級的層次化對比學(xué)習(xí)來同時保留亞秒級時間同步能力和整體動作語義。
論文在 mRi、TotalCapture 和 EgoHumans 三個多模態(tài)數(shù)據(jù)集上驗證了方法,結(jié)果顯示 MoBind 在跨模態(tài)檢索中穩(wěn)定超過 IMU2CLIP、DeSPITE、SyncNet 等基線,在時間同步任務(wù)中也明顯更強,例如在隨機引入 [-7, 7] 秒偏移的 20 秒片段上,MoBind 在 TotalCapture 和 EgoHumans 上的平均誤差分別只有 0.05 秒和 0.04 秒,并且在 200 ms 容忍范圍內(nèi)的準(zhǔn)確率達(dá)到 0.98 和 1.00。
![]()
論文地址:https://arxiv.org/pdf/2602.19004v1
這項工作的亮點在于,它針對 IMU-視頻對齊中最難的幾個問題給出了比較完整的設(shè)計:一是用骨架姿態(tài)替代原始圖像,避免模型被無關(guān)視覺背景影響;
二是顯式建模多傳感器和身體部位之間的結(jié)構(gòu)關(guān)系,不只是把所有 IMU 信號簡單拼接;三是通過層次化對比學(xué)習(xí)解決重復(fù)動作、相位偏移和短時間錯位帶來的細(xì)粒度同步困難;四是加入 Masked Token Prediction 輔助任務(wù),避免模型只關(guān)注局部同步而丟失動作類別語義。
整體來看,它把可穿戴傳感器和視頻人體運動之間的對應(yīng)關(guān)系做得更細(xì)、更穩(wěn),不僅能用于無需人工校準(zhǔn)的多模態(tài)時間同步,也能用于多人物場景下判斷哪個人佩戴了哪個傳感器、傳感器位于哪個身體部位,并且在傳感器缺失時仍保持較強魯棒性,因而對運動分析、康復(fù)監(jiān)測、體育訓(xùn)練和多模態(tài)數(shù)據(jù)采集都有較直接的應(yīng)用意義。
![]()
從可穿戴傳感器和視頻之間的運動對齊繼續(xù)延伸,《SemVideo: Reconstructs What You Watch from Brain Activity via Hierarchical Semantic Guidance》進一步研究腦活動與視覺內(nèi)容之間的映射關(guān)系。
北京郵電大學(xué)和薩里大學(xué)的研究團隊提出 SemVideo,嘗試從人觀看視頻時記錄到的 fMRI 腦活動中重建其看到的動態(tài)視覺內(nèi)容。
它的核心目標(biāo)是解決現(xiàn)有 fMRI 到視頻重建方法中常見的兩個問題:一是跨幀主體外觀不穩(wěn)定,導(dǎo)致同一個物體在生成視頻里前后不一致;二是時間連續(xù)性差,容易出現(xiàn)動作錯位或幀間突變。
論文的思路不是直接讓腦信號恢復(fù)每一幀像素,而是先用 SemMiner 從原始視頻中挖掘三層語義信息,包括第一幀靜態(tài)錨點描述、面向動作的運動敘事和整體視頻摘要,再讓 SemVideo 通過語義對齊解碼器 SAD 將 fMRI 信號對齊到這些語義嵌入,通過運動適配解碼器 MAD 建模動態(tài)運動潛變量,最后用條件視頻渲染模塊把語義和運動信息融合生成視頻。
實驗在 CC2017 和 HCP 7T 兩個公開 fMRI-video 數(shù)據(jù)集上進行,論文稱方法在語義、像素和時空三個層面的 10 個指標(biāo)中的 8 個達(dá)到最好結(jié)果;在 CC2017 上,SemVideo 的 2-way-V、50-way-V、CLIP 和 EPE 分別達(dá)到 0.865、0.264、0.526 和 4.788,說明它不僅更能恢復(fù)視頻中的語義對象,也能更好保持動作和時序一致性。
![]()
論文地址:https://arxiv.org/pdf/2602.21819v2
它的亮點在于把“人腦看視頻時更偏向關(guān)鍵語義和動作記憶,而不是逐像素逐幀處理”的認(rèn)知假設(shè)轉(zhuǎn)化成可訓(xùn)練框架,用多層級語義作為中間監(jiān)督來彌補 fMRI 時間分辨率低、語義稀疏的問題;
同時,論文通過消融實驗證明三類語義提示都很重要,其中去掉運動敘事 Cmotion 會明顯損害像素級和時空指標(biāo),去掉 MAD 后幀序?qū)R能力大幅下降,說明運動提升不是單純來自文本到視頻模型的先驗,而是確實從腦信號和運動語義中解碼出來的。
另一個有價值的點是,作者還做了腦區(qū)重要性可視化,發(fā)現(xiàn)錨點語義更依賴高級視覺皮層,運動語義與 MT、MST、TPOJ 等運動相關(guān)腦區(qū)更匹配,整體語義則分布在視覺和運動相關(guān)區(qū)域,這讓方法不僅是一個生成模型,也提供了一定的神經(jīng)科學(xué)可解釋性。
整體來看,這項工作把 fMRI 視頻重建從“生成看起來像的視頻”推進到“同時保持對象語義、動作軌跡和時間連貫性”的方向,為未來基于腦活動重建動態(tài)視覺體驗提供了一個更結(jié)構(gòu)化、更可解釋的框架。
![]()
如果說 MoBind 和 SemVideo 都是在時間序列層面做跨模態(tài)對齊,那么《Can a Second-View Image Be a Language? Geometric and Semantic Cross-Modal Reasoning for X-ray Prohibited Item Detection》則把跨模態(tài)思想用于空間幾何推理,尤其是安檢 X-ray 場景中的雙視角理解。
來自北京交通大學(xué)信息科學(xué)研究所和北京航空航天大學(xué)復(fù)雜與關(guān)鍵軟件環(huán)境國家重點實驗室的研究團隊關(guān)注安檢場景中的 X-ray 違禁品檢測,核心問題是:現(xiàn)實安檢人員通常會同時觀察俯視和側(cè)視兩張 X-ray 圖像來判斷物體結(jié)構(gòu)、遮擋關(guān)系和空間位置,但現(xiàn)有視覺語言模型多依賴單視角圖像或文本提示,缺乏對“雙視角幾何一致性”的顯式推理;
因此論文提出一個很有意思的觀點——第二視角圖像能否像語言一樣,為模型提供額外約束。圍繞這個問題,作者構(gòu)建了 DualXrayBench,這是一個結(jié)合雙視角圖像和多模態(tài)標(biāo)注的基準(zhǔn),包含 45,613 對雙視角圖像、12 類違禁物品,以及 1,594 個專家驗證的視覺問答樣本,用來測試計數(shù)、識別、遮擋、空間關(guān)系、擺放屬性等 8 類跨視角推理能力。
方法上,論文提出 GSR,即 Geometric-Semantic Reasoner,基于 Qwen3-VL-MoE-8B 構(gòu)建,通過視覺編碼器、特征對齊模塊和語言推理模塊,把俯視圖、側(cè)視圖和文本問題統(tǒng)一到一個推理流程中,并進一步構(gòu)建 GSXray 數(shù)據(jù)集,將推理過程組織成 、 、 這樣的結(jié)構(gòu)化 Chain-of-Thought,讓模型先分別理解兩個視角,再綜合得出結(jié)論。
實驗結(jié)果顯示,GSR-8B 在 DualXrayBench 上取得 65.4 的準(zhǔn)確率、70.6 的 F1 和 52.3 的 mIoU,明顯超過 GPT-4o、Gemini-2.5-Pro、Qwen3-VL-235B 等通用模型,也優(yōu)于單視角 X-ray 視覺語言模型;
消融實驗還表明,單純加入第二視角并不一定足夠,只有把雙視角信息和結(jié)構(gòu)化推理標(biāo)簽結(jié)合起來,才能穩(wěn)定提升幾何對齊、遮擋判斷和空間關(guān)系理解能力。
![]()
論文地址:https://arxiv.org/pdf/2511.18385v1
它的亮點在于,不只是把兩張圖簡單拼接做多模態(tài)輸入,而是把第二視角當(dāng)成一種“類語言模態(tài)”,用來約束和補充主視角中的不確定信息;
同時,論文同時貢獻了數(shù)據(jù)集、評測任務(wù)和模型框架,為安檢 X-ray 場景中更接近人工檢查流程的跨視角推理提供了系統(tǒng)方案。
整體來看,這項工作把視覺語言模型從單圖像語義理解推進到雙視角幾何—語義聯(lián)合推理,對于復(fù)雜遮擋、相似物體區(qū)分和未知違禁品泛化都有較強的應(yīng)用意義。
![]()
這次去 CVPR 現(xiàn)場,一定不要錯過
【認(rèn)識大牛+賺外快】的機會
需要你做什么:把你最關(guān)注的10個大會報告,每頁PPT都拍下來
你能獲得什么?
認(rèn)識大牛:你將可以進入CVPR名師博士社群;
錢多活少:提供豐厚獎金,任務(wù)量精簡;
聽會自由:你的行程你做主,順手就把外快賺。拍下你最感興趣的10個報告PPT即可。
如果你即將前往CVPR,想邊聽會邊賺錢,還能順便為AI學(xué)術(shù)社區(qū)做貢獻、認(rèn)識更多大牛,歡迎聯(lián)系我們:[添加微信號:MS_Yahei]
【限額5位,先到先得】
未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!
公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.