網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

神經(jīng)流模型 NeuroFlow 打通視覺與神經(jīng)的雙向通道

2026-06-12 12:44:05　來源: 機(jī)器之心Pro

天津舉報(bào)

分享至

視覺腦機(jī)接口的終極目標(biāo)，是建立大腦神經(jīng)皮層與外部視覺感知的雙向交互通道，從“單向理解”走向“雙向交互”，既能從大腦神經(jīng)活動(dòng)中重建出視覺信息（讀腦），也能把視覺信息自然寫入神經(jīng)皮層（寫腦），同時(shí)保證“讀腦”與“寫腦”過程的可交互性與雙向一致性。

來自上海人工智能實(shí)驗(yàn)室、香港大學(xué)、香港中文大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)，提出首個(gè)基于統(tǒng)一神經(jīng)流模型的視覺-神經(jīng)雙向建模框架NeuroFlow，相關(guān)成果入選CVPR 2026。它首次將視覺編碼（寫腦）與解碼（讀腦）整合到同一可逆流結(jié)構(gòu)中，打通視覺感知與神經(jīng)活動(dòng)之間的雙向通路，為理解人類視覺認(rèn)知機(jī)制、構(gòu)建下一代通用視覺假體與雙向腦機(jī)接口提供了全新范式。

論文標(biāo)題：
NeuroFlow: Toward Unified Visual Encoding and Decoding from Neural Activity
論文地址：
https://arxiv.org/abs/2604.09817
主頁地址：
https://michaelmaiii.github.io/NeuroFlow-S

本文第一作者為香港大學(xué)PhD麥偉健，相關(guān)研究工作于上海人工智能實(shí)驗(yàn)室科研實(shí)習(xí)期間完成；共同通訊作者分別為伍佳敏，Andrew F. Luo 和宋純鋒。該工作已經(jīng)被 CVPR 2026 會(huì)議接收。

視覺神經(jīng)建模困境：

從“割裂單向”到“統(tǒng)一雙向”的范式轉(zhuǎn)變需求

在人類視覺感知系統(tǒng)中，外界視覺刺激可激活大腦產(chǎn)生神經(jīng)響應(yīng)（編碼），同時(shí)大腦神經(jīng)響應(yīng)能夠用于重建相應(yīng)的感知內(nèi)容（解碼），二者形成互補(bǔ)的信息處理通路。但長期以來，視覺神經(jīng)建模面臨難以突破的瓶頸：

1）編碼與解碼長期割裂：兩類任務(wù)被視為獨(dú)立問題，需分別訓(xùn)練模型、使用不同潛空間，缺乏交互，難以保證雙向一致性；

2）雙向跨模態(tài)對(duì)齊困難：當(dāng)前方法多依賴簡單線性或擴(kuò)散范式下的單向映射，難以保證建模視覺-神經(jīng)模態(tài)間的雙向?qū)R。

3）神經(jīng)模式解釋性不足：生成的神經(jīng)信號(hào)易陷入體素級(jí)噪聲，與大腦真實(shí)皮層激活模式存在偏差，缺乏生物學(xué)可解釋性。這種 “單向割裂” 的范式，限制了我們對(duì)視覺神經(jīng)機(jī)制的深層理解，也阻礙了雙向腦機(jī)技術(shù)的進(jìn)一步發(fā)展。

統(tǒng)一建模突破：

NeuroFlow 構(gòu)建視覺-神經(jīng)可逆映射新架構(gòu)

為破解上述難題，NeuroFlow 首次在單一模型內(nèi)實(shí)現(xiàn)視覺編碼+神經(jīng)解碼的統(tǒng)一建模，用一套架構(gòu)完成雙向任務(wù)，核心包含兩大創(chuàng)新模塊：

1、NeuroVAE 概率變分主干

人類神經(jīng)響應(yīng)天然存在一對(duì)多的隨機(jī)特性：大腦在感知同一個(gè)視覺刺激時(shí)，受生理噪聲、腦狀態(tài)波動(dòng)、采集試次差異影響，多次記錄得到的 fMRI 腦活動(dòng)分布各不相同。針對(duì)該視覺-神經(jīng)活動(dòng)之間的“一對(duì)多”變異性，NeuroVAE 引入變分概率建模范式，不再將腦信號(hào)映射為單點(diǎn)固定特征，而是輸出概率分布表征，把高維雜亂的原始 fMRI 體素?cái)?shù)據(jù)壓縮至維度緊湊、語義結(jié)構(gòu)化的統(tǒng)一隱空間。模型在保留關(guān)鍵神經(jīng)信息的同時(shí)過濾冗余噪聲，并通過對(duì)比學(xué)習(xí)與循環(huán)一致性約束，實(shí)現(xiàn)神經(jīng)表征與視覺語義的深度對(duì)齊，為跨模態(tài)統(tǒng)一建模奠定基礎(chǔ)。

2、XFM 跨模態(tài)流匹配

當(dāng)前跨模態(tài)生成方案普遍采用條件擴(kuò)散范式，依賴單一模態(tài)信息作為條件引導(dǎo)、從純高斯噪聲迭代生成另一模態(tài)數(shù)據(jù)，訓(xùn)練與推理邏輯單向固化，很難自然實(shí)現(xiàn)正向、反向雙向轉(zhuǎn)換。 XFM 跨模態(tài)流匹配跳出 “噪聲生成數(shù)據(jù) + 單模態(tài)條件引導(dǎo)” 的固有框架，直接基于常微分方程連續(xù)演化思想，在共享隱空間中學(xué)習(xí)視覺表征分布與NeuroVAE神經(jīng)表征分布之間的連續(xù)可逆變換流場(chǎng)，無需條件引導(dǎo)便可直接構(gòu)建從源分布平滑過渡至目標(biāo)分布的完整演化路徑。

模型定義隨時(shí)間 [0, 1] 變化的矢量場(chǎng)，采用余弦插值構(gòu)建從源分布到目標(biāo)分布的平滑過渡軌跡。其中，1）正向演化對(duì)應(yīng)編碼任務(wù)，時(shí)間由0 → 1推進(jìn)，視覺特征沿流場(chǎng)連續(xù)變換生成對(duì)應(yīng)神經(jīng)表征，完成圖像到腦信號(hào)的編碼，再通過NeuroVAE生成真實(shí)的神經(jīng)信號(hào)；2）反向演化對(duì)應(yīng)解碼任務(wù)：時(shí)間由1 → 0推進(jìn)、沿時(shí)間逆向求解 ODE，由神經(jīng)表征回溯還原原始視覺特征，再通過視覺生成器實(shí)現(xiàn)從腦信號(hào)中重建圖像。僅通過時(shí)間方向區(qū)分兩種過程，從機(jī)理上保證編碼與解碼的強(qiáng)語義一致性。這一架構(gòu)讓視覺與神經(jīng)在共享潛空間內(nèi)形成穩(wěn)定、可逆、可解釋的映射關(guān)系，實(shí)現(xiàn)真正意義上的雙向互通。

實(shí)驗(yàn)亮點(diǎn)與結(jié)果：

全面領(lǐng)先，信號(hào)真實(shí)，一致性突出

研究團(tuán)隊(duì)在大規(guī)模自然場(chǎng)景 fMRI 數(shù)據(jù)集（NSD）上進(jìn)行全面驗(yàn)證，與 MindEye2、BrainDiffuser、SynBrain 等主流模型對(duì)比，NeuroFlow 展現(xiàn)出全方位優(yōu)勢(shì)：

1）視覺解碼性能：從神經(jīng)信號(hào)重建的圖像與原視覺刺激的語義/輪廓一致性更高，且性能超越現(xiàn)有視覺解碼基線；

2）編碼-解碼一致性：圖像→神經(jīng)→重建圖像的雙向一致性高度穩(wěn)定；

3）神經(jīng)信號(hào)真實(shí)性：合成神經(jīng)信號(hào)可抑制早期視覺區(qū)的跨試次隨機(jī)噪聲，更關(guān)注于 FFA（臉部）、EBA（身體）、PPA（場(chǎng)景）等高級(jí)語義功能區(qū)，與真實(shí)視覺皮層激活模式高度吻合；

4）高效輕量性：無需預(yù)訓(xùn)練，僅需當(dāng)前最優(yōu)解碼模型的25%訓(xùn)練參數(shù)便可在編碼與解碼任務(wù)中都達(dá)到更優(yōu)性能，訓(xùn)練高效、易于部署與拓展。這些實(shí)驗(yàn)證明，NeuroFlow 不僅性能領(lǐng)先，更能生成大腦可理解、語義可對(duì)齊、生理可解釋的神經(jīng)表征，為視覺認(rèn)知研究提供可信工具。

可解釋性分析：拆解雙向建模的關(guān)鍵內(nèi)在機(jī)制

該工作依托多維度可視化實(shí)驗(yàn)，從模塊消融、流演化軌跡、腦功能特征三個(gè)維度剖析模型內(nèi)在機(jī)理：

A）消融實(shí)驗(yàn)：逐項(xiàng)移除關(guān)鍵損失與模塊后，圖像重建保真度、語義完整性顯著劣化，證明各項(xiàng)約束與 XFM 流結(jié)構(gòu)是實(shí)現(xiàn)高質(zhì)量跨模態(tài)重建的必要條件；

B）流采樣軌跡：編碼演化過程中，模型會(huì)自發(fā)抑制早期初級(jí)視覺區(qū)噪聲響應(yīng)，表征逐步向 FFA、EBA 等高級(jí)功能腦區(qū)收斂；解碼則從初始輪廓草圖平滑迭代為高清完整圖像，區(qū)別于擴(kuò)散模型由純?cè)肼暺鸩降纳蛇壿嫞庇^體現(xiàn)流匹配的演化規(guī)律；

C）類別激活對(duì)比：選取人臉類視覺刺激，對(duì)照實(shí)測(cè) fMRI 激活與模型合成神經(jīng)激活圖譜，模型生成的激活區(qū)位、強(qiáng)弱分布和人腦真實(shí)響應(yīng)高度匹配，驗(yàn)證框架可精準(zhǔn)復(fù)現(xiàn)特定語義類別對(duì)應(yīng)的腦區(qū)激活模式；

D）量化驗(yàn)證：依托 NSD 測(cè)試集，結(jié)合方差解釋度（EV）與斯皮爾曼相關(guān)系數(shù)做全腦量化分析，量化結(jié)果可見模型在 FFA、EBA、PPA 等高級(jí)視覺功能腦區(qū)呈現(xiàn)更高的解釋度與相關(guān)系數(shù)，說明 NeuroFlow 建模時(shí)更側(cè)重學(xué)習(xí)人腦高級(jí)語義加工相關(guān)的神經(jīng)活動(dòng)。

實(shí)驗(yàn)證明 NeuroFlow 架構(gòu)在保障高精度圖像重建的同時(shí)，生成的神經(jīng)表征貼合人腦視覺加工的生理規(guī)律，從機(jī)理上驗(yàn)證了視覺與神經(jīng)雙向映射的科學(xué)性。

價(jià)值與展望：

開啟視覺-神經(jīng)雙向交互新時(shí)代

NeuroFlow 的意義不止于模型性能提升，更在于為腦科學(xué)與 AI 交叉領(lǐng)域打開全新可能：

1）認(rèn)知研究層面，提供了可計(jì)算、可驗(yàn)證的視覺神經(jīng)建模工具，助力揭示人類視覺感知、語義加工、高級(jí)認(rèn)知的底層機(jī)理；

2）腦機(jī)接口層面：構(gòu)建穩(wěn)定、高效、可逆的視覺-神經(jīng)雙向通道，為視覺假體與雙向腦機(jī)接口等前沿方向提供核心算法底座；

3）技術(shù)范式層面：證明單一統(tǒng)一模型可勝任雙向跨模態(tài)任務(wù)，為多模態(tài)神經(jīng)建模提供可復(fù)用的設(shè)計(jì)思路。

未來，NeuroFlow 將進(jìn)一步走向更通用、更魯棒、更貼近真實(shí)大腦機(jī)制的視覺-神經(jīng)建模體系，加速腦科學(xué)與人工智能深度融合，推動(dòng)雙向腦機(jī)接口從實(shí)驗(yàn)室走向更廣闊的現(xiàn)實(shí)應(yīng)用。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.