![]()
視覺腦機(jī)接口的終極目標(biāo),是建立大腦神經(jīng)皮層與外部視覺感知的雙向交互通道,從“單向理解”走向“雙向交互”,既能從大腦神經(jīng)活動(dòng)中重建出視覺信息(讀腦),也能把視覺信息自然寫入神經(jīng)皮層(寫腦),同時(shí)保證“讀腦”與“寫腦”過程的可交互性與雙向一致性。
來自上海人工智能實(shí)驗(yàn)室、香港大學(xué)、香港中文大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì),提出首個(gè)基于統(tǒng)一神經(jīng)流模型的視覺-神經(jīng)雙向建模框架NeuroFlow,相關(guān)成果入選CVPR 2026。它首次將視覺編碼(寫腦)與解碼(讀腦)整合到同一可逆流結(jié)構(gòu)中,打通視覺感知與神經(jīng)活動(dòng)之間的雙向通路,為理解人類視覺認(rèn)知機(jī)制、構(gòu)建下一代通用視覺假體與雙向腦機(jī)接口提供了全新范式。
![]()
- 論文標(biāo)題:
- NeuroFlow: Toward Unified Visual Encoding and Decoding from Neural Activity
- 論文地址:
- https://arxiv.org/abs/2604.09817
- 主頁地址:
- https://michaelmaiii.github.io/NeuroFlow-S
本文第一作者為香港大學(xué)PhD麥偉健,相關(guān)研究工作于上海人工智能實(shí)驗(yàn)室科研實(shí)習(xí)期間完成;共同通訊作者分別為伍佳敏,Andrew F. Luo 和宋純鋒。該工作已經(jīng)被 CVPR 2026 會(huì)議接收。
視覺神經(jīng)建模困境:
從“割裂單向”到“統(tǒng)一雙向”的范式轉(zhuǎn)變需求
在人類視覺感知系統(tǒng)中,外界視覺刺激可激活大腦產(chǎn)生神經(jīng)響應(yīng)(編碼),同時(shí)大腦神經(jīng)響應(yīng)能夠用于重建相應(yīng)的感知內(nèi)容(解碼),二者形成互補(bǔ)的信息處理通路。但長期以來,視覺神經(jīng)建模面臨難以突破的瓶頸:
1)編碼與解碼長期割裂:兩類任務(wù)被視為獨(dú)立問題,需分別訓(xùn)練模型、使用不同潛空間,缺乏交互,難以保證雙向一致性;
2)雙向跨模態(tài)對(duì)齊困難:當(dāng)前方法多依賴簡單線性或擴(kuò)散范式下的單向映射,難以保證建模視覺-神經(jīng)模態(tài)間的雙向?qū)R。
3)神經(jīng)模式解釋性不足:生成的神經(jīng)信號(hào)易陷入體素級(jí)噪聲,與大腦真實(shí)皮層激活模式存在偏差,缺乏生物學(xué)可解釋性。這種 “單向割裂” 的范式,限制了我們對(duì)視覺神經(jīng)機(jī)制的深層理解,也阻礙了雙向腦機(jī)技術(shù)的進(jìn)一步發(fā)展。
統(tǒng)一建模突破:
NeuroFlow 構(gòu)建視覺-神經(jīng)可逆映射新架構(gòu)
為破解上述難題,NeuroFlow 首次在單一模型內(nèi)實(shí)現(xiàn)視覺編碼+神經(jīng)解碼的統(tǒng)一建模,用一套架構(gòu)完成雙向任務(wù),核心包含兩大創(chuàng)新模塊:
![]()
1、NeuroVAE 概率變分主干
人類神經(jīng)響應(yīng)天然存在一對(duì)多的隨機(jī)特性:大腦在感知同一個(gè)視覺刺激時(shí),受生理噪聲、腦狀態(tài)波動(dòng)、采集試次差異影響,多次記錄得到的 fMRI 腦活動(dòng)分布各不相同。針對(duì)該視覺-神經(jīng)活動(dòng)之間的“一對(duì)多”變異性,NeuroVAE 引入變分概率建模范式,不再將腦信號(hào)映射為單點(diǎn)固定特征,而是輸出概率分布表征,把高維雜亂的原始 fMRI 體素?cái)?shù)據(jù)壓縮至維度緊湊、語義結(jié)構(gòu)化的統(tǒng)一隱空間。模型在保留關(guān)鍵神經(jīng)信息的同時(shí)過濾冗余噪聲,并通過對(duì)比學(xué)習(xí)與循環(huán)一致性約束,實(shí)現(xiàn)神經(jīng)表征與視覺語義的深度對(duì)齊,為跨模態(tài)統(tǒng)一建模奠定基礎(chǔ)。
2、XFM 跨模態(tài)流匹配
當(dāng)前跨模態(tài)生成方案普遍采用條件擴(kuò)散范式,依賴單一模態(tài)信息作為條件引導(dǎo)、從純高斯噪聲迭代生成另一模態(tài)數(shù)據(jù),訓(xùn)練與推理邏輯單向固化,很難自然實(shí)現(xiàn)正向、反向雙向轉(zhuǎn)換。 XFM 跨模態(tài)流匹配跳出 “噪聲生成數(shù)據(jù) + 單模態(tài)條件引導(dǎo)” 的固有框架,直接基于常微分方程連續(xù)演化思想,在共享隱空間中學(xué)習(xí)視覺表征分布與NeuroVAE神經(jīng)表征分布之間的連續(xù)可逆變換流場(chǎng),無需條件引導(dǎo)便可直接構(gòu)建從源分布平滑過渡至目標(biāo)分布的完整演化路徑。
![]()
模型定義隨時(shí)間 [0, 1] 變化的矢量場(chǎng),采用余弦插值構(gòu)建從源分布到目標(biāo)分布的平滑過渡軌跡。其中,1)正向演化對(duì)應(yīng)編碼任務(wù),時(shí)間由0 → 1推進(jìn),視覺特征沿流場(chǎng)連續(xù)變換生成對(duì)應(yīng)神經(jīng)表征,完成圖像到腦信號(hào)的編碼,再通過NeuroVAE生成真實(shí)的神經(jīng)信號(hào);2)反向演化對(duì)應(yīng)解碼任務(wù):時(shí)間由1 → 0推進(jìn)、沿時(shí)間逆向求解 ODE,由神經(jīng)表征回溯還原原始視覺特征,再通過視覺生成器實(shí)現(xiàn)從腦信號(hào)中重建圖像。僅通過時(shí)間方向區(qū)分兩種過程,從機(jī)理上保證編碼與解碼的強(qiáng)語義一致性。這一架構(gòu)讓視覺與神經(jīng)在共享潛空間內(nèi)形成穩(wěn)定、可逆、可解釋的映射關(guān)系,實(shí)現(xiàn)真正意義上的雙向互通。
實(shí)驗(yàn)亮點(diǎn)與結(jié)果:
全面領(lǐng)先,信號(hào)真實(shí),一致性突出
研究團(tuán)隊(duì)在大規(guī)模自然場(chǎng)景 fMRI 數(shù)據(jù)集(NSD)上進(jìn)行全面驗(yàn)證,與 MindEye2、BrainDiffuser、SynBrain 等主流模型對(duì)比,NeuroFlow 展現(xiàn)出全方位優(yōu)勢(shì):
1)視覺解碼性能:從神經(jīng)信號(hào)重建的圖像與原視覺刺激的語義/輪廓一致性更高,且性能超越現(xiàn)有視覺解碼基線;
2)編碼-解碼一致性:圖像→神經(jīng)→重建圖像的雙向一致性高度穩(wěn)定;
3)神經(jīng)信號(hào)真實(shí)性:合成神經(jīng)信號(hào)可抑制早期視覺區(qū)的跨試次隨機(jī)噪聲,更關(guān)注于 FFA(臉部)、EBA(身體)、PPA(場(chǎng)景)等高級(jí)語義功能區(qū),與真實(shí)視覺皮層激活模式高度吻合;
4)高效輕量性:無需預(yù)訓(xùn)練,僅需當(dāng)前最優(yōu)解碼模型的25%訓(xùn)練參數(shù)便可在編碼與解碼任務(wù)中都達(dá)到更優(yōu)性能,訓(xùn)練高效、易于部署與拓展。這些實(shí)驗(yàn)證明,NeuroFlow 不僅性能領(lǐng)先,更能生成大腦可理解、語義可對(duì)齊、生理可解釋的神經(jīng)表征,為視覺認(rèn)知研究提供可信工具。
![]()
![]()
![]()
可解釋性分析:拆解雙向建模的關(guān)鍵內(nèi)在機(jī)制
該工作依托多維度可視化實(shí)驗(yàn),從模塊消融、流演化軌跡、腦功能特征三個(gè)維度剖析模型內(nèi)在機(jī)理:
A)消融實(shí)驗(yàn):逐項(xiàng)移除關(guān)鍵損失與模塊后,圖像重建保真度、語義完整性顯著劣化,證明各項(xiàng)約束與 XFM 流結(jié)構(gòu)是實(shí)現(xiàn)高質(zhì)量跨模態(tài)重建的必要條件;
B)流采樣軌跡:編碼演化過程中,模型會(huì)自發(fā)抑制早期初級(jí)視覺區(qū)噪聲響應(yīng),表征逐步向 FFA、EBA 等高級(jí)功能腦區(qū)收斂;解碼則從初始輪廓草圖平滑迭代為高清完整圖像,區(qū)別于擴(kuò)散模型由純?cè)肼暺鸩降纳蛇壿嫞庇^體現(xiàn)流匹配的演化規(guī)律;
C)類別激活對(duì)比:選取人臉類視覺刺激,對(duì)照實(shí)測(cè) fMRI 激活與模型合成神經(jīng)激活圖譜,模型生成的激活區(qū)位、強(qiáng)弱分布和人腦真實(shí)響應(yīng)高度匹配,驗(yàn)證框架可精準(zhǔn)復(fù)現(xiàn)特定語義類別對(duì)應(yīng)的腦區(qū)激活模式;
D)量化驗(yàn)證:依托 NSD 測(cè)試集,結(jié)合方差解釋度(EV)與斯皮爾曼相關(guān)系數(shù)做全腦量化分析,量化結(jié)果可見模型在 FFA、EBA、PPA 等高級(jí)視覺功能腦區(qū)呈現(xiàn)更高的解釋度與相關(guān)系數(shù),說明 NeuroFlow 建模時(shí)更側(cè)重學(xué)習(xí)人腦高級(jí)語義加工相關(guān)的神經(jīng)活動(dòng)。
實(shí)驗(yàn)證明 NeuroFlow 架構(gòu)在保障高精度圖像重建的同時(shí),生成的神經(jīng)表征貼合人腦視覺加工的生理規(guī)律,從機(jī)理上驗(yàn)證了視覺與神經(jīng)雙向映射的科學(xué)性。
![]()
價(jià)值與展望:
開啟視覺-神經(jīng)雙向交互新時(shí)代
NeuroFlow 的意義不止于模型性能提升,更在于為腦科學(xué)與 AI 交叉領(lǐng)域打開全新可能:
1)認(rèn)知研究層面,提供了可計(jì)算、可驗(yàn)證的視覺神經(jīng)建模工具,助力揭示人類視覺感知、語義加工、高級(jí)認(rèn)知的底層機(jī)理;
2)腦機(jī)接口層面:構(gòu)建穩(wěn)定、高效、可逆的視覺-神經(jīng)雙向通道,為視覺假體與雙向腦機(jī)接口等前沿方向提供核心算法底座;
3)技術(shù)范式層面:證明單一統(tǒng)一模型可勝任雙向跨模態(tài)任務(wù),為多模態(tài)神經(jīng)建模提供可復(fù)用的設(shè)計(jì)思路。
未來,NeuroFlow 將進(jìn)一步走向更通用、更魯棒、更貼近真實(shí)大腦機(jī)制的視覺-神經(jīng)建模體系,加速腦科學(xué)與人工智能深度融合,推動(dòng)雙向腦機(jī)接口從實(shí)驗(yàn)室走向更廣闊的現(xiàn)實(shí)應(yīng)用。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.