![]()
立體匹配的前端已經(jīng)進(jìn)入視覺基座模型時(shí)代,后端卻還停留在基于卷積的局部遞歸更新。LinStereo 關(guān)注的正是這個(gè)斷層:當(dāng) Depth Anything V3 已經(jīng)能提供全局語義和多尺度表征時(shí),ConvGRU 式的局部傳播反而成了遮擋、弱紋理和水下退化場(chǎng)景中的瓶頸。
悉尼大學(xué)澳大利亞機(jī)器人中心的 Yiran Wang、Oliver Turner 和 Viorela Ila 在 ECCV 2026 論文中提出用位置感知線性注意力模塊替代卷積迭代,讓每輪迭代都能聚合全圖上下文,并輔以多尺度代價(jià)體積和單目深度初始化提升幾何收斂。
更關(guān)鍵的是,LinStereo在凍結(jié)視覺基座模型編碼器,僅用 Scene Flow 合成數(shù)據(jù)訓(xùn)練下游 stereo 模塊,其零樣本泛化能力就將 Middlebury 遮擋區(qū)域把誤差壓低了 37%,在多項(xiàng)標(biāo)準(zhǔn)評(píng)估數(shù)據(jù)上以 ViT-B 的體量戰(zhàn)勝了更大參數(shù)量的模型,甚至在在水下等跨域場(chǎng)景也展現(xiàn)了明顯的優(yōu)勢(shì)。
![]()
- 論文標(biāo)題:LinStereo: Linear-Complexity Global Attention for Multi-Scale Iterative Stereo Matching
- 作者:Yiran Wang?, Oliver Turner, Viorela Ila?
- 單位:Australian Centre for Robotics, The University of Sydney
- 會(huì)議:ECCV 2026(已接收)
- 論文鏈接:https://arxiv.org/abs/2606.25437
- 代碼:https://github.com/u7079256/LinStereo
現(xiàn)有迭代式匹配的瓶頸在哪
目前主流立體匹配的流程大同小異:預(yù)訓(xùn)練 backbone 出特征,建代價(jià)體積,ConvGRU 迭代回歸視差。問題出在后半段。
backbone 輸出了好幾層不同分辨率的特征,但建代價(jià)體積的時(shí)候一般只用其中一層,多尺度信息被丟掉了不少。ConvGRU 每輪迭代感受野比較局限,碰到大面積弱紋理或者水下這種退化場(chǎng)景,有用的匹配信號(hào)得跑好幾輪才傳得到遠(yuǎn)處。再加上大多數(shù)方法都從零視差起步,頭幾輪迭代基本在摸場(chǎng)景大致輪廓,實(shí)際用來精細(xì)化的輪次并不多。
LinStereo 對(duì)應(yīng)地做了三件事:PALA換掉ConvGRU 解決傳播問題,HSCV 保留多尺度特征,DPI 用單目深度給一個(gè)靠譜的起點(diǎn)。
![]()
圖 1:LinStereo 整體架構(gòu)。(a)多尺度層次化語義 cost volume(HSCV);(b)coarse-to-fine 迭代更新;(c)位置感知線性注意力更新模塊(PALA)。
PALA:全局注意力,但只要線性復(fù)雜度
PALA 做的事情說起來很直觀,就是把 ConvGRU 的局部更新?lián)Q成全局注意力,讓每個(gè)像素每次迭代都能看到整張圖。難點(diǎn)在于 softmax attention 是 O (N2) 的,直接用在高分辨率視差圖上跑不動(dòng)。
PALA 的做法是對(duì) query 和 key 做 kernel 激活(ELU+1),利用矩陣乘法結(jié)合律把復(fù)雜度降到 O (N?C_h2)。實(shí)測(cè) 3.50 ms 一次迭代,ConvGRU 是 3.63 ms,基本沒差別。
但線性注意力有個(gè)已知的毛病:kernel 化之后位置信息會(huì)丟失。PALA 用 2D RoPE 來補(bǔ),這里有個(gè)比較巧妙的處理 ——RoPE 只加在注意力公式的分子上,分母不加。作者把這個(gè)叫 "非對(duì)稱 RoPE"。為什么不兩邊都加?因?yàn)榉帜付思恿?RoPE 之后歸一化會(huì)引入位置偏移,注意力分布反而不穩(wěn)定。消融也驗(yàn)證了這一點(diǎn):KITTI 上差別不算大(EPE 1.05 vs 1.01),但換到水下 TartanAir-UW,RMSE 從 2.18 掉到 2.08,差了將近 5%。
![]()
圖 2:PALA 模塊架構(gòu),展示 kernel-activated attention、非對(duì)稱 2D RoPE 和門控更新機(jī)制。
HSCV 和 DPI
HSCV 比較好理解:在 1/4、1/8、1/16 三個(gè)尺度上分別建代價(jià)體積,每個(gè)尺度內(nèi)部再做 4 層視差金字塔。這樣 PALA 每輪迭代能查到不同粒度的匹配信息 —— 淺層管紋理,深層管語義。去掉多尺度之后 KITTI EPE 漲了 0.06,水下 AbsRel 漲了 0.003,看著不大,但跟 PALA 配合起來效果會(huì)放大。
DPI 更直接。Depth Anything V3 的 backbone 本身能出一張單目深度圖,雖然是 affine-invariant 的(只有相對(duì)遠(yuǎn)近,沒有絕對(duì)尺度),但拿 SIFT 在左右圖上匹配幾個(gè)點(diǎn)就能把 scale 和 shift 算出來,轉(zhuǎn)成度量視差當(dāng)初始值。為什么不用 SuperPoint 或 LightGlue?因?yàn)檫@些學(xué)習(xí)型匹配器在水下之類的跨域場(chǎng)景可能失靈,SIFT 純靠幾何約束反而穩(wěn)。SQUID 上 SIFT 的失敗率只有 3.7%,失敗了就退回零初始化,EPE 性能略降 0.08 個(gè)像素。
實(shí)驗(yàn):標(biāo)準(zhǔn) benchmark 和跨域泛化
標(biāo)準(zhǔn) benchmark
LinStereo 的 backbone 是 ViT-B,參數(shù)量和數(shù)據(jù)量都比用 ViT-L 的 FoundationStereo、MonSter 小一截。從下表來看,常規(guī)場(chǎng)景上基本打平,遮擋場(chǎng)景上優(yōu)勢(shì)明顯。
![]()
Middlebury 遮擋區(qū)域是最能體現(xiàn)全局注意力價(jià)值的指標(biāo)。EPE 1.33,比排第二的 FoundationStereo 低了 16%,比之前的 DEFOM-Stereo(2.11)低了 37%。道理也好理解:被遮擋的像素附近沒有可靠的匹配線索,ConvGRU 的局部窗口傳不過來,PALA 可以直接從遠(yuǎn)處拿信息。
![]()
圖 3:標(biāo)準(zhǔn) benchmark 定性對(duì)比,LinStereo 在物體邊緣和遮擋區(qū)域的深度圖更干凈。
跨域泛化:水下 zero-shot
全局傳播的另一個(gè)受益場(chǎng)景是水下。光在水里按波長衰減,紅色最先消失,再加上懸浮顆粒的散射,遠(yuǎn)處的紋理基本不可用。ConvGRU 在這種大面積退化的場(chǎng)景里傳播太慢,PALA 就不存在這個(gè)問題。
LinStereo 沒用過任何水下數(shù)據(jù)訓(xùn)練,但在水下 benchmark 上全面領(lǐng)先。
![]()
![]()
圖 4:水下場(chǎng)景定性對(duì)比。退化嚴(yán)重的區(qū)域里,LinStereo 的深度圖仍然連貫。
精準(zhǔn)度和推理速度兩手抓
T=2 迭代就能跑到 12.5 FPS(480×640),這個(gè)配置下 SQUID AbsRel 0.05 -> 在有計(jì)算性能受限的情況下, Linstereo 只需兩次迭代優(yōu)化(等效推理速度12.5FPS)仍可以保持SQUID AbsRel 0.05
三個(gè)模塊,協(xié)同才是關(guān)鍵
三個(gè)模塊單獨(dú)加都有提升,但組合在一起效果遠(yuǎn)超單獨(dú)疊加:
![]()
還有一個(gè)有意思的現(xiàn)象:PALA block 堆到 3 個(gè)(參數(shù)從 127M 漲到 147M),KITTI EPE 反而從 1.01 漲到 1.05。迭代本身已經(jīng)在做隱式的深度堆疊,再顯式加層數(shù)可能過擬合了。
SeaStereo 數(shù)據(jù)集
論文還發(fā)布了 SeaStereo-Dataset——40,320 對(duì)水下立體圖像,帶稠密視差標(biāo)注,7 種 Jerlov 水體類型,用 Blender 做物理級(jí)水下光學(xué)渲染,前景是 ShapeNetCore 物體,背景是真實(shí)海洋照片。水下立體匹配一直缺公開數(shù)據(jù),這個(gè)數(shù)據(jù)集對(duì)后續(xù)研究會(huì)比較有用。
參數(shù)高效:以小博大
得益于我們的參數(shù)高效設(shè)計(jì),127M 參數(shù)中超過 100M 來自凍結(jié)的 Depth Anything V3 backbone,真正需要訓(xùn)練的僅約 10M。這充分驗(yàn)證了我們輕量 decoder 的有效性:小參數(shù)量同樣能撬動(dòng)大規(guī)模預(yù)訓(xùn)練的強(qiáng)大先驗(yàn),在小樣本水下場(chǎng)景下達(dá)到當(dāng)前性能。面向水下機(jī)器人等邊緣算力平臺(tái),我們正進(jìn)一步通過知識(shí)蒸餾壓縮編碼器,把推理延遲推向更極致的水平。
- ECCV 2026 論文鏈接:https://arxiv.org/abs/2606.25437
- GitHub:https://github.com/u7079256/LinStereo
作者簡介
Yiran Wang,悉尼大學(xué)澳大利亞機(jī)器人中心(Australian Centre for Robotics)博士生,導(dǎo)師為 Viorela Ila 博士。本科畢業(yè)于澳大利亞國立大學(xué)(ANU)高級(jí)計(jì)算專業(yè)(榮譽(yù)學(xué)位)。研究方向涵蓋計(jì)算機(jī)視覺、立體深度估計(jì)、運(yùn)動(dòng)生成與三維視覺,近期聚焦于利用 Vision Foundation Model 提升立體匹配在退化視覺條件下的魯棒性。相關(guān)工作發(fā)表于 ECCV、NeurIPS、ICRA 等國際會(huì)議。
Viorela Ila,悉尼大學(xué)航空航天與機(jī)電工程學(xué)院高級(jí)講師(Senior Lecturer),澳大利亞機(jī)器人中心核心研究員。2005 年獲西班牙赫羅納大學(xué)博士學(xué)位,后赴佐治亞理工學(xué)院從事博士后研究。研究方向涵蓋視覺 SLAM、三維重建、圖模型優(yōu)化與水下機(jī)器人感知,近期代表工作包括動(dòng)態(tài) SLAM 框架 DynoSAM 等。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.