網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

ECCV 2026 |悉尼大學(xué)提出Linstereo, 打通立體匹配「最后一公里」

2026-07-05 16:39:04　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

立體匹配的前端已經(jīng)進(jìn)入視覺基座模型時(shí)代，后端卻還停留在基于卷積的局部遞歸更新。LinStereo 關(guān)注的正是這個(gè)斷層：當(dāng) Depth Anything V3 已經(jīng)能提供全局語義和多尺度表征時(shí)，ConvGRU 式的局部傳播反而成了遮擋、弱紋理和水下退化場(chǎng)景中的瓶頸。

悉尼大學(xué)澳大利亞機(jī)器人中心的 Yiran Wang、Oliver Turner 和 Viorela Ila 在 ECCV 2026 論文中提出用位置感知線性注意力模塊替代卷積迭代，讓每輪迭代都能聚合全圖上下文，并輔以多尺度代價(jià)體積和單目深度初始化提升幾何收斂。

更關(guān)鍵的是，LinStereo在凍結(jié)視覺基座模型編碼器，僅用 Scene Flow 合成數(shù)據(jù)訓(xùn)練下游 stereo 模塊，其零樣本泛化能力就將 Middlebury 遮擋區(qū)域把誤差壓低了 37%，在多項(xiàng)標(biāo)準(zhǔn)評(píng)估數(shù)據(jù)上以 ViT-B 的體量戰(zhàn)勝了更大參數(shù)量的模型，甚至在在水下等跨域場(chǎng)景也展現(xiàn)了明顯的優(yōu)勢(shì)。

論文標(biāo)題：LinStereo: Linear-Complexity Global Attention for Multi-Scale Iterative Stereo Matching
作者：Yiran Wang?, Oliver Turner, Viorela Ila?
單位：Australian Centre for Robotics, The University of Sydney
會(huì)議：ECCV 2026（已接收）
論文鏈接：https://arxiv.org/abs/2606.25437
代碼：https://github.com/u7079256/LinStereo

現(xiàn)有迭代式匹配的瓶頸在哪

目前主流立體匹配的流程大同小異：預(yù)訓(xùn)練 backbone 出特征，建代價(jià)體積，ConvGRU 迭代回歸視差。問題出在后半段。

backbone 輸出了好幾層不同分辨率的特征，但建代價(jià)體積的時(shí)候一般只用其中一層，多尺度信息被丟掉了不少。ConvGRU 每輪迭代感受野比較局限，碰到大面積弱紋理或者水下這種退化場(chǎng)景，有用的匹配信號(hào)得跑好幾輪才傳得到遠(yuǎn)處。再加上大多數(shù)方法都從零視差起步，頭幾輪迭代基本在摸場(chǎng)景大致輪廓，實(shí)際用來精細(xì)化的輪次并不多。

LinStereo 對(duì)應(yīng)地做了三件事：PALA換掉ConvGRU 解決傳播問題，HSCV 保留多尺度特征，DPI 用單目深度給一個(gè)靠譜的起點(diǎn)。

圖 1：LinStereo 整體架構(gòu)。（a）多尺度層次化語義 cost volume（HSCV）；（b）coarse-to-fine 迭代更新；（c）位置感知線性注意力更新模塊（PALA）。

PALA：全局注意力，但只要線性復(fù)雜度

PALA 做的事情說起來很直觀，就是把 ConvGRU 的局部更新?lián)Q成全局注意力，讓每個(gè)像素每次迭代都能看到整張圖。難點(diǎn)在于 softmax attention 是 O (N2) 的，直接用在高分辨率視差圖上跑不動(dòng)。

PALA 的做法是對(duì) query 和 key 做 kernel 激活（ELU+1），利用矩陣乘法結(jié)合律把復(fù)雜度降到 O (N?C_h2)。實(shí)測(cè) 3.50 ms 一次迭代，ConvGRU 是 3.63 ms，基本沒差別。

但線性注意力有個(gè)已知的毛病：kernel 化之后位置信息會(huì)丟失。PALA 用 2D RoPE 來補(bǔ)，這里有個(gè)比較巧妙的處理 ——RoPE 只加在注意力公式的分子上，分母不加。作者把這個(gè)叫 "非對(duì)稱 RoPE"。為什么不兩邊都加？因?yàn)榉帜付思恿?RoPE 之后歸一化會(huì)引入位置偏移，注意力分布反而不穩(wěn)定。消融也驗(yàn)證了這一點(diǎn)：KITTI 上差別不算大（EPE 1.05 vs 1.01），但換到水下 TartanAir-UW，RMSE 從 2.18 掉到 2.08，差了將近 5%。

圖 2：PALA 模塊架構(gòu)，展示 kernel-activated attention、非對(duì)稱 2D RoPE 和門控更新機(jī)制。

HSCV 和 DPI

HSCV 比較好理解：在 1/4、1/8、1/16 三個(gè)尺度上分別建代價(jià)體積，每個(gè)尺度內(nèi)部再做 4 層視差金字塔。這樣 PALA 每輪迭代能查到不同粒度的匹配信息 —— 淺層管紋理，深層管語義。去掉多尺度之后 KITTI EPE 漲了 0.06，水下 AbsRel 漲了 0.003，看著不大，但跟 PALA 配合起來效果會(huì)放大。

DPI 更直接。Depth Anything V3 的 backbone 本身能出一張單目深度圖，雖然是 affine-invariant 的（只有相對(duì)遠(yuǎn)近，沒有絕對(duì)尺度），但拿 SIFT 在左右圖上匹配幾個(gè)點(diǎn)就能把 scale 和 shift 算出來，轉(zhuǎn)成度量視差當(dāng)初始值。為什么不用 SuperPoint 或 LightGlue？因?yàn)檫@些學(xué)習(xí)型匹配器在水下之類的跨域場(chǎng)景可能失靈，SIFT 純靠幾何約束反而穩(wěn)。SQUID 上 SIFT 的失敗率只有 3.7%，失敗了就退回零初始化，EPE 性能略降 0.08 個(gè)像素。

實(shí)驗(yàn)：標(biāo)準(zhǔn) benchmark 和跨域泛化

標(biāo)準(zhǔn) benchmark

LinStereo 的 backbone 是 ViT-B，參數(shù)量和數(shù)據(jù)量都比用 ViT-L 的 FoundationStereo、MonSter 小一截。從下表來看，常規(guī)場(chǎng)景上基本打平，遮擋場(chǎng)景上優(yōu)勢(shì)明顯。

Middlebury 遮擋區(qū)域是最能體現(xiàn)全局注意力價(jià)值的指標(biāo)。EPE 1.33，比排第二的 FoundationStereo 低了 16%，比之前的 DEFOM-Stereo（2.11）低了 37%。道理也好理解：被遮擋的像素附近沒有可靠的匹配線索，ConvGRU 的局部窗口傳不過來，PALA 可以直接從遠(yuǎn)處拿信息。

圖 3：標(biāo)準(zhǔn) benchmark 定性對(duì)比，LinStereo 在物體邊緣和遮擋區(qū)域的深度圖更干凈。

跨域泛化：水下 zero-shot

全局傳播的另一個(gè)受益場(chǎng)景是水下。光在水里按波長衰減，紅色最先消失，再加上懸浮顆粒的散射，遠(yuǎn)處的紋理基本不可用。ConvGRU 在這種大面積退化的場(chǎng)景里傳播太慢，PALA 就不存在這個(gè)問題。

LinStereo 沒用過任何水下數(shù)據(jù)訓(xùn)練，但在水下 benchmark 上全面領(lǐng)先。

圖 4：水下場(chǎng)景定性對(duì)比。退化嚴(yán)重的區(qū)域里，LinStereo 的深度圖仍然連貫。

精準(zhǔn)度和推理速度兩手抓

T=2 迭代就能跑到 12.5 FPS（480×640），這個(gè)配置下 SQUID AbsRel 0.05 -> 在有計(jì)算性能受限的情況下, Linstereo 只需兩次迭代優(yōu)化(等效推理速度12.5FPS)仍可以保持SQUID AbsRel 0.05

三個(gè)模塊,協(xié)同才是關(guān)鍵

三個(gè)模塊單獨(dú)加都有提升，但組合在一起效果遠(yuǎn)超單獨(dú)疊加：

還有一個(gè)有意思的現(xiàn)象：PALA block 堆到 3 個(gè)（參數(shù)從 127M 漲到 147M），KITTI EPE 反而從 1.01 漲到 1.05。迭代本身已經(jīng)在做隱式的深度堆疊，再顯式加層數(shù)可能過擬合了。

SeaStereo 數(shù)據(jù)集

論文還發(fā)布了 SeaStereo-Dataset——40,320 對(duì)水下立體圖像，帶稠密視差標(biāo)注，7 種 Jerlov 水體類型，用 Blender 做物理級(jí)水下光學(xué)渲染，前景是 ShapeNetCore 物體，背景是真實(shí)海洋照片。水下立體匹配一直缺公開數(shù)據(jù)，這個(gè)數(shù)據(jù)集對(duì)后續(xù)研究會(huì)比較有用。

參數(shù)高效：以小博大

得益于我們的參數(shù)高效設(shè)計(jì),127M 參數(shù)中超過 100M 來自凍結(jié)的 Depth Anything V3 backbone,真正需要訓(xùn)練的僅約 10M。這充分驗(yàn)證了我們輕量 decoder 的有效性:小參數(shù)量同樣能撬動(dòng)大規(guī)模預(yù)訓(xùn)練的強(qiáng)大先驗(yàn),在小樣本水下場(chǎng)景下達(dá)到當(dāng)前性能。面向水下機(jī)器人等邊緣算力平臺(tái),我們正進(jìn)一步通過知識(shí)蒸餾壓縮編碼器,把推理延遲推向更極致的水平。

ECCV 2026 論文鏈接：https://arxiv.org/abs/2606.25437
GitHub：https://github.com/u7079256/LinStereo

作者簡介

Yiran Wang，悉尼大學(xué)澳大利亞機(jī)器人中心（Australian Centre for Robotics）博士生，導(dǎo)師為 Viorela Ila 博士。本科畢業(yè)于澳大利亞國立大學(xué)（ANU）高級(jí)計(jì)算專業(yè)（榮譽(yù)學(xué)位）。研究方向涵蓋計(jì)算機(jī)視覺、立體深度估計(jì)、運(yùn)動(dòng)生成與三維視覺，近期聚焦于利用 Vision Foundation Model 提升立體匹配在退化視覺條件下的魯棒性。相關(guān)工作發(fā)表于 ECCV、NeurIPS、ICRA 等國際會(huì)議。

Viorela Ila，悉尼大學(xué)航空航天與機(jī)電工程學(xué)院高級(jí)講師（Senior Lecturer），澳大利亞機(jī)器人中心核心研究員。2005 年獲西班牙赫羅納大學(xué)博士學(xué)位，后赴佐治亞理工學(xué)院從事博士后研究。研究方向涵蓋視覺 SLAM、三維重建、圖模型優(yōu)化與水下機(jī)器人感知，近期代表工作包括動(dòng)態(tài) SLAM 框架 DynoSAM 等。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.