无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

ECCV 2026 |悉尼大學(xué)提出Linstereo, 打通立體匹配「最后一公里」

0
分享至



立體匹配的前端已經(jīng)進(jìn)入視覺基座模型時(shí)代,后端卻還停留在基于卷積的局部遞歸更新。LinStereo 關(guān)注的正是這個(gè)斷層:當(dāng) Depth Anything V3 已經(jīng)能提供全局語義和多尺度表征時(shí),ConvGRU 式的局部傳播反而成了遮擋、弱紋理和水下退化場(chǎng)景中的瓶頸。

悉尼大學(xué)澳大利亞機(jī)器人中心的 Yiran Wang、Oliver Turner 和 Viorela Ila 在 ECCV 2026 論文中提出用位置感知線性注意力模塊替代卷積迭代,讓每輪迭代都能聚合全圖上下文,并輔以多尺度代價(jià)體積和單目深度初始化提升幾何收斂。

更關(guān)鍵的是,LinStereo在凍結(jié)視覺基座模型編碼器,僅用 Scene Flow 合成數(shù)據(jù)訓(xùn)練下游 stereo 模塊,其零樣本泛化能力就將 Middlebury 遮擋區(qū)域把誤差壓低了 37%,在多項(xiàng)標(biāo)準(zhǔn)評(píng)估數(shù)據(jù)上以 ViT-B 的體量戰(zhàn)勝了更大參數(shù)量的模型,甚至在在水下等跨域場(chǎng)景也展現(xiàn)了明顯的優(yōu)勢(shì)。



  • 論文標(biāo)題:LinStereo: Linear-Complexity Global Attention for Multi-Scale Iterative Stereo Matching
  • 作者:Yiran Wang?, Oliver Turner, Viorela Ila?
  • 單位:Australian Centre for Robotics, The University of Sydney
  • 會(huì)議:ECCV 2026(已接收)
  • 論文鏈接:https://arxiv.org/abs/2606.25437
  • 代碼:https://github.com/u7079256/LinStereo

現(xiàn)有迭代式匹配的瓶頸在哪

目前主流立體匹配的流程大同小異:預(yù)訓(xùn)練 backbone 出特征,建代價(jià)體積,ConvGRU 迭代回歸視差。問題出在后半段。

backbone 輸出了好幾層不同分辨率的特征,但建代價(jià)體積的時(shí)候一般只用其中一層,多尺度信息被丟掉了不少。ConvGRU 每輪迭代感受野比較局限,碰到大面積弱紋理或者水下這種退化場(chǎng)景,有用的匹配信號(hào)得跑好幾輪才傳得到遠(yuǎn)處。再加上大多數(shù)方法都從零視差起步,頭幾輪迭代基本在摸場(chǎng)景大致輪廓,實(shí)際用來精細(xì)化的輪次并不多。

LinStereo 對(duì)應(yīng)地做了三件事:PALA換掉ConvGRU 解決傳播問題,HSCV 保留多尺度特征,DPI 用單目深度給一個(gè)靠譜的起點(diǎn)。



圖 1:LinStereo 整體架構(gòu)。(a)多尺度層次化語義 cost volume(HSCV);(b)coarse-to-fine 迭代更新;(c)位置感知線性注意力更新模塊(PALA)。

PALA:全局注意力,但只要線性復(fù)雜度

PALA 做的事情說起來很直觀,就是把 ConvGRU 的局部更新?lián)Q成全局注意力,讓每個(gè)像素每次迭代都能看到整張圖。難點(diǎn)在于 softmax attention 是 O (N2) 的,直接用在高分辨率視差圖上跑不動(dòng)。

PALA 的做法是對(duì) query 和 key 做 kernel 激活(ELU+1),利用矩陣乘法結(jié)合律把復(fù)雜度降到 O (N?C_h2)。實(shí)測(cè) 3.50 ms 一次迭代,ConvGRU 是 3.63 ms,基本沒差別。

但線性注意力有個(gè)已知的毛病:kernel 化之后位置信息會(huì)丟失。PALA 用 2D RoPE 來補(bǔ),這里有個(gè)比較巧妙的處理 ——RoPE 只加在注意力公式的分子上,分母不加。作者把這個(gè)叫 "非對(duì)稱 RoPE"。為什么不兩邊都加?因?yàn)榉帜付思恿?RoPE 之后歸一化會(huì)引入位置偏移,注意力分布反而不穩(wěn)定。消融也驗(yàn)證了這一點(diǎn):KITTI 上差別不算大(EPE 1.05 vs 1.01),但換到水下 TartanAir-UW,RMSE 從 2.18 掉到 2.08,差了將近 5%。



圖 2:PALA 模塊架構(gòu),展示 kernel-activated attention、非對(duì)稱 2D RoPE 和門控更新機(jī)制。

HSCV 和 DPI

HSCV 比較好理解:在 1/4、1/8、1/16 三個(gè)尺度上分別建代價(jià)體積,每個(gè)尺度內(nèi)部再做 4 層視差金字塔。這樣 PALA 每輪迭代能查到不同粒度的匹配信息 —— 淺層管紋理,深層管語義。去掉多尺度之后 KITTI EPE 漲了 0.06,水下 AbsRel 漲了 0.003,看著不大,但跟 PALA 配合起來效果會(huì)放大。

DPI 更直接。Depth Anything V3 的 backbone 本身能出一張單目深度圖,雖然是 affine-invariant 的(只有相對(duì)遠(yuǎn)近,沒有絕對(duì)尺度),但拿 SIFT 在左右圖上匹配幾個(gè)點(diǎn)就能把 scale 和 shift 算出來,轉(zhuǎn)成度量視差當(dāng)初始值。為什么不用 SuperPoint 或 LightGlue?因?yàn)檫@些學(xué)習(xí)型匹配器在水下之類的跨域場(chǎng)景可能失靈,SIFT 純靠幾何約束反而穩(wěn)。SQUID 上 SIFT 的失敗率只有 3.7%,失敗了就退回零初始化,EPE 性能略降 0.08 個(gè)像素。

實(shí)驗(yàn):標(biāo)準(zhǔn) benchmark 和跨域泛化

標(biāo)準(zhǔn) benchmark

LinStereo 的 backbone 是 ViT-B,參數(shù)量和數(shù)據(jù)量都比用 ViT-L 的 FoundationStereo、MonSter 小一截。從下表來看,常規(guī)場(chǎng)景上基本打平,遮擋場(chǎng)景上優(yōu)勢(shì)明顯。



Middlebury 遮擋區(qū)域是最能體現(xiàn)全局注意力價(jià)值的指標(biāo)。EPE 1.33,比排第二的 FoundationStereo 低了 16%,比之前的 DEFOM-Stereo(2.11)低了 37%。道理也好理解:被遮擋的像素附近沒有可靠的匹配線索,ConvGRU 的局部窗口傳不過來,PALA 可以直接從遠(yuǎn)處拿信息。



圖 3:標(biāo)準(zhǔn) benchmark 定性對(duì)比,LinStereo 在物體邊緣和遮擋區(qū)域的深度圖更干凈。

跨域泛化:水下 zero-shot

全局傳播的另一個(gè)受益場(chǎng)景是水下。光在水里按波長衰減,紅色最先消失,再加上懸浮顆粒的散射,遠(yuǎn)處的紋理基本不可用。ConvGRU 在這種大面積退化的場(chǎng)景里傳播太慢,PALA 就不存在這個(gè)問題。

LinStereo 沒用過任何水下數(shù)據(jù)訓(xùn)練,但在水下 benchmark 上全面領(lǐng)先。





圖 4:水下場(chǎng)景定性對(duì)比。退化嚴(yán)重的區(qū)域里,LinStereo 的深度圖仍然連貫。

精準(zhǔn)度和推理速度兩手抓

T=2 迭代就能跑到 12.5 FPS(480×640),這個(gè)配置下 SQUID AbsRel 0.05 -> 在有計(jì)算性能受限的情況下, Linstereo 只需兩次迭代優(yōu)化(等效推理速度12.5FPS)仍可以保持SQUID AbsRel 0.05

三個(gè)模塊,協(xié)同才是關(guān)鍵

三個(gè)模塊單獨(dú)加都有提升,但組合在一起效果遠(yuǎn)超單獨(dú)疊加:



還有一個(gè)有意思的現(xiàn)象:PALA block 堆到 3 個(gè)(參數(shù)從 127M 漲到 147M),KITTI EPE 反而從 1.01 漲到 1.05。迭代本身已經(jīng)在做隱式的深度堆疊,再顯式加層數(shù)可能過擬合了。

SeaStereo 數(shù)據(jù)集

論文還發(fā)布了 SeaStereo-Dataset——40,320 對(duì)水下立體圖像,帶稠密視差標(biāo)注,7 種 Jerlov 水體類型,用 Blender 做物理級(jí)水下光學(xué)渲染,前景是 ShapeNetCore 物體,背景是真實(shí)海洋照片。水下立體匹配一直缺公開數(shù)據(jù),這個(gè)數(shù)據(jù)集對(duì)后續(xù)研究會(huì)比較有用。

參數(shù)高效:以小博大

得益于我們的參數(shù)高效設(shè)計(jì),127M 參數(shù)中超過 100M 來自凍結(jié)的 Depth Anything V3 backbone,真正需要訓(xùn)練的僅約 10M。這充分驗(yàn)證了我們輕量 decoder 的有效性:小參數(shù)量同樣能撬動(dòng)大規(guī)模預(yù)訓(xùn)練的強(qiáng)大先驗(yàn),在小樣本水下場(chǎng)景下達(dá)到當(dāng)前性能。面向水下機(jī)器人等邊緣算力平臺(tái),我們正進(jìn)一步通過知識(shí)蒸餾壓縮編碼器,把推理延遲推向更極致的水平。

  • ECCV 2026 論文鏈接:https://arxiv.org/abs/2606.25437
  • GitHub:https://github.com/u7079256/LinStereo

作者簡介

Yiran Wang,悉尼大學(xué)澳大利亞機(jī)器人中心(Australian Centre for Robotics)博士生,導(dǎo)師為 Viorela Ila 博士。本科畢業(yè)于澳大利亞國立大學(xué)(ANU)高級(jí)計(jì)算專業(yè)(榮譽(yù)學(xué)位)。研究方向涵蓋計(jì)算機(jī)視覺、立體深度估計(jì)、運(yùn)動(dòng)生成與三維視覺,近期聚焦于利用 Vision Foundation Model 提升立體匹配在退化視覺條件下的魯棒性。相關(guān)工作發(fā)表于 ECCV、NeurIPS、ICRA 等國際會(huì)議。

Viorela Ila,悉尼大學(xué)航空航天與機(jī)電工程學(xué)院高級(jí)講師(Senior Lecturer),澳大利亞機(jī)器人中心核心研究員。2005 年獲西班牙赫羅納大學(xué)博士學(xué)位,后赴佐治亞理工學(xué)院從事博士后研究。研究方向涵蓋視覺 SLAM、三維重建、圖模型優(yōu)化與水下機(jī)器人感知,近期代表工作包括動(dòng)態(tài) SLAM 框架 DynoSAM 等。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
特斯拉新品突然發(fā)布,但這價(jià)格太夸張了吧!

特斯拉新品突然發(fā)布,但這價(jià)格太夸張了吧!

XCiOS俱樂部
2026-07-04 14:08:55
連準(zhǔn)四屆!世界杯“日本定律”走紅:擊敗巴西者或奪冠

連準(zhǔn)四屆!世界杯“日本定律”走紅:擊敗巴西者或奪冠

星耀國際足壇
2026-07-04 23:02:51
疑似失竊文物現(xiàn)身某博物館引熱議,業(yè)內(nèi)人士解讀:無論依法購買還是接受捐贈(zèng),博物館有義務(wù)審查所購文物來源

疑似失竊文物現(xiàn)身某博物館引熱議,業(yè)內(nèi)人士解讀:無論依法購買還是接受捐贈(zèng),博物館有義務(wù)審查所購文物來源

極目新聞
2026-07-03 20:36:19
擊毀罕見的俄羅斯米格-29!“廢金屬”換無人機(jī)技術(shù):烏克蘭拒絕

擊毀罕見的俄羅斯米格-29!“廢金屬”換無人機(jī)技術(shù):烏克蘭拒絕

鷹眼Defence
2026-07-05 16:15:31
美媒:中國每年800萬大學(xué)生,精英少得可憐,理科天才都入了美籍

美媒:中國每年800萬大學(xué)生,精英少得可憐,理科天才都入了美籍

荊楚寰宇文樞
2026-07-04 22:59:18
詹姆斯在阿克倫和高中隊(duì)友重聚,騎士助理總經(jīng)理在列

詹姆斯在阿克倫和高中隊(duì)友重聚,騎士助理總經(jīng)理在列

懂球帝
2026-07-05 14:29:07
A股:緊急提醒2.5億股民!從明天7月6日起,A股或歷史重演調(diào)整行情?

A股:緊急提醒2.5億股民!從明天7月6日起,A股或歷史重演調(diào)整行情?

趨勢(shì)清風(fēng)俠
2026-07-05 11:41:02
東北一男子養(yǎng)鹿破產(chǎn),賭氣放生了30頭鹿,8年后上山,眼前一幕卻讓他淚崩了...

東北一男子養(yǎng)鹿破產(chǎn),賭氣放生了30頭鹿,8年后上山,眼前一幕卻讓他淚崩了...

背包旅行
2026-05-11 14:51:09
太陽女主持和暴躁影帝分手的真相!

太陽女主持和暴躁影帝分手的真相!

八卦瘋叔
2026-07-05 10:48:37
太狠了!成都打掉新型黑中介團(tuán)伙,全程演戲造糾紛,專坑老板

太狠了!成都打掉新型黑中介團(tuán)伙,全程演戲造糾紛,專坑老板

阿芒娛樂說
2026-07-05 14:44:52
正常男人吃一顆偉哥是什么體驗(yàn)?網(wǎng)友們的分享讓人臉紅心跳加快!

正常男人吃一顆偉哥是什么體驗(yàn)?網(wǎng)友們的分享讓人臉紅心跳加快!

黯泉
2026-06-25 12:10:30
空襲慘烈!烏克蘭第二大城市被炸成廢墟,俄軍接連拿下關(guān)鍵陣地!

空襲慘烈!烏克蘭第二大城市被炸成廢墟,俄軍接連拿下關(guān)鍵陣地!

青青衫書生
2026-07-02 23:23:10
西安賽格事件升級(jí)!消費(fèi)者曬票據(jù):7000送7000,會(huì)員都參與拆分單

西安賽格事件升級(jí)!消費(fèi)者曬票據(jù):7000送7000,會(huì)員都參與拆分單

社會(huì)日日鮮
2026-07-04 06:39:59
燕麥再次被關(guān)注!調(diào)查發(fā)現(xiàn):早餐常吃燕麥的人,身體或迎來6變化

燕麥再次被關(guān)注!調(diào)查發(fā)現(xiàn):早餐常吃燕麥的人,身體或迎來6變化

荷蘭豆愛健康
2026-07-05 01:05:38
中國男籃VS中國臺(tái)北,24戰(zhàn)贏23次,郭士強(qiáng)要變陣,鋒線誰能站出來

中國男籃VS中國臺(tái)北,24戰(zhàn)贏23次,郭士強(qiáng)要變陣,鋒線誰能站出來

體育大學(xué)僧
2026-07-05 17:28:10
墨西哥主帥怒噴國際足聯(lián):沒人問過我,開球時(shí)間改動(dòng)像挨了一腳

墨西哥主帥怒噴國際足聯(lián):沒人問過我,開球時(shí)間改動(dòng)像挨了一腳

籃壇第一線
2026-07-05 01:36:59
你以為路燈是免費(fèi)的?揭秘中國路燈電費(fèi)歸屬,產(chǎn)生的電費(fèi)有多少?

你以為路燈是免費(fèi)的?揭秘中國路燈電費(fèi)歸屬,產(chǎn)生的電費(fèi)有多少?

有牙的兔紙
2026-07-03 01:31:20
人過73歲后,永遠(yuǎn)不要在熟人面前,說以下6句話,誰說誰后悔

人過73歲后,永遠(yuǎn)不要在熟人面前,說以下6句話,誰說誰后悔

風(fēng)起見你
2026-07-05 15:55:54
高志凱預(yù)警,金融危機(jī)真的要來了?最先倒霉的是誰?

高志凱預(yù)警,金融危機(jī)真的要來了?最先倒霉的是誰?

哎呀哎呀看電影
2026-07-05 05:32:49
在那個(gè)年代沒有美顏,詩吉麗太后能長這樣,確實(shí)很漂亮

在那個(gè)年代沒有美顏,詩吉麗太后能長這樣,確實(shí)很漂亮

白淺娛樂聊
2026-07-05 09:27:52
2026-07-05 18:43:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13434文章數(shù) 142688關(guān)注度
往期回顧 全部

科技要聞

華為:邏輯折疊將大幅提升麒麟CPU核心頻率

頭條要聞

《我不是藥神》原型抗癌24年 曾吃藥"一年吃掉一套房"

頭條要聞

《我不是藥神》原型抗癌24年 曾吃藥"一年吃掉一套房"

體育要聞

姆巴佩點(diǎn)走巴拉圭:巴黎三代左鋒傳承

娛樂要聞

霉霉婚禮照片泄露 有四人違規(guī)

財(cái)經(jīng)要聞

揭秘跨境“對(duì)敲”換匯黑產(chǎn)

汽車要聞

方程豹鈦9內(nèi)飾曝光 用上了長聯(lián)屏設(shè)計(jì)/下半年上市

態(tài)度原創(chuàng)

家居
藝術(shù)
健康
本地
公開課

家居要聞

傳奇筑 日常詩

藝術(shù)要聞

看看“館閣體”鼻祖寫的書法,比趙孟頫的字還美,狠狠打臉噴子惡評(píng)!

聽說少吃點(diǎn)能抗衰老?專家講解!

本地新聞

國內(nèi)足球之旅?這座小城給你高分答案

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版