无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

CVPR 2026 | 1000萬段駕駛視頻,教會模型如何估計相機位姿

0
分享至



不用百萬級 3D 標注,模型也能從普通駕駛視頻中學會「自己是怎么動的」。Wayve 的 LA-Pose 試圖把未標注視頻里的運動信號,轉化為自動駕駛系統所需的相機位姿估計能力。

一輛車駛過一段路,它該如何知道自己剛才在三維空間中怎樣移動?

對人來說,答案似乎很自然:看一段行車視頻,道路、車輛、路燈和建筑如何在畫面中移動,幾乎就能判斷相機是在直行、轉彎、減速,還是停下。但對自動駕駛系統來說,這是一項核心幾何感知能力。系統不僅要看見場景,還要知道相機在連續幀之間發生了怎樣的平移和旋轉。

過去,訓練這類模型往往依賴高質量 3D 真值標注。為了得到這些標注,通常需要 LiDAR、精密標定、重建管線或仿真系統。數據越準,成本越高;成本越高,覆蓋的城市、天氣和道路類型就越有限。模型最后也容易繼承這些數據集本身的邊界。

Wayve 的最新研究 LA-Pose 換了一個切入點:先不要求模型直接學習精確 3D 位姿,而是讓它從海量未標注駕駛視頻里理解「運動長什么樣」。這篇論文已被 CVPR 2026 接收,完整題目是 LA-Pose: Latent Action Pretraining Meets Pose Estimation。

論文標題:LA-Pose: Latent Action Pretraining Meets Pose Estimation

  • 項目地址:https://la-pose.github.io/
  • 論文地址:https://arxiv.org/abs/2604.27448
  • Wayve 博客:https://wayve.ai/thinking/la-pose/
  • 作者:Zhengqing Wang, Saurabh Nair, Prajwal Chidananda, Pujith Kachana, Samuel Li, Matthew Brown, Yasutaka Furukawa
  • 機構:Wayve、Simon Fraser University
  • 會議:CVPR 2026

一句話概括這篇論文

LA-Pose 先從約 1000 萬段未標注駕駛視頻中自監督學習「潛在動作」表示,再用少量 3D 標注訓練一個輕量級位姿預測頭,把視頻里的運動規律轉化為準確、高效、可泛化的相機位姿估計能力。

為什么這件事難

相機位姿估計要回答的是:相機從上一幀到下一幀,到底移動了多遠、轉了多少角度?這聽起來像一個幾何問題,但在真實道路上,情況遠比干凈數據集復雜。夜間、雨天、隧道、擁擠城市道路、山路和鄉村道路都會出現,視覺外觀變化很大,傳統監督訓練很難靠有限標注覆蓋所有情況。

LA-Pose 的出發點是,真實駕駛視頻本身已經包含了大量運動線索。車輛向前開、轉彎、減速、駛入隧道,畫面都會隨時間發生規律變化。問題不一定是「怎樣標更多 3D 數據」,也可以是「怎樣讓模型先從普通視頻里學會運動」。

核心方法:先學運動,再學位姿



圖:LA-Pose 的兩階段方法。

LA-Pose 分成兩個階段。

第一階段是 Latent Action Pretraining。研究團隊用約 1000 萬段未標注駕駛視頻片段進行自監督預訓練,讓模型學習一種「潛在動作」表示??梢园阉斫鉃橄噜彯嬅嬷g運動變化的緊湊編碼:車輛是否在左轉、右轉、直行、減速,畫面結構如何隨時間變化,這些信息不需要人工寫成標簽,而是天然藏在視頻序列里。

具體來說,LA-Pose 訓練了一個逆向 - 正向動力學系統。模型看到連續視頻幀后,需要捕捉「當前畫面如何變化到下一幀」的規律。它不知道車輛的精確速度、航向角或 3D 位姿,也沒有被提供位姿標簽;它只是通過觀看大量駕駛視頻,逐漸學會哪些視覺變化對應哪些運動模式。

第二階段再把這種運動表示用于位姿估計。研究者凍結預訓練得到的運動編碼器,只在其上接一個輕量級位姿預測頭,并用少量高質量 3D 標注微調。這個預測頭會把潛在動作轉換為相機位姿,包括相對平移、旋轉、視場角和尺度。整個推理過程仍然是前饋式的,因此更接近實際部署對效率的要求。

沒有位姿標簽,也能長出運動結構



圖:潛在動作空間中自然浮現的運動結構。

這篇論文里最直觀的結果之一,是潛在動作空間自己長出了結構。

當研究者把學到的潛在動作可視化到二維空間后,相似動作會自然聚在一起,不同區域對應直行、左轉、右轉、停止等駕駛行為。這說明模型并不只是記住畫面外觀,而是在沒有 3D 標注的情況下,學到了具有幾何意義的運動先驗。

另一個有意思的發現是:表示并不是越大越好。LA-Pose 的實驗顯示,一個 50 維的潛在空間瓶頸,雖然不一定最擅長重建畫面細節,卻比更高維的表示更適合后續位姿估計。壓縮迫使模型丟掉一部分外觀信息,留下更關鍵的運動結構。

結果:更少標注,更高精度

實驗結果顯示,LA-Pose 在 Waymo 和 PandaSet 等自動駕駛基準上,相比近期前饋式方法取得超過 10% 的位姿精度提升,同時所需標注數據少了多個數量級。

更重要的是,在沒有參與訓練的 PandaSet 上,LA-Pose 依然超過基線方法,展示出較強的跨數據集泛化能力。對于自動駕駛來說,這一點很關鍵:系統不能只在熟悉數據集里表現穩定,也要能面對新的城市、道路形態和天氣條件。

意義:把未標注視頻變成幾何能力

為了更直觀看到這種泛化能力,Wayve 還展示了 LA-Pose 與 VGGT 在不同真實道路場景中的對比:雨天高速出口與環島、德國鄉村窄路。 LA-Pose 的價值在于,它把「未標注視頻規模」轉化成了幾何視覺能力。車輛每天在真實世界中產生的視頻,本身就包含豐富的運動信息。只要模型能從中學到緊湊、可遷移的運動表示,再用少量標注把這種表示落到真實尺度上,就有可能改變幾何感知系統的訓練成本和擴展路徑。

當然,LA-Pose 還不是終點。Wayve 在博客中提到,模型目前在倒車運動上仍會出現退化,一個原因是倒車在后訓練數據中相對少見。團隊認為,下一步需要繼續擴大預訓練和后訓練數據,并把這種逆向動力學預訓練拓展到機器人采集視頻、手持視頻等更廣泛的動態視覺場景。

但這篇工作的信號已經很清楚:幾何視覺不一定只能從昂貴標注開始。運動本身就是監督信號,而真實世界的視頻中到處都有運動。

結語:運動本身就是信號

如果 LA-Pose 的方向繼續成立,未來的自動駕駛系統也許可以更少依賴為每個城市、每類場景重新構建昂貴 3D 標注集,而是從不斷增長的真實駕駛視頻中學習更通用的幾何先驗。

這也是「Latent Action Pretraining Meets Pose Estimation」這個題目的意義:潛在動作不再只是世界模型或策略網絡里的動作條件,它也可以成為連接視頻規模與 3D 幾何理解的一座橋。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
網友將問界新車路測畫面發給國家反詐中心,被認定為AI生成

網友將問界新車路測畫面發給國家反詐中心,被認定為AI生成

西虹市閑話
2026-05-26 16:43:17
想不想做這個黃毛哥?

想不想做這個黃毛哥?

貴圈真亂
2026-05-27 11:57:13
1年賣出8億片!成本僅1毛8的它,“拿捏”了中國男人20多年

1年賣出8億片!成本僅1毛8的它,“拿捏”了中國男人20多年

思思夜話
2026-05-27 11:26:30
雷軍回應武契奇說小米車很漂亮但買不起:總統先生 YU7標準版定價23.35萬

雷軍回應武契奇說小米車很漂亮但買不起:總統先生 YU7標準版定價23.35萬

快科技
2026-05-27 01:13:07
國臺辦:民進黨發言人的情緒性表達,充分暴露其理不直氣不壯

國臺辦:民進黨發言人的情緒性表達,充分暴露其理不直氣不壯

澎湃新聞
2026-05-27 10:46:26
美國公布世界杯26人名單:米蘭5000萬巨星領銜!13人效力五大聯賽

美國公布世界杯26人名單:米蘭5000萬巨星領銜!13人效力五大聯賽

我愛英超
2026-05-27 06:15:01
午評:滬指半日跌超1% 全市場超4600只個股下挫

午評:滬指半日跌超1% 全市場超4600只個股下挫

財聯社
2026-05-27 11:32:15
雞蛋獸藥殘留嚴重超標!山東、河南、安徽等地通告雞蛋抽檢不合格

雞蛋獸藥殘留嚴重超標!山東、河南、安徽等地通告雞蛋抽檢不合格

新浪財經
2026-05-26 22:02:15
多地接連關店、100萬打水漂!網紅地方小吃批量收割創業者

多地接連關店、100萬打水漂!網紅地方小吃批量收割創業者

財經八卦
2026-05-26 17:32:55
中國被曝限制AI人才出境,阿里DeepSeek核心人員出國要先獲批

中國被曝限制AI人才出境,阿里DeepSeek核心人員出國要先獲批

桂系007
2026-05-26 23:43:08
外網800萬播放!歐媒疑集體歧視亞洲球員:多次故意不給捧杯鏡頭

外網800萬播放!歐媒疑集體歧視亞洲球員:多次故意不給捧杯鏡頭

風過鄉
2026-05-27 07:25:31
SGA32+9奪賽點仍遭美媒炮轟:絕技倒地 主動對抗飛撲 聯盟被操縱

SGA32+9奪賽點仍遭美媒炮轟:絕技倒地 主動對抗飛撲 聯盟被操縱

顏小白的籃球夢
2026-05-27 11:50:25
5%永久分紅有多恐怖?每年賺3.3億美元!一紙合約讓喬丹永久躺賺

5%永久分紅有多恐怖?每年賺3.3億美元!一紙合約讓喬丹永久躺賺

青橘罐頭
2026-05-26 22:10:56
15分鐘滅國警告!俄羅斯攤牌:若敢碰加里寧格勒,就讓立陶宛消失

15分鐘滅國警告!俄羅斯攤牌:若敢碰加里寧格勒,就讓立陶宛消失

觀史搜尋著
2026-05-25 10:50:13
洛夫頓賽后傷情動態!沒穿上衣,肩膀不敢動,本人承諾為G2做準備

洛夫頓賽后傷情動態!沒穿上衣,肩膀不敢動,本人承諾為G2做準備

籃球資訊達人
2026-05-27 01:15:29
AI Native 企業的關鍵,是從外化到內生

AI Native 企業的關鍵,是從外化到內生

至頂科技
2026-05-25 21:14:14
大爭議!西決天王山70罰+單節28罰+兩隊51犯 名哨被P穿雷霆球衣

大爭議!西決天王山70罰+單節28罰+兩隊51犯 名哨被P穿雷霆球衣

醉臥浮生
2026-05-27 11:34:57
人社部、財政部關于2026年調整退休人員養老金通知正式公布了嗎?

人社部、財政部關于2026年調整退休人員養老金通知正式公布了嗎?

小彬說事
2026-05-27 10:48:22
一篇《狗日的騰訊》引爆全網!3Q大戰,徹底改寫中國互聯網

一篇《狗日的騰訊》引爆全網!3Q大戰,徹底改寫中國互聯網

流蘇晚晴
2026-05-26 18:05:28
從月銷1.5萬到2982輛!全新一代問界M9把BBA的飯碗端了!

從月銷1.5萬到2982輛!全新一代問界M9把BBA的飯碗端了!

凡兮說
2026-05-26 14:07:44
2026-05-27 13:36:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13091文章數 142653關注度
往期回顧 全部

科技要聞

韜定律:全球在卷納米數 華為換了一把尺子

頭條要聞

武契奇在北京發表演講 談及北約轟炸中國駐南聯盟使館

頭條要聞

武契奇在北京發表演講 談及北約轟炸中國駐南聯盟使館

體育要聞

這群老阿姨,是最硬核的馬刺球迷

娛樂要聞

小S曬歸寧宴舊照,大S穿吊帶裙扎丸子頭

財經要聞

ST巖石退市背后:A股“炒殼”時代終結

汽車要聞

極狐問道V9今日將正式上市 搭載華為雪鸮增程系統

態度原創

游戲
家居
房產
教育
藝術

昂揚不滅!2026英雄聯盟手游超級聯賽夏季賽正式開賽

家居要聞

古老而持久 石影扶手椅

房產要聞

終極塔尖資產!這可能是海南今年最出圈的豪宅!

教育要聞

江西現代職業技術學院:值得填報嗎?熱門專業就業現狀及報考分析#搜索千校視頻計劃

藝術要聞

這個夏天去蘇州過幾天清閑安逸的日子

無障礙瀏覽 進入關懷版