物理信息驅(qū)動的跟蹤(PIT)
Physics-Informed Tracking (PIT)
https://arxiv.org/pdf/2604.16895
![]()
摘要
我們提出了物理信息跟蹤(PIT),這是一個基于視頻的單粒子跟蹤框架,其中神經(jīng)網(wǎng)絡(luò)自編碼器將粒子定位為一個熱圖峰值(地標(biāo)),嵌入在自編碼器中的可微物理模塊約束隨時間變化的多個地標(biāo)(一條軌跡)以滿足已知的動力學(xué)。新穎的物理信息地標(biāo)損失(PILL)將預(yù)測的軌跡與地標(biāo)進(jìn)行反向比較,在無需標(biāo)簽的情況下強(qiáng)制執(zhí)行物理一致性。其監(jiān)督變體(PILLS)則將預(yù)測與來自模擬的真值位置、速度和彈跳進(jìn)行比較,實(shí)現(xiàn)端到端的反向傳播。
為了支持監(jiān)督和無監(jiān)督學(xué)習(xí),我們使用了一個具有分裂瓶頸的自編碼器,它將 A) 通過地標(biāo)熱圖實(shí)現(xiàn)的與跟蹤相關(guān)的結(jié)構(gòu),與 B) 背景噪聲和隨后的圖像重建分離開來。我們評估了一個重復(fù)的 2? 因子設(shè)計(n = 4 次重復(fù),64 種配置),結(jié)果表明,PILLS 在干凈和噪聲條件下,對于雙線性和物理優(yōu)化的解碼器輸出,始終能夠?qū)崿F(xiàn)亞像素級的跟蹤精度。
1 引言
在視頻中跟蹤物體是計算機(jī)視覺中的一個核心問題。最早成功且高效的目標(biāo)檢測深度學(xué)習(xí)方法包括 Faster R-CNN(Ren et al. [2015])和 YOLO(Redmon et al. [2016]),而具有跳躍連接的架構(gòu),特別是 ResNet(He et al. [2016])和 U-Net(Ronneberger et al. [2015]),已成為密集預(yù)測任務(wù)的標(biāo)準(zhǔn)。最近,基于關(guān)鍵點(diǎn)的方法(也稱為地標(biāo)方法),即通過將物體定位為熱圖中的峰值,受到了關(guān)注。CenterNet(Duan et al. [2019])將物體檢測為關(guān)鍵點(diǎn)三元組,而 Zhou et al. [2019] 提出了一種更簡單的基于熱圖的公式,其中物體被表示為中心點(diǎn)。我們的工作受到后一種方法的啟發(fā),使用熱圖峰值作為地標(biāo)位置。自編碼器可以在無需標(biāo)簽的情況下學(xué)習(xí)緊湊的潛表示(Bengio [2012]),而去噪自編碼器(DAEs)通過從噪聲輸入中重建干凈數(shù)據(jù)來提高魯棒性(Vincent et al. [2008])。我們的工作建立在這些架構(gòu)的跳躍連接、地標(biāo)設(shè)計和自編碼器原理之上,并通過物理信息約束對其進(jìn)行擴(kuò)展,以在粒子跟蹤中實(shí)現(xiàn)更精確的地標(biāo)定位。
1.1 自編碼器跟蹤與科學(xué)機(jī)器學(xué)習(xí)中的相關(guān)工作
在跟蹤領(lǐng)域,基于自編碼器的方法已被用于狀態(tài)估計(Xu et al. [2021])和高速特征壓縮(Choi et al. [2018]),然而這些方法均未將物理約束納入跟蹤過程。物理信息神經(jīng)網(wǎng)絡(luò)(PINNs)(Raissi et al. [2019])是為連續(xù)介質(zhì)力學(xué)和偏微分方程開發(fā)的,它將物理定律直接嵌入學(xué)習(xí)過程,使得在標(biāo)注數(shù)據(jù)稀缺的情況下能夠?qū)崿F(xiàn)數(shù)據(jù)驅(qū)動的解決方案。這一原則已被擴(kuò)展至自編碼器:物理信息自編碼器(PIAEs)在潛表示中強(qiáng)制保持物理一致性,例如通過使非線性動力學(xué)線性化的庫普曼算子(Rice et al. [2021])。
物理信息軌跡自編碼器(PITA)(Fischer et al. [2024])是一種自編碼器,它以車輛軌跡坐標(biāo)作為顯式輸入,并集成運(yùn)動學(xué)自行車模型作為物理正則化,以生成平滑且物理上合理的重建結(jié)果。值得注意的是,F(xiàn)ischer et al. 指出,據(jù)他們所知,此前沒有自編碼器將物理約束納入軌跡編碼中。與 PITA 不同,PIT 必須在應(yīng)用物理約束之前,首先通過學(xué)到的熱圖從原始視頻幀中隱式地提取粒子坐標(biāo)。Erichson et al. [2019] 引入了一種用于從視覺快照預(yù)測流體流動的物理信息自編碼器,其中跳躍連接將動力學(xué)模型與恒等保持分量分離,且李雅普諾夫穩(wěn)定性先驗約束了學(xué)習(xí)到的動力學(xué)。PIT 采用類似的分離原則并通過其分裂瓶頸實(shí)現(xiàn),但用顯式運(yùn)動方程替換了穩(wěn)定性先驗,并在稀疏地標(biāo)熱圖上操作,而非密集流場。
與此密切相關(guān)的是,Kienzle et al. [2023] 利用運(yùn)動物理定律從 2D 標(biāo)簽學(xué)習(xí)單目 3D 物體定位:他們的位置估計網(wǎng)絡(luò)從單張圖像預(yù)測 2D 熱圖和深度圖,并且物理感知預(yù)測模塊(一種帶有軟勢壁的神經(jīng)常微分方程)通過未來幀一致性損失來監(jiān)督深度。PIT 存在根本性差異:(i) 他們的問題是單圖像 3D 定位,而 PIT 執(zhí)行 2D 空間中的時序地標(biāo)跟蹤;(ii) 他們的熱圖使用真值(GT)2D 標(biāo)簽進(jìn)行訓(xùn)練,而 PIT 的 PILL 是完全無監(jiān)督的;(iii) 他們的物理模塊在推理時(單圖像測試階段)被丟棄,而 PIT 的可微 Velocity-Verlet 模塊在訓(xùn)練和推理時均保持激活狀態(tài),并通過單次前向傳播輸出位置、速度和彈跳結(jié)果。
SINDy(Brunton et al. [2016])通過稀疏回歸從數(shù)據(jù)中發(fā)現(xiàn)控制方程,Brunton 和 Kutz [2022] 對數(shù)據(jù)驅(qū)動動力系統(tǒng)進(jìn)行了全面論述。盡管這些方法在潛表示或軌跡預(yù)測中強(qiáng)制執(zhí)行物理一致性,但尚無方法將物理信息約束直接應(yīng)用于采用自編碼器架構(gòu)的視覺地標(biāo)跟蹤。PIT 通過引入物理信息損失(PILL 和 PILLS)彌補(bǔ)了這一空白,這些損失約束地標(biāo)軌跡以滿足已知的運(yùn)動動力學(xué),從而實(shí)現(xiàn)了位置、速度和彈跳估計的端到端學(xué)習(xí)。此外,PIT 將自編碼器與結(jié)構(gòu)化瓶頸相結(jié)合,以分離跟蹤地標(biāo)與背景噪聲,從而同時支持監(jiān)督和無監(jiān)督學(xué)習(xí)。
1.2 貢獻(xiàn)
我們提出了物理信息跟蹤(PIT),其貢獻(xiàn)如下。首先,我們引入了一種分裂自編碼器瓶頸,它將(A)與跟蹤相關(guān)的地標(biāo)熱圖(其最大值對應(yīng)粒子位置)與(B)用于圖像重建的背景/噪聲分量分離開來。該設(shè)計受 Erichson 等人 [2019] 中動力學(xué)與身份分離的啟發(fā),我們將地標(biāo)輸出稱為自編碼器地標(biāo)輸出(AELO),或在應(yīng)用真值監(jiān)督時稱為 AELOS。其次,我們引入了物理信息地標(biāo)損失(PILL),這是一種無監(jiān)督損失,它約束地標(biāo)軌跡以滿足已知的物理定律——例如重力驅(qū)動的拋物線運(yùn)動——而無需真值標(biāo)簽。PILL 在概念上與 PINNs 相關(guān),但應(yīng)用于地標(biāo)跟蹤而非場回歸。第三,我們引入了一個監(jiān)督變體,即物理信息地標(biāo)損失監(jiān)督版(PILLS),其中網(wǎng)絡(luò)預(yù)測的地標(biāo)通過一個演化系統(tǒng)動力學(xué)的可微物理模塊投影到物理狀態(tài)空間;所有算子都是計算圖的一部分,從而實(shí)現(xiàn)了位置、速度和彈跳動力學(xué)的端到端監(jiān)督學(xué)習(xí)。最后,物理信息方法的一個關(guān)鍵優(yōu)勢在于,PILL 和 PILLS 不僅提供優(yōu)化的位置估計,還提供速度預(yù)測和彈跳時機(jī)/位置,所有這些都來自可微物理模塊的單次前向傳播——這些物理狀態(tài)預(yù)測是標(biāo)準(zhǔn)基于熱圖的跟蹤方法所無法提供的。
我們在干凈和噪聲條件下的模擬球軌跡上進(jìn)行評估,使用 CenterNet 風(fēng)格的 Duan 等人 [2019] 熱圖監(jiān)督作為我們的基線,使用具有跳躍連接的多尺度解碼器進(jìn)行地標(biāo)優(yōu)化,并采用重復(fù)的 2? 因子設(shè)計(n = 4 次重復(fù),64 種配置)。結(jié)果表明,與標(biāo)準(zhǔn)熱圖訓(xùn)練相比,物理信息地標(biāo)約束始終能提高跟蹤性能。
2 數(shù)據(jù)
該數(shù)據(jù)集由合成視頻序列組成,這些序列是通過模擬球體沿拋物線軌跡運(yùn)動并帶有非彈性邊界碰撞而創(chuàng)建的(表1)。
2.1 物理:球體的純重力模型
從牛頓第二定律出發(fā)
![]()
![]()
2.2 隨機(jī)初始位置和速度生成
![]()
![]()
這確保了球心的初始化位置完全位于圖像域內(nèi)。為確保可重復(fù)性,所有隨機(jī)采樣均使用固定的偽隨機(jī)種子執(zhí)行,其中 NumPy 種子設(shè)為 42。
![]()
2.3 實(shí)驗設(shè)置、數(shù)據(jù)劃分與視頻生成
表1總結(jié)了所有模擬和數(shù)據(jù)參數(shù)。合成視頻數(shù)據(jù)被劃分為訓(xùn)練集(100個序列)、驗證集(50個序列)和測試集(100個序列)。所有劃分共享相同的物理和成像參數(shù),但在隨機(jī)初始條件方面有所不同,這些條件是從位置和速度的連續(xù)均勻分布中采樣的。沒有任何序列出現(xiàn)在多個劃分中。訓(xùn)練集用于模型學(xué)習(xí),驗證集用于模型選擇(每個指標(biāo)的最佳epoch),測試集僅用于最終評估。
![]()
![]()
![]()
3 方法
在本節(jié)中,我們描述 PIT 編碼器-解碼器架構(gòu)、包含六個二值因子(A–F)的訓(xùn)練過程,以及評估協(xié)議。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
4 結(jié)果
性能展示在第 4.1 和 4.2 節(jié)中,關(guān)于結(jié)果的擴(kuò)展討論提供在 B 節(jié)中。
4.1 因子的測試損失
表2和表3報告了在九個跟蹤輸出中最低的測試 L1 跟蹤損失,并針對因子 F 的兩種噪聲設(shè)置分別展示。
![]()
對于兩種噪聲條件,包含監(jiān)督物理信息損失(PILLS,因子 E)的配置在實(shí)現(xiàn)跨跟蹤變量最低損失的行中出現(xiàn)頻率最高。
在無噪聲設(shè)置(F=0)下,第23行和第31行(均為 A1B1C1E1)在雙線性和物理優(yōu)化輸出上實(shí)現(xiàn)了最低的解碼器誤差,具有亞像素精度(在尺度112上 ≤0.42 px)。在噪聲條件下(F=1),第55行(A1B1C1D0E1F1)取得了最佳的雙線性和物理優(yōu)化解碼器誤差,表明 PILLS 即使在 σ=1 噪聲下也能保持亞像素精度。第39行(基線,A1B1C1D0E0F1)在尺度112和224上保持了最低的硬 argmax 誤差,這與硬 argmax 對熱圖形狀不太敏感但僅限于整數(shù)分辨率的特性一致。
在最低分辨率(B56 和 P56)下,性能相比更高分辨率有所下降,表明在當(dāng)前參數(shù)設(shè)置下,雙線性上采樣結(jié)合物理模塊預(yù)測提供的學(xué)習(xí)信號不足。
4.2 因子效應(yīng)
因子效應(yīng)在表4(編碼器)和表5(解碼器)中按每個跟蹤變量展示,按平均幅度大小排名的前10個最大效應(yīng)列出。
![]()
主導(dǎo)的主效應(yīng)與模型中編碼器和解碼器的物理信息跟蹤(PILLS)因子(E)相關(guān)。特別是,監(jiān)督物理損失(E)和解碼器(A)在解碼器上表現(xiàn)出最大的負(fù)效應(yīng),表明當(dāng)這些主效應(yīng)對解碼器啟用并結(jié)合在二階交互作用中時,測試誤差顯著降低。
輸入噪聲增強(qiáng)(F)如預(yù)期所示表現(xiàn)出強(qiáng)烈的正效應(yīng),表明噪聲增加了跟蹤任務(wù)的難度。特別是,主效應(yīng) E 具有負(fù)效應(yīng),且在其參與的所有高階交互作用中也具有負(fù)效應(yīng)。令人驚訝的是,因子 C 的主效應(yīng)在編碼器跟蹤上具有正值,類似于因子 A 的主效應(yīng),但在解碼器上如預(yù)期為負(fù)值。與 C 相反,因子 D 在解碼器中具有正值,但在編碼器中具有負(fù)值,并且它是四個有益的高階交互作用項的一部分。
4.3 速度和彈跳預(yù)測
物理信息方法的一個關(guān)鍵優(yōu)勢是,模型從單次前向傳播中輸出速度估計和彈跳檢測。表6報告了跨配置的速度預(yù)測誤差,圖3展示了在測試視頻78(第55行,A1B1C1E1F1)上的定性推理結(jié)果。只有同時具有多尺度解碼器(A=1)和噪聲瓶頸(B=1)的配置才能在所有三個尺度上實(shí)現(xiàn)低誤差;若無這些配置,112和224尺度的熱圖會崩潰至約 57 px 誤差,而56尺度的編碼器熱圖仍保持功能。
![]()
5 結(jié)論與討論
通過使用受控跟蹤任務(wù)和重復(fù)因子實(shí)驗設(shè)計(n = 4 次重復(fù)),我們研究了物理信息地標(biāo)約束在多種架構(gòu)選擇、監(jiān)督級別和噪聲條件下對跟蹤性能的影響。總體而言,結(jié)果表明物理信息地標(biāo)損失為將物理結(jié)構(gòu)注入基于學(xué)習(xí)的跟蹤模型提供了一種有理論依據(jù)的機(jī)制,其中監(jiān)督物理信息訓(xùn)練(PILLS)在跨噪聲條件下始終產(chǎn)生最低或接近最低的測試跟蹤誤差。雖然硬 argmax (H) 是標(biāo)準(zhǔn)檢測方法,但在 B112 和 B224 處的雙線性插值預(yù)測——及其對應(yīng)的物理優(yōu)化輸出(P112 和 P224)——在若干情況下優(yōu)于硬 argmax,這可能是由于改善了亞像素定位。在 B56 和 P56 處,較粗的空間分辨率導(dǎo)致性能相比 H56 有所下降。
盡管在此簡單設(shè)置下重建質(zhì)量仍然有限,但本研究的主要目標(biāo)是精確的地標(biāo)跟蹤。除跟蹤外,所提出的物理信息地標(biāo)框架可自然擴(kuò)展至生成場景,因為該方法能夠生成視覺上合理且物理上一致的軌跡。物理信息方法的一個關(guān)鍵優(yōu)勢在于,模型通過單次前向傳播不僅輸出優(yōu)化后的位置,還輸出速度估計和彈跳檢測——這些物理狀態(tài)預(yù)測是標(biāo)準(zhǔn)基于熱圖的跟蹤方法所無法提供的。
局限性。當(dāng)前實(shí)驗僅跟蹤單個粒子;具有交叉軌跡的多粒子跟蹤尚未解決,留待未來工作。所有實(shí)驗均使用合成數(shù)據(jù),在真實(shí)視頻上的驗證仍是未來工作。該方法依賴于正確的物理先驗——如果假設(shè)的動力學(xué)(重力、彈跳模型)與真實(shí)系統(tǒng)不匹配,性能可能會下降。
原文鏈接:https://arxiv.org/pdf/2604.16895
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.