網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

物理信息驅(qū)動的跟蹤（PIT）

2026-05-03 15:35:53　來源: CreateAMind

上海舉報

分享至

物理信息驅(qū)動的跟蹤（PIT）

Physics-Informed Tracking (PIT)

https://arxiv.org/pdf/2604.16895

摘要

我們提出了物理信息跟蹤（PIT），這是一個基于視頻的單粒子跟蹤框架，其中神經(jīng)網(wǎng)絡(luò)自編碼器將粒子定位為一個熱圖峰值（地標(biāo)），嵌入在自編碼器中的可微物理模塊約束隨時間變化的多個地標(biāo)（一條軌跡）以滿足已知的動力學(xué)。新穎的物理信息地標(biāo)損失（PILL）將預(yù)測的軌跡與地標(biāo)進(jìn)行反向比較，在無需標(biāo)簽的情況下強(qiáng)制執(zhí)行物理一致性。其監(jiān)督變體（PILLS）則將預(yù)測與來自模擬的真值位置、速度和彈跳進(jìn)行比較，實(shí)現(xiàn)端到端的反向傳播。

為了支持監(jiān)督和無監(jiān)督學(xué)習(xí)，我們使用了一個具有分裂瓶頸的自編碼器，它將 A) 通過地標(biāo)熱圖實(shí)現(xiàn)的與跟蹤相關(guān)的結(jié)構(gòu)，與 B) 背景噪聲和隨后的圖像重建分離開來。我們評估了一個重復(fù)的 2? 因子設(shè)計（n = 4 次重復(fù)，64 種配置），結(jié)果表明，PILLS 在干凈和噪聲條件下，對于雙線性和物理優(yōu)化的解碼器輸出，始終能夠?qū)崿F(xiàn)亞像素級的跟蹤精度。

1 引言

在視頻中跟蹤物體是計算機(jī)視覺中的一個核心問題。最早成功且高效的目標(biāo)檢測深度學(xué)習(xí)方法包括 Faster R-CNN（Ren et al. [2015]）和 YOLO（Redmon et al. [2016]），而具有跳躍連接的架構(gòu)，特別是 ResNet（He et al. [2016]）和 U-Net（Ronneberger et al. [2015]），已成為密集預(yù)測任務(wù)的標(biāo)準(zhǔn)。最近，基于關(guān)鍵點(diǎn)的方法（也稱為地標(biāo)方法），即通過將物體定位為熱圖中的峰值，受到了關(guān)注。CenterNet（Duan et al. [2019]）將物體檢測為關(guān)鍵點(diǎn)三元組，而 Zhou et al. [2019] 提出了一種更簡單的基于熱圖的公式，其中物體被表示為中心點(diǎn)。我們的工作受到后一種方法的啟發(fā)，使用熱圖峰值作為地標(biāo)位置。自編碼器可以在無需標(biāo)簽的情況下學(xué)習(xí)緊湊的潛表示（Bengio [2012]），而去噪自編碼器（DAEs）通過從噪聲輸入中重建干凈數(shù)據(jù)來提高魯棒性（Vincent et al. [2008]）。我們的工作建立在這些架構(gòu)的跳躍連接、地標(biāo)設(shè)計和自編碼器原理之上，并通過物理信息約束對其進(jìn)行擴(kuò)展，以在粒子跟蹤中實(shí)現(xiàn)更精確的地標(biāo)定位。

1.1 自編碼器跟蹤與科學(xué)機(jī)器學(xué)習(xí)中的相關(guān)工作

在跟蹤領(lǐng)域，基于自編碼器的方法已被用于狀態(tài)估計（Xu et al. [2021]）和高速特征壓縮（Choi et al. [2018]），然而這些方法均未將物理約束納入跟蹤過程。物理信息神經(jīng)網(wǎng)絡(luò)（PINNs）（Raissi et al. [2019]）是為連續(xù)介質(zhì)力學(xué)和偏微分方程開發(fā)的，它將物理定律直接嵌入學(xué)習(xí)過程，使得在標(biāo)注數(shù)據(jù)稀缺的情況下能夠?qū)崿F(xiàn)數(shù)據(jù)驅(qū)動的解決方案。這一原則已被擴(kuò)展至自編碼器：物理信息自編碼器（PIAEs）在潛表示中強(qiáng)制保持物理一致性，例如通過使非線性動力學(xué)線性化的庫普曼算子（Rice et al. [2021]）。

物理信息軌跡自編碼器（PITA）（Fischer et al. [2024]）是一種自編碼器，它以車輛軌跡坐標(biāo)作為顯式輸入，并集成運(yùn)動學(xué)自行車模型作為物理正則化，以生成平滑且物理上合理的重建結(jié)果。值得注意的是，F(xiàn)ischer et al. 指出，據(jù)他們所知，此前沒有自編碼器將物理約束納入軌跡編碼中。與 PITA 不同，PIT 必須在應(yīng)用物理約束之前，首先通過學(xué)到的熱圖從原始視頻幀中隱式地提取粒子坐標(biāo)。Erichson et al. [2019] 引入了一種用于從視覺快照預(yù)測流體流動的物理信息自編碼器，其中跳躍連接將動力學(xué)模型與恒等保持分量分離，且李雅普諾夫穩(wěn)定性先驗約束了學(xué)習(xí)到的動力學(xué)。PIT 采用類似的分離原則并通過其分裂瓶頸實(shí)現(xiàn)，但用顯式運(yùn)動方程替換了穩(wěn)定性先驗，并在稀疏地標(biāo)熱圖上操作，而非密集流場。

與此密切相關(guān)的是，Kienzle et al. [2023] 利用運(yùn)動物理定律從 2D 標(biāo)簽學(xué)習(xí)單目 3D 物體定位：他們的位置估計網(wǎng)絡(luò)從單張圖像預(yù)測 2D 熱圖和深度圖，并且物理感知預(yù)測模塊（一種帶有軟勢壁的神經(jīng)常微分方程）通過未來幀一致性損失來監(jiān)督深度。PIT 存在根本性差異：(i) 他們的問題是單圖像 3D 定位，而 PIT 執(zhí)行 2D 空間中的時序地標(biāo)跟蹤；(ii) 他們的熱圖使用真值（GT）2D 標(biāo)簽進(jìn)行訓(xùn)練，而 PIT 的 PILL 是完全無監(jiān)督的；(iii) 他們的物理模塊在推理時（單圖像測試階段）被丟棄，而 PIT 的可微 Velocity-Verlet 模塊在訓(xùn)練和推理時均保持激活狀態(tài)，并通過單次前向傳播輸出位置、速度和彈跳結(jié)果。

SINDy（Brunton et al. [2016]）通過稀疏回歸從數(shù)據(jù)中發(fā)現(xiàn)控制方程，Brunton 和 Kutz [2022] 對數(shù)據(jù)驅(qū)動動力系統(tǒng)進(jìn)行了全面論述。盡管這些方法在潛表示或軌跡預(yù)測中強(qiáng)制執(zhí)行物理一致性，但尚無方法將物理信息約束直接應(yīng)用于采用自編碼器架構(gòu)的視覺地標(biāo)跟蹤。PIT 通過引入物理信息損失（PILL 和 PILLS）彌補(bǔ)了這一空白，這些損失約束地標(biāo)軌跡以滿足已知的運(yùn)動動力學(xué)，從而實(shí)現(xiàn)了位置、速度和彈跳估計的端到端學(xué)習(xí)。此外，PIT 將自編碼器與結(jié)構(gòu)化瓶頸相結(jié)合，以分離跟蹤地標(biāo)與背景噪聲，從而同時支持監(jiān)督和無監(jiān)督學(xué)習(xí)。

1.2 貢獻(xiàn)

我們提出了物理信息跟蹤（PIT），其貢獻(xiàn)如下。首先，我們引入了一種分裂自編碼器瓶頸，它將（A）與跟蹤相關(guān)的地標(biāo)熱圖（其最大值對應(yīng)粒子位置）與（B）用于圖像重建的背景/噪聲分量分離開來。該設(shè)計受 Erichson 等人 [2019] 中動力學(xué)與身份分離的啟發(fā)，我們將地標(biāo)輸出稱為自編碼器地標(biāo)輸出（AELO），或在應(yīng)用真值監(jiān)督時稱為 AELOS。其次，我們引入了物理信息地標(biāo)損失（PILL），這是一種無監(jiān)督損失，它約束地標(biāo)軌跡以滿足已知的物理定律——例如重力驅(qū)動的拋物線運(yùn)動——而無需真值標(biāo)簽。PILL 在概念上與 PINNs 相關(guān)，但應(yīng)用于地標(biāo)跟蹤而非場回歸。第三，我們引入了一個監(jiān)督變體，即物理信息地標(biāo)損失監(jiān)督版（PILLS），其中網(wǎng)絡(luò)預(yù)測的地標(biāo)通過一個演化系統(tǒng)動力學(xué)的可微物理模塊投影到物理狀態(tài)空間；所有算子都是計算圖的一部分，從而實(shí)現(xiàn)了位置、速度和彈跳動力學(xué)的端到端監(jiān)督學(xué)習(xí)。最后，物理信息方法的一個關(guān)鍵優(yōu)勢在于，PILL 和 PILLS 不僅提供優(yōu)化的位置估計，還提供速度預(yù)測和彈跳時機(jī)/位置，所有這些都來自可微物理模塊的單次前向傳播——這些物理狀態(tài)預(yù)測是標(biāo)準(zhǔn)基于熱圖的跟蹤方法所無法提供的。

我們在干凈和噪聲條件下的模擬球軌跡上進(jìn)行評估，使用 CenterNet 風(fēng)格的 Duan 等人 [2019] 熱圖監(jiān)督作為我們的基線，使用具有跳躍連接的多尺度解碼器進(jìn)行地標(biāo)優(yōu)化，并采用重復(fù)的 2? 因子設(shè)計（n = 4 次重復(fù)，64 種配置）。結(jié)果表明，與標(biāo)準(zhǔn)熱圖訓(xùn)練相比，物理信息地標(biāo)約束始終能提高跟蹤性能。

2 數(shù)據(jù)

該數(shù)據(jù)集由合成視頻序列組成，這些序列是通過模擬球體沿拋物線軌跡運(yùn)動并帶有非彈性邊界碰撞而創(chuàng)建的（表1）。

2.1 物理：球體的純重力模型

從牛頓第二定律出發(fā)

2.2 隨機(jī)初始位置和速度生成

這確保了球心的初始化位置完全位于圖像域內(nèi)。為確保可重復(fù)性，所有隨機(jī)采樣均使用固定的偽隨機(jī)種子執(zhí)行，其中 NumPy 種子設(shè)為 42。

2.3 實(shí)驗設(shè)置、數(shù)據(jù)劃分與視頻生成

表1總結(jié)了所有模擬和數(shù)據(jù)參數(shù)。合成視頻數(shù)據(jù)被劃分為訓(xùn)練集（100個序列）、驗證集（50個序列）和測試集（100個序列）。所有劃分共享相同的物理和成像參數(shù)，但在隨機(jī)初始條件方面有所不同，這些條件是從位置和速度的連續(xù)均勻分布中采樣的。沒有任何序列出現(xiàn)在多個劃分中。訓(xùn)練集用于模型學(xué)習(xí)，驗證集用于模型選擇（每個指標(biāo)的最佳epoch），測試集僅用于最終評估。

3 方法

在本節(jié)中，我們描述 PIT 編碼器-解碼器架構(gòu)、包含六個二值因子（A–F）的訓(xùn)練過程，以及評估協(xié)議。

4 結(jié)果

性能展示在第 4.1 和 4.2 節(jié)中，關(guān)于結(jié)果的擴(kuò)展討論提供在 B 節(jié)中。

4.1 因子的測試損失

表2和表3報告了在九個跟蹤輸出中最低的測試 L1 跟蹤損失，并針對因子 F 的兩種噪聲設(shè)置分別展示。

對于兩種噪聲條件，包含監(jiān)督物理信息損失（PILLS，因子 E）的配置在實(shí)現(xiàn)跨跟蹤變量最低損失的行中出現(xiàn)頻率最高。

在無噪聲設(shè)置（F=0）下，第23行和第31行（均為 A1B1C1E1）在雙線性和物理優(yōu)化輸出上實(shí)現(xiàn)了最低的解碼器誤差，具有亞像素精度（在尺度112上 ≤0.42 px）。在噪聲條件下（F=1），第55行（A1B1C1D0E1F1）取得了最佳的雙線性和物理優(yōu)化解碼器誤差，表明 PILLS 即使在 σ=1 噪聲下也能保持亞像素精度。第39行（基線，A1B1C1D0E0F1）在尺度112和224上保持了最低的硬 argmax 誤差，這與硬 argmax 對熱圖形狀不太敏感但僅限于整數(shù)分辨率的特性一致。

在最低分辨率（B56 和 P56）下，性能相比更高分辨率有所下降，表明在當(dāng)前參數(shù)設(shè)置下，雙線性上采樣結(jié)合物理模塊預(yù)測提供的學(xué)習(xí)信號不足。

4.2 因子效應(yīng)

因子效應(yīng)在表4（編碼器）和表5（解碼器）中按每個跟蹤變量展示，按平均幅度大小排名的前10個最大效應(yīng)列出。

主導(dǎo)的主效應(yīng)與模型中編碼器和解碼器的物理信息跟蹤（PILLS）因子（E）相關(guān)。特別是，監(jiān)督物理損失（E）和解碼器（A）在解碼器上表現(xiàn)出最大的負(fù)效應(yīng)，表明當(dāng)這些主效應(yīng)對解碼器啟用并結(jié)合在二階交互作用中時，測試誤差顯著降低。

輸入噪聲增強(qiáng)（F）如預(yù)期所示表現(xiàn)出強(qiáng)烈的正效應(yīng)，表明噪聲增加了跟蹤任務(wù)的難度。特別是，主效應(yīng) E 具有負(fù)效應(yīng)，且在其參與的所有高階交互作用中也具有負(fù)效應(yīng)。令人驚訝的是，因子 C 的主效應(yīng)在編碼器跟蹤上具有正值，類似于因子 A 的主效應(yīng)，但在解碼器上如預(yù)期為負(fù)值。與 C 相反，因子 D 在解碼器中具有正值，但在編碼器中具有負(fù)值，并且它是四個有益的高階交互作用項的一部分。

4.3 速度和彈跳預(yù)測

物理信息方法的一個關(guān)鍵優(yōu)勢是，模型從單次前向傳播中輸出速度估計和彈跳檢測。表6報告了跨配置的速度預(yù)測誤差，圖3展示了在測試視頻78（第55行，A1B1C1E1F1）上的定性推理結(jié)果。只有同時具有多尺度解碼器（A=1）和噪聲瓶頸（B=1）的配置才能在所有三個尺度上實(shí)現(xiàn)低誤差；若無這些配置，112和224尺度的熱圖會崩潰至約 57 px 誤差，而56尺度的編碼器熱圖仍保持功能。

5 結(jié)論與討論

通過使用受控跟蹤任務(wù)和重復(fù)因子實(shí)驗設(shè)計（n = 4 次重復(fù)），我們研究了物理信息地標(biāo)約束在多種架構(gòu)選擇、監(jiān)督級別和噪聲條件下對跟蹤性能的影響。總體而言，結(jié)果表明物理信息地標(biāo)損失為將物理結(jié)構(gòu)注入基于學(xué)習(xí)的跟蹤模型提供了一種有理論依據(jù)的機(jī)制，其中監(jiān)督物理信息訓(xùn)練（PILLS）在跨噪聲條件下始終產(chǎn)生最低或接近最低的測試跟蹤誤差。雖然硬 argmax (H) 是標(biāo)準(zhǔn)檢測方法，但在 B112 和 B224 處的雙線性插值預(yù)測——及其對應(yīng)的物理優(yōu)化輸出（P112 和 P224）——在若干情況下優(yōu)于硬 argmax，這可能是由于改善了亞像素定位。在 B56 和 P56 處，較粗的空間分辨率導(dǎo)致性能相比 H56 有所下降。

盡管在此簡單設(shè)置下重建質(zhì)量仍然有限，但本研究的主要目標(biāo)是精確的地標(biāo)跟蹤。除跟蹤外，所提出的物理信息地標(biāo)框架可自然擴(kuò)展至生成場景，因為該方法能夠生成視覺上合理且物理上一致的軌跡。物理信息方法的一個關(guān)鍵優(yōu)勢在于，模型通過單次前向傳播不僅輸出優(yōu)化后的位置，還輸出速度估計和彈跳檢測——這些物理狀態(tài)預(yù)測是標(biāo)準(zhǔn)基于熱圖的跟蹤方法所無法提供的。

局限性。當(dāng)前實(shí)驗僅跟蹤單個粒子；具有交叉軌跡的多粒子跟蹤尚未解決，留待未來工作。所有實(shí)驗均使用合成數(shù)據(jù)，在真實(shí)視頻上的驗證仍是未來工作。該方法依賴于正確的物理先驗——如果假設(shè)的動力學(xué)（重力、彈跳模型）與真實(shí)系統(tǒng)不匹配，性能可能會下降。

原文鏈接：https://arxiv.org/pdf/2604.16895

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.