網易首頁 > 網易號 > 正文申請入駐

單目3DGS迎來突破：影石開源UniSHARP實現全相機適配

2026-06-26 16:26:59　來源: 機器之心Pro

天津舉報

分享至

影石研究院發布面向異構成像系統的單目新視角合成模型UniSHARP（Universal Sharp Monocular View Synthesis）。作為首個統一透視、廣角、魚眼與 360° 全景相機的單目 3DGS 模型，UniSHARP 只需一張輸入圖像，即可通過單次推理在秒級時間內獲得場景的高斯點云，無需多張圖像輸入或逐場景優化。

該方法不再依賴針孔相機假設，而是以統一的幾何表示打通不同相機模型之間的壁壘，通過融合 2D 語義特征與 3D 幾何特征來預測 3D 高斯場，并支持混合相機訓練與 Pose-Free 免標定推理 —— 真正實現一張圖、一個模型、適配所有相機。

團隊同步構建含30 萬張全景圖及深度的仿真數據集OmniRooms，并建立覆蓋多種相機類型的 FoV 分層 benchmark。目前，訓練與測試代碼、模型權重、數據集與在線 Demo 已經全部開源。

視頻鏈接：https://mp.weixin.qq.com/s/Avg3VVOJZVbga5H6MZQlCQ

近年來，3D Gaussian Splatting（3DGS）與新視角合成發展迅速，但絕大多數方法仍默認輸入來自普通透視相機，然而真實世界天然存在全景相機、魚眼鏡頭、超廣角運動相機等異構視覺系統。另外，即便有些方法面向全景圖，也常依賴多張圖像輸入或逐場景優化，但許多實際應用場景往往只能拿到單張圖像—— 一張隨手拍的手機或全景相機的抓拍照片，卻希望能夠立刻獲得高質量、可交互的新視角渲染。

針對以上問題，有兩條直覺路徑：一是把透視模型「微調」到更大視場，但由于模型綁定在針孔相機的歸一化設備坐標系上，本質上難以在非針孔成像域中正確預測幾何和處理畸變；二是將大圖切塊、重投影為多張透視視角分別處理，但這又帶來額外計算開銷，并在拼接處引入明顯的接縫偽影與幾何不連續。

UniSHARP 正是在這一背景下應運而生，讓單目 3DGS 擺脫針孔假設，用一張圖、一個模型，覆蓋從普通照片到 360° 全景的統一重建。

論文標題：UniSHARP: Universal Sharp Monocular View Synthesis
論文：https://arxiv.org/abs/2606.07514
項目主頁：https://insta360-research-team.github.io/Unisharp-website/
代碼：https://github.com/Insta360-Research-Team/UniSHARP
數據集 OmniRooms：https://huggingface.co/datasets/Insta360-Research/OmniRooms
在線 Demo：https://huggingface.co/spaces/Insta360-Research/UniSHARP
模型權重：https://huggingface.co/Insta360-Research/Unisharp

Ray-based統一表示：不再依賴針孔相機假設

現有單目 3DGS 方法（如 SHARP、Flash3D）多在窄視場透視數據上訓練，幾何預測與圖像平面坐標強綁定，向魚眼、全景遷移時泛化困難。UniSHARP 的核心思路是把場景表示搬到 ray-distance 空間。

具體而言，模型為每個像素預測一條單位視線方向和沿射線的徑向距離，三維點由二者共同確定。無論輸入是透視、魚眼還是 ERP 全景圖，高斯球都在同一度量的三維空間中定義，不再被某種相機模型綁死。這一設計受 UniK3D 的啟發，使 UniSHARP 能夠原生適配不同視場與畸變，而無需將全景硬切成多張透視圖再拼接 —— 對比顯示，使用 SHARP 推理全景圖的 6 個 cube 時，會出現明顯的拼接偽影和幾何不一致，而 UniSHARP 可渲染連貫一致的全景目標視圖。

視頻鏈接：https://mp.weixin.qq.com/s/Avg3VVOJZVbga5H6MZQlCQ

幾何錨定高斯 + 特征條件殘差：穩定幾何與細膩外觀兼得

在統一射線網格空間中，UniSHARP 先構建雙層 Geometry Anchored Gaussians（幾何錨定高斯）：第一層對齊可見表面，第二層捕捉遮擋區域與高頻結構，為單目重建提供穩定的基礎高斯場；再融合 2D 語義特征與 3D 幾何特征，預測Feature Conditioned Gaussian Residuals（特征條件殘差），對高斯球進行精細化修正，得到最終可渲染的高斯點云。

相比直接將 RGB 圖像與深度圖喂入解碼器的傳統做法，這種設計能更充分地利用幾何先驗與語義上下文。此外，針對 ERP 全景圖的嚴重畸變，團隊引入球面高斯初始化與畸變感知概率 Dropout，在 HM3D 等全景數據上效果尤為顯著。

混合相機訓練與 Pose-Free 推理：貼近真實落地場景

訓練階段，UniSHARP 在透視（RealEstate10K、DL3DV、WildRGB-D）、魚眼（ScanNet++ Fisheye）、全景（HM3D、OmniRooms）數據上混合采樣、統一架構，不引入相機專用分支 —— 所有樣本都轉換為同一套射線接口，共享同一網絡。

更貼近實際應用的是Pose-Free 模式：當用戶沒有標定內參時，模型可從預測射線場自動推斷相機類型與渲染幾何，無需手動提供透視或魚眼參數。

視頻鏈接：https://mp.weixin.qq.com/s/Avg3VVOJZVbga5H6MZQlCQ

OmniRooms 與 FoV 分層 Benchmark：30 萬全景圖填補數據空白

為系統評估從 60° 到 360° 的新視角合成能力，團隊構建了FoV 分層 benchmark，并發布仿真數據集OmniRooms：

16 個大型室內場景
約 30 萬張1024×2048 ERP 全景圖及對應深度；
適配 3D 重建，尤其是3DGS任務；
每個錨點在 0.5 米體素網格上渲染 1 個中心相機與 29 個局部小位移相機。

視頻鏈接：https://mp.weixin.qq.com/s/Avg3VVOJZVbga5H6MZQlCQ

基準測評：透視不掉隊，全景大幅領先

在透視數據集上，UniSHARP 沒有因「做通用」而犧牲窄視場性能：

均全面超越 SHARP、Flash3D 等基線。零樣本 Tanks & Temples 上，UniSHARP 同樣取得最佳 PSNR。

在全景場景，優勢更加明顯：

全棧開源：代碼、數據、模型、Demo 一鍵可用

UniSHARP 不止于提出一個新的單目 3DGS 模型，而在于展示了一條面向真實異構成像系統的完整路線：用 ray-based 空間統一不同相機幾何，用幾何錨定與特征殘差穩定預測高斯場，用混合相機訓練實現跨視場遷移，用 OmniRooms 與分層 benchmark 支撐可復現評測，并用 Pose-Free 機制降低部署門檻。

對 Insta360 而言，這與全景相機、運動相機的產品場景天然契合 —— 用戶拍下的每一張 360° 照片、每一段魚眼素材，都有機會被快速轉化為可漫游的三維空間。對更廣泛的社區，統一單目 3D 視覺也為機器人導航、AR/VR 內容創作等應用提供了新工具。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.