![]()
影石研究院發布面向異構成像系統的單目新視角合成模型UniSHARP(Universal Sharp Monocular View Synthesis)。作為首個統一透視、廣角、魚眼與 360° 全景相機的單目 3DGS 模型,UniSHARP 只需一張輸入圖像,即可通過單次推理在秒級時間內獲得場景的高斯點云,無需多張圖像輸入或逐場景優化。
該方法不再依賴針孔相機假設,而是以統一的幾何表示打通不同相機模型之間的壁壘,通過融合 2D 語義特征與 3D 幾何特征來預測 3D 高斯場,并支持混合相機訓練與 Pose-Free 免標定推理 —— 真正實現一張圖、一個模型、適配所有相機。
團隊同步構建含30 萬張全景圖及深度的仿真數據集OmniRooms,并建立覆蓋多種相機類型的 FoV 分層 benchmark。目前,訓練與測試代碼、模型權重、數據集與在線 Demo 已經全部開源。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/Avg3VVOJZVbga5H6MZQlCQ
近年來,3D Gaussian Splatting(3DGS)與新視角合成發展迅速,但絕大多數方法仍默認輸入來自普通透視相機,然而真實世界天然存在全景相機、魚眼鏡頭、超廣角運動相機等異構視覺系統。另外,即便有些方法面向全景圖,也常依賴多張圖像輸入或逐場景優化,但許多實際應用場景往往只能拿到單張圖像—— 一張隨手拍的手機或全景相機的抓拍照片,卻希望能夠立刻獲得高質量、可交互的新視角渲染。
針對以上問題,有兩條直覺路徑:一是把透視模型「微調」到更大視場,但由于模型綁定在針孔相機的歸一化設備坐標系上,本質上難以在非針孔成像域中正確預測幾何和處理畸變;二是將大圖切塊、重投影為多張透視視角分別處理,但這又帶來額外計算開銷,并在拼接處引入明顯的接縫偽影與幾何不連續。
UniSHARP 正是在這一背景下應運而生,讓單目 3DGS 擺脫針孔假設,用一張圖、一個模型,覆蓋從普通照片到 360° 全景的統一重建。
![]()
- 論文標題:UniSHARP: Universal Sharp Monocular View Synthesis
- 論文:https://arxiv.org/abs/2606.07514
- 項目主頁:https://insta360-research-team.github.io/Unisharp-website/
- 代碼:https://github.com/Insta360-Research-Team/UniSHARP
- 數據集 OmniRooms:https://huggingface.co/datasets/Insta360-Research/OmniRooms
- 在線 Demo:https://huggingface.co/spaces/Insta360-Research/UniSHARP
- 模型權重:https://huggingface.co/Insta360-Research/Unisharp
Ray-based統一表示:不再依賴針孔相機假設
現有單目 3DGS 方法(如 SHARP、Flash3D)多在窄視場透視數據上訓練,幾何預測與圖像平面坐標強綁定,向魚眼、全景遷移時泛化困難。UniSHARP 的核心思路是把場景表示搬到 ray-distance 空間。
具體而言,模型為每個像素預測一條單位視線方向和沿射線的徑向距離,三維點由二者共同確定。無論輸入是透視、魚眼還是 ERP 全景圖,高斯球都在同一度量的三維空間中定義,不再被某種相機模型綁死。這一設計受 UniK3D 的啟發,使 UniSHARP 能夠原生適配不同視場與畸變,而無需將全景硬切成多張透視圖再拼接 —— 對比顯示,使用 SHARP 推理全景圖的 6 個 cube 時,會出現明顯的拼接偽影和幾何不一致,而 UniSHARP 可渲染連貫一致的全景目標視圖。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/Avg3VVOJZVbga5H6MZQlCQ
幾何錨定高斯 + 特征條件殘差:穩定幾何與細膩外觀兼得
在統一射線網格空間中,UniSHARP 先構建雙層 Geometry Anchored Gaussians(幾何錨定高斯):第一層對齊可見表面,第二層捕捉遮擋區域與高頻結構,為單目重建提供穩定的基礎高斯場;再融合 2D 語義特征與 3D 幾何特征,預測Feature Conditioned Gaussian Residuals(特征條件殘差),對高斯球進行精細化修正,得到最終可渲染的高斯點云。
相比直接將 RGB 圖像與深度圖喂入解碼器的傳統做法,這種設計能更充分地利用幾何先驗與語義上下文。此外,針對 ERP 全景圖的嚴重畸變,團隊引入球面高斯初始化與畸變感知概率 Dropout,在 HM3D 等全景數據上效果尤為顯著。
![]()
混合相機訓練與 Pose-Free 推理:貼近真實落地場景
訓練階段,UniSHARP 在透視(RealEstate10K、DL3DV、WildRGB-D)、魚眼(ScanNet++ Fisheye)、全景(HM3D、OmniRooms)數據上混合采樣、統一架構,不引入相機專用分支 —— 所有樣本都轉換為同一套射線接口,共享同一網絡。
更貼近實際應用的是Pose-Free 模式:當用戶沒有標定內參時,模型可從預測射線場自動推斷相機類型與渲染幾何,無需手動提供透視或魚眼參數。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/Avg3VVOJZVbga5H6MZQlCQ
OmniRooms 與 FoV 分層 Benchmark:30 萬全景圖填補數據空白
為系統評估從 60° 到 360° 的新視角合成能力,團隊構建了FoV 分層 benchmark,并發布仿真數據集OmniRooms:
- 16 個大型室內場景
- 約 30 萬張1024×2048 ERP 全景圖及對應深度;
- 適配 3D 重建,尤其是3DGS任務;
- 每個錨點在 0.5 米體素網格上渲染 1 個中心相機與 29 個局部小位移相機。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/Avg3VVOJZVbga5H6MZQlCQ
基準測評:透視不掉隊,全景大幅領先
在透視數據集上,UniSHARP 沒有因「做通用」而犧牲窄視場性能:
![]()
均全面超越 SHARP、Flash3D 等基線。零樣本 Tanks & Temples 上,UniSHARP 同樣取得最佳 PSNR。
在全景場景,優勢更加明顯:
![]()
全棧開源:代碼、數據、模型、Demo 一鍵可用
UniSHARP 不止于提出一個新的單目 3DGS 模型,而在于展示了一條面向真實異構成像系統的完整路線:用 ray-based 空間統一不同相機幾何,用幾何錨定與特征殘差穩定預測高斯場,用混合相機訓練實現跨視場遷移,用 OmniRooms 與分層 benchmark 支撐可復現評測,并用 Pose-Free 機制降低部署門檻。
對 Insta360 而言,這與全景相機、運動相機的產品場景天然契合 —— 用戶拍下的每一張 360° 照片、每一段魚眼素材,都有機會被快速轉化為可漫游的三維空間。對更廣泛的社區,統一單目 3D 視覺也為機器人導航、AR/VR 內容創作等應用提供了新工具。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.