品玩4月10日訊,OpenMOSS團隊近日正式開源MOSS-VL系列視覺理解模型。該模型采用創新的交叉注意力架構,通過解耦視覺編碼與認知推理,有效解決了傳統模型在處理視頻流時面臨的計算效率瓶頸,大幅降低了推理延遲。
MOSS-VL引入了絕對時間戳與XRoPE編碼技術,實現了對視頻事件的精準時空錨定與細粒度動作定位。在涵蓋多模態感知、推理及文檔OCR的30余項基準測試中,該模型表現卓越,尤其在視頻理解任務上顯著優于Qwen3-VL等同類模型,展現了強大的時序一致性與動態場景捕捉能力。
此次開源標志著OpenMOSS多模態生態的重要拓展。團隊已規劃MOSS-VL-1.5至2.0的技術演進路線,致力于通過架構創新與強化學習,最終實現超長視頻的連續無損理解與全天候流式實時交互。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.