![]()
編輯|杜偉
當 AI 行業的目光集中在 Agent、工具調用、長程任務這些上層應用之時,底層的多模態架構正在經歷一次更安靜、也更徹底的范式轉變 —— 它要回答的是一個看似樸素的問題:理解與生成,是否天生就該是兩件事
長期以來,多模態系統大都是拼起來的 —— 感知與理解、生成各自承擔一部分能力,再把它們串起來跑。問題也很明顯:理解通過預訓練視覺編碼器(VE)實現,生成依賴變分自編碼器(VAE),兩套系統的學習目標不同、表示空間各異,信息在不同模塊之間來回傳遞,難免出現損耗、走樣。這不只是工程上的笨拙,更是一種結構性限制,阻礙了真正原生多模態智能的形成。
最近的一系列工作釋放出了全新的信號,不執著「將系統拼的更好」,轉而從底層入手,把圖像、文本、視頻甚至動作放進同一個表示空間去學習和對齊。商湯科技開源的新一代模型「日日新 SenseNova U1」正是這一方向上的集中實踐。
上個月,Google DeepMind 用一個通用模型 Vision Banana,證明了「生成即理解」。SenseNova U1 基于行業首創的 NEO-Unify 原生統一架構,讓多模態理解、推理與生成在模型內部形成一條完整的鏈路,而非依靠外部模塊拼接。
此次開源的輕量版 SenseNova U1 Lite 系列包含兩個不同規格的模型:基于稠密骨干網絡的 SenseNova-U1-8B-MoT基于 MoE 骨干網絡的 SenseNova-U1-A3B-MoT(總參數 38B,理解生成激活參數各 3B)
![]()
模型規格概覽
模型在 Hugging Face 與 GitHub 開源后,在海外開發者社區迅速引發討論。在 X、Reddit 等平臺,「完全去掉 VE 和 VAE 的統一架構」被視為近期多模態領域最值得關注的工程實踐之一;開發者尤其關注其在 8B 規模下能挑戰更大商業閉源模型的圖文生成與編輯能力,以及完全開源(含代碼、權重、技術報告)的策略選擇。
![]()
就在日前,商湯科技放出了完整的技術報告:
![]()
- 技術報告:https://arxiv.org/abs/2605.12500
- 模型下載:https://huggingface.co/collections/sensenova/sensenova-u1
- GitHub 代碼倉庫:https://github.com/OpenSenseNova/SenseNova-U1
回歸第一性原理
多模態從拼接走向耦合
語言與視覺并非異質信號,而是對同一現實世界的不同編碼 —— 這是 NEO-Unify 的出發點,也是商湯科技在設計 SenseNova U1 時所回歸的底層原則
基于這一原理,NEO-Unify 讓模型直接從接近原始形態的信息(像素與文字本身)中學習,在學習過程中形成統一的內部表示。理解與生成不再被拆開處理,而在同一體系中統一建模。
下圖為 SenseNova U1 模型及 NEO-Unify 架構概覽:
![]()
![]()
為了實現這一目標,NEO-Unify 需要同時解決以下三組主要矛盾,三者呈遞進關系:從輸入輸出接口層的表示統一,到訓練穩定性的保障,再到理解與生成參數層的協同。
矛盾一(接口層):消除模塊割裂,打造近無損視覺接口。
傳統模型依賴預訓練的視覺編碼器(如 CLIP)或解碼器(如 VAE),這是語義理解與像素生成之間存在天然表示鴻溝的根源。NEO-Unify 采用了 Encoder-free 設計:輸入端放棄預訓練 VE,改用兩層卷積加 GELU 激活將圖像轉化為 token(每個 token 對應 32×32 像素塊);輸出端同樣放棄 VAE 解碼器,直接用 MLP 預測原始像素塊。
這種反傳統設計讓模型擁有了在「統一表示空間」自主學習的能力 —— 在提煉高層語義進行理解的同時,精確保留局部紋理和文字邊緣以供生成。技術報告中的消融實驗證實了這一點:NEO-unify(2B)在 MS COCO 2017 上的圖像重建 PSNR 達 31.56、SSIM 達 0.85,接近 Flux VAE 的 32.65 和 0.91,說明近無損輸入既能支持語義理解,也能維持像素級精度,無需依賴任何預訓練編碼器。
矛盾二(訓練層):解決動態分辨率的信噪比失衡,實現生成穩定性。
在多模態理解與生成的統一架構中,模型需要處理從 256×256 到 2048×2048 的大跨度動態分辨率。傳統擴散模型或 Flow Matching 往往基于固定噪聲先驗,當分辨率變化劇烈時,像素點數量級差異會導致模型在不同尺度下信噪比(SNR)不一致 —— 高分辨率下易結構崩壞或過飽和,低分辨率下可能丟失細節。
NEO-Unify 的解法是引入分辨率自適應噪聲尺度:分辨率越高,生成的 token 數越多,噪聲標準差就按平方根比例同步上調,從而使每個 token 在不同尺度下承受大致相同的噪聲能量,保證 Flow Matching 過程中 SNR 分布的一致性。與此同時,這一自適應尺度被編碼后作為條件引入去噪器,讓模型在面對不同分辨率輸入時始終保持一致的推理視角。
兩者結合,保證模型在各種分辨率下生成更加穩定,避免尺度切換帶來的訓練不收斂和輸出偽影。
矛盾三(參數層):以原生 MoT 架構實現「知識共享、專才專用」。
理解任務需要從圖像中提取語義,生成任務需要將語義轉化為像素 —— 二者目標不同,直接共享所有參數會產生梯度干擾。NEO-Unify 引入原生 Mixture-of-Transformers(MoT)架構:理解流與生成流在底層共享自注意力上下文,但在具體的 Q/K/V/O 投影、歸一化及 MLP 層進行完全參數解耦,每層根據 token 類型動態路由。
這實現了「知識共享、專才專用」—— 理解與生成從互不干涉走向協同推進,技術報告的消融實驗顯示,兩種能力在 MoT 骨干中協同演化,本質沖突極小。
此外,為讓一維語言序列與二維圖像結構在同一個 Transformer 架構下共存,NEO-Unify 引入了三維 RoPE 旋轉位置編碼(T/H/W 三軸各有獨立頻率基),從底層對齊語言順序和空間結構;采用混合注意力(Mask)模式,文本 token 走標準因果注意力,同塊圖像 token 之間雙向關注并保持對前置上下文的因果條件 —— 這在保證語言生成的邏輯連貫性,滿足了圖像塊之間空間一致性的需求。
通過一系列架構上的創新,SenseNova U1 告訴行業:真正的多模態智能不應只是給語言模型安上眼睛,要讓模型從誕生的第一天起,就用同一套感官去認知和創造世界
數據、訓推三位一體
打造原生統一引擎
架構上的創新構成了 SenseNova U1 的設計核心,而數據、訓練與推理的深度協同支撐起了模型的高效運行。
訓練數據:超 3.4 萬億 token 的全感官語料
SenseNova U1 在數據層面堪稱「全感官大腦」。其中預訓練語料約 2.1 萬億 token—— 在同類開源統一模型中屬頂量級 —— 涵蓋圖文對、圖注、信息圖理解和純文本,來源經過跨源去重、內容安全過濾、圖像質量過濾和 CLIP 比率平衡重標注等。
中期訓練階段采用內部 SenseNova V6.5 數據集,覆蓋通用、Agent 與空間、知識推理和純文本四大類,并通過三階段策劃管道確保質量:基于 CLIP 的多樣性采樣→提示增強(從語義表達、格式約束、角色場景、任務復雜度四維擴展)→多標準質量篩選(正確性、幻覺檢測、指令執行三維評估)。
![]()
SFT 階段進行了高強度指令微調訓練,數據覆蓋空間智能、多模態理解、推理等十個垂直領域。在理解預熱、生成預訓練、中期訓練與 SFT 四個訓練階段中,模型累計 token 數超過 3.4 萬億。
在生成和交錯數據側,語料涵蓋視頻、生活方式、信息圖和推理四類,確保用視覺概念覆蓋的同時強化了人物身份等一致性。一套「隱式 prompt→ 推理過程 → 顯式視覺 prompt」訓練流程, 將抽象常識和邏輯轉化為可驗證的畫面。豐富數據的引入,讓模型在處理相應任務時游刃有余。
![]()
訓練過程:「先穩態、再耦合、再對齊、后加速」四步走
SenseNova U1 拋棄了傳統意義上的多任務混合,采取「漸進式能力演進」策略,通過一套「先穩態、再耦合、再對齊、后加速」的能力棧,解決了大規模原生統一模型在多模態協同中的不穩定性。
第一步,理解預熱(Warmup):基于預訓練 NEO 理解模型進行注意力融合與全模型繼續訓練,將 NEO 中分離的文本和圖像 QK 投影整合為統一共享布局,恢復注意力效率,構建 SenseNova U1 的語義骨干。
第二步,生成預訓練:凍結理解分支、專攻生成分支,讓模型在 256 到 2048 的動態分辨率下掌握穩定的圖像生成與編輯能力。
第三步,統一中期訓練:兩個分支同時激活,在理解、生成及圖文交錯混合下端到端聯合訓練 84k 步,實現模態間的深度耦合。
第四步,統一 SFT:在高質量指令執行數據上微調 9k 步,強化指令跟隨能力,確保模型精準執行復雜多模態任務。
![]()
訓練末端引入后期訓練(Post-training):利用 Flow-GRPO 機制,分兩階段進行強化學習。
此外,利用改進的分布匹配蒸餾(DMD2)技術將生成步數從約 100 步蒸餾到 8 步,在保證生成質量的前提下,大幅跨越從實驗室模型到工業級落地的鴻溝
推理系統:解耦部署,FlashAttention3 后端高吞吐
可以將 SenseNova U1 的推理系統想象成一個「復合大腦」,在對外保持統一接口的同時,對內實現了 LightLLM(負責多模態理解、文本流式輸出和請求調度)與 LightX2V(負責圖像生成)的深度解耦。
![]()
這兩個引擎通過鎖頁共享內存和優化輸出內核來高效交換狀態。解耦設計帶來三方面實用優勢:第一,允許理解引擎使用面向大模型的張量并行(TP),生成引擎則采用 CFG 并行或序列并行;第二,支持獨立資源分配,包括分開的 GPU 組、內存預算和批處理策略;第三,使文本密集型和圖像密集型流量能夠獨立擴展、分析與調優。
在關鍵優化上,該系統用到了混合注意力機制:純文本部分走標準的因果 fast path,僅在處理包含圖像 token 的塊時才動態擴展 key range,按需分配計算量,大幅降低推理冗余開銷。加上 FlashAttention3 后端的加速,在統一多模態 Prefill 階段比傳統 Triton 方案快。對于 2048×2048 圖像生成,在 5090 和 L40S GPU 上的每步延遲分別是 0.415 秒和 0.443 秒。這意味著,底層算子得到了進一步調優,復雜的推理和生成在實際部署中跑得很順。
整個看下來,SenseNova U1 在數據、訓練與推理的深度協同中完成了一次工業級底層范式的「蛻變」:海量知識經過四階能力棧精準轉化為跨模態理解與生成能力,并依托算子級優化與解耦的推理系統,打造成高效適配各類商用場景的 AI 生產力工具。
全維度試煉場
開源小模型新頂流來了
為驗證原生統一架構 NEO-Unify 的成色, SenseNova U1 在覆蓋理解、生成、編輯、交錯和智能體的任務上進行了全方位測試。結果可歸納為三個層次:核心突破性成績、能力無損證明,以及交錯 / 協同等擴展能力。
在拆解技術細節之前,先看一個能直觀感受 SenseNova U1 能力的案例。
模型先理解「雙城記」「生活反差」的 PPT 主題,在符合邏輯與一致性基礎上,進行文字與對應畫面的連續輸出。這背后是統一架構帶來的「看懂 — 推理 — 生成」的完整鏈路。同時畫面中中文文字密集、版式分區清晰、配圖與圖標完整。文字不錯位、不糊字,這是過去圖像生成模型長期跨不過去的痛點。
![]()
這恰好對應了接下來的評測數據。
核心突破:理解能力不因統一而退化,反超更大規模模型
在行業傳統認知中,將生成能力整合進模型可能會因占用參數容量而導致理解能力下降。SenseNova U1 的實戰表現打破了這一擔憂
在 MMMU、MMMU-Pro 和 MathVision 等高難度專業推理基準上,A3B-MoT 成績分別達到 80.55、72.83 和 79.63,在 MMMU 上超越了 Qwen 3.5-9B 整整 2.15 分,在 MMMU-Pro 上以 2.73 分的優勢領先。在空間智能(VSI-Bench:56.9、ViewSpatial:58.52、MindCube-Tiny:70.86)上同樣顯著領先 Qwen 3-VL-30B-A3B 和 Gemma 4-26B-A4B 等同體量的模型。
得益于像素級建模能力,模型對微小文字和復雜布局有了更強的把握,在文本密集圖像和結構化視覺信息任務上也沒有因統一架構而出現能力退化:OCRBench 達 91.90 分、OCRBench-v2 達 68.64 分、MMBench-EN 達 91.59 分,均超過多個更大規模的競品。
![]()
統一范式也沒有犧牲語言能力。在 MMLU-Pro(84.04)、IFEval(92.39)和 IFBench(79.79)等語言理解與指令執行基準上,A3B-MoT 均處于開源領先水平 —— 尤其是 IFBench 比 Qwen 3.5 - 9B 高出 15.29 分。在 τ2-bench 評測中,總分得分 75.39, 證明其具備不錯的長程交互與工具調用能力。
![]()
能力無損證明:生成任務同樣跑出 SOTA 成績
既然理解能力未受削弱,生成側的表現更令人期待。結果同樣沒有令我們失望。
在通用生成基準 GenEval 上,兩款模型均以 0.91 的總分領跑開源陣營(Qwen-Image 為 0.87、BAGEL 為 0.82);在 DPG-Bench 上,A3B-MoT 以 88.14 分進入頂尖開源模型行列,Global 分數更以 94.19 排名所有對比模型第一,體現了在復雜提示下強大的全局語義規劃能力。
![]()
文字渲染長期是圖像生成模型的軟肋,多語言混排更是難中之難。SenseNova U1 在這一領域取得了突破性成績:在 LongText-Bench 中,8B-MoT 英文和中文得分分別達到 0.979 和 0.962;CVTG-2K(多區域復雜文字)最佳平均詞匯準確率 0.940,位列開源第一;TIIF-Bench 整體得分 89.74,為所有對比方法最高。在中英文長文本與多區域文字渲染上達到開源 SOTA,努力解決中英文混排、長文本排版等商用痛點。
在知識驅動圖像生成基準 WISE(評測文化、時間、空間、生物、物理、化學等領域的世界知識利用能力)上,啟用 CoT 后 A3B-MoT 以 0.81 的整體得分達到所有對比方法最佳,與 GPT-Image-1(0.80)持平,遠超多數開源模型 —— 原生統一架構不僅支持高質量生成,還能將知識理解轉化為更準確的視覺輸出。
擴展能力:復雜信息圖、交錯生成與協同效應一展無余
在衡量圖文交錯生成的 openING 測試中,A3B-MoT 結合 CoT 以 9.16 的整體得分超越 Nano Banana(8.85)、Wan-Weaver(8.67)和 GPT-4o+DALL-E3(8.20),憑借更強的內容完整性、圖像質量、圖文連貫性和跨步驟邏輯一致性,在長序列、復雜情境任務中表現突出。
![]()
在理解與生成協同的 RealUnify 基準(考察理解增強生成 UEG 和生成增強理解 GEU 兩個方向)上,8B-MoT 整體平均得分 52.4,領先所有開源競品(BAGEL 為 42.9、Ovis-U1 為 35.4),證明 SenseNova U1 能在復雜統一任務中真正整合理解與生成能力,而不是簡單將兩種能力放在同一主干中。
![]()
商業視覺內容基準 BizGenEval 中,SenseNova U1 在布局、屬性、文字渲染和知識準確性多個維度均顯著領先主流開源模型,原生統一架構在高復雜度專業視覺內容生成上展現出顯著潛力。
![]()
編輯能力同樣突出,模型在 GEdit-Bench(7.47/7.32)與 ImgEdit(3.90/3.91)等主流榜單上表現穩健,全面覆蓋了物體添加、局部替換、風格轉換、背景變更等常見操作。
![]()
值得一提的是推理驅動編輯 ——模型并不是盲目修圖,文字渲染、因果、空間和邏輯等方面均需先理解再修改。RISEBench 測試中,A3B-MoT 在開啟 CoT 后以 30.0 的開源最優得分,遠超 BAGEL(6.1)和 FLUX.1-Kontext-Dev(5.8),表明 SenseNova U1 的優勢不僅在于執行編輯,更在于編輯前所需的理解與推理能力。
![]()
一個個基準成績的突破,是對 SenseNova U1 代表的「原生統一」范式可行性的有力自證。
結語
SenseNova U1 的表現固然亮眼,但比指標更值得關注的,是它所指向的技術路徑。
多模態正在從過去依賴模塊拼接、逐步對齊的工程思路,轉向更一體化的原生建模。能力不靠單純拼接而來,開始「長在一起」。圖像和語言不只是放在同一個系統里使用,更在同一條鏈路中被協同理解與生成。過去多模態主要解決的是「能不能用」的問題,現在回答的是「能不能更接近人類的使用方式」。
在原生統一架構逐漸成熟的背景下,「以小搏大」將不再是偶發現象,而是模型設計哲學轉變帶來的必然結果。消融實驗已經表明,NEO-Unify 在數據擴展效率上明顯優于同類方法 —— 以更少的訓練 token 實現更高的性能,這意味著隨著數據規模進一步擴大,這一架構的優勢還將持續放大。
下一個值得關注的問題,是原生統一范式在視頻、音頻乃至具身動作等更多模態上的擴展邊界 —— 技術報告中已披露了 VLA(視覺 - 語言 - 動作)和世界建模(WM)的初步實驗,方向隱約可見。從這個角度來看,以 NEO-unify 為代表的原生統一架構探索,重新定義了多模態模型該如何被構建、以及最終會走向哪里。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.