去掉 VAE 之后，商湯用 8B 參數(shù)重新定義了開源生圖的上限

2026-05-31 17:12:10　來源: 雷峰網(wǎng)

北京舉報(bào)

分享至

雷峰網(wǎng)文章開源一周多，GitHub破1,500 Star，沖上HuggingFace趨勢榜——商湯SenseNova U1在開發(fā)者社區(qū)引發(fā)的熱度，和這個(gè)模型本身的技術(shù)野心一樣不尋常。它做的事情，是把多模態(tài)理解和生成這兩件事，真正塞進(jìn)同一個(gè)大腦。

開發(fā)者在討論什么？除了效果有多驚艷，還有一個(gè)更底層的問題：為什么這次把VAE也去掉了？從Stable Diffusion到FLUX，幾乎所有主流擴(kuò)散模型都依賴變分自編碼器（VAE）把圖像壓進(jìn)潛空間，這是近年來整個(gè)圖像生成技術(shù)棧的地基。SenseNova U1的NEO-unify架構(gòu)選擇把它整個(gè)拆掉，直接在像素層面端到端建模語言與視覺。這不是工程優(yōu)化，是架構(gòu)層面的重新選邊站。

HuggingFace社區(qū)的熱門討論包括「能否在單張RTX 5090上運(yùn)行」、「是否會有更輕量版本」等極具落地指向的問題，說明已經(jīng)有大量開發(fā)者在認(rèn)真跑通它。有開發(fā)者評價(jià)稱，這是「終于有人在原生統(tǒng)一方向上認(rèn)真做了工程落地」，和此前的偽統(tǒng)一架構(gòu)完全不可同日而語。

與此同時(shí)，模型以Apache 2.0協(xié)議完全開源，支持商用，發(fā)布后不到兩周，團(tuán)隊(duì)已陸續(xù)推出8步推理加速版、LoRA微調(diào)版、GGUF量化版及低顯存layer-offload推理模式，迭代節(jié)奏之快，也是社區(qū)熱度持續(xù)的原因之一。

多模態(tài)的「兩條腿走路」，走了太久

多模態(tài)的理解與生成，長期以來都是“兩條腿走路”。在多模態(tài)理解方面，以GPT-4V、LLaVA、Qwen-VL為代表的視覺語言模型（VLM）能夠執(zhí)行復(fù)雜的圖像描述、視覺問答和推理任務(wù)，而圖像生成技術(shù)，則有Stable Diffusion、FLUX、DALL-E 3為代表的擴(kuò)散模型。兩條技術(shù)路線雖然各有突破，但長期以來因獨(dú)立演進(jìn)，形成了截然不同的架構(gòu)范式，是不爭的事實(shí)。

變革最初發(fā)生在2025年，GPT-4o的統(tǒng)一多模態(tài)能力引爆了業(yè)界對統(tǒng)一架構(gòu)的追求，也就是用一款模型既能理解圖像內(nèi)容，又能生成高質(zhì)量圖像。不過業(yè)界普遍推測，GPT-4o的圖像理解能力仍然是依賴視覺編碼器提取圖像特征實(shí)現(xiàn)，這款模型本身也并不原生生成高質(zhì)量圖像，而是依賴集成的DALL-E 3。

實(shí)現(xiàn)路徑之所以重要，是因?yàn)樗P(guān)系到模型的多模態(tài)能力是否真正實(shí)現(xiàn)了統(tǒng)一。以GPT-4o為代表的混合架構(gòu)雖然在物理上共享部分參數(shù)，但是理解與生成在特征表示和計(jì)算路徑上仍相對獨(dú)立。這種不同模塊接力完成任務(wù)的路徑，不可避免地導(dǎo)致了模型冗余、能力割裂和交互障礙。

NEO-unify：真正靠同一個(gè)大腦做到這件事

真正靠同一個(gè)大腦做到這件事，曾經(jīng)是很多人的設(shè)想，今天被商湯實(shí)現(xiàn)了。SenseNova U1系列模型基于商湯于今年3月自主研發(fā)的NEO-unify架構(gòu)，率先在單一模型架構(gòu)上統(tǒng)一多模態(tài)理解、推理與生成，實(shí)現(xiàn)了從「模態(tài)集成」向「原生統(tǒng)一」的范式跨越。

NEO-unify架構(gòu)的核心突破在于，它徹底摒棄了視覺編碼器（VE）和變分自編碼器（VAE），直接從像素和文本進(jìn)行端到端學(xué)習(xí)。商湯在官方文章里打了個(gè)比方，傳統(tǒng)架構(gòu)像“說不同語言的人組成的工作組”，而SenseNova U1更像「一個(gè)從一開始就同時(shí)掌握多項(xiàng)技能的人」。

這一設(shè)計(jì)的技術(shù)意義在于：VAE的壓縮過程本質(zhì)上是有損的，開發(fā)者為此花了數(shù)年時(shí)間調(diào)參和打補(bǔ)丁；而NEO-unify直接在像素層面建模語言與視覺信息，像素與詞語的信息從一開始就在同一個(gè)表征空間里共同參與每一層計(jì)算，消除了跨模塊傳遞帶來的信息損耗。

圖注：該框架結(jié)合了（1）近無損視覺接口，（2）由兩層卷積編碼與類MLP 編碼層實(shí)現(xiàn)，以及（3）原生的混合Transformer（MoT）主干架構(gòu)。架構(gòu)重點(diǎn)在于同時(shí)解決三組?盾：語義抽象與像素細(xì)節(jié)的共同表征、理解與?成的協(xié)同、語?因果性與圖像空間?致性。

到此為止，我們才能說端到端統(tǒng)一框架真正得到了實(shí)現(xiàn)。下到一次圖像生成的效果，上到整個(gè)多模態(tài)模型的智能上限，都和這一里程碑的實(shí)現(xiàn)與否休戚相關(guān)。

本次開源的SenseNova U1 Lite，包含兩個(gè)不同規(guī)格的模型：

?基于稠密骨干網(wǎng)絡(luò)的SenseNova-U1-8B-MoT：理解與生成兩條分支參數(shù)約9.37B / 8.19B

?基于混合專家（MoE）骨干網(wǎng)絡(luò)的SenseNova-U1-A3B-MoT：理解分支約30.54B，生成分支約8.2B，每token激活top-8專家，實(shí)際活躍參數(shù)約3B

模型測評：數(shù)據(jù)說話

在商湯最新發(fā)布的U1技術(shù)報(bào)告中，有一些數(shù)據(jù)格外亮眼。在涵蓋圖像理解、圖像生成與編輯、空間智能和視覺推理的多項(xiàng)基準(zhǔn)測試中，8B-MoT均達(dá)到同量級開源模型SOTA水平，甚至在部分指標(biāo)上超越了部分大型商業(yè)閉源模型。

圖注：SenseNova-U1與其他頂級多模態(tài)理解模型在多模態(tài)基準(zhǔn)測試（Benchmarks）上的對比。

圖注：SenseNova-U1與僅具備理解能力的頂級模型在純文本基準(zhǔn)測試（Benchmarks）上的對比

圖注：GenEval 上的定量評估結(jié)果

從上表可以看出，SenseNova U1實(shí)現(xiàn)了理解、生成、編輯、交錯(cuò)和智能體能力的一體融合，形成了相對均衡的能力譜系。關(guān)鍵數(shù)據(jù)上，GenEval總分約0.91-0.92，OneIG中文文字渲染達(dá)0.977，信息圖生成領(lǐng)先多數(shù)開放模型，多模態(tài)理解MMMU達(dá)80.55——這些數(shù)字發(fā)生在同一個(gè)模型內(nèi)部，而不是多個(gè)專用模型的拼接。

技術(shù)報(bào)告中一個(gè)值得單獨(dú)拿出來說的結(jié)論是：統(tǒng)一架構(gòu)具備更高數(shù)據(jù)效率。NEO-unify相比類似統(tǒng)一模型BAGEL，在更少訓(xùn)練token下取得了更好表現(xiàn)。原因在于原生像素-文本接口減少了跨模塊對齊成本，MoT又讓兩類能力共享上下文、互相提供監(jiān)督信號，訓(xùn)練數(shù)據(jù)利用率因此更高。

在生成延遲與平均性能的綜合對比中，SenseNova U1 Lite在保證圖像生成質(zhì)量比肩Qwen-Image 2.0 Pro、Seedream 4.5等大型閉源模型的同時(shí)，推理響應(yīng)速度也展現(xiàn)出顯著優(yōu)勢，尤其在復(fù)雜信息圖（Infographic）生成任務(wù)中，控制力超出預(yù)期。

更值得注意的是，作為最強(qiáng)開源生圖模型的SenseNova U1 Lite，僅僅只有8B的體量。光是這個(gè)數(shù)字本身，就意味著落地上的巨大潛力。

實(shí)測與部署方案

回到生產(chǎn)場景，SenseNova U1對長文檔和數(shù)據(jù)圖表進(jìn)行總結(jié)分析、生成高質(zhì)量信息圖表的能力，有著廣闊的應(yīng)用空間。我們也針對性地設(shè)計(jì)了一個(gè)任務(wù)，看看SenseNova U1在實(shí)際工作流中的表現(xiàn)。

先讓U1畫一幅云南的水彩風(fēng)景畫，用連續(xù)圖文創(chuàng)作輸出的方式，展示從線稿到上色完稿的逐步過程。SenseNova U1能夠很好的理解要求，進(jìn)行符合邏輯的連貫輸出，并保持畫面信息的一致性。

同樣是在生產(chǎn)場景，圖文交錯(cuò)生成、帶圖思考背后的一致性也讓 SenseNova U1 帶來了更多可能性。在下面這個(gè)用例中，我們請它為一座建筑群設(shè)計(jì)了7步分鏡，覆蓋了從二維底圖到帶有好萊塢級CG效果的人視街景。

信息圖生成方面，我們先讓SenseNova U1根據(jù)公開信息，做了一份5月院線電影觀影指南。

觀影指南是一個(gè)關(guān)鍵信息高度密集的場景，每部電影的片名、日期、主題等標(biāo)簽都需要保證可讀，在文字渲染準(zhǔn)確性的難關(guān)之上，這又對SenseNova U1處理多對象結(jié)構(gòu)化排版的能力提出了考驗(yàn)。

此時(shí)文字的清晰呈現(xiàn)已經(jīng)成為了最基本要求，更進(jìn)一步的表現(xiàn)，是在高信息密度的約束下，仍然保持雜志級的排版審美。平面設(shè)計(jì)師的排版能力，與產(chǎn)品經(jīng)理的信息架構(gòu)能力，這二者的交叉點(diǎn)，恰恰是最容易暴露AI能力的短板。

為了進(jìn)一步測試SenseNova U1的結(jié)構(gòu)化敘事和設(shè)計(jì)能力，我們又讓它做了一份介紹《甄嬛傳》中“滴血驗(yàn)親”這場戲的信息圖，并且把關(guān)鍵臺詞融入設(shè)計(jì)中。

兩份信息圖都沒有拿模板套作的痕跡，每一頁都做到了根據(jù)內(nèi)容密度自適應(yīng)，信息圖表和數(shù)據(jù)可視化都有對應(yīng)的視覺呈現(xiàn)，字體、顏色、元素比例在視覺效果上也很協(xié)調(diào)。

這兩項(xiàng)任務(wù)真正的難點(diǎn)有兩個(gè)。首先是異構(gòu)素材的知識合并能力，公開信息來源涵蓋了文本、圖像等多種格式，SenseNova U1需要讓重疊的知識點(diǎn)相互印證、合并，最終得到差異化的分層信息。沒有真正的理解能力，做不到這一點(diǎn)。其次是邏輯感，提示詞非常簡練，SenseNova U1卻能自主對搜集的內(nèi)容進(jìn)行取舍，找到一條合理的敘述邏輯，這一點(diǎn)在總結(jié)“滴血驗(yàn)親”劇情的用例中，體現(xiàn)得更為明顯。

見慣了漢字在AI圖片里扭曲成麻花，SenseNova U1在如此高密度的信息輸出之下，準(zhǔn)確率居然也已經(jīng)達(dá)到了落地級別。手搓信息圖乃至PPT，或許很快就要成為一種正在消失的技能。

ComfyUI快速部署方案：5分鐘上手
在SenseNova U1的最近一次更新中，商湯正式上線了ComfyUI部署支持，開發(fā)者可以將U1作為自定義節(jié)點(diǎn)直接嵌入ComfyUI工作流，實(shí)現(xiàn)從“提示詞構(gòu)建→圖像生成→結(jié)果預(yù)覽”的全鏈路可視化操作。值得一提的是，U1在ComfyUI中提供了“帶圖思考”的交錯(cuò)生成節(jié)點(diǎn)，復(fù)雜邏輯的可視化推理過程一目了然。環(huán)境要求? Python ≥ 3.10，ComfyUI 最新版

?GPU：推薦16GB顯存（8B-MoT標(biāo)準(zhǔn)版）

?低顯存用戶：8B-MoT-GGUF版本可在8GB顯存下運(yùn)行；支持layer-offload，進(jìn)一步降低顯存占用

安裝步驟

# 1. 進(jìn)入 ComfyUI 的 custom_nodes 目錄

cd ComfyUI/custom_nodes

# 2. 克隆官方倉庫

git clone https://github.com/OpenSenseNova/SenseNova-U1

# 3. 安裝依賴（推薦 uv）

uv pip install -r requirements.txt

# 4. 配置 API Key（本地推理可跳過此步）

export SENSENOVA_API_KEY=your_key_here

# 5. 啟動 ComfyUI，拖入 workflow_demo.json 即可運(yùn)行

▎核心節(jié)點(diǎn)說明▎加速與量化選項(xiàng)

?8步推理加速版（SenseNova-U1-8B-MoT-8step-preview）：大多數(shù)場景下生成質(zhì)量與基礎(chǔ)模型接近，推理速度大幅提升

?LoRA微調(diào)版（SenseNova-U1-8B-MoT-LoRA-8step-V1.0）：支持風(fēng)格定制與場景適配

?GGUF量化版：由社區(qū)貢獻(xiàn)者@smthem提供，權(quán)重已發(fā)布于HuggingFace，適合消費(fèi)級GPU本地推理

對于偏好免安裝體驗(yàn)的用戶，商湯還同步提供了辦公小浣熊https://office.xiaohuanxiong.com/home的體驗(yàn)方式，無需GPU，直接在瀏覽器中即可試用U1的核心功能。

生產(chǎn)級任務(wù)新選擇

過去一年，主流大模型廠商在多模態(tài)理解側(cè)的表現(xiàn)已相對趨同，GPT-4V、Gemini Pro、Qwen-VL等模型在圖像理解、視頻解析、文檔理解等任務(wù)上的差距日益收窄。但生成側(cè)始終是短板——理解一個(gè)數(shù)據(jù)集，然后生成信息圖或制作一份PPT，往往需要調(diào)用多個(gè)專用模型串聯(lián)完成，不僅延遲高、風(fēng)格一致性差，而且交付質(zhì)量也參差不齊。

SenseNova U1的差異化正在于此。把SenseNova U1放進(jìn)多模態(tài)當(dāng)前的競爭格局，你幾乎無法找到同樣的定位：

?GPT系列多模態(tài)理解能力一流，但原生圖像生成仍然依賴獨(dú)立模塊，走專用模型協(xié)作的路子

?Qwen-VL開源生態(tài)龐大，但生成以文本輸出為主

?DeepSeek-V4行業(yè)翹首以盼，但多模態(tài)生成亦不是其核心賣點(diǎn)

此前頭部玩家的核心能力多集中在理解側(cè)，SenseNova U1率先實(shí)現(xiàn)了生成和理解的原生融合。在端到端交付已經(jīng)成為Agent落地共識的今天，只要理解與生成之間還橫亙著跨模塊的鴻溝，反映在落地上，就是交付質(zhì)量和生產(chǎn)效率的真實(shí)痛點(diǎn)。SenseNova U1一己之力，將這場拼交付的競爭，拉到了底層架構(gòu)創(chuàng)新的高度。

技術(shù)階段的代差本身就意味著生產(chǎn)力。SenseNova U1針對企業(yè)辦公場景做了定向優(yōu)化，將信息圖、PPT、研究報(bào)告這類高頻交付物作為重要戰(zhàn)場，技術(shù)優(yōu)勢直接轉(zhuǎn)化為了落地能力。由此，SenseNova U1才能在已經(jīng)是一片紅海的生圖市場占據(jù)一席之地，成為生產(chǎn)級任務(wù)的全新選擇。

結(jié)語

NEO-unify的核心創(chuàng)新，就是讓語言和視覺在同一個(gè)表征空間里共同參與每一層計(jì)算。此后模型在生成圖像時(shí)，不是在翻譯文字指令，而是在同一個(gè)思維框架之下，使語言與視覺信息能夠作為一個(gè)統(tǒng)一的復(fù)合體被直接建模。

統(tǒng)一架構(gòu)會打破理解與生成之間的信息壁壘，消除模塊邊界本身帶來的信息損耗。當(dāng)理解和生成成為同一種認(rèn)知能力的兩面，協(xié)同效應(yīng)就不再是設(shè)計(jì)的結(jié)果，而只是統(tǒng)一表征自然涌現(xiàn)的屬性。這些革新共同支撐了應(yīng)用層面的全新體驗(yàn)：統(tǒng)一架構(gòu)首先意味著更強(qiáng)的復(fù)雜指令遵循能力，同時(shí)多輪交互中跨模態(tài)推理的可視化，也增強(qiáng)了輸出的可解釋性，對于抽象推理過程尤其如此。

商湯還在技術(shù)報(bào)告中通過一系列消融實(shí)驗(yàn)，回答了一個(gè)核心問題：理解生成統(tǒng)一是否帶來了真正的收益？

實(shí)驗(yàn)結(jié)論明確：統(tǒng)一架構(gòu)在表示、訓(xùn)練穩(wěn)定性和數(shù)據(jù)效率上確實(shí)有收益，而不是一種折中。

?原生像素-文本設(shè)計(jì)能同時(shí)保留語義和像素信息。實(shí)驗(yàn)驗(yàn)證了encoder-free架構(gòu)不僅能學(xué)到理解所需的語義表示，也能支持像素級重建與編輯。即使凍結(jié)理解分支，生成路徑仍能恢復(fù)細(xì)節(jié)并完成較好的圖像編輯——說明理解端訓(xùn)練的內(nèi)在表征并不只是「理解token」，也具備生成所需的細(xì)粒度信息。

?MoT讓理解與生成協(xié)同，而不是互相干擾。在聯(lián)合mid-training和SFT階段，即使生成數(shù)據(jù)和理解數(shù)據(jù)共同訓(xùn)練，理解能力仍保持穩(wěn)定，生成能力還收斂更快。MoT的參數(shù)解耦加共享注意力上下文，能有效降低理解/生成之間的內(nèi)在沖突。

?統(tǒng)一架構(gòu)具備更高數(shù)據(jù)效率。NEO-unify相比類似統(tǒng)一模型BAGEL，在更少訓(xùn)練token下取得更好表現(xiàn)。原因在于原生像素-文本接口減少了跨模塊對齊成本，MoT又讓兩類能力共享上下文、互相提供監(jiān)督信號，訓(xùn)練數(shù)據(jù)利用率因此更高。

單一模型替代專用模型協(xié)作的傳統(tǒng)范式，能夠顯著降低存儲、計(jì)算和部署成本，不過這還只是真原生架構(gòu)革命性的一角。

而更深遠(yuǎn)的意義在于，原生統(tǒng)一的多模態(tài)智能，仍然是一條被寄予厚望的AGI之路。多模態(tài)智能的未來突破，并不只是簡單的規(guī)模擴(kuò)大，更重要的是朝著深度融合進(jìn)化的內(nèi)核架構(gòu)創(chuàng)新。今天底層范式和模型架構(gòu)的創(chuàng)新正變得越來越珍貴。開原生統(tǒng)一架構(gòu)之先河的SenseNova U1，或許會有與其歷史地位相匹配的表現(xiàn)——而這，才剛剛開始。

SenseNova U1：https://github.com/OpenSenseNova/SenseNova-U1/

SenseNova-Skills：https://github.com/OpenSenseNova/SenseNova-Skills

雷峰網(wǎng)文章

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.