雷峰網(wǎng)文章 開源一周多,GitHub破1,500 Star,沖上HuggingFace趨勢榜——商湯SenseNova U1在開發(fā)者社區(qū)引發(fā)的熱度,和這個(gè)模型本身的技術(shù)野心一樣不尋常。它做的事情,是把多模態(tài)理解和生成這兩件事,真正塞進(jìn)同一個(gè)大腦。
開發(fā)者在討論什么?除了效果有多驚艷,還有一個(gè)更底層的問題:為什么這次把VAE也去掉了?從Stable Diffusion到FLUX,幾乎所有主流擴(kuò)散模型都依賴變分自編碼器(VAE)把圖像壓進(jìn)潛空間,這是近年來整個(gè)圖像生成技術(shù)棧的地基。SenseNova U1的NEO-unify架構(gòu)選擇把它整個(gè)拆掉,直接在像素層面端到端建模語言與視覺。這不是工程優(yōu)化,是架構(gòu)層面的重新選邊站。
HuggingFace社區(qū)的熱門討論包括「能否在單張RTX 5090上運(yùn)行」、「是否會有更輕量版本」等極具落地指向的問題,說明已經(jīng)有大量開發(fā)者在認(rèn)真跑通它。有開發(fā)者評價(jià)稱,這是「終于有人在原生統(tǒng)一方向上認(rèn)真做了工程落地」,和此前的偽統(tǒng)一架構(gòu)完全不可同日而語。
與此同時(shí),模型以Apache 2.0協(xié)議完全開源,支持商用,發(fā)布后不到兩周,團(tuán)隊(duì)已陸續(xù)推出8步推理加速版、LoRA微調(diào)版、GGUF量化版及低顯存layer-offload推理模式,迭代節(jié)奏之快,也是社區(qū)熱度持續(xù)的原因之一。
![]()
01
多模態(tài)的「兩條腿走路」,走了太久
多模態(tài)的理解與生成,長期以來都是“兩條腿走路”。在多模態(tài)理解方面,以GPT-4V、LLaVA、Qwen-VL為代表的視覺語言模型(VLM)能夠執(zhí)行復(fù)雜的圖像描述、視覺問答和推理任務(wù),而圖像生成技術(shù),則有Stable Diffusion、FLUX、DALL-E 3為代表的擴(kuò)散模型。兩條技術(shù)路線雖然各有突破,但長期以來因獨(dú)立演進(jìn),形成了截然不同的架構(gòu)范式,是不爭的事實(shí)。
變革最初發(fā)生在2025年,GPT-4o的統(tǒng)一多模態(tài)能力引爆了業(yè)界對統(tǒng)一架構(gòu)的追求,也就是用一款模型既能理解圖像內(nèi)容,又能生成高質(zhì)量圖像。不過業(yè)界普遍推測,GPT-4o的圖像理解能力仍然是依賴視覺編碼器提取圖像特征實(shí)現(xiàn),這款模型本身也并不原生生成高質(zhì)量圖像,而是依賴集成的DALL-E 3。
實(shí)現(xiàn)路徑之所以重要,是因?yàn)樗P(guān)系到模型的多模態(tài)能力是否真正實(shí)現(xiàn)了統(tǒng)一。以GPT-4o為代表的混合架構(gòu)雖然在物理上共享部分參數(shù),但是理解與生成在特征表示和計(jì)算路徑上仍相對獨(dú)立。這種不同模塊接力完成任務(wù)的路徑,不可避免地導(dǎo)致了模型冗余、能力割裂和交互障礙。
![]()
02
NEO-unify:真正靠同一個(gè)大腦做到這件事
真正靠同一個(gè)大腦做到這件事,曾經(jīng)是很多人的設(shè)想,今天被商湯實(shí)現(xiàn)了。SenseNova U1系列模型基于商湯于今年3月自主研發(fā)的NEO-unify架構(gòu),率先在單一模型架構(gòu)上統(tǒng)一多模態(tài)理解、推理與生成,實(shí)現(xiàn)了從「模態(tài)集成」向「原生統(tǒng)一」的范式跨越。
NEO-unify架構(gòu)的核心突破在于,它徹底摒棄了視覺編碼器(VE)和變分自編碼器(VAE),直接從像素和文本進(jìn)行端到端學(xué)習(xí)。商湯在官方文章里打了個(gè)比方,傳統(tǒng)架構(gòu)像“說不同語言的人組成的工作組”,而SenseNova U1更像「一個(gè)從一開始就同時(shí)掌握多項(xiàng)技能的人」。
這一設(shè)計(jì)的技術(shù)意義在于:VAE的壓縮過程本質(zhì)上是有損的,開發(fā)者為此花了數(shù)年時(shí)間調(diào)參和打補(bǔ)丁;而NEO-unify直接在像素層面建模語言與視覺信息,像素與詞語的信息從一開始就在同一個(gè)表征空間里共同參與每一層計(jì)算,消除了跨模塊傳遞帶來的信息損耗。
![]()
圖注:該框架結(jié)合了(1)近無損視覺接口,(2)由兩層卷積編碼與類MLP 編碼層實(shí)現(xiàn),以及(3)原生的混合Transformer(MoT)主干架構(gòu)。架構(gòu)重點(diǎn)在于同時(shí)解決三組?盾:語義抽象與像素細(xì)節(jié)的共同表征、理解與?成的協(xié)同、語?因果性與圖像空間?致性。
到此為止,我們才能說端到端統(tǒng)一框架真正得到了實(shí)現(xiàn)。下到一次圖像生成的效果,上到整個(gè)多模態(tài)模型的智能上限,都和這一里程碑的實(shí)現(xiàn)與否休戚相關(guān)。
本次開源的SenseNova U1 Lite,包含兩個(gè)不同規(guī)格的模型:
?基于稠密骨干網(wǎng)絡(luò)的SenseNova-U1-8B-MoT:理解與生成兩條分支參數(shù)約9.37B / 8.19B
?基于混合專家(MoE)骨干網(wǎng)絡(luò)的SenseNova-U1-A3B-MoT:理解分支約30.54B,生成分支約8.2B,每token激活top-8專家,實(shí)際活躍參數(shù)約3B
![]()
03
模型測評:數(shù)據(jù)說話
在商湯最新發(fā)布的U1技術(shù)報(bào)告中,有一些數(shù)據(jù)格外亮眼。在涵蓋圖像理解、圖像生成與編輯、空間智能和視覺推理的多項(xiàng)基準(zhǔn)測試中,8B-MoT均達(dá)到同量級開源模型SOTA水平,甚至在部分指標(biāo)上超越了部分大型商業(yè)閉源模型。
![]()
圖注:SenseNova-U1與其他頂級多模態(tài)理解模型在多模態(tài)基準(zhǔn)測試(Benchmarks)上的對比。
![]()
圖注:SenseNova-U1與僅具備理解能力的頂級模型在純文本基準(zhǔn)測試(Benchmarks)上的對比
![]()
圖注:GenEval 上的定量評估結(jié)果
從上表可以看出,SenseNova U1實(shí)現(xiàn)了理解、生成、編輯、交錯(cuò)和智能體能力的一體融合,形成了相對均衡的能力譜系。關(guān)鍵數(shù)據(jù)上,GenEval總分約0.91-0.92,OneIG中文文字渲染達(dá)0.977,信息圖生成領(lǐng)先多數(shù)開放模型,多模態(tài)理解MMMU達(dá)80.55——這些數(shù)字發(fā)生在同一個(gè)模型內(nèi)部,而不是多個(gè)專用模型的拼接。
技術(shù)報(bào)告中一個(gè)值得單獨(dú)拿出來說的結(jié)論是:統(tǒng)一架構(gòu)具備更高數(shù)據(jù)效率。NEO-unify相比類似統(tǒng)一模型BAGEL,在更少訓(xùn)練token下取得了更好表現(xiàn)。原因在于原生像素-文本接口減少了跨模塊對齊成本,MoT又讓兩類能力共享上下文、互相提供監(jiān)督信號,訓(xùn)練數(shù)據(jù)利用率因此更高。
在生成延遲與平均性能的綜合對比中,SenseNova U1 Lite在保證圖像生成質(zhì)量比肩Qwen-Image 2.0 Pro、Seedream 4.5等大型閉源模型的同時(shí),推理響應(yīng)速度也展現(xiàn)出顯著優(yōu)勢,尤其在復(fù)雜信息圖(Infographic)生成任務(wù)中,控制力超出預(yù)期。
更值得注意的是,作為最強(qiáng)開源生圖模型的SenseNova U1 Lite,僅僅只有8B的體量。光是這個(gè)數(shù)字本身,就意味著落地上的巨大潛力。
![]()
04
實(shí)測與部署方案
回到生產(chǎn)場景,SenseNova U1對長文檔和數(shù)據(jù)圖表進(jìn)行總結(jié)分析、生成高質(zhì)量信息圖表的能力,有著廣闊的應(yīng)用空間。我們也針對性地設(shè)計(jì)了一個(gè)任務(wù),看看SenseNova U1在實(shí)際工作流中的表現(xiàn)。
先讓U1畫一幅云南的水彩風(fēng)景畫,用連續(xù)圖文創(chuàng)作輸出的方式,展示從線稿到上色完稿的逐步過程。SenseNova U1能夠很好的理解要求,進(jìn)行符合邏輯的連貫輸出,并保持畫面信息的一致性。
![]()
同樣是在生產(chǎn)場景,圖文交錯(cuò)生成、帶圖思考背后的一致性也讓 SenseNova U1 帶來了更多可能性。在下面這個(gè)用例中,我們請它為一座建筑群設(shè)計(jì)了7步分鏡,覆蓋了從二維底圖到帶有好萊塢級CG效果的人視街景。
![]()
信息圖生成方面,我們先讓SenseNova U1根據(jù)公開信息,做了一份5月院線電影觀影指南。
![]()
觀影指南是一個(gè)關(guān)鍵信息高度密集的場景,每部電影的片名、日期、主題等標(biāo)簽都需要保證可讀,在文字渲染準(zhǔn)確性的難關(guān)之上,這又對SenseNova U1處理多對象結(jié)構(gòu)化排版的能力提出了考驗(yàn)。
此時(shí)文字的清晰呈現(xiàn)已經(jīng)成為了最基本要求,更進(jìn)一步的表現(xiàn),是在高信息密度的約束下,仍然保持雜志級的排版審美。平面設(shè)計(jì)師的排版能力,與產(chǎn)品經(jīng)理的信息架構(gòu)能力,這二者的交叉點(diǎn),恰恰是最容易暴露AI能力的短板。
為了進(jìn)一步測試SenseNova U1的結(jié)構(gòu)化敘事和設(shè)計(jì)能力,我們又讓它做了一份介紹《甄嬛傳》中“滴血驗(yàn)親”這場戲的信息圖,并且把關(guān)鍵臺詞融入設(shè)計(jì)中。
![]()
兩份信息圖都沒有拿模板套作的痕跡,每一頁都做到了根據(jù)內(nèi)容密度自適應(yīng),信息圖表和數(shù)據(jù)可視化都有對應(yīng)的視覺呈現(xiàn),字體、顏色、元素比例在視覺效果上也很協(xié)調(diào)。
這兩項(xiàng)任務(wù)真正的難點(diǎn)有兩個(gè)。首先是異構(gòu)素材的知識合并能力,公開信息來源涵蓋了文本、圖像等多種格式,SenseNova U1需要讓重疊的知識點(diǎn)相互印證、合并,最終得到差異化的分層信息。沒有真正的理解能力,做不到這一點(diǎn)。其次是邏輯感,提示詞非常簡練,SenseNova U1卻能自主對搜集的內(nèi)容進(jìn)行取舍,找到一條合理的敘述邏輯,這一點(diǎn)在總結(jié)“滴血驗(yàn)親”劇情的用例中,體現(xiàn)得更為明顯。
見慣了漢字在AI圖片里扭曲成麻花,SenseNova U1在如此高密度的信息輸出之下,準(zhǔn)確率居然也已經(jīng)達(dá)到了落地級別。手搓信息圖乃至PPT,或許很快就要成為一種正在消失的技能。
![]()
05
ComfyUI快速部署方案:5分鐘上手
在SenseNova U1的最近一次更新中,商湯正式上線了ComfyUI部署支持,開發(fā)者可以將U1作為自定義節(jié)點(diǎn)直接嵌入ComfyUI工作流,實(shí)現(xiàn)從“提示詞構(gòu)建→圖像生成→結(jié)果預(yù)覽”的全鏈路可視化操作。值得一提的是,U1在ComfyUI中提供了“帶圖思考”的交錯(cuò)生成節(jié)點(diǎn),復(fù)雜邏輯的可視化推理過程一目了然。
環(huán)境要求? Python ≥ 3.10,ComfyUI 最新版
?GPU:推薦16GB顯存(8B-MoT標(biāo)準(zhǔn)版)
?低顯存用戶:8B-MoT-GGUF版本可在8GB顯存下運(yùn)行;支持layer-offload,進(jìn)一步降低顯存占用
安裝步驟
# 1. 進(jìn)入 ComfyUI 的 custom_nodes 目錄
cd ComfyUI/custom_nodes
# 2. 克隆官方倉庫
git clone https://github.com/OpenSenseNova/SenseNova-U1
# 3. 安裝依賴(推薦 uv)
uv pip install -r requirements.txt
# 4. 配置 API Key(本地推理可跳過此步)
export SENSENOVA_API_KEY=your_key_here
# 5. 啟動 ComfyUI,拖入 workflow_demo.json 即可運(yùn)行
▎核心節(jié)點(diǎn)說明
▎加速與量化選項(xiàng)
?8步推理加速版(SenseNova-U1-8B-MoT-8step-preview):大多數(shù)場景下生成質(zhì)量與基礎(chǔ)模型接近,推理速度大幅提升
?LoRA微調(diào)版(SenseNova-U1-8B-MoT-LoRA-8step-V1.0):支持風(fēng)格定制與場景適配
?GGUF量化版:由社區(qū)貢獻(xiàn)者@smthem提供,權(quán)重已發(fā)布于HuggingFace,適合消費(fèi)級GPU本地推理
對于偏好免安裝體驗(yàn)的用戶,商湯還同步提供了辦公小浣熊https://office.xiaohuanxiong.com/home的體驗(yàn)方式,無需GPU,直接在瀏覽器中即可試用U1的核心功能。
![]()
06
生產(chǎn)級任務(wù)新選擇
過去一年,主流大模型廠商在多模態(tài)理解側(cè)的表現(xiàn)已相對趨同,GPT-4V、Gemini Pro、Qwen-VL等模型在圖像理解、視頻解析、文檔理解等任務(wù)上的差距日益收窄。但生成側(cè)始終是短板——理解一個(gè)數(shù)據(jù)集,然后生成信息圖或制作一份PPT,往往需要調(diào)用多個(gè)專用模型串聯(lián)完成,不僅延遲高、風(fēng)格一致性差,而且交付質(zhì)量也參差不齊。
SenseNova U1的差異化正在于此。把SenseNova U1放進(jìn)多模態(tài)當(dāng)前的競爭格局,你幾乎無法找到同樣的定位:
?GPT系列多模態(tài)理解能力一流,但原生圖像生成仍然依賴獨(dú)立模塊,走專用模型協(xié)作的路子
?Qwen-VL開源生態(tài)龐大,但生成以文本輸出為主
?DeepSeek-V4行業(yè)翹首以盼,但多模態(tài)生成亦不是其核心賣點(diǎn)
此前頭部玩家的核心能力多集中在理解側(cè),SenseNova U1率先實(shí)現(xiàn)了生成和理解的原生融合。在端到端交付已經(jīng)成為Agent落地共識的今天,只要理解與生成之間還橫亙著跨模塊的鴻溝,反映在落地上,就是交付質(zhì)量和生產(chǎn)效率的真實(shí)痛點(diǎn)。SenseNova U1一己之力,將這場拼交付的競爭,拉到了底層架構(gòu)創(chuàng)新的高度。
技術(shù)階段的代差本身就意味著生產(chǎn)力。SenseNova U1針對企業(yè)辦公場景做了定向優(yōu)化,將信息圖、PPT、研究報(bào)告這類高頻交付物作為重要戰(zhàn)場,技術(shù)優(yōu)勢直接轉(zhuǎn)化為了落地能力。由此,SenseNova U1才能在已經(jīng)是一片紅海的生圖市場占據(jù)一席之地,成為生產(chǎn)級任務(wù)的全新選擇。
![]()
07
結(jié)語
NEO-unify的核心創(chuàng)新,就是讓語言和視覺在同一個(gè)表征空間里共同參與每一層計(jì)算。此后模型在生成圖像時(shí),不是在翻譯文字指令,而是在同一個(gè)思維框架之下,使語言與視覺信息能夠作為一個(gè)統(tǒng)一的復(fù)合體被直接建模。
統(tǒng)一架構(gòu)會打破理解與生成之間的信息壁壘,消除模塊邊界本身帶來的信息損耗。當(dāng)理解和生成成為同一種認(rèn)知能力的兩面,協(xié)同效應(yīng)就不再是設(shè)計(jì)的結(jié)果,而只是統(tǒng)一表征自然涌現(xiàn)的屬性。這些革新共同支撐了應(yīng)用層面的全新體驗(yàn):統(tǒng)一架構(gòu)首先意味著更強(qiáng)的復(fù)雜指令遵循能力,同時(shí)多輪交互中跨模態(tài)推理的可視化,也增強(qiáng)了輸出的可解釋性,對于抽象推理過程尤其如此。
商湯還在技術(shù)報(bào)告中通過一系列消融實(shí)驗(yàn),回答了一個(gè)核心問題:理解生成統(tǒng)一是否帶來了真正的收益?
實(shí)驗(yàn)結(jié)論明確:統(tǒng)一架構(gòu)在表示、訓(xùn)練穩(wěn)定性和數(shù)據(jù)效率上確實(shí)有收益,而不是一種折中。
?原生像素-文本設(shè)計(jì)能同時(shí)保留語義和像素信息。實(shí)驗(yàn)驗(yàn)證了encoder-free架構(gòu)不僅能學(xué)到理解所需的語義表示,也能支持像素級重建與編輯。即使凍結(jié)理解分支,生成路徑仍能恢復(fù)細(xì)節(jié)并完成較好的圖像編輯——說明理解端訓(xùn)練的內(nèi)在表征并不只是「理解token」,也具備生成所需的細(xì)粒度信息。
?MoT讓理解與生成協(xié)同,而不是互相干擾。在聯(lián)合mid-training和SFT階段,即使生成數(shù)據(jù)和理解數(shù)據(jù)共同訓(xùn)練,理解能力仍保持穩(wěn)定,生成能力還收斂更快。MoT的參數(shù)解耦加共享注意力上下文,能有效降低理解/生成之間的內(nèi)在沖突。
?統(tǒng)一架構(gòu)具備更高數(shù)據(jù)效率。NEO-unify相比類似統(tǒng)一模型BAGEL,在更少訓(xùn)練token下取得更好表現(xiàn)。原因在于原生像素-文本接口減少了跨模塊對齊成本,MoT又讓兩類能力共享上下文、互相提供監(jiān)督信號,訓(xùn)練數(shù)據(jù)利用率因此更高。
單一模型替代專用模型協(xié)作的傳統(tǒng)范式,能夠顯著降低存儲、計(jì)算和部署成本,不過這還只是真原生架構(gòu)革命性的一角。
而更深遠(yuǎn)的意義在于,原生統(tǒng)一的多模態(tài)智能,仍然是一條被寄予厚望的AGI之路。多模態(tài)智能的未來突破,并不只是簡單的規(guī)模擴(kuò)大,更重要的是朝著深度融合進(jìn)化的內(nèi)核架構(gòu)創(chuàng)新。今天底層范式和模型架構(gòu)的創(chuàng)新正變得越來越珍貴。開原生統(tǒng)一架構(gòu)之先河的SenseNova U1,或許會有與其歷史地位相匹配的表現(xiàn)——而這,才剛剛開始。
SenseNova U1:https://github.com/OpenSenseNova/SenseNova-U1/
SenseNova-Skills:https://github.com/OpenSenseNova/SenseNova-Skills
雷峰網(wǎng)文章
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.