網易首頁 > 網易號 > 正文 申請入駐

不卷參數卷架構,這個開源模型把圖像理解和生成統一了

0
分享至

henry 發自 凹非寺
量子位 | 公眾號 QbitAI

這兩天打開朋友圈,10條里有7條都是GPT-Image-2生的圖。

中文海報、復古雜志封面、直播畫面、社交截圖、連高考試卷都能照著出一張幾乎以假亂真的。

對此,大家伙的反應也都出奇的一致——

專業設計師們完了,我又能行了!

但實際上上手你就會有同感:免費用戶一天幾張,抽卡次數有限,遇到稍微嚴肅點的活,額度馬上到頂,常常是活沒干完,次數沒了。

針對這一空檔,商湯剛剛開源了一個全新架構的理解生成統一模型SenseNova-U1,雖然小尺寸版本只有8B,卻能復刻不少GPT-Image-2的拿手絕活。

比如,我們拿它做一張量子位的招聘海報:文字、版式、配色,挑不出毛病。



太陽系圖解,八大行星各自的軌道、屬性、圖文介紹一應俱全,看著挺像那么回事。



畫個鋼鐵俠,模型也能自動從輪廓、鋪色、細節、質感、氛圍等多個階段拆解完整的繪畫流程。



來個馬斯克太空集群的信息圖也審美在線。



可以說,信息圖(InfoGraph)、文字密集排版、圖文交錯——

這幾個曾經被公認是AI生圖最難啃的硬骨頭,U1能跟GPT-Image-2擠進一桌。

在具體的圖像理解與生成的多項指標上,SenseNova-U1也是登頂開源模型的榜首。



在推理響應速度上也具備相當的優勢,逼近主流商用閉源模型。





這是怎么做到的,咱往下看。

連續性圖文創作,這次是原生的

先說U1這次最有意思的能力,連續性圖文創作

所謂連續性圖文創作,就是文字和圖片在一段輸出里自然交疊,而不是文字歸文字、圖片歸圖片。

這聽起來很簡單,但實際上很難。因為文字保留語義、圖片保留像素細節,這兩件事在傳統架構里幾乎是天敵——

保了語義就丟了像素,保了像素就稀釋了語義。

U1的做法是讓兩者在同一個表征空間里共享上下文,語義豐富性和像素級視覺保真度第一次同時拿住。

簡單講,就是模型能像人一樣,邊思考邊畫草圖,文字和圖片在一段輸出里自然交疊。

比如,我讓它生成一個“煎牛排的操作教學”。它能從食材準備,瀝干水分、調味、煎制和翻面……講到最后裝盤。

每一步的關鍵操作都有圖,牛排的形象從生肉到五分熟一路保持高度一致,不會畫著畫著變成另一塊肉。



再比如,我想學一點漫畫分鏡技巧。

它能直接給我吐出圖文并茂的教材式段落,從準備階段、鏡頭建立、再到引入道具、次要角色一應俱全,比純文字解釋直觀得多。



這種“始終是同一個主體”的連貫性看起來樸素,但對生成模型卻很難。

傳統范式得在多個模型之間來回調用,各畫各的,角色形象很容易在第三步就走樣。U1是單次單模型調用直接出全套。

對一個新模型來說,還有一個值得關注的考驗就是——

高密度信息圖

在模型界面中,你可以直接輸入“自己的簡歷信息”,它就能返回你一張手繪風格的海報,信息分布、配色、字體層級都安排得明明白白。



讓它講“三只小豬蓋房子”,我輸入只有這么“7個字”,輸出就能直接給你一整組連環畫——

三只小豬、三種材料、三棟房子、最后那只大灰狼,一格一格排好,順序對得上故事。



炒紅燒肉這類做菜教程圖,也可以一次直出,圖文對應。



給一句“做杯咖啡的英文流程圖”,圖也直接出來了。



在講究排版、涉及多種元素的插畫場景中,U1也能實現比較精細的效果,比如這張劃船樂的教學總覽圖。



最有意思的是這個,扔給它一張路邊常見的“電梯安全”警示牌,讓它換個排版做成一張信息圖。

它還能直接把這個實現完美遷移,把版式從警示牌切成了科普卡片。





前段時間火爆的產品爆炸圖,在U1這里也可以做到。一臺相機,被它拆得整整齊齊:

鏡頭組、反光鏡、快門、傳感器、芯片,電池什么的,統統被它拆得整整齊齊懸浮在空中,標注線一根不少。



這種程度的玩法,以前是超大參數模型的專屬。更有意思的一點是,SenseNova U1 Lite還在行業首創了圖文交錯的思維鏈。

這種會推理的能力放到圖像編輯上會更有趣。

我扔給它一張剛泡好的玻璃杯熱茶,讓它“畫出一小時后的樣子”。它沒有簡單地直接出圖,而是先做了一段推理:

一是給自己定約束,同一只玻璃杯、同一張原木桌面、同一種側逆光,這樣兩張圖放一起才看得出“是同一杯茶過了一小時”。

二是推導物理:剛泡時,葉片高速舒展、氣泡從葉脈逸出、蒸汽在杯壁上留下弧形折射;

一小時后,多酚類擴散均勻,茶湯變深紅褐,葉子完全沉降呈半透明,杯底跟桌面交界處出冷凝痕跡。光影也跟著從“清晨的清冷”過到“午后的慵懶”。



類似的還有幾個測試。

給它一個綠色的香蕉,模型會先推理“葉綠素分解+糖化”,從而保證輸出的是一根帶著斑點的成熟香蕉。



可以說,這款新模型不只是在改圖,還具備了一定的物理常識。

NEO-unify,一個網絡實現“看”和“畫”

看到這,你可能想問,這是怎么做到的?

U1的底層是一套叫NEO-unify的架構。一個模型同時會看、會畫,理解和生成在同一個網絡里完成,中間沒有任何拼接。



在過去,多模態模型的標配經常是這樣的,視覺編碼器(VE)負責看,變分自編碼器(VAE)負責畫,理解歸理解,生成歸生成,中間靠適配器拼起來。

NEO-unify把這兩個東西都拿掉了,不需要VE,不需要VAE,模型直接吃像素,直接吐像素。

具體來說,這一過程分為三步:

第一步,引入近似無損的視覺接口,把圖像的輸入和輸出統一成同一種表示。

第二步,用Mixture-of-Transformer做主干,理解和生成共享同一套底層。

第三步,文本走自回歸,視覺走像素流匹配,兩套目標函數在同一個學習框架里跑完。

△圖片由SenseNova U1生成

這套技術架構給了NEO-unify獨門絕活,連續性圖文創作。

傳統模型要做這件事,得外掛工具或者后處理拼接。U1底層就是統一的,原生支持圖片和文字的交叉排版,所有視覺內容都來自模型自身,不調用外部工具。

模型在思考一個問題的時候,可以一邊推理一邊生成中間示意圖,把復雜邏輯可視化。

生成一段教程,可以在恰當的位置自然地插入說明圖。

落地到模型,兩個規格。SenseNova-U1-8B-MoT,8B參數,端側能跑。SenseNova-U1-3AB-MoT,總參數38B的MoE架構,提供更強的能力,底層都是同一套NEO-unify。

此外,商湯還給U1配了一套自研推理棧,LightLLM跑理解、LightX2V跑生成,兩條路解耦各管各的。以H100/H200單節點為例,生成一張2048×2048的圖,端到端大概9秒。

全網開源,即刻可用

值得一提的是,商湯這次在README里把模型的局限也直接寫了出來:

上下文最長32K、人物在復雜場景里的細節有時不夠穩、長文字渲染偶爾會出現拼寫或排版錯誤、連續性圖文創作目前還是beta。

不過這些短板都標了“持續改進中”。換句話說,U1這次開的不是終點,是個起點。

為了方便大家使用,商湯這次順手開源了一套SenseNova-Skills技能包,把U1做成了Agent里能直接調的工具。

sn-infographic自帶87種版式、66種風格,自己評分自己挑;掛進OpenClaw,一句 /skill sn-infographic “提示詞”,圖就出來了。

Skills不只是infographic一個,整套覆蓋圖像生成、PPT制作、Excel數據分析、深度研究、跨平臺搜索。

目前,SenseNova-U1兩個模型已經全網開源。Hugging Face和GitHub都能下,倉庫地址在https://github.com/OpenSenseNova/SenseNova-U1。

想直接體驗不動手部署的,現在可以直接進入SenseNova U1 Lite Skill,https://github.com/OpenSenseNova/SenseNova-Skills。

另外,辦公小浣熊也即將上線U1。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
能傳能射,奧利塞是本賽季首位進球助攻均20+的五大聯賽球員

能傳能射,奧利塞是本賽季首位進球助攻均20+的五大聯賽球員

懂球帝
2026-04-29 06:08:17
扎哈羅娃:我們不像烏克蘭,不拿士兵的生命去打沒意義的仗

扎哈羅娃:我們不像烏克蘭,不拿士兵的生命去打沒意義的仗

Ck的蜜糖
2026-04-29 09:09:07
新能源車凌晨車庫起火連燒六車損失數百萬,起火車主“裸險”難賠

新能源車凌晨車庫起火連燒六車損失數百萬,起火車主“裸險”難賠

聽心堂
2026-04-28 14:21:59
未來三到五年,我們將面對的最大“灰犀?!?>
    </a>
        <h3>
      <a href=識局Insight
2026-04-27 21:07:22
鳳崗鎮黨委原書記黃樂瑜被查,曾在東莞多地任職

鳳崗鎮黨委原書記黃樂瑜被查,曾在東莞多地任職

南方都市報
2026-04-29 12:41:07
離譜!許家印只喝2700一瓶水 馬桶必須噴香水 隨身配備女按摩師

離譜!許家印只喝2700一瓶水 馬桶必須噴香水 隨身配備女按摩師

念洲
2026-04-28 11:37:39
泰國工廠突發沖突!中泰工人互相群毆,視頻曝光現場一片混亂

泰國工廠突發沖突!中泰工人互相群毆,視頻曝光現場一片混亂

暹羅飛鳥
2026-04-28 08:14:15
一季度GDP十強!廣州、深圳拉風,重慶增速墊底

一季度GDP十強!廣州、深圳拉風,重慶增速墊底

城市財經
2026-04-29 12:15:44
珍寶島戰敗后蘇聯計劃4路侵中國,一周到北京,為何最終不敢打?

珍寶島戰敗后蘇聯計劃4路侵中國,一周到北京,為何最終不敢打?

鶴羽說個事
2026-04-27 22:57:54
反轉!孕婦200元買水果遭老公辱罵,被曝是劇本官方處理大快人心

反轉!孕婦200元買水果遭老公辱罵,被曝是劇本官方處理大快人心

大魚簡科
2026-04-29 09:55:05
NBA敲定反擺爛方案!命名3-2-1樂透規則 將于2027年選秀生效

NBA敲定反擺爛方案!命名3-2-1樂透規則 將于2027年選秀生效

羅說NBA
2026-04-29 06:06:03
買面包糕點時,懂行的人很少買這5種,店員:我們自己都很少吃

買面包糕點時,懂行的人很少買這5種,店員:我們自己都很少吃

阿龍美食記
2026-04-17 14:04:17
陳偉霆首認何穗是老婆! 曝妻「生產不太順利」:放不下心中大石

陳偉霆首認何穗是老婆! 曝妻「生產不太順利」:放不下心中大石

ETtoday星光云
2026-04-29 11:08:04
安貞煥:02世界杯隨隊淘汰意大利后,我曾遭到意大利黑手黨威脅

安貞煥:02世界杯隨隊淘汰意大利后,我曾遭到意大利黑手黨威脅

懂球帝
2026-04-29 01:23:28
廣東,停雨時間確定!

廣東,停雨時間確定!

廣東發布
2026-04-29 12:59:11
羅馬諾:皇馬15天前就得知穆里尼奧可以回歸

羅馬諾:皇馬15天前就得知穆里尼奧可以回歸

懂球帝
2026-04-28 23:17:24
石油巨震!阿聯酋退出歐佩克,引爆金融核彈,人民幣砍出致命一刀

石油巨震!阿聯酋退出歐佩克,引爆金融核彈,人民幣砍出致命一刀

丁丁鯉史紀
2026-04-29 10:53:25
最煩是自發免費做“躺平”內容的人

最煩是自發免費做“躺平”內容的人

不主流講話
2026-04-28 23:10:32
細思極恐,躺平思想原來是境外敵對勢力煽動的?

細思極恐,躺平思想原來是境外敵對勢力煽動的?

十柱
2026-04-28 11:54:55
炸了!蛋蛋再爆辛選黑料:曾被職場暴力對待

炸了!蛋蛋再爆辛選黑料:曾被職場暴力對待

雷科技
2026-04-29 12:00:47
2026-04-29 14:47:00
量子位 incentive-icons
量子位
追蹤人工智能動態
12558文章數 176458關注度
往期回顧 全部

科技要聞

夭折的造富神話,逼著中國AI回去賺"慢錢"

頭條要聞

俄"受制裁"富豪的游艇通過霍爾木茲海峽 或獲美伊默許

頭條要聞

俄"受制裁"富豪的游艇通過霍爾木茲海峽 或獲美伊默許

體育要聞

一場九球狂歡,各路神仙批量下凡

娛樂要聞

馬頔一句話,孫楊媽媽怒罵節目組2小時

財經要聞

多地藥店違規串換商品套刷醫保揭秘

汽車要聞

配32寸升降屏 新款別克世紀CENTURY上市53.99萬起

態度原創

數碼
房產
親子
教育
軍事航空

數碼要聞

榮耀手表6 Plus開啟預約:1000mAh青海湖大電池,35天續航

房產要聞

80億投資!浙商總部基地+海口北站,金沙灣這是要起飛?。?/h3>

親子要聞

5月2日普陀醫院將開展免費骨齡篩查義診活動

教育要聞

剛剛,南京市教育局重磅發布!

軍事要聞

美國參議院否決限制特朗普對古巴動武的決議

無障礙瀏覽 進入關懷版