網易首頁 > 網易號 > 正文 申請入駐

開源版的 GPT Image 2,信息圖、連續圖文、本地部署全拿下|商湯SenseNova U1實測

0
分享至


最近 GPT Image 2 火了之后,網上都是那些徹底以假亂真的 AI 生成圖片。大模型在視覺這條路上越走越遠,讓人興奮又讓人敬畏。

而 GPT Image 2 在眼下的 AI 生圖領域,幾乎是沒什么好爭的。但如果說云端閉源收費的最好模型是 GPT Image 2,那能部署在本地的,免費開源模型或許會是 SenseNova U1。


▲由 SenseNova U1 生成

SenseNova U1 是商湯最新發布的一個開源的多模態模型,它的 Lite 系列 8B 和 A3B 參數版本,目前已經在 Hugging Face 和 GitHub 上開源。

從模型參數和選擇開源的路線上,我們就能看到它和 GPT Image 2 是不太一樣的方向。

APPSO 也提前拿到了測試資格,我們發現商湯這款新一代原生理解生成統一模型,就開源模型來說,已經做到了最好水平。

它帶來了大模型行業首創的連續圖文生成輸出,就是用單一模型就能連貫輸出圖片和文字,這個新鮮很值得去試一試。

目前 SenseNova U1 開源模型的權重已經在 Hugging Face 和 GitHub 上開放下載。

GitHub:https://github.com/OpenSenseNova/SenseNova-U1

Hugging Face:https://huggingface.co/collections/sensenova/SenseNova-U1

帶著圖片的思考

我們可能遇到過這樣的需求,想讓 AI 解釋一個復雜概念,同時配上示意圖,而且圖要跟著文字的邏輯走,解釋到第幾步,圖里就畫到第幾步。

一般的模型可能會直接采用生成代碼的方式來解決這個問題,像 Claude 使用的流式構圖,或者一些 Vibe Coding 的網頁,包含文字和配圖。

但是要完全用一個模型同時在回復流里面,生成文字和圖片,并且不借助外部工具的調用,基本上現有的模型做不到這一點。因為文字生成和圖像生成在模型底層,往往是兩件事。

SenseNova U1 的第一項特點,就是在單一模型上進行連續的圖文創作輸出。

比如我們試了一個場景,讓他生成一份簡單的繪本故事,講述一只小熊歷經四季的變化。


▲ 提示詞:請創作一個圖文繪本故事,主角是一只棕色的小熊,故事講述它經歷四季變化。

生成的連續圖文不僅理解到位,有一定的故事性,而且能很好的保持一致性,同時圖片的文字渲染全部準確,小熊也在冬天穿上了毛衣,戴上了帽子。

實測中發現用 SenseNova U1 來進行一些創意性的工作也非常有意思。

在官方的測試案例里,上傳一張大頭貼給模型,然后要求它設計幾款不同的發型?梢钥吹,在生成連續圖文的完整過程中,人物的一致性,以及結構、細節,SenseNova U1 都做到了精準保持。


▲ 提示詞:幫我設計幾款合適的發型,希望好看的同時比較有特色,然后幫我選一款最適合我的

還能直接讓他設計一個游戲角色,展示從整體視覺基調、核心交互細節,再到環境敘事和性格刻畫的邏輯迭代過程。


更有意思的是,基于時序性的回答,用 SenseNova U1 創作是再合適不過。我們要求他生成一顆牛油果變成一顆室內盆栽的過程,連續圖文的形式很好地呈現了完整的生長過程。


▲ 提示詞:怎么把一顆普通的牛油果種成一棵室內盆栽

一番測試下來,圖片從來沒有離開過文字的邏輯,推理的思路走到哪里,圖片就跟到哪。

以前的圖文結合或許是調用不同模型,和對應工具的寫作,確保回復的內容里,圖文是在說同一件事,F在這項寫作從底層直接發生在模型內部,無論是工具還是軟件,都不需要參與對齊的過程了,我們也只需要看到最后的結果。

對內容創作者、設計師和營銷人員來說,SenseNova U1 的出現,開始解決了一個長久以來的痛點,即如何讓 AI 邊寫邊畫,而且圖文邏輯嚴絲合縫。

量大管飽的最強開源

確認了它的原生理解生成統一能力后,我們要看 SenseNova U1 能否在復雜信息圖生成方面,達到開源模型的最好水平。

信息圖是把一大段復雜的文字或數據,壓縮成一張一眼能看懂的圖。這件事其實比「畫一張漂亮的圖」難得多,需要理解內容,知道哪些是核心,哪些是輔助,信息之間的邏輯關系,以及文字渲染等,都是難題。

閉源的 GPT Image 2 在這方面已經做得很好了,我們在測試的時候一開始也沒有抱著太大的希望,會比 GPT Image 2 還要更好。但 SenseNova U1 的表現,拿下開源 SOTA 的稱號也確實是當之無愧。

我們先是就用一句話「用一張信息圖解釋一下 DeepSeek V4」,沒有任何附加的提示詞,看看它生成的信息圖表現如何。


▲ 由 SenseNova U1 生成

能看得出來 SenseNova U1 有聯網搜索到和 DeepSeek V4 相關的信息,像是原生多模態,還有萬億參數,以及百萬的上下文 Token。

而除了簡單的提示詞,還可以直接發送一個鏈接給它,SenseNova U1 也有對應的網頁抓取工具,提取網頁內容,來進行信息圖的生成。

這些知識科普類的信息圖,SenseNova U1 的表現基本上都能駕馭。更簡單的像是「一張什么是電子煙的 3D 拆解科普」,它也能很快生成。


▲由 SenseNova U1 生成

而如果提示詞稍微詳細一點,它也能完全照著提示詞的內容,把這些文字準確渲染成可視化程度較高的信息圖。


還有像是最近很火的武漢三鮮豆皮,直接告訴 SenseNova U1,生成一張三鮮豆皮完整制作流程的步驟圖。


還有夏天來了,挑選不同的防曬霜,也是一張信息圖,就能把 SPF 和 PA 值這些復雜的挑選參數講清楚。


甚至是要它畫一張 AI 大模型從訓練到推理的工作原理圖,適合完全不懂技術的人看懂;SenseNova U1 也能用輕松有趣的風格,簡單的描述 AI 大模型的工作過程。


在其他場景的應用,像是營銷、辦公、設計參考和商業分析,我們都用不同的例子來測試了 SenseNova U1 的表現。

一般來說,營銷場景對視覺風格的要求最高,也是最能看出模型有沒有真正理解「用戶想傳遞什么感受」的地方。一張好的營銷圖片,放在文章中間,甚至有可能直接被我們誤認為是微信的文章內廣告。

就像這張 SenseNova U1 生成的上海旅行信息圖,不僅把地圖描繪出來了,還列舉了上海的特色。


在辦公場景里,好看又要比準確和高效更重要。我們測試了它對信息處理的能力,把一份五頁的會議紀要壓縮成一張一屏能看完的總結圖,要求邏輯清晰、重點突出,適合直接轉發給沒參會的同事。


復雜的信息之外,SenseNova U1 也能做到很好的視覺風格參考,給它一段品牌的調性描述,要求生成一張包含配色建議、排版建議、氛圍關鍵詞的風格參考圖,結果居然也還不錯。


在一些數據分析的任務上,我們也測試了 SenseNova U1 數據可視化的能力,用圖表的方式來呈現更合理的信息圖。


可以看到,SenseNova U1 在信息提煉這一步做得不錯,它確實讀懂了內容,知道什么重要什么次要。

但是在視覺表達上還有提升空間,有時候一些文字的渲染,還是會出現錯誤,對于需要快速出圖、不想花時間在設計工具上反復調整的場景,已經完全夠用。

下一個多模態模型的樣子

實測完 SenseNova U1,我們發現它的意義,在于它是第一個把「理解和生成統一」這件事認真做出來的開源模型。而這,或許是整個多模態領域下一步要走的方向。

GPT Image 2 的刷屏,說明圖像生成的「生成質量」這條線已經被閉源模型拉得很高了。開源模型如果繼續在同一個維度繼續追,大概需要很長的時間才能趕上,并且開源的價值也會被壓縮到只剩下「便宜」。

SenseNova U1 提供了一個不同的技術路徑,對于整個開源社區的方向都有著重要意義。它除了在解決「怎么生成更好的圖」,也在告訴我們多模態模型的下一步會是什么樣子。


▲ SenseNova U1 采用了行業首創的 NEO-unify 原生架構,實現多模態理解生成的高效統一

過去的多模態模型,理解圖和生成圖是兩套系統在協作。一套負責看懂輸入,一套負責畫出輸出,中間靠接口傳遞信息。兩套系統各有各的內部語言,信息在傳遞過程中會有損耗,就像兩個人用翻譯軟件溝通,意思大體到了,但總有點什么沒傳過去。

SenseNova U1 則是從底層把這兩件事,合進了同一個表征空間。他們今年 3 月的技術博客里,就重點講解了 NEO-unify 這一項架構。

目前大模型行業的慣例是,多模態 AI 看圖要靠一個叫「視覺編碼器(VE)」的東西壓縮處理,然后再交給生成器。在 NEO-unify 架構里,商湯把這套臃腫的傳統范式直接扔了。

結合 NEO-unify 結構的 SenseNova U1,所使用的視覺接口是近似無損的,它直接把圖像分塊(Patch)吃進去,不經過任何預訓練編碼器壓縮;然后在同一個主干網絡里,讓文本和視覺的訓練端到端統一進行。

在理解與生成各項基準測試上,SenseNova U1 的表現也達到同量級開源模型的 SOTA 水平,甚至在多項指標上的表現能和 Nano Banana 這些閉源模型相媲美。


▲ 分別是圖像理解、圖像生成,和視覺推理基準測試結果

它回歸了多模態的第一性原理,從底層的像素和文字開始,自己構建內部的認知。

這也能解釋為什么它消耗的 token 更少,生成效率更高。即使它只有 8B 的參數的版本,也能打出超強的極致性價比。

本次開源的是 SenseNova U1 的輕量版本 SenseNova U1 Lite,目前它有兩個版本:8B 參數的 SenseNova-U1-8B-MoT,可以在邊緣設備上跑;38B 總參數但激活只有 3B 的 SenseNova-U1-A3B-MoT,提供更強能力,同時將推理成本控制得很低。


▲SenseNova U1 已經在 GitHub 和 Hugging Face上開源,鏈接:https://github.com/OpenSenseNova/SenseNova-U1、https://huggingface.co/collections/sensenova/sensenova-u1

兩個版本都可以本地部署、可以微調、可以接進自己的數據管道。對需要把圖像生成能力嵌進自己產品的開發者來說,能夠對模型行為有完全的控制權,數據也不用出去。

如果你需要一個能夠高效實現理解與生成的模型,作為開源模型里的最強代表,SenseNova U1 確實值得嘗試。

商湯還在 GitHub 上開源了面向 Agent 運行時的 AIGC 技能庫 SenseNova-Skills。我們可以直接把SenseNova U1這種強大的能力,接入到自己的智能體(Agent)工作流中。

利用這個工具包,我們可以直接在像 OpenClaw、Hermes 這樣的 Agent 平臺中一鍵調用。模型會自動評估我們的提示詞,選擇合適的版式,經過多輪生成,輸出最佳的專業信息圖結果。


▲ Skills 鏈接:https://github.com/OpenSenseNova/SenseNova-Skills

回顧整個測試,SenseNova U1 這次交出了一份不錯的答卷,它是目前我們能拿到手里的同量級最強開源模型。

對創作者來說,它行業首創的連續圖文創作輸出能力,打破了過去文字與配圖割裂的窘境,真正讓邊思考、邊寫作、邊配圖的連貫創作成為現實。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
我國新發現13個億噸級油田

我國新發現13個億噸級油田

每日經濟新聞
2026-04-29 18:04:15
記者:紐卡愿4000萬鎊賣沃爾特馬德,已有兩家德國球隊開始接觸

記者:紐卡愿4000萬鎊賣沃爾特馬德,已有兩家德國球隊開始接觸

懂球帝
2026-04-29 14:37:03
兩姓揭秘:別嫌肉麻,女人真的吃這一套

兩姓揭秘:別嫌肉麻,女人真的吃這一套

三農老歷
2026-04-14 10:16:31
46歲湯唯意外懷上二胎,曬全家福迎接二寶,預產期將至剪短頭發

46歲湯唯意外懷上二胎,曬全家福迎接二寶,預產期將至剪短頭發

八怪娛
2026-04-29 20:52:57
各科醫生最想跟你說的大實話,很有用!收藏好?纯

各科醫生最想跟你說的大實話,很有用!收藏好常看看

華人星光
2026-04-23 12:00:20
兩岸談判:不與島行政機構談,誰“執政”都無所謂,共識照樣執行

兩岸談判:不與島行政機構談,誰“執政”都無所謂,共識照樣執行

放開他讓wo來
2026-04-30 12:37:38
35年前,美國曾做過一個實驗,把4男4女關在一起兩年,結果如何?

35年前,美國曾做過一個實驗,把4男4女關在一起兩年,結果如何?

近史談
2026-04-29 23:28:47
天!看到1987年春晚觀眾席的遲重瑞,才懂陳麗華為啥一見鐘情

天。】吹1987年春晚觀眾席的遲重瑞,才懂陳麗華為啥一見鐘情

真的八卦小學弟
2026-04-12 00:30:12
卡里克觀戰曼聯太子梅開二度!夏季將踢季前賽,英超首秀為時過早

卡里克觀戰曼聯太子梅開二度!夏季將踢季前賽,英超首秀為時過早

羅米的曼聯博客
2026-04-30 10:38:42
張軍身為羽協一把手,毫不注重個人形象,把自己養的這么白白胖胖

張軍身為羽協一把手,毫不注重個人形象,把自己養的這么白白胖胖

人間煙火記事本
2026-04-28 01:19:13
虛構男友、編造親人去世謊言……二十年閨蜜竟是“影后”,騙走女子21萬余元

虛構男友、編造親人去世謊言……二十年閨蜜竟是“影后”,騙走女子21萬余元

上海法治聲音
2026-04-30 12:52:08
2.8T!豐田新車曝光:5月14日上市

2.8T!豐田新車曝光:5月14日上市

手機評測室
2026-04-30 11:50:50
上海開始“搶跑”了....

上海開始“搶跑”了....

新浪財經
2026-04-30 06:07:51
湖北省荊州市人大常委會黨組書記、主任周昌俊被查

湖北省荊州市人大常委會黨組書記、主任周昌俊被查

新京報
2026-04-30 10:07:07
米體丨格雷茨卡即將點頭加盟,中場可能重組

米體丨格雷茨卡即將點頭加盟,中場可能重組

米蘭圈
2026-04-30 08:57:39
上海一男子以“包養”之名與4名女子發生關系,反騙萬余元;法院判了

上海一男子以“包養”之名與4名女子發生關系,反騙萬余元;法院判了

大風新聞
2026-04-29 16:35:02
央視怒批!“絕望的文盲”丟臉到國外,馮遠征的話終于有人信了

央視怒批!“絕望的文盲”丟臉到國外,馮遠征的話終于有人信了

人間無味啊
2026-03-13 03:17:17
遵義會議上,紅九軍團中央代表投了毛主席反對票,他后來結局如何

遵義會議上,紅九軍團中央代表投了毛主席反對票,他后來結局如何

舊書卷里的長安
2026-04-29 00:03:37
“我的臉,我做不了主?”

“我的臉,我做不了主?”

中國新聞周刊
2026-04-30 14:00:07
隨著中國新星吳宜澤13-8晉級,斯諾克世錦賽4強已經誕生3席

隨著中國新星吳宜澤13-8晉級,斯諾克世錦賽4強已經誕生3席

側身凌空斬
2026-04-30 04:24:21
2026-04-30 14:51:00
愛范兒 incentive-icons
愛范兒
消費科技第一媒體
38792文章數 2601587關注度
往期回顧 全部

科技要聞

四巨頭財報齊發:AI已經不只是風口

頭條要聞

"上海最通透爸爸"去世 女兒:他退休20多年這輩子不虧

頭條要聞

"上海最通透爸爸"去世 女兒:他退休20多年這輩子不虧

體育要聞

騎士天王山:哈登、莫布里和……施羅德?

娛樂要聞

孫楊媽媽被曝!過往言行被扒大開眼界

財經要聞

醫美偷稅手法曝光 借免稅優惠來避稅被封堵

汽車要聞

上汽一季報出爐 在低增長周期里守住基本盤

態度原創

時尚
家居
教育
本地
藝術

春季穿衣千萬別太暗沉!試試藍白配色、選基礎款褲子,大方得體

家居要聞

靈動實用 生活藝術場

教育要聞

成都鹽外發出倡議:每個家庭設立“家庭情緒日”

本地新聞

用青花瓷的方式,打開西溪濕地

藝術要聞

安東·愛德華·基爾德魯普:19世紀丹麥風景畫家

無障礙瀏覽 進入關懷版