網易首頁 > 網易號 > 正文申請入駐

X平臺瘋傳！這個國產開源模型，把信息圖生成整明白了 ? 附實測

2026-05-29 21:57:26　來源: 智東西

北京舉報

分享至

智東西
作者陳駿達
編輯漠影

今年4月底，GPT-Image 2發布，帶動了一波信息圖（Infographic）生成熱潮。從書籍摘要到商業報告，過去需要設計師才能完成的復雜版面，開始被AI批量生成。“AI信息圖”成為近期內容創作領域討論熱度最高的話題之一。

但熱潮背后，一個問題隨之浮現：GPT-Image 2是閉源的，按Token計費，每百萬輸出Token高達30美元，對于有本地部署和二次開發需求的團隊來說，它并不是一個可以長期依賴的選項。

“有沒有可商用的開源替代方案”成為開發者社區的高頻討論。在這個背景下，商湯科技4月底開源的SenseNova U1開始進入越來越多開發者的視野，并在X平臺引發了大量討論。

SenseNova U1采用了商湯自研的創新NEO-unify架構，徹底丟棄了傳統圖像模型必備的VAE和視覺編碼器，將像素與文字放入同一表征空間原生建模。這意味著模型不再“翻譯”圖像，而是同時用兩種語言思考，從根源上解決了壓縮帶來的細節丟失和噪聲問題。

Hugging Face中國開發者社區工作人員Adina Yakup評價道：“這一模型實現了純粹的端到端像素-文字建模。”

在結構化版面、密集中英文混排、圖文精準對齊任務上，SenseNova U1實現了不錯的效果，而這些歷來是開源生圖模型的軟肋。AI博主Rohan Paul評價它：“攻克了圖像生成最難啃的骨頭。”

成本是SenseNova U1的另一大亮點。這一模型采用Apache 2.0 協議，支持商用，權重全開，單卡可跑，科技分析媒體Testing Catalog認為，其成本約為閉源方案的十分之一。開源不到一周，社區已自發提供GGUF量化權重，進一步降低部署門檻。

持續的高關注度下，近日，商湯進一步開源了SenseNova-U1-8B-MoT-Infographic（信息圖增強版），直接接瞄準信息圖這一高需求場景。與GPT-Image 2等主流閉源方案相比，它在成本、可部署性和二次開發空間上提供了截然不同的選擇。

實際效果究竟如何？我們通過一輪實測，看看這款開源模型能交出怎樣的答卷。

一、七大硬核任務實測：梳理老黃行程、直出海報與論文，高密度文字渲染已無明顯破綻

開發者在X平臺討論SenseNova U1時，反復提到兩個核心問題：文字渲染能不能穩？復雜版面能不能控？這也是信息圖生成最本質的難點所在。我們把這兩個問題放在實測的最前面，先驗證基礎能力，再延伸到海報、學術文檔等更多場景，最后與GPT-Image 2進行橫向對比，看兩款模型的設計取向究竟有何不同。

（1）還原老黃“特種兵式”訪華細節，梳理大模型演進時間線

第一個案例是最近很火的黃仁勛同款行程，老黃先到訪了人民大會堂，在北京南鑼鼓巷開啟特種兵般的行程，吃炸醬面、喝豆汁兒、買蜜雪冰城，還嘗了稻香村，隨后開啟臺北之旅。

面對這個任務，SenseNova U1信息圖增強版先對復雜行程做了完整拆解，并按照合適的方式安排布局。生成的信息圖結構清晰，圖文結合也較為符合場景，還配有生動形象的描述，十分有現場感。

文字渲染方面，在這種高密度的場景下，依然能準確呈現地點、餐品名稱及細節，整體可讀性很強，展現了模型在復雜版面中對文字的穩定控制力。

看完這個輕松的案例，我們又讓SenseNova U1信息圖增強版打造了一張“LLM Architectures 大語言模型架構演進”的橫向知識圖解。這個案例的難點在于包含大量數據，如何在柱狀圖中調整110M到1.8T的懸殊比例、讓表格內的中英雙語參數精準對齊，都是不小的挑戰。

SenseNova U1信息圖增強版完美渲染了我們提供所有的文字信息，從BERT到GPT-5，年代和參數規模一目了然，沒有出現文字亂碼。在圖表部分，柱狀圖渲染的效果基本符合數據大小，SenseNova U1信息圖增強版還用箭頭體現了模型之間的技術傳承。

（2）生成音樂節與詩歌節海報，審美和準確度都在線

信息圖還有一個十分常見的用法，就是海報生成。相比知識圖解對數據精度的嚴苛要求，海報更考驗模型對視覺沖擊力、排版美學的理解能力。

在音樂節海報任務中，我們要求SenseNova U1信息圖增強版生成一張以富士山為主要視覺元素的海報。圖片中央的富士山元素和舞臺元素融合自然，下半部分的演出陣容以網格狀整齊排列，12組音樂人的英文名和時間清晰列出。整體信息層級按照大標題、日期、陣容的順序依次展開，視覺引導流暢。

總體來看，SenseNova U1信息圖增強版很好地還原了深夜音樂節的氛圍。

在詩歌節海報任務中，我們在提示詞中強調了“中間留白約占畫面40%”以及“呼吸感極強”。模型準確地理解了這些要求，沒有因為追求視覺效果而塞入多余裝飾，而是嚴格遵循了克制的原則。

它還執行了深色襯線字體與米色紙張紋理的搭配，呈現出畫面整體氣質沉靜，左下角豎排小字與右下角線描月亮的構圖，精準捕捉到了東方留白詩意與現代排版的平衡感。這種對“少即是多”的理解能力在文生圖中并不多見。

SenseNova U1信息圖增強版在應對精準排版指令時展現出了不錯的執行力，生成的畫面不僅好看，更能用于實際宣發場景。

（3）結構化文檔生成，直出一頁學術論文

最后，我們還考驗了SenseNova U1信息圖增強版在辦公場景的應用。這類場景要求模型能精準理解文檔的常見格式要求，并準確渲染所有文字。

第一個案例是Q2業務回顧的演示文稿單頁。SenseNova U1信息圖增強版生成了深灰底、左側豎排標題、右側進度條的分欄結構，中英文副標題右對齊到位，進度條上“Revenue 128%”標注清晰，底部頁碼與公司名擺放工整。

處理這類商務頁面時，模型對版面的留白控制得很舒適，沒有多余的裝飾元素去干擾信息層級，重點數據一目了然。

第二個案例是生成高密度的論文頁面。生成高密度學術論文頁面的核心難度在于對復雜視覺元素與嚴謹邏輯關系的精確控制。提示詞中的要求按照arXiv 風格進行頁面渲染，且需要符合嚴格的學術排版規范（如斜體、加粗及專有名詞標注）。

最終，SenseNova U1信息圖增強版準確輸出了完整的頁面排版，格式清晰、段落完整，復雜的數學公式也沒有出現結構性錯誤，尤其在這類文字密度極高、格式復雜的情況下。整體呈現出可直接使用的完成度。

最后一個案例是難度拉滿的高密度中文小字。下圖中是一家企業的品牌運營邏輯和市場表現全景解析，SenseNova U1信息圖增強版不僅準確渲染了幾乎所有中文小字，排版也較為清晰易讀。

總體來看，SenseNova U1信息圖增強版在信息圖任務上展現出了不錯的版面控制力與復雜指令遵循能力。這讓它有潛力成為內容創作與辦公場景中的得力視覺工具。

二、與GPT-Image 2橫向對比：兩種不同的設計取向

X平臺上有不少網友把SenseNova U1信息圖增強版與GPT-Image 2放在一起討論。我們也做了對照的測試，看看這兩個模型在實際任務中有何異同。

我們的首個案例聚焦于當前火爆的分鏡生成玩法，要求兩個模型分別生成一段跑酷動作序列：在未完工的灰色混凝土建筑內，一名運動員以動作捕捉剪影的形式，完成精準跳躍、墻跑和落地翻滾等一系列連貫動作。

GPT-Image 2先交出了生成結果：

SenseNova U1信息圖增強版隨后完成了生成：

從視覺質感與逼真度的維度來看，GPT-Image 2生成的光影、材質、環境氛圍比較逼真，富有視覺沖擊力。SenseNova U1信息圖增強版則偏向概念化，強調動作路徑和圖形化表達。

從信息呈現與分鏡實用性來說，SenseNova U1信息圖增強版的生成結果專業且清晰。它將每個鏡頭細致拆解為：鏡頭語言（怎么拍）、動作（怎么做）、視覺特效（加什么特效）。拿到這個分鏡腳本已經基本可以開始制作了。

GPT-Image 2的生成結果在實用性上稍遜一籌。它看起來很酷、很科幻，但缺乏具體的制作指令。

在另一個信息圖生成測試中，我們為兩個模型輸入了同一份復古航海圖風格的提示詞：要求生成一張橫版信息圖，以做舊紙張為基底，用虛線航線串聯起從“創意萌芽”到“產品上市”的六個階段島嶼，并標注風險暗礁、資源漩渦等危險標記。GPT-Image 2與 SenseNova U1 信息圖增強版再次展現出不同的設計取向。

GPT-Image 2在航海圖任務中延續了藝術化取向，較好地還原了做舊紙張紋理、手繪風格地標與古典裝飾元素，整體沉浸感強；但細節繁復，字號較小，閱讀效率不高。

SenseNova U1信息圖增強版則選擇弱化了厚重紋理，視覺負擔更輕，信息獲取更直接，更契合商業圖表的高效傳遞需求。

綜合以上兩個實測案例，我們可以清晰看到兩款模型在信息圖生成領域呈現出的分化。

GPT-Image 2是“視覺派”，擅長通過光影、材質，打造具有沖擊力和情緒的視覺作品。但在需要精確拆解邏輯、清晰傳遞密集信息的場景中，它的生成結果往往過于重視覺而輕信息，導致可讀性下降。

SenseNova U1 信息圖增強版則更像是“生產工具派”：它優先保障信息的結構清晰與獲取效率，而它的短板在于視覺質感和穩定性仍有提升空間。

三、回到開發者的問題：架構、部署與真實價值

實測結果回應了X平臺上那些討論的核心判斷，但也帶來了一些新的問題值得深挖：這款模型為什么能用8B參數做到這些？開發者真正部署時會遇到什么成本？它在哪些場景下是可靠的生產工具，在哪些場景下還需要謹慎？

作為一款僅有8B參數的大模型，尺寸并不是SenseNova U1系列模型唯一的特點。過去，多模態大模型長期受困于“理解”與“生成”的二分——通過視覺編碼器（VE）看懂圖像，再經由變分自編碼器（VAE）生成圖像，中間依靠適配器連接。

這種拼接式架構如同一個“講不同語言的工作組”，信息在模塊間來回傳遞，不僅損耗大，更讓模型不得不依賴堆參來彌補性能損失。

商湯科技發布的SenseNova-U1系列模型從根本上解決了這一難題——它采用了自研的NEO-unify架構范式，在單一模型中原生統一了多模態理解、推理與生成，真正將圖像與文本放到同一個表征空間中直接建模。

在此前發布的SenseNova-U1基礎上，商湯專門強化了SenseNova U1信息圖增強版的信息圖生成能力。為了避免通用理解能力在生成能力提升的過程中退化，商湯用高質量數據延長了MT訓練階段、在MT與SFT階段優化了理解與生成任務的數據配比、在 RL階段進一步打磨了獎勵設計。

最終，增強版模型在信息圖相關基準上實現了顯著提升：在 BizGenEval（Hard）任務中，較原版模型提升了6.8分；而在 IGenBench 的 Q-ACC（問答準確率）測試里，該基準用于評估信息圖是否同時滿足文本、圖表、數據與結構等多重要求，增強版較原版更是大幅躍升了18.2分。

統一架構還賦予了SenseNova U1信息圖增強版更豐富的任務邊界：它不只是一個生圖工具，還可以完成多類型任務，讓內容創作的整個鏈路都能在一個模型內閉環。

在上述的信息圖、視覺理解任務中，SenseNova U1信息圖增強版都展現出了扎實的實力。而更值得開發者關注的是，這份實力并非以高昂的算力或API調用成本為代價。

作為一款Apache 2.0協議全開源、支持商用的模型，SenseNova U1信息圖增強版支持輕量化的本地部署。本次實測中我們選擇的是一張RTX 5880顯卡，擁有48GB顯存，實際跑下來顯存占用大概在30多GB。我們還試著將顯卡顯存大小調整至24GB、8GB，結合虛擬顯存后，這些配置也能成功跑出結果。

而在RTX 5880的配置下，SenseNova U1信息圖增強版生成一張信息圖的時間大概在70秒左右（2048×2048，推理步數30）。同時，GGUF量化后的模型，適用于約10–12 GB顯存的消費級顯卡。

這讓SenseNova-U1系列模型具有較強的性價比。以GPT-Image 2為代表的主流閉源模型采用按Token計費的模式，每百萬輸出Token價格高達30美元，生成一張高分辨率信息圖的估算成本在0.005美元至0.4美元不等。單張調用似乎不貴，但對于日均生成上千張圖像的團隊來說，成本壓力迅速累積。

相比之下，SenseNova-U1系列模型可在開發者自己的服務器上無限次運行。這種成本結構對團隊而言是高度可預測、極低邊際成本的。

結語：統一架構的想象力，遠不止信息圖

回到最初網友們討論的焦點，實測給出了答案。SenseNova-U1系列模型的架構突破是真實的，NEO-Unify去掉VAE和視覺編碼器之后，模型在信息層級理解和版面控制上確實獲得了結構性的改善，而不只是基準分數的躍升。

此外，模型在信息圖這一場景的細分能力也十分突出。在行程梳理、海報生成、學術文檔等高密度場景中，它能交出可用的結果，并非噱頭。

而其開放的姿態和極低的部署成本，讓這種能力不再只是實驗室里的演示，而是真正有機會落地到開發者自己的產品和工作流中。

當然，極高密度文字場景下偶發的亂碼、視覺質感與GPT-Image 2之間的差距，都是它還在打磨的空間。但一個8B的開源模型，能把這場對話推進到這里，本身已經說明了一件事：統一架構的想象力，遠不止信息圖。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.