无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

這張信息圖,居然是8B開源模型做的??

0
分享至

最近,我的女媧.skill 和 Huashu Design 似乎太出圈了。

前者已經分別被騰訊、智譜、Kimi 旗下的龍蝦產品作為默認 skill 之一,后者則是聽聞很多公司都在研究我那個 skill 的設計邏輯

于是呢,我也沒少在各個社交平臺再去宣傳介紹這些 skill 究竟是什么、工作原理如何。尤其是隨著圖像生成模型能力變強,我挺愛做類似下面這樣的信息圖來介紹我做的東西。


給你 5 秒鐘,猜一下這張圖是什么模型做的?

是 GPT-Image-2?

是 Nano Banana 2?

還是 Seedream 5?

答案揭曉——其實是商湯這周才開源的一個 8B 多模態模型:SenseNova U1

我猜很多人對這個模型還相當陌生,所以呢,我們再讓它自己來介紹下自己


它叫 SenseNova U1,來自商湯

這個模型昨天剛開源,分兩個尺寸,一個是 8B 的 dense 版本,一個是 A3B 的 MoE 版本,協議是 Apache 2.0,inference code 全開。

它背后的架構叫NEO-Unify。我來嘗試簡單解釋下這個東西。一般主流的多模態模型處理任務的流程有點像請翻譯官幫忙:圖像先經過一個視覺編碼器(Visual Encoder)翻成 token 給模型理解,模型生成的 token 再經過 VAE 翻回像素。U1 把這兩個翻譯官都辭了,讓模型直接讀原始像素、直接輸出像素,自己學一套近乎無損的視覺表征。

商湯公布的官方分數也挺有意思。8B 這個體量,在圖像理解和圖像生成兩條評測線上都拿到了開源同量級的 SoTA,部分指標接近商業閉源大模型。


最值得關注的是「信息圖」這條專項。文字密度高、排版要求精準,這歷來是生圖模型的硬骨頭。U1 在這個維度上的得分跟 Qwen-Image 2.0、Seedream 4.5 這種大模型基本持平,但延遲顯著更低。


簡單說,同樣出一張 2K 信息圖,U1 大概只要十幾秒,對比 GPT-Image-2 這種閉源大模型的幾十秒,單位時間能多出好幾倍的產能。

為什么我會想試它

我對多模態生圖模型這個賽道的看法,說起來挺簡單。

一年前,文生圖模型要跑出穩定的中文表現有多難,大家應該都有體感。直到最近,能把這件事真正做對的也只有 OpenAI、Google、字節這少數幾家大公司,而且全是閉源大模型。

所以這周看到一個 8B 的開源小模型,敢把「信息圖」當主打能力來發布,我是有點意外的。意外到想自己上手試試。

讓我更感興趣的是另一件事。本地能跑的小模型一旦質量上來,它的隱私性、速度、幾乎零邊際成本,正好能覆蓋一些閉源 SaaS 難以觸達的場景。

回到我自己。我最在意的是它能不能按我的 prompt 穩定復現風格,比如剛才那張女媧 skill 的 Anthropic 編輯風;以及能不能用合理速度批量出圖,我的 agent workflow 里一次任務可能要 10-20 張圖,每張多等 30 秒,整個鏈路就拖死了。

至于本地部署、可微調這些,我自己暫時沒剛需。但我接觸過的不少行業(醫療、金融、法務)確實非常需要本地能力,他們的素材根本不能上傳到云。

這幾件事里,前兩件 GPT-Image-2 做得不錯,后兩件它做不到。這不是它的錯,閉源 SaaS 本來就不是干這個的。

而 U1 剛好坐在了那個空位上。它在跑分上肯定打不過 GPT-Image-2 的單張極致質量,但它能跑本地、能被改造、還能在十幾秒里出一張 2K 信息圖。這就夠了。

我讓它做了什么

理論說完,看東西。

文章開頭那張女媧 skill 的圖,是我讓 U1 做的第三張。我給它的 prompt 寫得很具體:「米白底 ,炭黑手繪線,赤陶橙 強調色,三段式 16:9 橫向布局,無 sci-fi 無暗模式……」也就是 Anthropic blog 的那種編輯插畫風。它第一次跑就接住了。

然后我又讓它做了一張更細顆粒度的「女媧三階段」工作流圖:


這種復雜版式 U1 處理得比我預期的穩定。

最近我在跟出版社合作,嘗試做新一批帶圖解示例的橙皮書,所以這陣子比較頻繁在測各種生圖模型。U1 跑下來,速度和穩定性都比我預想的好。

它真正不一樣的地方:圖文交錯

前面我讓 U1 做的都是單張信息圖。但它真正不一樣的能力,其實是「圖文交錯」:一次輸出里包含多張圖和段落正文的連貫混排。

商湯管這個能力叫「帶圖思考」。模型在推理過程中自動生成中間示意圖,把復雜邏輯可視化。這件事 GPT-Image-2、Nano Banana、Seedream 都做不到,它們都是「一次 prompt 出一張圖」的單點能力。

舉兩個官方公布的例子。

「幫我設計幾款適合的發型」:用戶上傳一張自己的照片,U1 不直接給圖,而是先做面部特征分析,然后生成多種不同的發型推薦圖,每張圖旁邊配一段為什么適合的解釋,最后給一組對比圖。


「設計一個建在海南萬寧懸崖邊的圖書館」:U1 自主構思并生成了四個不同視角的連貫建筑圖(外部全景、低角度仰視、高空俯瞰、室內框景),每個視角配一段精準的設計說明,相當于一次給你完整的建筑設計交付。


這種能力很難在閉源 SaaS 上穩定實現。你得自己寫一個 agent,讓 LLM 調多次生圖 API,再把圖和文拼起來。而且人物在多張圖之間未必一致。U1 把這件事壓到了單模型一次推理里。

我自己也跑了兩個測試。一個是給小朋友介紹怎么做飛機的4格漫畫《第一次坐飛機》


另一個算是我的真實場景,在嘗試給我新書《圖解 Agent Skills》做配圖。


讓我意外的幾件事:速度極快,基本是邊想邊出圖;人物和風格的一致性維持得很好;最關鍵的是——一個8B 的開源模型同時具備這種程度的思考能力和圖像生成能力,這件事老實說我之前沒怎么見過。

對我來講,最實用的場景是寫橙皮書:一章里經常需要「概念 → 概念圖 → 解釋段落 → 對比圖 → 總結」這樣的混排。以前要在 LLM 和生圖 API 之間來回切,現在 U1 一次就能出整頁。

它的真實邊界

當然,U1 也不是沒有短板。

我讓它換種風格,做一張「達爾文.skill」的循環結構圖。這次要的是技術藍圖風、深色背景、循環箭頭加 8 個評分維度環繞。它出來是這樣:


有幾件事值得說一下。

這張圖跟前面女媧那張的 Anthropic 編輯風完全是兩套體系。同一個模型能在不同風格之間切換,說明訓練語料的數據還挺豐富,這也意味著它更有機會執行不同需求的人物。很多模型有強烈的默認風格傾向,怎么都掰不出來。

文字渲染也挺讓我意外。這種環形排列還能基本不出錯,挺難得的。我之前用別的模型試過類似layout,文字常常錯位。

不過 U1 也確實有少量錯字。比如讓它寫 Karpathy 這個名字,它會寫成 Karpthy;讓它寫「蒸餾」的「餾」,常常寫成「漓」。這些都是 prompt 工程可以繞開的小問題,把 Karpathy 改成「卡帕西」、把「蒸餾」改成「提煉」就行。

但這些邊界相對都不致命。真正重要的是它讓我能用一個 8B 的開源模型,在本地跑出可以直接用的書籍級配圖。這件事兩個月前我都不敢想。

這個模型適合誰、適合什么場景

那 U1 真正適合誰用?我自己想了下,幾個最直接的場景:

自媒體和獨立創作者。每天要出文章配圖、信息圖、海報,U1 的速度讓「試 10 個版本選 1 個」變成可行的工作流,試錯成本接近零。

有數據敏感性的行業:醫療、金融、法務,或者做內部知識庫、內部培訓材料的團隊。本地部署最大的好處就是內部數據不上云,閉源 API 在這些場景下直接是 deal-breaker。

Agent 長鏈路場景。一個任務要生成 10-50 張圖(教程、報告、繪本、漫畫都可能),調 GPT-Image-2 走 API 不僅貴還慢,U1 跑本地幾乎零成本,就讓這種鏈路真的能跑通。

商湯自己也提了一嘴,下一步會把 U1 接入「辦公小浣熊」。這其實就是上面這些場景的產品化路徑。

怎么上手

想試的話,有幾個入口:

  • 在線體驗:sensenova.sensetime.com(每天 5 小時、1500 次的免費配額)

  • 開源代碼:github.com/OpenSenseNova/SenseNova-U1

  • HuggingFace:huggingface.co/collections/sensenova/sensenova-u1

模型本身 8B,對硬件要求其實不算高。性能稍好一些的本地機器都能跑得動,不需要專業卡。官方文檔里說支持 vLLM 和 sglang,已經在用這些工具的同學應該能很快跑起來。

最近一年,多模態模型的發布我看了不下三十輪,每一輪都在說自己是 SoTA、是顛覆、是革命。U1 這次沒說那么多大詞,但它把 Visual Encoder 和 VAE 都砍了。這種敢于重新畫路線的事,在已開源的多模態模型里其實不常見。

它現在還有邊界,錯字會有,復雜圖表也不絕對穩定。但它給我的體感是:有些場景,確實從這周開始變得不一樣了。以及我們完全可以期待他下一階段的快速進化。

至少,我下一本橙皮書的配圖,可能不再需要走 API 了。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
宋珍珍自曝,富豪用一袋冷凍水餃約了她纏綿,還有個給她20打車費

宋珍珍自曝,富豪用一袋冷凍水餃約了她纏綿,還有個給她20打車費

江山揮筆
2026-06-11 19:43:45
10年空調老師傅坦言:這5個牌子千萬別買,都是我修出來的教訓

10年空調老師傅坦言:這5個牌子千萬別買,都是我修出來的教訓

家電小超人
2026-06-11 17:00:03
曇花六現!張雪機車奪賽季第6冠 德比斯最后一圈反超+逆轉絕殺

曇花六現!張雪機車奪賽季第6冠 德比斯最后一圈反超+逆轉絕殺

念洲
2026-06-13 20:33:46
吉馬良斯:巴西全隊世界杯首戰都很緊張;安胖給我們傳遞信心

吉馬良斯:巴西全隊世界杯首戰都很緊張;安胖給我們傳遞信心

懂球帝
2026-06-14 11:14:31
Codex和Claude Code負責人都不寫提示詞了,AI 圈爆火的Loop到底是什么

Codex和Claude Code負責人都不寫提示詞了,AI 圈爆火的Loop到底是什么

AppSo
2026-06-14 10:12:13
LG杯決賽風云突變!王星昊借中腹勢力翻盤,申旻埈苦思難解困局

LG杯決賽風云突變!王星昊借中腹勢力翻盤,申旻埈苦思難解困局

L76號
2026-06-14 13:45:55
大爺觀看演出“入戲太深”,沖上臺拳打腳踢扮演“日軍”的演員,景區:已帶演員做檢查,身體無大礙

大爺觀看演出“入戲太深”,沖上臺拳打腳踢扮演“日軍”的演員,景區:已帶演員做檢查,身體無大礙

極目新聞
2026-06-14 13:59:06
獨行俠拒絕交易凱里?歐文的深層原因曝光,全是為了狀元弗拉格

獨行俠拒絕交易凱里?歐文的深層原因曝光,全是為了狀元弗拉格

夜白侃球
2026-06-14 13:37:12
正式退出,官宣離隊,王俊杰:主帥對我意見大,沒能扮演重要角色

正式退出,官宣離隊,王俊杰:主帥對我意見大,沒能扮演重要角色

童叔不飆車
2026-06-14 00:55:00
維蒂尼亞談C羅身材:絕對不是P的!26歲的我都沒有像他那樣

維蒂尼亞談C羅身材:絕對不是P的!26歲的我都沒有像他那樣

懂球帝
2026-06-14 11:57:07
八個月胎兒還在動,母親已斷氣,奶奶一跪換來一聲哭。

八個月胎兒還在動,母親已斷氣,奶奶一跪換來一聲哭。

一口娛樂
2026-06-14 11:30:19
中東那個惡霸終于死了,不是被打死的,是被特朗普的談判拖死的!

中東那個惡霸終于死了,不是被打死的,是被特朗普的談判拖死的!

殘夢重生來
2026-06-14 04:59:12
中國鬧了個烏龍,沙漠種麥本為保糧倉,誰料金黃麥浪竟成治沙神器

中國鬧了個烏龍,沙漠種麥本為保糧倉,誰料金黃麥浪竟成治沙神器

蜉蝣說
2026-06-14 09:20:24
普京簽署新法!海外公民批評政府,國內房產或被沒收

普京簽署新法!海外公民批評政府,國內房產或被沒收

老謝談史
2026-06-14 11:05:54
衣服都是假貨?這6個中老年男裝品牌,都在賣吊牌圈錢,趕緊避雷

衣服都是假貨?這6個中老年男裝品牌,都在賣吊牌圈錢,趕緊避雷

離離言幾許
2026-06-14 15:05:33
1.7億贏不了0.1億!世界杯第1個冷門:卡塔爾門將痛哭 瑞士隊蒙羞

1.7億贏不了0.1億!世界杯第1個冷門:卡塔爾門將痛哭 瑞士隊蒙羞

風過鄉
2026-06-14 05:54:27
對于周一后A股,我只說4點:第一,4258點或大概率已成為珠穆朗瑪峰?

對于周一后A股,我只說4點:第一,4258點或大概率已成為珠穆朗瑪峰?

股俠指北針
2026-06-14 12:54:18
WNBA:女版楊瀚森!李月汝新季第5場被棄用 飛翼遭罰球準絕殺

WNBA:女版楊瀚森!李月汝新季第5場被棄用 飛翼遭罰球準絕殺

醉臥浮生
2026-06-14 10:44:17
道格拉斯-桑托斯:維尼修斯是絕對的天才;一對一很難有人防住他

道格拉斯-桑托斯:維尼修斯是絕對的天才;一對一很難有人防住他

懂球帝
2026-06-14 15:40:40
卡塔爾突圍,中國隊零分隊友只剩8個了

卡塔爾突圍,中國隊零分隊友只剩8個了

瀟湘晨報
2026-06-14 11:18:48
2026-06-14 16:16:49
AI進化論花生 incentive-icons
AI進化論花生
AI博主,AppStore付費榜第一的小貓補光燈app開發者
233文章數 121關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

蓋茨出軌20多次 愛潑斯坦曾鼓勵女醫生與其發展性關系

頭條要聞

蓋茨出軌20多次 愛潑斯坦曾鼓勵女醫生與其發展性關系

體育要聞

8年8隊奪冠,鄧肯那句話,現在還給了馬刺

娛樂要聞

鄧超攜子觀戰NBA,等等帥氣十足

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

綜合續航超1600km/零百加速4秒級 2027款星途ES預售18.99萬起

態度原創

健康
教育
時尚
本地
軍事航空

老人、小孩、孕婦,吃粽子有啥風險

教育要聞

重磅!加拿大皇家科學院院士,入職浙江大學醫學院

伊姐周六熱推:電視劇《南部檔案》;電視劇《意外調查組》......

本地新聞

AK劉彰邂逅河北南大港濕地

軍事要聞

特朗普:美伊協議周日簽 還有終極手段

無障礙瀏覽 進入關懷版