商湯日日新 SenseNova U1 系列新成員——U1-8B-MoT-Interleaved 圖文交錯增強版模型,面向圖文交錯創作與生成(Interleaved Generation)場景進行了專項強化,更好地支持繪本、故事書、多頁 PPT、圖文教程等連續內容創作,解決傳統多模態模型“多輪生成后角色形象飄移、畫風斷裂、圖文脫節”等痛點。
核心突破:從“單張高質量”到“連貫圖文長序列”
SenseNova U1 圖文交錯增強版的核心能力表現在:能夠在長內容場景中,持續輸出風格統一、敘事連貫、圖文高度對應的多頁結果 ——它不再僅僅生成孤立的單張圖像 ,而是一套完整的、可直接使用的圖文內容序列。
其核心升級主要體現在四個方面:
1、敘事一致性與角色連貫性大幅提升
模型顯著提升了長周期創作中的敘事連貫性、角色一致性與畫風統一性。故事線在整個生成過程中被嚴格遵循,人物形象從第一頁到最后一頁均保持高度一致,徹底解決了此前多輪生成中角色形象“走調”的核心痛點。
2、圖文對應關系增強,告別“圖文脫節”
經過專項訓練,模型大幅改善了圖像內容與文字描述之間的語義對齊能力。生成的畫面能更準確地呈現文本所描述的復雜場景、動態動作與物體間的空間關系,有效減少了“圖文脫節”的現象。
3、視覺質量與Artifact明顯改善
針對人物結構、文字渲染、頁面排版等高頻高難區域進行了定向優化,顯著降低了生成物中的視覺瑕疵(Artifact),使復雜圖文混排內容更加自然、穩定和可用。
4、全新能力:多頁 PPT 自動生成
新版本首次支持了多頁 PPT 自動生成能力。模型能夠智能從輸入內容中提取要點,自行完成排版設計與文字渲染。
能力對比:四大場景實測表現
以下通過實際案例,直觀呈現SenseNova-U1-8B-MoT-Interleaved圖文交錯增強版模型在各類圖文創作任務中的真實表現:
場景一:教程類內容生成
? 任務場景:生成帶有步驟說明與配圖的圖文指南。這類場景的關鍵痛點在于:步驟必須清晰,圖文需嚴格語義對齊,且畫面邏輯要干凈實用。 ? 原版模型表現:生成的果蔬圖像雖較真實,但攪拌步驟的配圖出現了違背物理邏輯的“星云漩渦”;且生成步驟較為繁瑣,家庭實操實用性偏低。 ? 增強版模型優勢:西瓜圖像更加真實自然,無鋸齒狀視覺瑕疵(Artifact);攪拌動作完全符合真實物理邏輯;同時步驟精簡實用,貼近真實操作場景。
![]()
原版
![]()
圖文交錯增強版
場景二:故事書類內容生成
? 任務場景:根據故事文本生成多頁連續的兒童繪本,核心難點在于確保角色不“變臉”、情節連貫完整。 ? 原版模型表現:未能遵循“角色突然失蹤”的關鍵情節指令;表達形式單一且無文字配解;情節邏輯不夠流暢,畫面中鳥類尾部及人物面部出現明顯形變(Artifact),形象不夠卡通,缺乏童話感。 ? 增強版模型優勢:精準呈現“突然失蹤”的核心反轉情節;故事原生配有文字講解,表達形式豐富,可讀性大幅提升;角色形象卡通化且穩定,無形變問題。
![]()
原版
![]()
圖文交錯增強版
場景三:繪畫過程類內容生成
? 任務場景:生成模擬手繪過程的逐步圖文內容,要求能循序漸進地呈現繪畫步驟與創意作品的誕生全過程,風格需高度統一。 ? 原版模型表現:基本遵循指令,但“過程感”呈現有限;畫面質感一般,缺乏紙張的紙質肌理,視覺上更接近生硬的數字渲染風格。 ? 增強版模型優勢:指令遵循更精準;繪畫步驟的過程性體現極強,層次感清晰可見;畫幅表現異常逼真,紙張上的畫面感極強,完美還原了真實手繪的藝術質感。
![]()
原版
![]()
圖文交錯增強版
場景四:PPT 內容生成
圖文交錯增強版模型首次解鎖了多頁PPT自動生成能力。拿以下“賽博朋克”主題PPT為例:風格高度統一(全程賽博朋克霓虹暗色調)、圖文語義嚴格對應、多頁敘事邏輯完整,很好地體現了增強版模型能力。
![]()
在單頁PPT自動生成上,增強版相比原版也取得了顯著提升。
? 任務場景:單頁PPT 自動生成,要求內容自動提取、排版設計自動完成,且文字渲染精準準確。 ? 原版模型表現:排版布局不夠穩定,整體布局欠清晰,文字排布擁擠,美觀度仍有較大提升空間。 ? 增強版模型優勢:不僅在布局穩定性與視覺美觀度上實現了質的飛躍,文字排版也更具呼吸感與視覺層次。
![]()
原版
![]()
圖文交錯增強版
而且借助"圖文交錯思維鏈",模型將 PPT 布局設計的全過程以連續圖文的形式逐步呈現,讓創作邏輯一目了然。
![]()
讓長內容創作從此一氣呵成
從單張圖像的驚艷“盲盒”,到跨越連續多頁、邏輯嚴密、畫風如一的“完整圖文內容創作”,SenseNova U1 圖文交錯增強版模型的推出,標志著多模態 AI 連續內容創作正式跨入高實用性、高穩定性的全新階段。
無論是讓步驟嚴絲合縫的圖文指南,還是需要角色和情節完美連貫的兒童奇幻繪本,亦或是追求視覺排版層次的商業演示 PPT——它都用強大的指令遵循與極致的視覺質量,給出了令人驚艷的答卷。它讓 AI 真正告別了碎片化的單圖拼湊,走向了完整、長篇、端到端的連續敘事。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.