網易首頁 > 網易號 > 正文 申請入駐

階躍星辰新圖像編輯模型來了!2分錢一張、0.7秒出圖,實測海報風格遷移出彩

0
分享至


智東西
作者 高遠矚
編輯 程茜

智東西4月29日消息,今天,階躍星辰正式發布新一代圖像編輯生成模型Step Image Edit 2

該模型參數量僅3.5B,在輕量級圖像編輯評測基準KRIS-Bench中綜合排名第一,支持文生圖、中英文渲染、局部編輯、視覺推理、主體一致性及風格遷移,可廣泛用于IP創作、海報設計、漫畫生成、人像美顏、旅游修圖等場景。

API定價0.02元/張,公測期(4月28日至5月5日)限免體驗。

在官方放出的速度對比視頻中,Step Image Edit 2完成一次文生圖片僅需0.7秒,而國內閉源SOTA模型耗時7秒,開源20B級模型耗時12秒,開源同量級4B模型則耗時0.6秒。


▲各模型文生圖速度對比(來源:階躍星辰官方視頻)

智東西第一時間上手實測。總體來看,Step Image Edit 2在風格遷移的品牌VI排版上有驚喜,但在中文漢字渲染、空間方位理解、復雜指令執行穩定性上存在明顯不足。

官方體驗入口:https://platform.stepfun.com/console-tools

一、架構數據雙突破:小參數如何挑戰大模型?

Step Image Edit 2主打“小身材、大能力、快響應”,參數量雖小,Step Image Edit 2在技術層面下了功夫。

據階躍星辰介紹,核心支撐來自兩項創新:

一是多專家驅動的自演化學習。思路可概括為“分頭探索、集中聚合”。先從基座模型衍生多個細分任務專家分支進行差異化訓練,再通過迭代式自蒸餾將知識聚合回基座,在不增加參數量的前提下逼近大模型的表現水平。

二是分布匹配強化學習(DARL)。傳統強化學習依賴稀疏獎勵信號,模型容易跑偏。階躍的做法是讓模型當前的輸出分布與參考分布對齊,以分布差距作為稠密獎勵信號,使訓練更平穩、泛化能力更強。

數據層面,Step Image Edit 2在圖像編輯能力上投入了超五千萬規模的專項訓練數據,融合真實場景挖掘、定向合成與高質量開源數據三路來源,并針對文字編輯這一行業難點,自研排版系統生成約兩千萬條專項數據。

數據質控上構建了“智能體自動清洗—大模型全局評估—人工精細篩選”三級體系。

二、中文海報極限測試:4個文字區域同時排版,模型沒完全接住

我們通過階躍星辰開放平臺在線體驗,首先復現了官方演示中最具挑戰性的中文海報排版任務。官方視頻中展示了兩個復雜的中文海報案例,效果相當驚艷。



▲Step Image Edit 2的中文海報極限測試(來源:階躍星辰官方視頻)

但實際測試下來,情況要復雜得多。

實測案例:陶罐變手袋 + 四行文字混排

提示詞:

一張黑白線稿風格但帶高光質感的海報。畫面左側擺放三個傳統陶罐,其中中間的那個陶罐被替換成一個奢侈品牌手袋(造型像陶罐但表面有皮革紋理和高光)。所有物品使用黑色雕刻線條表現,但在手袋和蔬菜部分加入細膩的高光。構圖:頂部居中粗體大寫標題「LUXURY DAILY」;底部居中副標題「CRAFTING VALUE FROM NOTHING」;右側豎排文字「日常即奢侈」;右下角有一個超大漢字「物」。整體要求:傳統與奢侈的視覺沖突,線條硬朗,高光精致。

實測結果:

我們針對這個提示詞連續生成了三次,耗時分別為11.33秒、7.98秒和21.31秒,三次生成暴露了模型三個維度的反復偏差:

偏差一:方位理解錯誤(三次全錯)
提示詞明確要求將“中間的那個陶罐”替換為手袋,但三次生成中,模型每次都將最右邊的陶罐變成了手袋。左、中、右的空間方位關系,模型完全沒有理解。


▲Step Image Edit 2第一次執行中文海報極限測試

偏差二:“華”字錯筆(三次全錯)
三次生成的圖片中,第二個“奢華”里的“華”字,下方都多出了一橫,說明模型存在漢字生成缺陷。

偏差三:蔬菜缺失(僅第一次)
第一次生成的畫面中完全沒有出現提示詞要求的“蔬菜”,后兩次生成則成功補上了蔬菜。說明模型在執行多要素的復雜指令時,生成的結果并不穩定


▲Step Image Edit 2第二、三次執行中文海報極限測試

小結:

后兩次生成雖然補齊了蔬菜,文字布局也基本完整,但方位錯誤和“華”字錯筆在所有三次結果中持續出現,未得到修正。

綜合來看,官方視頻中展示的中文海報極限測試效果,在實際測試中打了折扣。模型在空間定位和漢字生成時,能力仍不穩定。

三、跨物種身份遷移?“貓變人”五次才成真

官方演示中有一個很有趣的任務:上傳一只貓的照片,并輸入“這是我的貓,年齡3歲,13斤,女。請將以上信息,按照將貓咪替換成對應的人類女生形象!



▲Step Image Edit 2執行“貓變人”任務(來源:階躍星辰官方視頻)

我們用不同的貓圖實測了這個任務,提示詞與官方一樣,卻連續生成了五次才成功

第一次生成:畫面中只有原貓,完全沒有人的出現,模型忽略了替換的指令。


第二次生成:模型直接將人的臉“安”在了貓的身體上,輸出了一個貓身人面的怪異形象。


第三次生成:輸出了一張人抱著貓的合影,人倒是正常了,但懷里抱的正是原圖中的那只貓,并沒有實現“貓咪替換成人類女生”。


第四次生成:依然是人與貓合影,但這次貓的品種與原圖不一致,仍然沒有完成替換。


第五次生成:終于成功,模型輸出了一張完整的人類女生形象,人物姿態自然,無貓元素殘留。


小結:
五次嘗試才成功一次,成功率20%。前四次失敗分別暴露了不同層面的理解偏差:完全忽略指令、把“替換”理解成“融合”(人面貓身)、把“替換”理解成“抱著原貓”、把“替換”理解成“換一只貓抱著”。

這說明模型在執行需要多層語義理解的復雜指令時,穩定性遠遠不夠,往往需要反復嘗試才能出現理想效果。

四、10種風格一鍵切換+品牌VI設計:漢字再出錯?

我們固定一張風景照片,分別輸入“轉成水墨風格”“轉成賽博朋克風格”“轉成油畫風格”


▲Step Image Edit 2執行風格遷移(來源:階躍星辰官方視頻)

平均生成耗時約12秒,高于官方宣稱的0.5-2秒范圍,推測與1024分辨率及復雜場景有關。


▲Step Image Edit 2執行三種風格遷移

不過模型在三者之間切換流暢,水墨風格的留白與暈染、賽博朋克的霓虹色調、油畫的筆觸質感均較為明顯,主體內容保持一致。

同時,我們嘗試了品牌VI設計任務。


▲Step Image Edit 2進行品牌VI設計(來源:階躍星辰官方視頻)

提示詞為:為品牌“太陽咖啡”設計一套品牌VI,包括標志、名片、包裝袋,風格為極簡現代。

模型生成了一張包含包裝袋(袋身印有品牌標志)和名片的多元素畫面,但未出現官方視頻示例中的咖啡杯,并且名片上本應是“太陽”二字被生成了“大陽”,又是漢字錯誤。整體風格為極簡現代,符合提示詞的基本要求,生成耗時6.59秒。


▲Step Image Edit 2執行品牌VI設計

結語:技術架構有亮點,但實際表現稍遜

從技術層面看,Step Image Edit 2在多專家自演化學習和分布匹配強化學習上的探索值得關注。這兩項創新理論上確實可能實現“輕量級模型逼近大模型效果”,思路本身有可取之處。超五千萬專項訓練數據、約兩千萬條文字編輯數據的投入,也體現了階躍對這項任務的重視。

輕量高效是行業發展的正確方向,但Step Image Edit 2的技術成熟度仍需打磨。期待其后續版本能在漢字書寫能力和復雜指令理解的穩定性上補齊短板,真正兌現“小身材、大能力、快響應”的承諾。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
吃相難看!四大核心主播剛走,東方甄選宣布分股俞敏洪成最大贏家

吃相難看!四大核心主播剛走,東方甄選宣布分股俞敏洪成最大贏家

林輕吟
2026-04-29 16:49:52
歐冠-馬競0-1阿森納:巴黎、拜仁對攻,馬競、阿森納死守?|前瞻

歐冠-馬競0-1阿森納:巴黎、拜仁對攻,馬競、阿森納死守?|前瞻

體育世界
2026-04-29 20:14:28
96歲奶奶擺攤10年還清2077萬,但凡稍微“體面”一點,都說不口

96歲奶奶擺攤10年還清2077萬,但凡稍微“體面”一點,都說不口

走讀新生
2026-04-29 10:48:15
華為 FreeBuds Pro 5 眾測試聽挑戰!到底什么才是好音質?

華為 FreeBuds Pro 5 眾測試聽挑戰!到底什么才是好音質?

極果酷玩
2026-04-28 15:21:42
特朗普犯下致命錯誤!伊朗軍方喊話中俄等國:愿分享“打美經驗”

特朗普犯下致命錯誤!伊朗軍方喊話中俄等國:愿分享“打美經驗”

混沌錄
2026-04-29 20:07:04
“賭王”最小女兒何超欣,今天沖上熱搜

“賭王”最小女兒何超欣,今天沖上熱搜

南方都市報
2026-04-29 13:13:41
楊子離婚 3個月就和新歡產子,黃圣依17年青春喂了狗,體面盡失

楊子離婚 3個月就和新歡產子,黃圣依17年青春喂了狗,體面盡失

橙星文娛
2026-04-29 10:30:58
馬頔一句玩笑話,孫楊媽媽怒罵節目組2小時,全網圍觀"媽寶男"

馬頔一句玩笑話,孫楊媽媽怒罵節目組2小時,全網圍觀"媽寶男"

烏娛子醬
2026-04-29 13:30:44
儲戶1800萬元存款被銀行員工轉走,涉事銀行稱需“等司法結論”,律師:銀行應承擔第一順位賠付責任

儲戶1800萬元存款被銀行員工轉走,涉事銀行稱需“等司法結論”,律師:銀行應承擔第一順位賠付責任

極目新聞
2026-04-29 19:34:48
世錦賽戰報:墨菲被罰了28分,仍完成黑球絕殺,4分險勝趙心童

世錦賽戰報:墨菲被罰了28分,仍完成黑球絕殺,4分險勝趙心童

吳朑愛游泳
2026-04-29 02:22:54
上海一男子以“包養”之名與4名女子發生關系,反騙萬余元;法院判了

上海一男子以“包養”之名與4名女子發生關系,反騙萬余元;法院判了

大風新聞
2026-04-29 16:35:02
華為有界,博世無界

華為有界,博世無界

汽車商業評論
2026-04-29 14:15:37
楊瀚森工作室:NBA菜鳥賽季結束,練級之旅還在繼續

楊瀚森工作室:NBA菜鳥賽季結束,練級之旅還在繼續

懂球帝
2026-04-29 17:54:17
“我已經跑路了,你們去報案吧”男子詐騙熟人350 余萬元后朋友圈宣告跑路,上海警方跨省將其抓獲歸案!

“我已經跑路了,你們去報案吧”男子詐騙熟人350 余萬元后朋友圈宣告跑路,上海警方跨省將其抓獲歸案!

新民晚報
2026-04-29 08:35:49
云南一方丈意外身亡,整理遺物銀行卡有498萬,方丈女兒提出繼承,寺廟拒絕:出家人,這筆錢屬于寺廟!

云南一方丈意外身亡,整理遺物銀行卡有498萬,方丈女兒提出繼承,寺廟拒絕:出家人,這筆錢屬于寺廟!

大愛三湘
2026-04-28 19:39:12
競拍者叫價6003萬元搶到深圳高端別墅后悔拍,758萬元保證金打水漂,競拍時曾一次性加價達2211萬元,拍賣方回應

競拍者叫價6003萬元搶到深圳高端別墅后悔拍,758萬元保證金打水漂,競拍時曾一次性加價達2211萬元,拍賣方回應

極目新聞
2026-04-29 12:45:06
剛剛,直線拉升!美伊談判,大消息!

剛剛,直線拉升!美伊談判,大消息!

中國基金報
2026-04-29 18:48:19
麻煩來了!伊朗石油爆倉,日產200萬桶沒地放,求特朗普網開一面

麻煩來了!伊朗石油爆倉,日產200萬桶沒地放,求特朗普網開一面

民間胡扯老哥
2026-04-29 14:05:38
辣眼!侃爺澳洲妻子再穿暴露連體衣,大方展示...!外媒都看不下去了

辣眼!侃爺澳洲妻子再穿暴露連體衣,大方展示...!外媒都看不下去了

澳洲紅領巾
2026-04-29 14:44:16
不可錯過!4月29日晚上19:30比賽!中央5套CCTV5、CCTV5+直播表

不可錯過!4月29日晚上19:30比賽!中央5套CCTV5、CCTV5+直播表

林子說事
2026-04-29 16:58:04
2026-04-29 21:12:49
智東西 incentive-icons
智東西
智東西,AI產業新媒體,專注報道人工智能的前沿技術發展,和技術應用帶來的千行百業產業變革。
11721文章數 117056關注度
往期回顧 全部

科技要聞

今晨庭審紀實|馬斯克當庭講述OpenAI被偷走

頭條要聞

男子詐騙熟人350萬 朋友圈發文"我跑路了 你們報案吧"

頭條要聞

男子詐騙熟人350萬 朋友圈發文"我跑路了 你們報案吧"

體育要聞

一場九球狂歡,各路神仙批量下凡

娛樂要聞

馬頔一句話,孫楊媽媽怒罵節目組2小時

財經要聞

蘇州,率先進入牛市

汽車要聞

技術天花板再摸高 全能型的奕境X9首秀

態度原創

房產
家居
藝術
健康
軍事航空

房產要聞

80億投資!浙商總部基地+海口北站,金沙灣這是要起飛!

家居要聞

寂然無界 簡潔風格

藝術要聞

這些女神,竟然都是攝影師切爾尼亞季耶夫的復古作品!

干細胞治燒燙傷能用了么?

軍事要聞

美國參議院否決限制特朗普對古巴動武的決議

無障礙瀏覽 進入關懷版