![]()
![]()
千人千面、超長文本、指哪改哪,AI生圖模型離生產(chǎn)力不遠了。
作者|王藝
編輯|栗子
過去一年,AI生圖、生視頻賽道的競爭烈度遠超預(yù)期。
國際上,GPT-Image系列持續(xù)迭代,Nano Banana Pro在多項基準(zhǔn)測試中拉開身位;國內(nèi),可靈3.0、Seedance 2.0、Vidu Q3等模型你方唱罷我登場,在聲畫同步、視頻生成長度、敘事連貫性方面卷出新高度。
盡管圖像和視頻生成模型進展飛速,但目前的AI視頻技術(shù)距離真正替代成熟的工業(yè)化影視制作流程還有相當(dāng)長的距離——生成質(zhì)量不穩(wěn)定、色彩不可控、長文本渲染稀爛、多人場景串臉、編輯改一處崩全圖……這些痛點像釘子一樣扎在每個創(chuàng)作者的工作流里。
4月1日,阿里巴巴發(fā)布圖像生成與編輯統(tǒng)一模型Wan2.7-Image。從官方對外信息看,Wan2.7-Image這次的發(fā)布思路與以往不同。它沒有只在“畫質(zhì)更高、更像照片”上做文章,而是瞄準(zhǔn)了五個具體的專業(yè)級控制力問題:面部多樣性(捏臉至“骨相”與“皮相”的微觀層級)、色彩精準(zhǔn)控制(首創(chuàng)“調(diào)色盤”功能)、超長文本渲染(3K Tokens印刷級輸出)、交互式局部編輯(精準(zhǔn)框選,指哪改哪)、以及多主體一致性(最高9張參考圖輸入不走形)。
![]()
Wan2.7-image支持交互式編輯功能,包括文字編輯、空間變換、內(nèi)容生成和替換等(左),多圖像生成能力可用于時尚與美容、平面設(shè)計等多領(lǐng)域(右)。圖源:阿里萬相
換言之,這不是一次簡單的畫質(zhì)升級,而是試圖回答一個更深層的問題——AI生圖能不能從“碰運氣”走向“可控可用”?
1.當(dāng)AI生圖從“隨機盲盒”走向“精準(zhǔn)微操”
從架構(gòu)層面看,Wan2.7-Image采用了生成與理解統(tǒng)一的模型架構(gòu),通過共享隱空間實現(xiàn)語義映射,讓文字與畫面在同一語義空間內(nèi)完成編碼與解碼,并在訓(xùn)練流程中引入多模態(tài)指令(文字+圖片混合輸入),配合覆蓋布局、文字、光影、拍攝角度、用途等多維度的精細標(biāo)注體系和分階段訓(xùn)練策略,使模型在長尾場景與復(fù)雜指令下的生成穩(wěn)健度獲得顯著提升。同時,基于更大規(guī)模數(shù)據(jù)及模型尺寸訓(xùn)練的Wan2.7-Image-pro也同步上線,構(gòu)圖更穩(wěn),語義理解更精準(zhǔn)。
此外,Wan2.7-Image同步支持作為Skills接入OpenClaw,這意味著用戶可以在“龍蝦”中通過自然語言對話直接調(diào)用生圖能力——捏臉、調(diào)色、長文本渲染、精準(zhǔn)編輯、多主體一致性,全部可以通過對話界面觸達。
理論說得再漂亮,不如上手測一把。
測試一:捏出活人感
AI生圖領(lǐng)域有一個廣為人知的頑疾:不管你怎么寫提示詞,生成的人臉總像是同一個模子里刻出來的——不偏不倚的五官比例,毫無瑕疵的雞蛋肌,以及一雙空洞呆滯的眼睛。換了發(fā)型和衣服,骨相和氣質(zhì)卻如出一轍。這就是所謂的“AI標(biāo)準(zhǔn)臉”。
Wan2.7-Image的解法,是把生成粒度下鉆至“骨相”與“皮相”的微觀層級。通過對骨相、眼眸及五官細微處的全方位定制,模型支持在提示詞中靈活更換臉型(鵝蛋臉、圓臉、方臉、長臉、菱形臉)與眼部特征(杏仁眼、丹鳳眼、深邃眼窩、笑眼、腫眼泡等)。我們第一組測試直奔這個痛點。
我們首先輸入了這樣的提示詞:一位27歲中國西北少數(shù)民族女性,長方臉偏窄,下頜線清晰,輕微高顴骨,丹鳳眼但眼神柔和,鼻梁挺直不過分夸張,嘴唇偏薄,皮膚有真實毛孔與輕微瑕疵,臉部留有自然雀斑。我們甚至在提示詞末尾加上了“不要網(wǎng)紅磨皮,不要夸張大眼,不要塑料皮膚,不要過度銳化”這樣的負面約束,這恰恰是過去AI生圖最容易犯的毛病。
![]()
提示詞:一位27歲中國西北少數(shù)民族女性,長方臉偏窄,下頜線清晰,輕微高顴骨,丹鳳眼但眼神柔和,鼻梁挺直不過分夸張,嘴唇偏薄,皮膚有真實毛孔與輕微瑕疵,臉部留有自然雀斑,黑色長發(fā)扎低馬尾,穿淺黃色碎花襯衫,站在傍晚河邊的微風(fēng)中回頭看鏡頭。日系寫真人像風(fēng)格,35mm 鏡頭,電影膠片質(zhì)感,柔和自然光,不要網(wǎng)紅磨皮,不要夸張大眼,不要塑料皮膚,不要過度銳化。
從結(jié)果來看,Wan2.7-Image在面部多樣性上的表現(xiàn)確實超出了我們對國產(chǎn)模型的既有預(yù)期。單人像中,長方臉的骨骼走勢、丹鳳眼的弧度、顴骨的高度這些細微特征都得到了較好的還原,皮膚質(zhì)感也確實保留了毛孔和輕微瑕疵,沒有滑向“磨皮大白臉”的老路。
第二條提示詞難度更高:要求四個人并排站立的合影,而且四人必須擁有明顯不同的骨相與氣質(zhì),分別是圓臉杏仁眼、方臉深眼窩、長臉薄唇文藝風(fēng)、鵝蛋臉單眼皮運動風(fēng)。最后我們還加上了“避免四個人長得像同一個人換發(fā)型”。
![]()
提示詞:請生成 4 位 22—30 歲的年輕人并排站立的半身合影,拍攝風(fēng)格統(tǒng)一,但四人必須擁有明顯不同的骨相與氣質(zhì):1)圓臉、杏仁眼、親和笑容;2)方臉、深眼窩、冷靜表情;3)長臉、薄唇、文藝氣質(zhì);4)鵝蛋臉、單眼皮、運動風(fēng)。服裝配色克制,背景為大學(xué)校園傍晚,真實攝影感,皮膚保留自然紋理,避免四個人長得像同一個人換發(fā)型。
Wan2.7-Image給出的結(jié)果確實超出了我們對國產(chǎn)模型的既有預(yù)期。單人像中,長方臉的骨骼走勢、丹鳳眼的弧度、顴骨的高度這些細微特征都得到了較好的還原,皮膚質(zhì)感也確實保留了毛孔和輕微瑕疵,沒有滑向“磨皮大白臉”的老路。四人合影中,四個人在骨相層面確實呈現(xiàn)出了可辨識的差異,不是簡單地換了發(fā)色和臉型輪廓,而是在眼眶深度、顴骨高低、下頜線走向這些更深層的結(jié)構(gòu)上做出了區(qū)分。
當(dāng)然,這并不意味著“千人千面”已經(jīng)完美實現(xiàn)。在實際測試中,我們發(fā)現(xiàn)當(dāng)提示詞中對面部特征的描述越精細,模型的執(zhí)行力越強;而當(dāng)描述較為籠統(tǒng)時,模型仍有一定概率回到相似面容的“舒適區(qū)”。
測試二:調(diào)色盤
色彩控制是設(shè)計師和藝術(shù)家使用AI生圖時最頭疼的問題之一。一句“暖橙色調(diào)”,不同的AI可能產(chǎn)生差異懸殊的結(jié)果:有時是莫蘭迪的土橙,有時是梵高向日葵的明黃,有時又會滑向秋日夕陽的深紅。這種“色彩盲盒”式的隨機性,在嚴苛的品牌視覺系統(tǒng)面前幾乎意味著不可用。
Wan2.7-Image在業(yè)內(nèi)首創(chuàng)“調(diào)色盤”功能,將色彩控制權(quán)交還給創(chuàng)作者。用戶可以通過HEX色號,一鍵提取或輸入?yún)⒖紙D的各種顏色和占比,自由調(diào)控顏色的數(shù)量和比例,自定義配色方案。萬相網(wǎng)頁版已經(jīng)內(nèi)置了完整的調(diào)色盤交互界面,操作三步搞定:點擊底部工具欄的“調(diào)色盤”按鈕彈出配色面板(內(nèi)置“藍調(diào)”“熱情”“馬卡龍”“莫蘭迪”等推薦方案),自定義時點“新增配色方案”上傳參考圖自動提取主色和占比(顏色數(shù)量可加減,比例可拖動色塊邊界調(diào)整),確認后回到主界面輸入場景描述即可生成嚴格遵循配色方案的圖片。
![]()
Wan2.7-Image的調(diào)色盤功能,圖源:Wan官網(wǎng)
我們選擇了一個視覺信息極其密集的場景來測試。
建議搭配的調(diào)色盤方案(6色):
深靛藍#1B2A4A(約30%,用于建筑主體和陰影)
暖琥珀#E8913A(約25%,用于落日、燈光和暖色高光)
薄荷青#7EC8B8(約15%,用于玻璃幕墻反光和河面)
深紫灰#4A3B5C(約15%,用于云層和遠景建筑)
奶油白#F5ECD7(約10%,用于軌道列車和點綴高光)
珊瑚粉#D4726A(約5%,用于零星霓虹招牌和花園植物點綴)
模型生成了以下圖片:
![]()
輸入提示詞:一幅扁平插畫風(fēng)格的未來城市俯瞰圖,黃昏時分,畫面中包含以下元素:近景是一座玻璃幕墻的弧形空中花園,中景是密集的高低錯落建筑群和懸浮軌道列車,遠景是層疊的云層與一輪巨大的落日。地面有河流穿城而過,河面倒映建筑燈光。畫面整體色彩嚴格遵循調(diào)色盤配色方案,不要出現(xiàn)配色方案之外的大面積色塊。
可以看到,在故意設(shè)置了冷暖對撞(深靛藍vs 暖琥珀)和大面積光影漸變(黃昏落日)的情況下,生成的圖片大比例色(靛藍30%、琥珀25%)占據(jù)了畫面主導(dǎo),小比例色(珊瑚粉5%)也真的只出現(xiàn)在點綴位置而沒有喧賓奪主,以及玻璃幕墻和河面這類高反光材質(zhì)也沒有讓模型“跑色”偏離調(diào)色盤約束。
我們又以Wan2.7-Image調(diào)色盤里提供的色彩“馬卡龍”為基礎(chǔ),輸入以下提示詞:
![]()
生成的圖片結(jié)果如下:
![]()
可以看到,Wan2.7-Image生成的圖片無論是在色彩準(zhǔn)確度還是比例上,都完美遵循了調(diào)色盤的原始配比,紙雕風(fēng)格也栩栩如生,圖片中的建筑、涼亭等邊緣完美保留了卡紙的粗糲質(zhì)感。
「甲子光年」認為,“調(diào)色盤”把AI生圖從“色彩盲盒”變成了“色彩處方”,很可能是Wan2.7-Image在專業(yè)設(shè)計領(lǐng)域最具差異化競爭力的功能之一。
測試三:超長文本渲染
超長文本渲染能力是硬碰硬的技術(shù)指標(biāo)。在AI圖像生成的幾大固有“頑疾”中,文本渲染始終盤踞榜首:一旦字數(shù)超過幾個詞,AI的表現(xiàn)便開始失控——字母變形、筆畫斷裂、漢字錯位,甚至整段文字莫名消失。
Wan2.7-Image對這一頑疾發(fā)動了正面進攻,支持業(yè)內(nèi)最長的3K Tokens文字輸入,覆蓋中、英等12種語言,可寫滿整頁A4紙。
我們的測試提示詞故意設(shè)計得很“變態(tài)”:要求生成一張A4豎版的中文科技媒體特刊內(nèi)頁,包含主標(biāo)題、副標(biāo)題、導(dǎo)語、3個小標(biāo)題、兩段長正文、一個4行3列的參數(shù)表、兩條圖注、一個頁腳備注,并且要求“中文字體清晰,字距行距合理,層級明確,不要出現(xiàn)亂碼、缺字、錯位或重復(fù)字”。
從實測來看,模型在處理結(jié)構(gòu)化長文本方面確實展現(xiàn)出了超出同行的水準(zhǔn)——標(biāo)題層級清晰,正文排版規(guī)整,表格的基本結(jié)構(gòu)得到了保留,數(shù)學(xué)符號的生成也很準(zhǔn)確。更令人印象深刻的是,它甚至能直接生成帶有完整圖表、公式、分欄排版的學(xué)術(shù)論文頁面。
![]()
提示詞:請生成一張 A4 豎版的中文科技媒體特刊內(nèi)頁,標(biāo)題為《Wan2.7-image 五項能力實測》,包含:主標(biāo)題、副標(biāo)題、導(dǎo)語、3 個小標(biāo)題、兩段長正文、一個 4 行 3 列的參數(shù)表、兩條圖注、一個頁腳備注。整體排版像正式雜志內(nèi)頁,中文字體清晰,字距行距合理,層級明確,整頁內(nèi)容充實但不擁擠,必須保證正文可讀,不要出現(xiàn)亂碼、缺字、錯位或重復(fù)字。
![]()
Wan2.7-Image生成的論文 圖源:阿里萬相
但“印刷級”這個說法需要打一個折扣。在我們的測試中,長正文段落中偶爾出現(xiàn)了個別字形微妙偏差的情況,表格中的數(shù)字也并非百分之百準(zhǔn)確還原。但是對比之下,ChatGPT和Gemini在類似任務(wù)上都有明顯的錯字問題,Wan2.7-Image的優(yōu)勢是相對清晰的。
![]()
GPT-Image 1.5生成效果
![]()
Nano Banana 2生成效果
此外,3K Tokens的上限意味著模型可以處理大約一頁A4紙的正文內(nèi)容。在這個長度范圍內(nèi),Wan2.7-Image的中文渲染質(zhì)量確實達到了“遠看像印刷品、近看能認清每個字”的水平。字符重疊問題在常規(guī)字號下基本消失,標(biāo)題與正文之間的層級感也比較清晰,甚至豎版書法卡片這種涉及傳統(tǒng)排版形式的場景也能應(yīng)對自如。
![]()
提示詞:請生成一張王羲之《蘭亭集序》的豎版書法卡片
盡管在表格中擠入大量小字號文本,或者在同一頁面中混合使用中文、英文、數(shù)學(xué)公式時,排版的精細度仍會出現(xiàn)波動,對于需要精確文字內(nèi)容的正式出版場景也仍需要人工校對,不過相較于此前AI生圖在長文本場景下幾乎“不可用”的狀態(tài),Wan2.7-Image的進步是跨越式的——日常寫個菜單、出張海報、做個信息圖表等任務(wù),對它來說只是“小菜一碟”。
測試四:交互式編輯
AI生圖的另一個經(jīng)典痛點是局部修改。生成了一張95分的圖,但有5%的細節(jié)不滿意,想要局部修改,結(jié)果模型把不該改的地方也改了,最終反而變成了80分。改一下背景顏色,主體人物的服裝也變了;稍微調(diào)整一下嘴角,整個面部結(jié)構(gòu)崩塌重建。換言之,AI不理解“局部修改”的邊界,把不想改的地方也改了,妥妥的“效率黑洞”。
Wan2.7-Image用“精準(zhǔn)框”的交互方式解決了這個問題。萬相網(wǎng)頁版已經(jīng)內(nèi)置了完整的編輯交互:在圖片生成頁面將模式切換為“底稿”上傳原圖,點擊縮略圖選擇“框選”,在圖上拖出矩形框圈住要編輯的區(qū)域(支持框選1-2個區(qū)域),支持消除、修改、添加、移動、尺寸變換等操作,確認后在輸入框?qū)懮暇庉嬛噶睿c生成即可。
我們設(shè)計了兩條有針對性的測試:第一條要求將微波爐上的一張白紙挪到電視機架中間的平臺上,其他物體和環(huán)境完全不變;第二條更復(fù)雜,要求在同一張圖中把框選區(qū)域1的橘子換成蘋果,框選區(qū)域2的橘子換成草莓——這是一個多區(qū)域、多目標(biāo)、差異化編輯的場景。
在第一條測試中,模型較好地理解了“挪動物體”這個空間變換指令——白紙被移到了目標(biāo)位置,而周圍環(huán)境確實保持了高度一致。
![]()
![]()
提示詞:請將微波爐上的那張白紙挪到電視機架中間向外延伸出來的那個平臺上,其他物體和環(huán)境保持不變。左圖為原圖,右圖為Wan2.7-Image生成圖。
第二條測試的結(jié)果同樣值得肯定:兩個框選區(qū)域內(nèi)的物體替換是獨立執(zhí)行的,蘋果和草莓的材質(zhì)渲染也比較真實,沒有出現(xiàn)“改了A區(qū)域、B區(qū)域也跟著變”的連鎖反應(yīng)。框外的內(nèi)容紋絲不動——這種“指哪打哪”的精確感,讓AI終于從“不可控的藝術(shù)家”變成了“聽話的執(zhí)行搭檔”。
![]()
![]()
提示詞:請把圖中框選1的橘子換成蘋果,框選2的橘子換成草莓。左圖為原圖,右圖為Wan2.7-Image生成圖。
測試五:組圖生成
組圖生成能力直接決定了AI生圖工具在電商、廣告等商業(yè)場景中的可用性。一個商品需要正面圖、側(cè)面圖、俯視圖、手持圖、場景圖——如果每張圖里的產(chǎn)品長得不一樣,這個功能就毫無商業(yè)價值。
Wan2.7-Image具備強大的組圖生成能力,可一口氣吐出多達12張邏輯連貫的圖像序列,用于批量制作同風(fēng)格系列圖、PPT配圖、分鏡腳本、電商模特套圖及多視角建筑圖。
我們上傳了一張iPhone 17 Pro的產(chǎn)品圖,要求模型生成6宮格宣傳圖:正面、側(cè)面、俯視、手持展示、桌面陳列、門店櫥窗。關(guān)鍵約束是“主體造型、材質(zhì)、顏色、比例一致,只改變機位和場景,不允許每張都像不同產(chǎn)品”。
![]()
Wan2.7-Image在組圖生成方面的表現(xiàn)體現(xiàn)了其“生成與理解統(tǒng)一架構(gòu)”的優(yōu)勢。在共享隱空間的支撐下,模型能夠在不同視角和場景之間保持產(chǎn)品主體的基本一致性——形狀、顏色、材質(zhì)在六張圖中保持了較高的統(tǒng)一度。
![]()
提示詞:請根據(jù)我上傳的產(chǎn)品圖,生成一組 6 宮格宣傳圖:正面、側(cè)面、俯視、手持展示、桌面陳列、門店櫥窗。要求主體造型、材質(zhì)、顏色、比例一致,只改變機位和場景,不允許每張都像不同產(chǎn)品。
對于電商詳情頁的快速生產(chǎn)來說,這個能力已經(jīng)足夠?qū)嵱谩摹皢螏钡健皶r序”,分鏡腳本、PPT系列配圖、電商模特套圖、多視角建筑方案,都可以批量交付。但嚴格來說,在一些精細結(jié)構(gòu)上(比如產(chǎn)品上的文字、logo、邊角細節(jié)),不同機位之間仍存在微小差異。對于品牌方來說,這類細節(jié)在正式商用前仍需要人工比對和修正。
測試六:多主體一致性
多主體一致性是AI生圖最前沿的能力之一,尤其是多人場景,一直是AI生圖的重災(zāi)區(qū)——角色一多,臉就崩,風(fēng)格就飄。而Wan2.7-Image支持最高9張圖片作為參考源,多張參考圖喂進去,人物長相、風(fēng)格、光影全鎖死,輸出結(jié)果在視覺上高度統(tǒng)一。
我們上傳了李庚希、劉浩存、楊超越和歐陽娜娜的人物的照片,要求模型生成一張“大學(xué)新生宿舍合影”,四個人坐在宿舍床邊和書桌前,且“保留各自五官特征、發(fā)型、膚色和氣質(zhì),不要串臉”。
![]()
![]()
![]()
![]()
Wan2.7-Image的輸出結(jié)果表現(xiàn)展示了它在身份保持(Identity Preservation)方面的技術(shù)積累——四個人的面部特征、發(fā)型和整體氣質(zhì)在合成場景中得到了一定程度的保留。
![]()
提示詞:參考我上傳的 4 張人物照片,生成一張“大學(xué)新生宿舍合影”場景:四個人坐在宿舍床邊和書桌前,鏡頭為室內(nèi)廣角紀(jì)實攝影。要求四個人保留各自五官特征、發(fā)型、膚色和氣質(zhì),不要串臉;服裝與動作自然,畫面有生活感,不要像電商擺拍。
盡管當(dāng)多個人物在畫面中距離較近時,部分面部特征可能出現(xiàn)輕微的交叉影響,但這不是Wan2.7-Image特有的問題,而是當(dāng)前整個行業(yè)在多身份保持上尚未完全攻克的技術(shù)瓶頸。但從相對水平來看,Wan2.7-Image在這一項上的表現(xiàn)已經(jīng)處于國內(nèi)領(lǐng)先位置。
![]()
Wan2.7-Image生成的第二張圖片
2.不做“縫合怪”,統(tǒng)一架構(gòu)帶來的長期復(fù)利
根據(jù)官方給出的評測數(shù)據(jù),在人類偏好盲測中,Wan2.7-Image的文生圖能力超過了GPT-Image 1.5和國內(nèi)主流模型(包括Seedream 4.5、可靈Image 3.0 Omni、Seedream 5.0 Lite等),在文本渲染、照片級成像和世界知識三項指標(biāo)上最接近Nano Banana Pro,可謂國內(nèi)最強生圖模型。在圖像編輯維度,它與Nano Banana Pro和Seedream 5.0 Lite形成了三足鼎立的格局,在身份參考和風(fēng)格光影編輯上表現(xiàn)突出。
![]()
Wan2.7-image的人類偏好盲測評分位列國內(nèi)第一,圖源:阿里萬相
從我們自己的實測感受來對照這組數(shù)據(jù),總體上是可信的,但需要注意幾個細微之處。
其一,Wan2.7-Image的優(yōu)勢并不均勻。它在面部多樣性、色彩控制、交互式編輯這三項上的領(lǐng)先感最為明顯,這些恰恰是此前國產(chǎn)模型最薄弱的環(huán)節(jié)。而在純粹的畫面美學(xué)和極端寫實場景下,仍有進步空間。
其二,“統(tǒng)一模型”的架構(gòu)選擇帶來了長期價值。Wan2.7-Image并不是把生圖、編輯、組圖等能力拼在一起的“縫合怪”,而是在一個統(tǒng)一的生成-理解架構(gòu)中原生實現(xiàn)了這些能力。超大規(guī)模的異構(gòu)數(shù)據(jù)底座,不僅涵蓋全域品類的視覺素材,還整合了理解類數(shù)據(jù),可以說模型不是只看過圖,它還“讀”過圖。這意味著隨著訓(xùn)練數(shù)據(jù)和模型規(guī)模的繼續(xù)增長,各項能力的提升是協(xié)同的而非割裂的。
3.重塑專業(yè)工作流,把控制權(quán)從算法里奪回來
經(jīng)過六組測試,我們對Wan2.7-Image的適用場景有了比較清晰的判斷。
對于電商和品牌營銷團隊來說,組圖生成和調(diào)色盤功能是直接的生產(chǎn)力提升。一張商品圖裂變出六個機位的宣傳圖,品牌色鎖定后批量生成內(nèi)容……這些過去需要攝影師、設(shè)計師反復(fù)調(diào)整的工作,現(xiàn)在可以在分鐘級別完成初稿。一個中小電商商家,一件商品需要數(shù)十張素材圖,傳統(tǒng)攝影外包的成本和周期讓人望而卻步;多主體一致性加上組圖生成,單張模特圖可以裂變?yōu)楦采w不同場景、不同賣點的完整素材庫,上新周期大幅縮短。
對于短劇和影視前期團隊來說,千人千面的捏臉系統(tǒng)加上多主體一致性,讓低成本的角色設(shè)定和分鏡預(yù)覽成為可能。過去最頭疼的“預(yù)生產(chǎn)”階段——角色長什么樣、分鏡怎么畫、特效預(yù)演怎么做——現(xiàn)在千人千面的捏臉加上組圖生成,角色設(shè)定、動作參考、視覺方案可以在正式開機前全部跑通,讓試錯成本從“天”壓縮到“小時”。
對于設(shè)計師和插畫師來說,交互式編輯可能是最有吸引力的功能。“改一處不崩全圖”這個看似簡單的需求,實際上是過去大量AI輔助設(shè)計工作流的核心卡點。Wan2.7-Image在這一項上的表現(xiàn),有可能真正改變設(shè)計師對AI工具的使用習(xí)慣——從“用AI出初稿,然后在PS里大改”變成“在AI里直接精修”。
對于教育和內(nèi)容創(chuàng)作領(lǐng)域,Wan2.7-Image的超長文本渲染能力打開了一個全新的可能性空間:論文配圖、信息圖表、兒童繪本、PPT視覺頁……這些過去AI幾乎無法處理的場景,現(xiàn)在至少可以進入“初稿可用、微調(diào)即出”的階段。
回到開頭的問題:Wan2.7-Image到底回答了什么?
「甲子光年」認為,它真正試圖回答的是“AI生圖能不能成為專業(yè)創(chuàng)作者日常工作流中穩(wěn)定、可控、可信賴的工具”。從“千篇一律”到“千人千面”,從“盲盒抽卡”到“精準(zhǔn)微操”。Wan2.7-Image的五項核心能力,說到底做的是同一件事——把創(chuàng)作的控制權(quán),從算法的隨機性里奪回來,交還給人。
值得一提的是,Wan2.7不僅有Image,還有即將到來的視頻模型升級,如果把圖像和視頻能力放在一起看,阿里正在構(gòu)建的不是單一的生成工具,而是一個端到端的AI視覺創(chuàng)作生態(tài)。AI生成內(nèi)容這件事,第一次真正實現(xiàn)了“由你說了算”。
(封面圖來源:阿里萬相)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.