![]()
智東西
作者 陳駿達
編輯 漠影
智東西6月11日報道,本周,智象未來(HiDream.ai)推出了其最新商用版圖像生成模型HiDream-O1-Image-1.5,并在全球知名AI模型評測平臺Artificial Analysis上拿下總榜第三、國內第一的成績。
這一模型的ELO得分超過了Google Nano Banana 2、NVIDIA Cosmos3-Super-Text2Image和字節跳動的Seedream 4.0等國內外大廠的主流圖像生成模型,和GPT-Image 1.5也僅有一分之差。
按廠商排名來看,智象未來已經是全球第二、國內第一的生圖模型玩家了。
![]()
HiDream-O1-Image-1.5使用的是一套名為“原生全模態”的新架構,此前已在開源模型HiDream-O1-Image上獲得驗證。在該架構中,圖像像素、文本Token、視頻體素等模態信號,從模型底層就被映射進同一個共享空間,用一套統一的Transformer來理解和生成。
但榜單和技術細節之外,我們更想知道的答案是:這一模型實際用起來感受究竟如何,把它和海外頂流拉到同一個擂臺上真刀真槍比一場,誰能贏?
目前,HiDream-O1-Image-1.5已在智象未來的HiHarness平臺上線,支持在線體驗與API調用。智東西第一時間對其進行了實測。跑完十幾個案例后,我們也有了初步感受:國產生圖模型的可用性,正在迅速逼近海外頂流。
HiDream-O1-Image-1.5體驗鏈接:
https://vivago.ai/
https://hiharness.ai/
開源模型HiDream-O1-Image下載地址:
GitHub:https://github.com/HiDream-ai/HiDream-O1-Image
Huggingface:https://huggingface.co/HiDream-ai/HiDream-O1-Image
一、三大場景綜合實測,文字渲染、畫面細節表現出色
能否準確渲染文字,一直是圖像生成領域的痛點,也是許多在實測中最容易“翻車”的重災區。我們的實測也從這類任務開始。
首個測試案例是相對簡單的海報設計,內容是一部太空主題電影的豎版宣傳海報。HiDream-O1-Image-1.5是輕松過關,它在海報中采用了三種不同的字體,文字渲染準確,字體的選擇和設計也與畫面主題契合,沒有違和感。
![]()
HiDream-O1-Image-1.5的中文渲染能力也不錯。我們讓它給某個國內音樂節設計一張海報。這個任務的難點在于,文字內容有多個信息層級,包括主標題、副標題、陣容列表、時間地點、票價和票務平臺。這些內容不能混在一起,必須有大小對比、區域劃分。
最終,HiDream-O1-Image-1.5準確地生成了我們要求的內容,豎版文字的渲染也沒有出現錯誤,信息呈現清晰,中式水墨畫的風格與音樂節的主題契合。
![]()
最后,我們還測試了一個高難度的案例:特定風格的高密度文字渲染。我們要求HiDream-O1-Image-1.5生成一本舊詩集中的某一個頁面,內容是英國詩人的華茲沃斯的I Wondered Lonely as a Cloud。
在提供完整詩歌內容后,HiDream-O1-Image-1.5幾乎完美地渲染了這首詩歌的絕大部分內容,僅有極個別單詞出現了小錯誤。同時,它也理解了提示詞中“舊詩集”的風格要求,圖中的詩集頁面略微泛黃,邊角還有些歲月留下的痕跡。
![]()
生圖模型的另一大問題就是真實性。許多模型生成的結果一眼看上去就有AI味,比較突出的問題包括油膩感很強、構圖和人物等元素不符合事實等。
HiDream-O1-Image-1.5在“繁忙后廚”這一場景的還原上做得不錯。這張圖包含廚具、原材料以及多位廚師。這幾大主體的質感都很利落,特別是中間廚師面前那團火焰,頗具現場感。
![]()
再來看細節,砧板上的三文魚紋理、金屬碗里食材的堆疊層次都比較真實,這些屬于畫面“邊角料”的細節并沒有被HiDream-O1-Image-1.5忽略,而是保留了清晰的物理形態。
畫面中,構圖和人物動作也基本合理,左右兩側的廚師在備菜,中間的廚師在烹飪,背景里還有忙碌的幫廚,整個場景非常符合實際的商業廚房運作邏輯。
在另一個案例中,我們讓HiDream-O1-Image-1.5生成一張日本街頭的照片。這張圖整體氛圍營造比較到位,雨夜、霓虹燈牌、柏油路面反光都得到真實的呈現,前景的清晰與背景的景深虛化處理得也很好。
![]()
不過,美中不足的是,圖里有一個“穿幫”的小細節:那輛黑色出租車行駛的方向錯了,在日本車應該是靠左行駛的。
最后,一款生圖模型要在真實生產場景發揮作用,還需具備對多種不同風格、設計要求的理解力。我們讓HiDream-O1-Image-1.5集中嘗試了意大利老電影風格、1940年代老照片風格、拼貼畫這三種截然不同的風格。
首個案例中,模型成功理解了“意大利老電影風格”的核心要素,色調符合風格要求,畫面內容包含了意大利常見的卵石路、地中海海景等細節,畫面中人物的樣貌有種膠片電影捕捉到的自然感,在風格化與寫實度之間找到了較好的平衡。
![]()
在下方任務中,HiDream-O1-Image-1.5成功模擬了20世紀三四十年代美國農場家庭合影的風格,人物的表情、衣著帶有那個年代特有的風格,我們在提示詞中要求的模擬照片老化的效果也得到了還原,可以看到照片的邊角有些缺失和泛黃。
![]()
最后,在這一拼貼風格圖像生成的任務中,HiDream-O1-Image-1.5復原了手工撕紙的質感、舊紙張的肌理以及金屬部件的光澤感,材質對比富有沖擊力。中間的花卉與符號元素錯落有致,很好地傳達了“想象力與算法碰撞”的主題。
![]()
這幾個案例跑下來,可以感受到HiDream-O1-Image-1.5在文字渲染上表現扎實,多層級中文排版也能準確呈現;畫面真實感強,細節經得起推敲。雖然偶有小Bug,但整體可用性很高,很適合需要高效出圖的海報、攝影、藝術創作等真實生產場景。
二、分鏡、UI、風格化,三款主流生圖模型同臺PK,誰更好用?
我們也將HiDream-O1-Image-1.5與幾款當前最流行的生圖模型進行了對比實測,選擇的實測玩法包括最近比較流行的分鏡生成、UI設計、風格化等等。
先看分鏡生成。這類任務要求模型同時處理多格畫面的構圖邏輯、序號標注、畫面連續性以及統一的風格質感,是對模型綜合理解力的集中考驗。我們以“深夜便利店”的6格分鏡稿為統一測試題,分別輸入HiDream-O1-Image-1.5與Google Nano Banana 2、OpenAI GPT-Image 2中。
Nano Banana 2的生成速度是其中最快的,不過它忽視了我們提示詞中關于實拍質感的風格要求,生成的分鏡圖是漫畫風的。
![]()
HiDream-O1-Image-1.5也很快給出了生成結果。HiDream-O1-Image-1.5做得較為不錯的是角色的一致性。圖中人物在分鏡2和5中的樣貌、衣著基本一致。同時,便利店場景的還原也較為符合事實。
![]()
不過,在生成“從冰柜里拿一瓶黑咖啡”的分鏡3時,HiDream-O1-Image-1.5生成的咖啡罐有些過大,算是一個小的瑕疵,但在后續的分鏡中咖啡罐的比例被精準的調整了過來。
GPT-Image 2是最后一個給出生成結果的模型。在細節還原度方面,GPT-Image 2做得十分真實,分鏡3中罐裝咖啡的排布、咖啡罐上的字樣和冷凝水等細節都按照提示詞的要求復原了,整體處理得很自然,基本沒有AI生成痕跡。
![]()
在UI設計類任務中,我們讓三款模型給一個iPad應用設計一個登陸頁面。HiDream-O1-Image-1.5在設計中采用了干凈、現代的風格,視覺干擾比較少,重點集中在核心功能上。
![]()
而GPT-Image 2采用了經典的卡片風格,在淺藍色背景的中央放置了一個帶大圓角的白色卡片,比較規范。同時,它還用藍色高亮了交互文本。
![]()
Nano Banana 2的生成結果是這三張圖中最不像UI樣板設計的圖片,它包含了環境背景,更像是用來做展示的效果圖。不過,在核心的UI頁面方面,它的表現還是比較中規中矩的。
![]()
我們的最后一個對比實測任務是風格化。GPT-Image 2較好地還原了商業攝影與復古膠片兩種風格,但在抽象幾何風的處理上仍不夠徹底。
![]()
Nano Banana 2在商業攝影風格上表現不錯,主動呈現出咖啡冒出的熱氣,畫面更具吸引力。然而,其膠片風格與商業攝影之間差異不明顯,缺乏區分度。在抽象幾何風方面雖做了一定調整,但整體的幾何感仍不夠到位。
![]()
最后看看HiDream-O1-Image-1.5。它在左側的商業攝影風格上做得不錯,清晰度和光影都符合要求。而在中間的復古膠片質感方面,畫面有一種膠片的顆粒感,色彩偏移的選擇也比較符合膠片風的特點。而在抽象幾何風格中,HiDream-O1-Image-1.5的處理比較大膽,按照提示詞要求放棄了物理寫實。在三個模型中,它的表現最符合提示詞的要求。
![]()
從實測結果來看,三款模型各有所長。Nano Banana 2在生成速度上有優勢,GPT-Image 2 在細節真實度方面表現突出。而HiDream-O1-Image-1.5在多項任務中展現了不錯的綜合能力,無論是角色一致性、設計風格的審美,還是風格化任務中跨越三種風格的把控能力,均表現出色。
可以說,HiDream-O1-Image-1.5在不少實測案例中已經展現出了比肩乃至優于頭部閉源生圖模型的表現。
三、實現真正“原生全模態”,1個月內連續三次迭代
HiDream-O1-Image-1.5究竟是如何實現上述生成效果的?答案就藏在底層架構上。
傳統文生圖模型通常采用“文本編碼器+VAE+DiT/擴散模型”的模塊化路徑,其形態更像一棵不斷分叉生長的樹:文本有自己的tokenizer,圖像和視頻有各自的encoder/decoder,音頻、動作、空間關系也往往沿著不同路徑被處理,模塊之間需要多次轉換信息。
在文字密集排版、UI頁面、多主體生成、多參考圖控制、多分鏡敘事等復雜任務中,這種架構更容易帶來細節損耗、語義錯位和結構不穩定。
HiDream-O1系列走的是“原生全模態”路線。所謂原生全模態,并不是先分別訓練各模態模型再拼接,而是從架構設計之初就讓文本、圖像、視頻、音頻等多種模態共享同一套表征體系,在模型底層實現融合。
具體到HiDream-O1-Image系列模型,它去掉了傳統生圖流程中的VAE和獨立文本編碼器,將圖像像素、文本Token、視頻體素以及音頻、動作、空間關系等原始信號映射進同一個共享Token空間,與同一套UiT(像素級統一的 Unified Transformer) 交互,在統一表征系統中完成理解、生成和推理。
![]()
UiT此前在智象未來的開源模型HiDream-O1-Image已經獲得采用,此后,智象未來也在快速迭代。今年5月,智象未來發布了采用同款架構的HiDream-O1-Image-Pro,而本月登場的HiDream-O1-Image-1.5則是這一架構在商用領域的進一步驗證。
新一代生圖架構從研究到開源再到商用落地,往往需要經歷漫長的周期,而智象未來的UiT架構率先在開源社區和商業產品兩條線上同時跑通,并在1個月左右的時間內連續推出三款采用這一架構的模型。
這種高頻迭代本身就是一個值得關注的信號,反映出UiT架構本身具備良好的可擴展性和工程友好性,能夠支撐起從實驗探索到生產部署的快速跨越。
結語:生圖模型加速走向原生統一架構
有越來越多的生圖模型,正從拼接式的架構走向原生統一。一旦這條路徑全面走通,模型本就能像理解并生成自然語言內容那樣,更好地處理視覺生成任務。
智象未來在這一架構內的快速迭代,已經初步證明了這個底座的可擴展性。隨著模型規模、訓練數據和工程能力的持續進化,我們有理由相信,UiT所代表的技術范式,有可能成為下一代視覺生成模型的主流架構之一。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.