近日,京東探索研究院正式開(kāi)源多模態(tài)基礎(chǔ)模型JoyAI-Image-Edit,支持文生圖、圖像理解以及指令引導(dǎo)的圖像編輯。該模型不僅具備像素級(jí)精細(xì)化編輯能力,更能賦予平面圖像真實(shí)的"立體感",是業(yè)內(nèi)首個(gè)將空間智能深度融入統(tǒng)一多模態(tài)框架的開(kāi)源模型,在引入空間能力的同時(shí),依然具備強(qiáng)大的通用生成與理解性能。
在公開(kāi)的Benchmark中,JoyAI-Image-Edit的空間理解和空間編輯能力已達(dá)世界一流水平,超過(guò)現(xiàn)有開(kāi)源模型,比肩頂尖閉源模型。
目前,模型已開(kāi)源,開(kāi)發(fā)者可直接基于其構(gòu)建空間編輯應(yīng)用。
![]()
【JoyAI-Image-Edit的空間理解和空間編輯能力已達(dá)世界一流水平】
破局行業(yè)痛點(diǎn):理解與生成之間的“空間斷層”
統(tǒng)一多模態(tài)模型是當(dāng)前學(xué)界和產(chǎn)業(yè)界共同攻堅(jiān)的方向,不少頭部公司都在嘗試將圖像理解與生成整合進(jìn)同一個(gè)模型框架。然而,理解與生成的協(xié)同在空間維度上存在明顯短板。
這種短板在實(shí)際編輯中暴露得尤為突出:移動(dòng)物體導(dǎo)致結(jié)構(gòu)變形、比例失調(diào);調(diào)整物體間的位置關(guān)系則遮擋層次全部錯(cuò)亂;切換視角時(shí)透視幾何嚴(yán)重失真;反復(fù)微調(diào)后畫(huà)面一致性徹底崩塌。根源在于模型缺乏對(duì)三維空間結(jié)構(gòu)的深層理解,理解模塊輸出的語(yǔ)義信息沒(méi)有真正"流入"生成模塊的幾何控制過(guò)程,編輯操作只是在像素層面"搬運(yùn)",而非在空間層面"推理"。
JoyAI-Image-Edit正是為此而生——從數(shù)據(jù)構(gòu)建、任務(wù)設(shè)計(jì)到訓(xùn)練策略全鏈路注入空間感知,讓理解、生成與編輯在統(tǒng)一框架內(nèi)彼此增強(qiáng)。
三大核心亮點(diǎn):從架構(gòu)到場(chǎng)景的全面突破
JoyAI-Image-Edit的技術(shù)優(yōu)勢(shì)集中體現(xiàn)在三個(gè)層面。 第一,生成與理解的深度融合。模型采用MLLM–MMDiT統(tǒng)一架構(gòu),徹底打破了理解與生成的邊界。通過(guò)視覺(jué)感知與生成能力的深度協(xié)同,其空間理解指標(biāo)已可比肩行業(yè)頂級(jí)閉源模型,在公開(kāi)Benchmark中領(lǐng)跑同規(guī)模開(kāi)源模型。 第二,空間編輯的范式突破。這是JoyAI-Image-Edit最具辨識(shí)度的能力。它支持三類(lèi)此前開(kāi)源模型難以勝任的操作:視角變換——用戶可通過(guò)自然語(yǔ)言指定相機(jī)的偏航角、俯仰角及縮放程度,模型在保持場(chǎng)景幾何一致性的前提下生成新視角圖像;空間漫游——支持連續(xù)的視角移動(dòng),生成在空間中邏輯連貫的多視角圖像序列,類(lèi)似于在三維場(chǎng)景中"走動(dòng)";物體空間關(guān)系操控——在保持場(chǎng)景整體結(jié)構(gòu)穩(wěn)定的前提下,對(duì)特定物體進(jìn)行位移、縮放等空間變換,同時(shí)確保遮擋與光影關(guān)系自然合理。 第三,多場(chǎng)景的高性能表現(xiàn)。模型同時(shí)支持15類(lèi)通用編輯能力,涵蓋替換、刪除、添加、風(fēng)格調(diào)整等常用操作,結(jié)合空間編輯能力,在長(zhǎng)文本渲染、多視角一致性生成等高難度任務(wù)中均表現(xiàn)卓越。 這些空間編輯能力背后有兩大關(guān)鍵技術(shù)支撐:一是自研的OpenSpatial數(shù)據(jù)引擎,實(shí)現(xiàn)了空間數(shù)據(jù)的自動(dòng)化合成;二是百萬(wàn)級(jí)規(guī)模的Blender渲染多視角數(shù)據(jù)集,使用Blender 4.5渲染了約100萬(wàn)組多視角圖像,為模型的空間感知能力提供了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。
![]()
【具身場(chǎng)景,合成空間一致的多角度訓(xùn)練樣本】
落地場(chǎng)景:從電商到具身智能的廣泛想象
JoyAI-Image-Edit的開(kāi)源,為多個(gè)垂直領(lǐng)域打開(kāi)了新的應(yīng)用空間。 在電商領(lǐng)域,產(chǎn)品通常需要多角度、多場(chǎng)景展示圖,傳統(tǒng)方式依賴攝影棚實(shí)拍或3D建模渲染,成本高、周期長(zhǎng)。通過(guò)JoyAI-Image-Edit,商家只需一張商品主圖即可自動(dòng)生成不同角度的展示圖,商品"放入"不同場(chǎng)景時(shí)幾何關(guān)系依然合理。
![]()
在具身智能領(lǐng)域,空間理解與生成的閉環(huán)能力是構(gòu)建世界模型的基礎(chǔ)。機(jī)器人執(zhí)行導(dǎo)航、抓取等任務(wù)時(shí)需要對(duì)三維空間進(jìn)行推理,而真實(shí)場(chǎng)景數(shù)據(jù)采集成本極高。JoyAI-Image-Edit可從有限真實(shí)圖像出發(fā),合成大量空間一致的多視角訓(xùn)練樣本,為視覺(jué)-語(yǔ)言-動(dòng)作系統(tǒng)和世界模型提供底層能力支撐。
在3D重建領(lǐng)域,傳統(tǒng)流程依賴多視角實(shí)拍或激光雷達(dá)掃描,對(duì)硬件和拍攝條件要求較高。JoyAI-Image-Edit提供了全新路徑——用戶僅需輸入三張圖片,即可生成幾何一致的多視角圖像序列,在電商三維展示、品牌VI生成、數(shù)字孿生、工業(yè)仿真及文化遺產(chǎn)保護(hù)等場(chǎng)景中前景廣闊。 在建筑設(shè)計(jì)、游戲與影視領(lǐng)域,設(shè)計(jì)師可從一張概念圖快速探索不同視角效果,無(wú)需啟動(dòng)完整三維建模流程,顯著提升創(chuàng)意驗(yàn)證效率。 這不是一次漸進(jìn)式的版本更新,而是AI圖像編輯從"平面修圖"邁向"空間重塑"的范式級(jí)躍遷。隨著模型全面開(kāi)源,更多開(kāi)發(fā)者將在此基礎(chǔ)上探索空間智能的更多可能。廣大開(kāi)發(fā)者可前往HuggingFace或Github獲取模型。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.