網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

京東正式開(kāi)源JoyAI-Image-Edit，引領(lǐng)空間編輯范式突破

2026-04-09 14:48:08　來(lái)源: 趣味科技

湖南舉報(bào)

分享至

近日，京東探索研究院正式開(kāi)源多模態(tài)基礎(chǔ)模型JoyAI-Image-Edit，支持文生圖、圖像理解以及指令引導(dǎo)的圖像編輯。該模型不僅具備像素級(jí)精細(xì)化編輯能力，更能賦予平面圖像真實(shí)的"立體感"，是業(yè)內(nèi)首個(gè)將空間智能深度融入統(tǒng)一多模態(tài)框架的開(kāi)源模型，在引入空間能力的同時(shí)，依然具備強(qiáng)大的通用生成與理解性能。

在公開(kāi)的Benchmark中，JoyAI-Image-Edit的空間理解和空間編輯能力已達(dá)世界一流水平，超過(guò)現(xiàn)有開(kāi)源模型，比肩頂尖閉源模型。

目前，模型已開(kāi)源，開(kāi)發(fā)者可直接基于其構(gòu)建空間編輯應(yīng)用。

【JoyAI-Image-Edit的空間理解和空間編輯能力已達(dá)世界一流水平】

破局行業(yè)痛點(diǎn)：理解與生成之間的“空間斷層”

統(tǒng)一多模態(tài)模型是當(dāng)前學(xué)界和產(chǎn)業(yè)界共同攻堅(jiān)的方向，不少頭部公司都在嘗試將圖像理解與生成整合進(jìn)同一個(gè)模型框架。然而，理解與生成的協(xié)同在空間維度上存在明顯短板。

這種短板在實(shí)際編輯中暴露得尤為突出：移動(dòng)物體導(dǎo)致結(jié)構(gòu)變形、比例失調(diào)；調(diào)整物體間的位置關(guān)系則遮擋層次全部錯(cuò)亂；切換視角時(shí)透視幾何嚴(yán)重失真；反復(fù)微調(diào)后畫(huà)面一致性徹底崩塌。根源在于模型缺乏對(duì)三維空間結(jié)構(gòu)的深層理解，理解模塊輸出的語(yǔ)義信息沒(méi)有真正"流入"生成模塊的幾何控制過(guò)程，編輯操作只是在像素層面"搬運(yùn)"，而非在空間層面"推理"。

JoyAI-Image-Edit正是為此而生——從數(shù)據(jù)構(gòu)建、任務(wù)設(shè)計(jì)到訓(xùn)練策略全鏈路注入空間感知，讓理解、生成與編輯在統(tǒng)一框架內(nèi)彼此增強(qiáng)。

三大核心亮點(diǎn)：從架構(gòu)到場(chǎng)景的全面突破

JoyAI-Image-Edit的技術(shù)優(yōu)勢(shì)集中體現(xiàn)在三個(gè)層面。第一，生成與理解的深度融合。模型采用MLLM–MMDiT統(tǒng)一架構(gòu)，徹底打破了理解與生成的邊界。通過(guò)視覺(jué)感知與生成能力的深度協(xié)同，其空間理解指標(biāo)已可比肩行業(yè)頂級(jí)閉源模型，在公開(kāi)Benchmark中領(lǐng)跑同規(guī)模開(kāi)源模型。第二，空間編輯的范式突破。這是JoyAI-Image-Edit最具辨識(shí)度的能力。它支持三類(lèi)此前開(kāi)源模型難以勝任的操作：視角變換——用戶可通過(guò)自然語(yǔ)言指定相機(jī)的偏航角、俯仰角及縮放程度，模型在保持場(chǎng)景幾何一致性的前提下生成新視角圖像；空間漫游——支持連續(xù)的視角移動(dòng)，生成在空間中邏輯連貫的多視角圖像序列，類(lèi)似于在三維場(chǎng)景中"走動(dòng)"；物體空間關(guān)系操控——在保持場(chǎng)景整體結(jié)構(gòu)穩(wěn)定的前提下，對(duì)特定物體進(jìn)行位移、縮放等空間變換，同時(shí)確保遮擋與光影關(guān)系自然合理。第三，多場(chǎng)景的高性能表現(xiàn)。模型同時(shí)支持15類(lèi)通用編輯能力，涵蓋替換、刪除、添加、風(fēng)格調(diào)整等常用操作，結(jié)合空間編輯能力，在長(zhǎng)文本渲染、多視角一致性生成等高難度任務(wù)中均表現(xiàn)卓越。這些空間編輯能力背后有兩大關(guān)鍵技術(shù)支撐：一是自研的OpenSpatial數(shù)據(jù)引擎，實(shí)現(xiàn)了空間數(shù)據(jù)的自動(dòng)化合成；二是百萬(wàn)級(jí)規(guī)模的Blender渲染多視角數(shù)據(jù)集，使用Blender 4.5渲染了約100萬(wàn)組多視角圖像，為模型的空間感知能力提供了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。

【具身場(chǎng)景，合成空間一致的多角度訓(xùn)練樣本】

落地場(chǎng)景：從電商到具身智能的廣泛想象

JoyAI-Image-Edit的開(kāi)源，為多個(gè)垂直領(lǐng)域打開(kāi)了新的應(yīng)用空間。在電商領(lǐng)域，產(chǎn)品通常需要多角度、多場(chǎng)景展示圖，傳統(tǒng)方式依賴攝影棚實(shí)拍或3D建模渲染，成本高、周期長(zhǎng)。通過(guò)JoyAI-Image-Edit，商家只需一張商品主圖即可自動(dòng)生成不同角度的展示圖，商品"放入"不同場(chǎng)景時(shí)幾何關(guān)系依然合理。

在具身智能領(lǐng)域，空間理解與生成的閉環(huán)能力是構(gòu)建世界模型的基礎(chǔ)。機(jī)器人執(zhí)行導(dǎo)航、抓取等任務(wù)時(shí)需要對(duì)三維空間進(jìn)行推理，而真實(shí)場(chǎng)景數(shù)據(jù)采集成本極高。JoyAI-Image-Edit可從有限真實(shí)圖像出發(fā)，合成大量空間一致的多視角訓(xùn)練樣本，為視覺(jué)-語(yǔ)言-動(dòng)作系統(tǒng)和世界模型提供底層能力支撐。

在3D重建領(lǐng)域，傳統(tǒng)流程依賴多視角實(shí)拍或激光雷達(dá)掃描，對(duì)硬件和拍攝條件要求較高。JoyAI-Image-Edit提供了全新路徑——用戶僅需輸入三張圖片，即可生成幾何一致的多視角圖像序列，在電商三維展示、品牌VI生成、數(shù)字孿生、工業(yè)仿真及文化遺產(chǎn)保護(hù)等場(chǎng)景中前景廣闊。在建筑設(shè)計(jì)、游戲與影視領(lǐng)域，設(shè)計(jì)師可從一張概念圖快速探索不同視角效果，無(wú)需啟動(dòng)完整三維建模流程，顯著提升創(chuàng)意驗(yàn)證效率。這不是一次漸進(jìn)式的版本更新，而是AI圖像編輯從"平面修圖"邁向"空間重塑"的范式級(jí)躍遷。隨著模型全面開(kāi)源，更多開(kāi)發(fā)者將在此基礎(chǔ)上探索空間智能的更多可能。廣大開(kāi)發(fā)者可前往HuggingFace或Github獲取模型。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.