網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

進(jìn)入全球第一梯隊(duì)！京東開源JoyAI-Echo框架長(zhǎng)視頻生成“所想即所得”時(shí)代到來

2026-06-03 23:12:31　來源: 商業(yè)透鏡

北京舉報(bào)

分享至

6月3日，京東宣布開源JoyAI-Echo長(zhǎng)音視頻生成框架。JoyAI-Echo解決了行業(yè)三大痛點(diǎn)：角色難穩(wěn)定一致、音色變化難控制、視頻生成速度慢，實(shí)現(xiàn)了長(zhǎng)視頻生成“又快又好”。此外，JoyAI-Echo的“邊聊邊改”模式，讓視頻創(chuàng)作從 "靜態(tài)生成" 變成 "動(dòng)態(tài)協(xié)作"。

JoyAI-Echo在各類視頻創(chuàng)作、數(shù)字人直播、品牌營(yíng)銷、教育和游戲內(nèi)容生產(chǎn)等領(lǐng)域有巨大的應(yīng)用潛力，它的推出，標(biāo)志著京東在長(zhǎng)視頻生成領(lǐng)域?qū)崿F(xiàn)重大突破，進(jìn)入全球第一梯隊(duì)。

四大技術(shù)創(chuàng)新解決長(zhǎng)視頻生成三大難題

在AI視頻領(lǐng)域，十幾秒短視頻的生成質(zhì)量越來越成熟，但行業(yè)頭疼的瓶頸依然存在：難以向分鐘級(jí)長(zhǎng)視頻突破。AI視頻一但拉到這一時(shí)長(zhǎng)，就會(huì)出現(xiàn)以下問題：同一個(gè)角色，在不同鏡頭里長(zhǎng)得不一樣；說話人的音色忽高忽低甚至突然變聲；生成速度慢到離譜，等幾分鐘甚至半小時(shí)才能出結(jié)果。

以上問題，直接導(dǎo)致 AI 長(zhǎng)視頻停留在 "玩具" 階段，很難真正投入生產(chǎn)、創(chuàng)造價(jià)值。JoyAI-Echo 的出現(xiàn)，徹底打破這個(gè)僵局。JoyAI-Echo 有四項(xiàng)技術(shù)創(chuàng)新：

一是跨模態(tài)音視頻記憶庫(kù)，讓角色再也不 "變臉"。這也是JoyAI-Echo 最關(guān)鍵的突破。模型框架內(nèi)置了一個(gè)專門的記憶庫(kù)，能在多鏡頭生成過程中，持續(xù)保存并調(diào)用角色的外觀特征和說話人音色信息。在長(zhǎng)達(dá) 5 分鐘的視頻里，角色身份、視覺形象和聲音音色都能保持高度一致，再也不會(huì)出現(xiàn) "同一個(gè)人演著演著變成另一個(gè)人" 的尷尬情況。

二是記憶驅(qū)動(dòng)后訓(xùn)練，速度直接提升 7.5 倍。研發(fā)團(tuán)隊(duì)創(chuàng)新提出了記憶驅(qū)動(dòng)后訓(xùn)練流程，結(jié)合 SFT、跨模態(tài) RLHF 和 Distribution Matching Distillation（DMD）技術(shù)，大幅提升了生成質(zhì)量，更實(shí)現(xiàn)了驚人的推理加速。

其中，僅 DMD 一項(xiàng)技術(shù)就帶來了約 7.5 倍的速度提升，讓長(zhǎng)視頻生成從 "等半天" 變成 "秒出片"。

三是加入智能 "導(dǎo)演助理"——Director Agent，讓長(zhǎng)視頻第一次實(shí)現(xiàn) "對(duì)話式編輯"。JoyAI-Echo 不再是 "輸入提示詞，一次性出結(jié)果" 的傳統(tǒng)工具。你用自然語言說需求，它會(huì)自動(dòng)幫你拆分成劇本、角色、場(chǎng)景和鏡頭。哪里不滿意，直接用對(duì)話的方式告訴它修改，它只重新生成有問題的局部鏡頭，不用重跑整條視頻，讓長(zhǎng)視頻創(chuàng)作從 "靜態(tài)生成" 變成了 "動(dòng)態(tài)協(xié)作"。

四是輕量化實(shí)時(shí)超分，高清輸出不卡頓。為了滿足專業(yè)內(nèi)容生產(chǎn)的需求，JoyAI-Echo 配套了專門的實(shí)時(shí)超分模塊，支持兩檔分辨率提升（736×1280 → 1152×1920，736×1280 → 1472×2560）。模塊通過單步超分就能生成高分辨率視頻和精細(xì)化音頻，即使在流式延遲的約束下，也能保持穩(wěn)定的高清表現(xiàn)。

各項(xiàng)指標(biāo)全面領(lǐng)先行業(yè) “AI 長(zhǎng)視頻時(shí)代"到來

為了客觀評(píng)估 JoyAI-Echo 的性能，研發(fā)團(tuán)隊(duì)基于 100 個(gè)故事、3000 個(gè)鏡頭構(gòu)建了長(zhǎng)音視頻生成評(píng)測(cè)集，從多個(gè)維度進(jìn)行了全面測(cè)試。結(jié)果顯示，JoyAI-Echo 在跨鏡頭一致性、視頻質(zhì)量、文本一致性和語音內(nèi)容準(zhǔn)確率等所有核心指標(biāo)上都取得了領(lǐng)先表現(xiàn)，其中語音內(nèi)容準(zhǔn)確率更是高達(dá)0.8646，大幅領(lǐng)先行業(yè)其它同類模型。

在與行業(yè)同類模型對(duì)比中，用戶認(rèn)為JoyAI-Echo音頻質(zhì)量偏好的比例為81.7%，提示詞遵循偏好為80.6%，視覺美學(xué)偏好為63.6%，IP 一致性偏好為59.4%。

JoyAI-Echo 的推出，意味著AI 視頻生成的 "長(zhǎng)視頻時(shí)代"來了。它為虛擬故事創(chuàng)作和動(dòng)漫制作、數(shù)字人內(nèi)容生產(chǎn)和直播、品牌營(yíng)銷視頻快速迭代、互動(dòng)教育課件生成等領(lǐng)域帶來了全新可能，將大幅優(yōu)化行業(yè)成本效率。JoyAI-Echo也預(yù)示著未來人類可以像聊天一樣，持續(xù)創(chuàng)作、修改和完善長(zhǎng)視頻內(nèi)容，讓高一致性、高畫質(zhì)、可交互的視頻生成，真正走進(jìn)每一個(gè)內(nèi)容創(chuàng)作者的工作流程。

京東宣布，JoyAI-Echo 的代碼與權(quán)重已全部開源，目前項(xiàng)目頁和 GitHub 代碼倉(cāng)庫(kù)已經(jīng)正式上線，供開發(fā)者和創(chuàng)作者體驗(yàn)：

GitHub：https://github.com/jd-opensource/JoyAI-Echo

項(xiàng)目主頁：https://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.